JP2982244B2 - 文字認識後処理方式 - Google Patents
文字認識後処理方式Info
- Publication number
- JP2982244B2 JP2982244B2 JP2198165A JP19816590A JP2982244B2 JP 2982244 B2 JP2982244 B2 JP 2982244B2 JP 2198165 A JP2198165 A JP 2198165A JP 19816590 A JP19816590 A JP 19816590A JP 2982244 B2 JP2982244 B2 JP 2982244B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- word
- character recognition
- dictionary
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
Description
補文字から、単語辞書を参照することによって正解文字
を推定する文字認識後処理方式に関し、特に文字認識後
処理として、既出単語を帳票のフィールド単位に学習し
て記憶する機能を有する文字認識後処理方式に関する。
−44606号公報に開示されている如く、単語学習機能と
して、読み(仮名)に対応する漢字とその出現頻度を学
習し、頻度に応じて候補漢字の並べ替えを行うものが知
られている。
ルド別に出現単語を見た場合、フィールド毎に出現する
単語が限られていたり、一定の傾向があったにもかかわ
らず、上述の日本語処理装置の場合の如き学習機能を有
するものはない。
ていなかったため、複数の認識候補文字と単語辞書とを
照合して、正しい単語を推測する際に、単語辞書のすべ
ての単語について検索・照合を行う必要があり、このた
め、検索・照合回数が増大し、認識文字候補から正解文
字を推測する性能を著しく低下させることになってい
た。
とするところは、従来の技術における上述の如き問題を
解消し、既出単語をフィールド毎に学習して記憶する単
語学習機能を付加し、学習した単語を長期的に蓄積した
単語学習辞書と認識文字候補との照合を行うことで、冗
長な単語照合の回数を削減し、単語照合の時間を短縮す
ることを可能として文字認識後処理方式を提供すること
にある。
読み込む読み取り部と、該読み取り部により読み取られ
たイメージ情報を格納するイメージ情報格納部と、前記
イメージ情報から文字部分を切り出して認識し、1文字
に対して一つ以上の認識候補文字を出力する文字認識部
とを有する文字認識装置において、前記文字認識部によ
る文字認識結果である候補文字を格納する認識結果格納
部と、帳票のフォーマット情報を記憶する帳票フォーマ
ット記憶部と、単語を記憶する単語辞書部と、前記認識
結果格納部に格納されている認識結果と単語との照合を
行う照合部と、該照合の結果に基づいて決定される確定
単語を前記帳票フォーマット中のフィールドと対応付け
て記憶する単語学習辞書部と、前記確定単語の出現頻度
を記憶する確定単語学習部と、前記確定単語学習部の出
現頻度から出現頻度が一定以上の単語を選び出して前記
単語学習辞書部の更新を行う学習辞書更新部とを設け
て、前記照合部での単語照合の際に、前記単語辞書より
も先に前記単語学習辞書部に記憶されている確定単語を
検索・照合することを特徴とする文字認識後処理方式に
よって達成される。また、前記学習辞書更新部は、ユー
ザが特定のフィールドを指示したときに、当該フィール
ドに対応する単語学習辞書部を更新するようにしてもよ
い。
各手段を利用して、ユーザインタフェース部において照
合部からの候補単語のうちから正しい単語を選び出し、
あるいは、正しい単語に修正した後、決定した確定単語
について帳票フォーマット記憶部を参照して帳票上のフ
ィールド対応付け、フィールド別に格納した出現頻度の
高い確定単語を単語学習辞書部に長期的に蓄積し、単語
照合の際に、単語辞書部よりも先に検索・照合すること
により、単語照合の回数を削減し、照合性能を向上させ
るものである。
る。
する文字認識装置のブロック構成を示す図である。図
中、1は帳票をイメージデータとして読み込む読み取り
部11,該読み取り部11により読み取られたイメージ情報
を格納するイメージ情報格納部12,イメージ情報から文
字部分を切り出して図示されていない辞書中の文字を参
照して認識し、1文字に対して一つ以上の認識候補文字
を出力する文字認識部13から構成される文字認識装置を
示している。
認識候補文字を格納する認識結果格納部、3は後述する
単語辞書部4あるいは単語学習辞書部9を検索して、該
当単語と認識候補文字との照合を行う照合部、6は帳票
のフォーマット情報を記憶する帳票フォーマット記憶部
を示している。上記単語辞書部4は、文字認識部13にお
いて参照される辞書(言わば、文字単体の辞書)とは異
なり、通常用いられる意味のある単語を所定の順序に記
憶しているものであり、また、確定単語学習部7は、第
2図に示す如く、フィールド分類処理部71と、出現頻度
計数部72,確定単語格納部73から構成されている。
単語格納部73において、出現頻度が高いと認定された確
定単語が、その更新履歴と対応するフィールドとともに
格納されているものである。
有する文字認識装置の動作の概要は、以下の如くであ
る。
読み込まれ、読み取られたイメージ情報は、イメージ情
報格納部12に書き込まれるとともに、文字認識部13に送
られる。文字認識部13においては、イメージ情報から文
字が記入されているフィールドを切り出し、文字単位
に、上述の文字単体を格納している辞書を参照して認識
し、文字のそれぞれに対して、一つ以上の認識候補文字
を出力する。ここまでは、従来の一般的な文字認識装置
の動作と同様である。
の特徴は、以下の如くである。
認識候補文字は、認識結果格納部2に格納されるととも
に、照合部3に送られる。照合部3においては、上述の
認識候補文字を基に、単語学習辞書部9あるいは単語辞
書部4を検索して、該当単語と認識候補文字との照合を
行い、一つ以上の候補単語を出力する。照合部3から出
力される一つ以上の候補単語は、ユーザインタフェース
部5においてオペレータの介入により、正しい単語の選
択あるいは正しい単語への修正が行われ、確定単語が決
定される。
る。まず、確定単語学習部7のうちのフィールド分類処
理部71において、帳票フォーマット記憶部6を参照し
て、上述の確定単語の帳票上のフィールドとの対応付
け,フィールド別の分類が行われ、また、出現頻度計数
部72において、上述の確定単語の出現頻度が計数され、
これらに基づいて、フィールド別に、確定単語格納部73
の内容が更新される(第3図参照)。そして、上述の確
定単語格納部73内のフィールド内の単語数が一定数(ユ
ーザが設定)を越えたとき、もしくは、ユーザが特定の
フィールドを指示したときには、そのフィールドについ
て、確定単語格納部73の情報を用いて、以下に述べる方
法で、単語学習辞書部9の内容を更新する。
習辞書更新部8において、一定の契機または任意の契機
で、以下に述べる更新橇により単語学習辞書部9に反映
される。なお、単語学習辞書部9内には、第4図に示す
如く、フィールド対応に、単語とその出現履歴がテーブ
ル化されている。ここでは、出現履歴として、第5図に
示す如く、16回前までの出現履歴が格納されている。
まず、学習辞書更新部8は、確定単語格納部73を参照
し、前述の更新対象フィールドから、更新対象単語とな
る、頻度が一定以上の単語を選び出す(ステップ61)。
そして、更新対象フィールド内のすべての履歴情報を右
へ1ビットシフトして、左端のビット(前回の更新情
報)を“0"にする(ステップ62)。
ルド内の単語とを比較する(ステップ63)。そして、更
新対象単語が既に単語学習辞書部9内に存在している場
合には、左端のビットを“1"とする(ステップ64)。ま
た、更新対象単語が単語学習辞書部9内に存在していな
い場合には、新たに単語学習辞書部9に、単語と履歴情
報を登録する(ステップ66)。この場合の履歴情報は、
“1000000000000000"とする。
語学習辞書部9の当該フィールドの単語数が一定数を越
えたか否か(単語が溢れたか否か)をチェックし(ステ
ップ65)、オーバーした場合は、履歴情報の古いものか
ら順に、オーバーした数だけ単語を削除する(ステップ
67)。
よる照合動作時に、単語辞書部4よりも先に参照され、
確定単語が更新され、所定の条件の場合(フィールド内
の単語数が一定数を越えた場合やユーザが指示した場
合)にフィールドと単語とが対応付けて記憶されて行
く、いわゆる学習が行われる。
し、記憶する単語学習機能を付加し、学習した単語と認
識文字候補との照合を行うことで、冗長な単語照合の回
数を削減し、単語照合の時間を短縮することが可能な文
字認識装置を実現できるという効果がある。
り、本発明はこれに限定されるべきものではない。例え
ば、上記実施例においては、第3図に示した如く、確定
単語が決定される毎にフィールドと単語とが対応付けて
記憶されて行く例を示したが、帳票上のフィールドの概
念を、他の属性に変更することも可能である。
単語照合の回数を削減し、単語照合の時間を短縮するこ
とが可能な文字認識後処理方式を実現できるという顕著
な効果を奏するものである。
ク構成図、第2図は確定単語学習部の構成を示す図、第
3図は確定単語学習部の記憶内容の更新状況を示す図、
第4図は単語学習辞書部の更新状況を示す図、第5図は
出現履歴の格納方法の一例を示す図、第6図は学習辞書
更新部の処理を示す図である。 1:文字認識装置、11:読み取り部、12:イメージ情報格納
部、13:文字認識部、2:認識結果格納部、3:照合部、4:
単語辞書部、5:ユーザインタフェース部、6:帳票フォー
マット記憶部、7:確定単語学習部、71:フィールド分類
処理部、72:出現頻度計数部、73:確定単語格納部、8:学
習辞書更新部、9:単語学習辞書部。
Claims (2)
- 【請求項1】帳票をイメージデータとして読み込む読み
取り部と、該読み取り部により読み取られたイメージ情
報を格納するイメージ情報格納部と、前記イメージ情報
から文字部分を切り出して認識し、1文字に対して一つ
以上の認識候補文字を出力する文字認識部とを有する文
字認識装置において、 前記文字認識部による文字認識結果である候補文字を格
納する認識結果格納部と、帳票のフォーマット情報を記
憶する帳票フォーマット記憶部と、単語を記憶する単語
辞書部と、前記認識結果格納部に格納されている認識結
果と単語との照合を行う照合部と、該照合の結果に基づ
いて決定される確定単語を前記帳票フォーマット中のフ
ィールドと対応付けて記憶する単語学習辞書部と、前記
確定単語の出現頻度を記憶する確定単語学習部と、前記
確定単語学習部の出現頻度から出現頻度が一定以上の単
語を選び出して前記単語学習辞書部の更新を行う学習辞
書更新部とを設けて、前記照合部での単語照合の際に、
前記単語辞書よりも先に前記単語学習辞書部に記憶され
ている確定単語を検索・照合することを特徴とする文字
認識後処理方式。 - 【請求項2】前記学習辞書更新部は、ユーザが特定のフ
ィールドを指示したときに、当該フィールドに対応する
単語学習辞書部を更新する請求項1記載の文字認識後処
理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2198165A JP2982244B2 (ja) | 1990-07-26 | 1990-07-26 | 文字認識後処理方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2198165A JP2982244B2 (ja) | 1990-07-26 | 1990-07-26 | 文字認識後処理方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0484290A JPH0484290A (ja) | 1992-03-17 |
JP2982244B2 true JP2982244B2 (ja) | 1999-11-22 |
Family
ID=16386549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2198165A Expired - Lifetime JP2982244B2 (ja) | 1990-07-26 | 1990-07-26 | 文字認識後処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2982244B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6550163B1 (ja) * | 2018-03-29 | 2019-07-24 | 三井住友海上火災保険株式会社 | 文字認識装置、文字認識方法およびプログラム |
-
1990
- 1990-07-26 JP JP2198165A patent/JP2982244B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0484290A (ja) | 1992-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6310971B1 (en) | Information processing method and apparatus, and storage medium storing medium storing program for practicing this method | |
JPH07182465A (ja) | 文字認識方法 | |
JPH0772906B2 (ja) | 文書認識装置 | |
JP3803219B2 (ja) | 全文検索装置及び全文検索方法 | |
JP2982244B2 (ja) | 文字認識後処理方式 | |
JP2004133565A (ja) | インターネットを利用した文字認識の後処理装置 | |
CN113609864B (zh) | 一种基于工业控制系统的文本语义识别处理系统及方法 | |
JPH06215184A (ja) | 抽出領域のラベリング装置 | |
JP2969751B2 (ja) | 文字認識処理方式 | |
JP3459049B2 (ja) | 文字列検索方法およひ装置 | |
JP2746345B2 (ja) | 文字認識の後処理方法 | |
JPH06223121A (ja) | 情報検索装置 | |
JP2918380B2 (ja) | 文字認識結果の後処理方法 | |
JP3985926B2 (ja) | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 | |
JPH0766423B2 (ja) | 文字認識装置 | |
JPH06274701A (ja) | 単語照合装置 | |
JPH0616267B2 (ja) | 計算機システムの高速処理方法 | |
JP2000251017A (ja) | 単語辞書作成装置および単語認識装置 | |
JPH0652367A (ja) | 文字認識結果の後処理方法 | |
JP2917310B2 (ja) | 単語照合における単語辞書検索方式 | |
JPS646514B2 (ja) | ||
JP2935533B2 (ja) | 文字処理方法 | |
JPH0652366A (ja) | 文字認識結果の後処理方法 | |
JPH04252390A (ja) | 文字認識結果の後処理方法 | |
JPS63138479A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080924 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080924 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100924 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term |