JP2002207965A - 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム - Google Patents

帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム

Info

Publication number
JP2002207965A
JP2002207965A JP2001004813A JP2001004813A JP2002207965A JP 2002207965 A JP2002207965 A JP 2002207965A JP 2001004813 A JP2001004813 A JP 2001004813A JP 2001004813 A JP2001004813 A JP 2001004813A JP 2002207965 A JP2002207965 A JP 2002207965A
Authority
JP
Japan
Prior art keywords
character
dictionary
document
recognition
writer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001004813A
Other languages
English (en)
Inventor
Katsuya Honda
勝也 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Digital Laboratory Co Ltd
Original Assignee
Japan Digital Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Digital Laboratory Co Ltd filed Critical Japan Digital Laboratory Co Ltd
Priority to JP2001004813A priority Critical patent/JP2002207965A/ja
Publication of JP2002207965A publication Critical patent/JP2002207965A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文字認識時等に読取った前後の帳票又は原稿
の記入者又は活字フォントが同一か否かを判定し得る、
帳票又は原稿の文字相等性判定方法、記入者同一性判定
方法、文字認識装置及び文字相等性判定プログラムの提
供。 【解決手段】 認識処理部2で、記入者同一性判定部2
3は文字認識部21による認識結果を基に帳票毎に記入
者の特徴ベクトルを作成し、距離を計算して比較し、帳
票の変わり目に直前に文字認識した帳票と今回の帳票の
記入者が同一か否かを判定する。記入者特徴ベクトル
は、文字認識時に文字認識部21が使用したテンプレー
トの使用頻度を正規化して得点とし、それぞれのテンプ
レートごとに加算したものである。また、テンプレート
は字形のばらつきに応じて複数のテンプレートが用意さ
れているマルチテンプレート辞書である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置に関
し、特に、複数の帳票や原稿を文字認識する場合に、読
取った前後の帳票の記入者や活字フォントが同一か否
か、つまり、読取った前後の帳票又は原稿の文字相等性
を判定する技術に関する。
【0002】
【従来の技術】(1)従来、文字認識装置では入力され
た画像(イメージデータ)から文字パターンを読み取
り、読み取った文字パターンの特徴量と辞書に含まれる
複数のカテゴリーの特徴量のそれぞれとを比較し、認識
候補文字を出力する文字認識処理を行って認識結果を表
示し、それを基にオペレータが棄却された入力文字パタ
ーンや誤認識となった文字パターンを一つずつ手作業
(キー操作)で修正していた。
【0003】(2)また、特開平4−67282号公報
には、オペレータが認識結果を修正した修正済みの文字
パターンと抽出された他の文字パターンの全ての特徴量
を比較し、その文字パターンの特徴量の類似度が所定値
より大きい場合にその文字パターンに対応する文字コー
ドをオペレータによって修正された文字コードに置き換
えて更新することにより以後の誤認識文字を正解の文字
コードに自動的に修正する方法が開示されている。
【0004】
【発明が解決しようとする課題】認識結果の修正におい
て、上記従来の方法では修正する時も棄却文字や誤認識
文字の全てに対してオペレータがキー入力する必要があ
り、手間がかかってオペレータの負担になっていた。特
に手書きの場合、記入された帳票や原稿に癖字が多数あ
る場合に同じ修正作業を繰り返し行うことになり、作業
を効率よく行う上で問題があった。
【0005】なお、癖字についてはユーザ辞書に登録す
る方法もあるが、個性の強い癖字まで登録するとバラン
スを欠いて他の文字の認識まで影響を及ぼすことがある
という問題点があった。
【0006】また、上記(2)の方法ではオペレータが
認識結果を修正した文字パターンと、抽出された他の各
文字パターンの全ての特徴量とを比較しているので処理
時間がかかるといった問題点があった。
【0007】このような従来技術の問題点を解消する技
術として、本特許出願人が平成12年2月21日に出願
の特願2000−42616を国内優先権の主張の基礎
として平成12年11月20日に出願した特願2000
−352692に記載の認識文字修正方法がある。
【0008】上記特願2000−352692に記載の
認識文字修正方法によれば、文字認識処理により表示さ
れた認識結果に棄却文字又は誤認識文字がある場合に、
修正対象の棄却文字や誤認識文字について前回までにオ
ペレータがキー入力して修正した棄却文字や誤認識文字
との類似度を調べ、類似と判定された棄却文字を修正入
力文字で置き換えて修正することにより、オペレータが
同じ棄却文字又は誤認識文字についてその都度修正入力
しなくても済み、認識文字修正処理の迅速化とオペレー
タの負担の軽減を図ることができる。また、癖字があっ
ても記入者が同一であれば2回目以降は自動修正が可能
である。
【0009】上記特願2000−352692に記載の
認識文字修正方法によれば、例えば、図5に示す帳票単
位の認識文字修正の説明図で、図5(a)に示す帳票を
文字認識装置の光学読取り部で読取って得た帳票イメー
ジを認識処理し、図5(b)に示すような認識結果を得
たとする。
【0010】帳票イメージと認識結果は帳票単位で表示
装置に表示されるが、図5(a)の帳票の記入者は数字
「3」が癖字であり癖の度合いが強いので、認識結果は
図5(b)の(ア)〜(オ)に示すように棄却文字
「?」として表示されている。
【0011】次に、オペレータが帳票イメージ(=図5
(a))と認識結果を比較して棄却文字「?」のうち、
(ア)の部分を帳票イメージを基に修正入力して数字
「3」に修正する。と同時に棄却文字(ア)以降にある
棄却文字を探し、棄却文字(ア)の文字イメージと棄却
文字(ア)以降にある棄却文字の文字イメージを比較し
て似ているか否かを判定し、似ていると判定した文字イ
メージに対応する棄却文字(この例では(イ)〜
(オ))を自動的に文字(ア)と同じ文字コード(この
例では数字の「3」)で修正する。このように、上記特
願2000−352692に記載の認識文字修正方法を
適用した文字認識装置は、記入者の癖による棄却文字の
修正作業を大幅に減少させる。
【0012】しかしながら、上記認識文字修正方法で、
複数の帳票を一旦読み取った後に順次読み出して文字認
識を行う場合、直前に読取った帳票の記入者と今回読取
った帳票の記入者が異なっていると(つまり、途中から
異なる記入者が記入した帳票の文字認識を行うと)、記
入者の癖が変わるので、有効な文字認識が期待できない
場合や、後の文字認識に悪影響を及ぼす可能性があった
例えば、直前までの帳票はA氏が記入したものであり、
A氏が書く文字「3」は図6(a)に示すように癖が強
いので認識処理により棄却文字とされていたがオペレー
タが一度「3」として修正入力した以降は上述した認識
文字修正方法により自動的に「3」と認識されていた。
しかし、今回読取った帳票はB氏が記入したものであ
り、B氏の書いた文字「5」は図6(b)に示すように
A氏の書いた文字「3」とよく似ているので、間違って
「3」に自動修正されてしまうといった不具合が生じる
可能性がある。
【0013】また、印字帳票や活字印刷された原稿の文
字認識時には複数の活字フォントを持ったマルチテンプ
レート辞書をその都度参照するので、オペレータが印字
フォントを指定入力しなければ、認識速度が遅くなると
いった問題点があった。
【0014】本発明は、上記問題点を解決するためにな
されたものであり、文字認識または認識文字修正時に読
取った前後の帳票又は原稿の記入者又は活字フォントが
同一か否かを判定し得る、帳票又は原稿の文字相等性判
定方法、記入者同一性判定方法、文字認識装置及び記入
者同一性判定プログラムの提供を目的とする。
【0015】
【課題を解決するための手段】上記課題を解決するため
に、第1の発明の帳票又は原稿の文字相等性判定方法
は、複数の、帳票又は原稿を読み取り、読取った帳票又
は原稿上の文字イメージの特徴を抽出し、抽出された各
文字イメージの特徴と認識辞書とを比較して各文字イメ
ージの認識結果を出力する文字認識装置において、文字
認識時に使用された複数の認識辞書の使用頻度を帳票又
は原稿上の文字種毎に調べて文字種毎の辞書使用頻度を
抽出する工程と、直前の帳票又は原稿の辞書使用頻度と
今回の帳票又は原稿の辞書使用頻度を基に文字種毎の辞
書使用頻度の偏倚を算出する工程と、文字種毎の辞書使
用頻度の偏倚の合計を基に得た平均偏倚と相等文字群の
辞書使用頻度分布パターンの平均偏倚との差である第1
の偏倚差と、合計から得た平均偏倚と非相等文字群の辞
書使用頻度分布パターンの平均偏倚との差である第2の
偏倚差とを算出する工程と、第1の偏倚差と第2の偏倚
差の比較結果により直前の帳票又は原稿上の文字と今回
の帳票又は原稿上の文字の相等性を判定する工程と、を
備えたことを特徴とする。
【0016】また、第2の発明は上記第1の発明の帳票
又は原稿の文字相等性判定方法において、相等文字群の
辞書使用頻度分布パターンは記入者が同一である場合の
帳票又は原稿に記入された文字群の辞書使用頻度分布パ
ターンであり、相等文字群の辞書使用頻度分布パターン
は記入者が異なる場合の帳票又は原稿に記入された文字
群の辞書使用頻度分布パターンであり、帳票又は原稿上
の文字の相等性を判定する工程は直前の帳票又は原稿と
今回の帳票又は原稿の記入者の同一性を判定する工程で
あること、を特徴とする。
【0017】また、第3の発明は上記第1の発明の帳票
又は原稿の文字相等性判定方法において、相等文字群の
辞書使用頻度分布パターンは活字フォントが同一である
場合の帳票又は原稿に印字された文字群の辞書使用頻度
分布パターンであり、相等文字群の辞書使用頻度分布パ
ターンは活字フォントが異なる場合の帳票又は原稿に印
字された文字群の辞書使用頻度分布パターンであり、帳
票又は原稿上の文字の相等性を判定する工程は直前の帳
票又は原稿と今回の原稿に使用されている活字フォント
の同一性を判定する工程であること、を特徴とする。
【0018】また、第4の発明の帳票又は原稿の記入者
同一性判定方法は、複数の、帳票又は原稿を読み取り、
読取った帳票又は原稿上の文字イメージの特徴を抽出
し、抽出された各文字イメージの特徴と認識辞書とを比
較して各文字イメージの認識結果を出力する文字認識装
置において、文字認識時に使用された複数の認識辞書の
使用頻度を帳票又は原稿上の文字種毎に調べて文字種毎
の辞書使用頻度を抽出する工程と、抽出された文字種ご
との辞書使用頻度を正規化する工程と、直前に読取られ
た帳票又は原稿の正規化後の辞書使用頻度と今回読取ら
れた帳票又は原稿の正規化後の辞書使用頻度から文字種
毎の辞書使用頻度の偏倚を算出する工程と、文字種毎の
辞書使用頻度の偏倚の合計を基に得た平均偏倚と同一記
入者による文字群の辞書使用頻度分布パターンの平均偏
倚との差である第1の偏倚差と、合計を基に得た平均偏
倚と記入者が異なる文字群の辞書使用頻度分布パターン
の平均偏倚との差である第2の偏倚差とを算出する工程
と、第1の偏倚差と第2の偏倚差の比較結果により直前
に読取られた帳票又は原稿と今回の帳票又は原稿の記入
者の同一性を判定する工程と、を備えたことを特徴と
す。
【0019】また、第5の発明の文字認識装置は、複数
の、帳票又は原稿を読み取り、読取った帳票又は原稿上
の文字イメージの特徴を抽出し、抽出された各文字イメ
ージの特徴と認識辞書とを比較して各文字イメージの認
識結果を出力する文字認識装置において、同一記入者に
よる文字群の辞書使用頻度を示す第1の分布パターン及
び記入者が異なる文字群の辞書使用頻度を示す第2の分
布パターンと、文字認識時に使用された複数の認識辞書
の使用頻度を帳票又は原稿上の文字種毎に調べて文字種
毎の辞書使用頻度を抽出する辞書使用頻度抽出手段と、
辞書使用頻度を基に直前に読取られた帳票又は原稿と今
回読取られた帳票又は原稿の記入者の同一性を判定する
記入者同一性判定手段と、記入者同一性判定手段の判定
により、直前に読取られた帳票又は原稿と今回読取られ
た帳票又は原稿の記入者が異なっていると判定された場
合に、帳票又は原稿の修正情報を消去する修正情報消去
手段と、必要に応じて文字の修正入力を行う修正入力手
段と、修正入力手段による修正対象となった文字イメー
ジと各文字イメージのうちで修正情報によって示される
文字イメージが類似する場合に各文字イメージのうち修
正標識が示されている文字イメージと類似している文字
イメージの認識結果を修正入力の結果で自動修正する認
識結果修正手段と、修正入力の結果を修正情報として上
書き保持する修正情報保持手段と、を含むことを特徴と
する。
【0020】また、第6の発明の帳票又は原稿の文字相
等性判定プログラムは、帳票又は原稿上の文字イメージ
の特徴を抽出し、抽出された各文字イメージの特徴と認
識辞書とを比較して各文字イメージの認識結果を出力す
る文字認識装置において実行されるプログラムであっ
て、文字認識時に使用された複数の認識辞書の使用頻度
を帳票又は原稿上の文字種毎に調べ得点化するステップ
と、使用した辞書毎に得点を加算するステップと、文字
種の使用頻度をカウントするステップと、文字種の使用
頻度を最少標本数と比較して有効文字種を抽出するステ
ップと、抽出された有効文字種毎に使用した辞書の累積
得点を正規化するステップと、直前の帳票又は原稿の正
規化後の得点と今回の帳票又は原稿の正規化後の得点か
ら有効文字種毎の得点の偏倚を算出するステップと、有
効文字種毎の得点の偏倚の合計を得るステップと、有効
文字種毎の得点の偏倚の合計から平均偏倚を得るステッ
プと、合計から得た平均偏倚と相等文字群の得点分布パ
ターンの平均偏倚との差である第1の偏倚差を算出する
ステップと、合計から得た平均偏倚と非相等文字群の得
点分布パターンの平均偏倚との差である第2の偏倚差を
算出するステップと、第1の偏倚差と第2の偏倚差を比
較するステップと、比較結果により直前の帳票又は原稿
と今回の帳票又は原稿上の文字の相等性を判定するステ
ップと、を含むことを特徴とする。
【0021】
【発明の実施の形態】本発明は、光学的文字認識装置に
より複数の帳票又は原稿を読取り、順次認識処理する際
に、認識結果から帳票又は原稿の記入者や帳票または原
稿の活字フォントの同一性を判定する手段を提供する。
以下の説明では認識結果の修正作業時の棄却文字の自動
修正に本発明の記入者同一性判定方法を提供した例を示
すが、本発明の適用範囲は修正時に限定されず、例え
ば、文字認識時にも適用可能である。
【0022】図1は本発明の記入者同一性判定方法を適
用可能な文字認識装置の一実施例の構成を示すブロック
図であり、図2は認識処理部の一実施例を示すブロック
図である。図1で、文字認識装置10は、原稿読取り装
置1、認識処理部2、ハードディスク(HD)3、モニ
タ4及びキーボード5を備えている。
【0023】原稿読取り装置1はOCR(光学的文字読
取り装置)やスキャナー等のイメージリーダからなり、
原稿を読み取ってイメージデータに変換し、認識処理部
2に渡す。認識処理部2は、図2(a)に示すように文
字認識部21、認識文字修正部22、記入者同一性判定
部23及び制御部24と、辞書31とを備えている。文
字認識部21は原稿読取り装置1により読取られ、ハー
ドディスク3に書き込まれた複数の帳票イメージデータ
を1枚分ずつ順次取り出し、その1枚分のイメージデー
タから1文字分ずつ文字イメージを切り出して文字認識
処理を行い、認識結果(文字コード或いは棄却コード)
を出力すると共にモニタ4に表示する。
【0024】認識文字修正部22は棄却イメージの修正
或いは誤認識の修正のためにオペレータによってキーボ
ード5からの修正入力がされた場合には、それら棄却イ
メージ或いは誤認識された文字の修正(キー入力による
修正及び自動修正)を行い、ハードディスク3に書き込
まれている認識結果を更新する。
【0025】記入者同一性判定部23は、図2(b)に
示すように記入者特徴作成部231及び記入者特徴判定
部232からなり、文字認識部21の認識結果を基に帳
票毎に記入者の特徴ベクトルを作成し、帳票の変わり目
に直前に文字認識した帳票と今回の帳票の記入者が同一
か否かを判定する。
【0026】制御部24はCPU、内部メモリ(RA
M)およびその周辺回路からなり、上述した文字認識装
置10全体の制御及び文字認識装置10及び認識処理部
2の各構成部分の動作を制御する。また、制御部24は
ハードディスク3又はプログラム格納用ROMに格納さ
れた認識処理プログラム(図2の文字認識部21)及び
認識文字修正プログラム(認識文字修正部22に相当)
のほか、本発明の記入者同一性判定プログラム(記入者
同一性判定部23に相当)による文字認識及び認識文字
の修正動作を実行、制御する。
【0027】また、ハードディスク3には辞書31及び
認識結果を格納する領域が確保されている(辞書31は
ROM又は物理的に別のハードディスクとしてもよ
い)。また、ハードディスク3には認識処理プログラ
ム、認識文字修正プログラム及び記入者同一性判定プロ
グラムのほか文字認識装置10の実行、制御に必要な各
種プログラム群を格納することもできる。
【0028】図3は図2に示した認識処理部の修正動作
の一実施例を示すフローチャートであり、この例では棄
却文字を修正する場合の動作を示すが修正される文字は
棄却文字に限定されず、誤認識文字の修正についても同
様である。なお、図3で、ステップS1は図2の文字認
識部21の動作に、ステップS2〜S7、S9〜S10
は図2の認識文字修正部22の動作に、ステップS8の
動作は図2の記入者同一性判定部23の動作に相当す
る。
【0029】まず、原稿読取り装置1で1枚の帳票が光
学的に読取られると、電気信号に変換されれて帳票1枚
分の文字イメージが取り込まれ、ハードディスク3に記
憶される。全ての帳票が読取られると、それらの帳票イ
メージは全てハードディスク3に記憶され文字認識処理
に移行する。
【0030】ステップS1:(文字認識処理) 文字認識部21は、ハードディスク3に記憶されている
1枚分の帳票イメージを取り出して1文字ずつ文字イメ
ージを切り出して文字認識処理を行い、その帳票の文字
イメージと認識結果を対応させてモニタ4に表示する。
【0031】ステップS2:(修正入力) オペレータはモニタ4に表示されている帳票イメージと
認識結果を比較して棄却文字の部分を帳票イメージを基
に修正入力する。
【0032】ステップS3:(自動修正情報の記憶) 認識文字修正部22は、上記ステップS2で修正した棄
却文字の文字イメージと修正結果の文字コード等を自動
修正情報としてメモリ(RAM)に保持(追加記憶)す
る。
【0033】ステップS4:(棄却文字の自動修正) 認識文字修正部22は、認識結果の中から上記ステップ
S2で修正入力の対象とした棄却文字以外の棄却文字を
探し、その文字イメージと上記ステップS2で修正入力
の対象とした棄却文字のイメージを比較し、類似度が所
定値以上の場合はその棄却文字の文字コードを上記ステ
ップS2で修正入力した文字の文字コードで置き換え
る。この動作を1枚分の帳票の認識結果の全ての棄却文
字について繰り返す。
【0034】ステップS5:(未修正棄却文字の有無判
定) 認識文字修正部22は、1枚分の帳票の認識結果の全て
の棄却文字について修正処理が終わったか否かを調べ、
修正が終わっていない棄却文字がある場合にはカーソル
をその文字の位置に移動させてオペレータの修正入力を
促し、ステップS2に戻る。
【0035】ステップS6:(最初の帳票か否かの判
定) 認識文字修正部22は、今回の帳票がハードディスク3
に記憶されている先頭の帳票イメージ、つまり、最初に
読み込んだ帳票か否かを調べ、最初の帳票の場合にはス
テップS10に遷移し、そうでない場合はステップS7
に遷移する。
【0036】ステップS7:(未処理帳票の有無確認) 認識文字修正部22は、ハードディスク3に記憶されて
いる帳票イメージのうち認識処理が終わっていないもの
があるか否かを調べ、未処理帳票がある場合には記入者
同一性判定のためにステップS8に遷移する。また、全
ての帳票について認識処理が終わっている場合は処理を
終了する。
【0037】ステップS8:(記入者の同一性判定処
理) 記入者同一性判定処理部23は、後述(図4)するよう
に、前回ステップS10でメモリに保持した前回の帳票
情報と今回の帳票の認識結果、つまり、前後の帳票の認
識結果を解析して記入者が同一であるか否かを判定し、
記入者が同一であると判定された場合には記入者特徴ベ
クトル要素の入れ替え等、必要な処理を行った後、ステ
ップS10に遷移し、同一でないと判定された場合はス
テップS9に遷移する。
【0038】ステップS9:(自動修正情報の初期化) 記入者同一性判定処理部23は、直前の帳票と今回の帳
票の記入者が異なっている場合、上記ステップS3でメ
モリに記憶した自動修正情報、つまり、修正した棄却文
字の文字イメージと修正結果の文字コード等をクリア
(初期化)してステップS10に遷移する。
【0039】ステップS10:(帳票比較情報の上書き
記憶) 記入者同一性判定処理部23は今回の帳票の認識結果を
帳票比較情報として前回の帳票比較情報に上書きして記
憶し(但し、最初の帳票の場合はそのまま記憶する)、
次の帳票の文字認識のためにステップS1に戻る。
【0040】図4は図3のステップS8の記入者同一性
判定動作の一実施例を示すフローチャートである。な
お、図4で、ステップT1〜T7は記入者同一性判定部
を構成する記入者特徴作成部(図2(b))の動作に、
ステップT8〜T16は記入者特徴判定部(図2
(b))の動作に相当する。また、記入者特徴作成部の
動作は大別して記入者特徴ベクトルに対する得点加算動
作と、記入者特徴ベクトルの正規化動作からなり、記入
者特徴判定部の動作は大別して特徴ベクトル間距離算出
動作と、記入者判定動作からなる。
【0041】また、以下の説明で、記入者特徴ベクトル
は、文字認識時に文字認識部21が使用したテンプレー
トの使用頻度を正規化して得点とし、それぞれのテンプ
レートごとに加算したものである。また、テンプレート
は字形のばらつきに応じて複数のテンプレートが用意さ
れているマルチテンプレート辞書である。また、文字種
ごとのテンプレート数は文字種によって(例えば、文字
種を数字’0’〜’9’とするとテンプレート数はそれ
ぞれの数字によって異なる)。また、以下の説明で記入
者同一性判定時には、記入者特徴ベクトル用の記憶領域
と各文字種をカウントするカウンタがメモリ(RAM)
に確保されている。
【0042】ステップT1:(記入者特徴ベクトル等の
初期化) 記入者特徴作成部231は、メモリに確保した記入者特
徴ベクトル記憶領域及び文字種カウンタを初期化(ゼロ
クリア)する。 ステップT2:(得点算出及び記入者特徴ベクトルへの
加算) 記入者特徴作成部231は、認識番号i(i≧n:nは
1枚の帳票に記入された文字数)の文字について認識時
に使用したテンプレートの使用頻度=(各テンプレート
ごとの得点)を算出し、記入者特徴ベクトルに加算す
る。
【0043】ここで、認識番号iの文字について使用し
たテンプレートの使用頻度の計算方法は各種あるが、実
施例では、認識結果から認識文字と認識上位5個(5個
に限定されない)のテンプレート間の距離を基に算出す
る。例えば、認識順位j位のテンプレートの得点は式P
=(D1/D)Fで算出される。ここで、Pはj
位のテンプレートの得点、Dは認識文字とj位のテン
プレートの認識距離である。つまり、1位のテンプレー
トの得点はFとなるが2位以下のテンプレートは距離D
が大きくなるので得点は減少する。
【0044】ステップT3:(文字種別記入数のカウン
ト) また、記入者特徴作成部231は、認識番号iの文字に
ついて1位に認識されたi番目の文字種カウンタに1を
加えて文字種をカウントする。
【0045】ステップT4:(認識結果終了判定) 記入者特徴作成部231は、上記ステップT2及びT3
の得点等加算処理動作を今回の帳票の認識文字の全てに
ついて終わるまで(つまり、認識番号i=1〜nまで)
繰り返し、終わるとステップT5に遷移する。
【0046】ステップT5:(文字種の有効性の判定及
び文字種フラグ値の設定) 記入者特徴作成部231は、i番目の文字種カウンタの
値を閾値B1と比較し、カウンタの値が閾値B1以上の
場合は有効(有効文字種)と判定してi番目の文字種フ
ラグをオン(ON)にしてステップT6の正規化処理に
遷移し、閾値B1以下の場合は無効と判定してオフ(O
FF)にしてステップT7に遷移する。ここで、閾値B
1は最小標本数であり、閾値B1により文字種のうちあ
る文字種が帳票に記入されていない場合や記入されてい
ても記入数が少なすぎる場合に標本不足として同一性判
定処理から除外する。
【0047】ステップT6:(文字種別の記入者特徴ベ
クトルの正規化) 記入者特徴作成部231は、上記ステップT2で作成し
た今回の帳票の記入者特徴ベクトルを正規化する。つま
り、有効文字種毎に特徴ベクトルを各要素の合計値が所
定値Fになるように正規化する。
【0048】ステップT7:(文字種終了判定) 記入者特徴作成部231は、上記ステップT5及びT6
の正規化処理動作を全ての文字種(つまり、i=1〜n
の全ての文字種カウンタ)について終わるまで繰り返
し、終わるとステップT8に遷移する。
【0049】ステップT8:(合計距離等の初期化) 記入者特徴判定部232は、合計距離及び各文字種カウ
ンタの値を初期化(ゼロクリア)する。
【0050】ステップT9:(前後の帳票の文字種フラ
グの比較及び文字種のカウント) 記入者特徴判定部232は、前回ステップT15で保存
した直前の帳票の文字種フラグと今回上記ステップT5
で設定した今回の帳票の文字種フラグについてまず、前
後の帳票のi番目の文字種フラグ同士を比較し、双方と
もオンの場合はi番目の文字種カウンタに1を加えてス
テップT10に遷移し、それ以外の場合はステップT1
1に遷移する。
【0051】ステップT10:(前後の帳票の特徴ベク
トル間距離算出等) 記入者特徴判定部232は、前回ステップT15で保存
した直前の帳票の記入者特徴ベクトルと上記ステップT
6で正規化した今回の帳票の記入者特徴ベクトル間の距
離を算出し、文字種毎の合計距離に加算する。
【0052】例えば、文字種cの特徴ベクトル間の距離
Dcは、Dc=Σ|Pi−Qi|で算出することができ
る。ここで、Piは、直前の帳票の文字種cの正規化後
の特徴ベクトル要素、Qiは今回の帳票の文字種cの正
規化後の特徴ベクトル要素iである。また、Σは、文字
種cの特徴ベクトル次元数をNとするときi=1〜Nま
での総和を意味する。
【0053】ステップT11:(文字種終了判定) 記入者特徴判定部232は、上記ステップT9及びT1
0の動作を全ての文字種について終わるまで繰り返し、
終わるとステップT12に遷移する。
【0054】ステップT12:(有効文字種数の判定及
び平均距離算出) 記入者特徴判定部232は、カウンタの値を閾値B2と
比較し、カウンタの値が閾値B2以上の場合は有効と判
定して記入者特徴ベクトル間の平均距離を算出する。ま
た、文字種カウンタの値が閾値B2以下の場合は判定不
能とし、ステップT16に遷移する。ここで、閾値B2
は最少有効文字種数であり記入者特徴ベクトルの信頼性
を保証するために設ける。平均距離Dは、Ncを文字種
cの有効文字種数とすると、D=(1/Nc)ΣDcと
して算出できる。また、Σは、文字種の数をNとすると
きi=1〜Nまでの総和を意味する。
【0055】ステップT13:(平均距離と同一記入者
判定パターン等との偏倚差算出) 記入者特徴判定部232は、上記ステップT12で算出
した記入者特徴ベクトル間平均距離Dと、同一記入者判
定パターンとの偏倚差D1、D2を算出する。具体的に
は平均距離Dと同一記入者による記入文字群の辞書使用
頻度の分布中心からの差D1及び平均距離Dと非同一記
入者による記入文字群の辞書使用頻度の分布中心からの
差D2を算出する。
【0056】差D1、D2は、例えば、同一記入者群の
平均距離をu1、分散をσ1、非同一記入者群の平均距
離をu2、分散をσ2とすると、D1=(D−u1)
/σ1 、D2=(D−u2) /σ2 として算
出できる。なお、同一記入者群の分布及び非同一記入者
群の分布は実施例では実験により得た値を用いたが学習
により修正可能としてもよい。
【0057】ステップT14:(同一性判定) 記入者特徴判定部232は、上記ステップT13で算出
した平均距離D1、D2を比較し、D1≦D2なら直前
の帳票と今回の帳票の記入者は同一と判定し、図3のフ
ローチャートのステップS10に遷移する。また、D1
>D2なら、直前の帳票と今回の帳票の記入者は同一で
ないと判定し、ステップT15に遷移する。
【0058】ステップT15:(非同一時の特徴ベクト
ル等の入れ替え処理) 記入者特徴判定部232は、今回上記ステップT5で設
定した文字種フラグ及びステップT6で正規化した特徴
ベクトル要素を前回保存した帳票の文字種フラグ及び各
文字種の特徴ベクトル要素に上書きしてメモリに保持
(一時記憶)し、図3のフローチャートのステップS9
に遷移する。
【0059】ステップT16:(文字種の有効性判定不
能時の処理) 上記ステップT12で文字種の有効性判定不能の場合
は、記入者特徴判定部232は、オペレータに直前の原
稿と今回の原稿を調べ、帳票の記入者が同一か否の指示
入力を促すメッセージと、同一の場合に操作するキーと
同一でない場合に操作するキーを示すメッセージをモニ
タ4に表示し、オペレータが記入者同一を意味するキー
を操作した場合は図3のフローチャートのステップS1
0に遷移し、同一でない場合は図3のフローチャートの
ステップS9に遷移する。
【0060】上記構成により手書き帳票や手書き原稿に
ついて記入者が同一かどうかを高い精度で判定できる。
これにより、認識文字修正時に直前の帳票の記入者と今
回の帳票の記入者が異なった場合に、記入者の異なった
帳票について前回の修正結果による自動修正を行わない
ようにして、オペレータによる修正入力を基に新たな記
入者の癖に基づく自動修正を行うので、記入者の変更に
より書き癖が変わっても文字認識を有効に行うことがで
き、後の文字認識への悪影響が生じない。なお、上記説
明では記入者同一性判定の対象として手書き帳票を例と
したがこれに限定されず、手書き原稿でもよい。
【0061】<他の実施例>また、手書きで記入した帳
票や手書き原稿について、本発明は直前の帳票や原稿の
記入者と今回の帳票や原稿の記入者の同一性判定のみに
限定されない。つまり、帳票又は原稿がビリングマシン
(伝票作成機)で作成された印字伝票、ワードプロセッ
サーで作成された文書や印刷機で印刷された印刷物等の
場合に、前後の帳票(又は原稿)に使用された活字フォ
ントの判別(=活字フォント同一性判定)、すなわち、
帳票又は原稿の文字相等性判定にも適用できる。
【0062】この場合、上記実施例の説明で「記入者」
とういう語を「活字フォント」に置き換え、数種類の活
字フォントを持つマルチテンプレート辞書を用いるよう
に構成すればよい。
【0063】本発明を活字フォントの判別に適用するこ
とにより、認識処理時にマルチテンプレート辞書のうち
使用フォントの特徴を持ったテンプレートのみを使用す
るようにできるので、同じ活字フォントで印字又は印刷
された帳票又は原稿の使用フォントが同じ間は他のフォ
ントのテンプレート辞書を使用する必要がなくなる。し
たがって、オペレータが印字フォントを指定入力する必
要もなく、認識性能の向上と共に認識処理速度の短縮が
可能になる。
【0064】以上、本発明の一実施例について説明した
が本発明は上記実施例に限定されるものではなく、種々
の変形実施が可能であることはいうまでもない。
【0065】
【発明の効果】上記説明したように、第1の発明の帳票
又は原稿の文字相等性判定方法によれば、辞書使用頻度
に基づいて直前の帳票又は原稿と今回の帳票又は原稿上
の文字の類比を判定できるので、直前の帳票又は原稿と
今回の帳票又は原稿上の文字の記入者が同一か否かを判
定できる。また、直前の帳票又は原稿と今回の帳票又は
原稿上に印字された文字の活字フォントが同一か否かも
判定できる。
【0066】また、第2の発明の帳票又は原稿の文字相
等性判定方法又は第4の発明の帳票又は原稿の同一性判
定方法によれば、平均偏倚と相等文字群(同一の記入者
によって記入された文字群)の辞書使用頻度分布パター
ンの平均偏倚の差と、平均偏倚と非相等文字群(異なる
記入者によって記入された文字群)の辞書使用頻度分布
パターンの平均偏倚の差とを比較して記入者の同非を判
定するので、手書き帳票や手書き原稿について記入者が
同一かどうかを高い精度で判定できる。
【0067】また、第3の発明の帳票又は原稿の文字相
等性判定方法によれば、上記第2の発明と同様の方法に
より活字フォントの同非を判定するので、帳票や原稿上
の印字の活字フォントが同一かどうかを高い精度で判定
できる。また、この発明を活字フォントの判別に適用す
ることにより、認識処理時に複数の辞書のうち使用フォ
ントの特徴を持った辞書のみを使用するようにできるの
で、同じ活字フォントで印字又は印刷された帳票又は原
稿の使用フォントが同じ間は他の辞書を使用する必要が
なくなる。したがって、オペレータが印字フォントを指
定入力する必要もなく、認識性能の向上と共に認識処理
速度の短縮が可能になる。
【0068】また、第5の発明の文字認識装置によれば
手書き帳票や手書き原稿について記入者が同一かどうか
を判定し、認識文字修正時に直前の帳票の記入者と今回
の帳票の記入者が異なった場合に、記入者の異なった帳
票について前回の修正結果による自動修正を行わないよ
うにして、オペレータによる修正入力を基に新たな記入
者の癖に基づく自動修正を行うので、記入者の変更によ
り書き癖が変わっても文字認識を有効に行うことがで
き、後の文字認識への悪影響が生じない。
【0069】また、第6の発明の帳票または原稿の文字
相等性判定プログラムによれば、帳票又は原稿に出現し
た回数が最少標本数以上の有効文字種の平均偏倚と相等
文字群の辞書使用頻度分布パターンの平均偏倚の差と、
平均偏倚と非相等文字群の辞書使用頻度分布パターンの
平均偏倚の差とを比較して記入者の同非を判定するの
で、文字種の平均偏倚の信頼性が保証されていることか
ら、帳票や原稿の文字相等性を高い精度で判定できる。
従って、このプログラムを文字認識装置の記入者同一性
判定手段として実行することにより、直前の帳票又は原
稿と今回の帳票又は原稿上の文字の記入者の同一判定を
高い精度で判定できる。また、このプログラムを文字認
識装置の活字フォント同一性判定手段として実行するこ
とにより直前の帳票又は原稿と今回の帳票又は原稿上の
印字の活字フォントの同一か否かを高い精度で判定でき
る。更に、このプログラムを文字認識装置の認識文字修
正時の記入者同一性判定手段として用いることにより、
記入者の変更により書き癖が変わっても文字認識を有効
に行うことができる。
【図面の簡単な説明】
【図1】本発明の記入者同一性判定方法を適用可能な文
字認識装置の一実施例の構成を示すブロック図である。
【図2】認識処理部の一実施例を示すブロック図であ
る。
【図3】認識処理部の修正動作の一実施例を示すフロー
チャートである。
【図4】記入者同一性判定部の記入者同一性判定動作の
一実施例を示すフローチャートである。
【図5】帳票単位の認識文字修正の説明図である。
【図6】記入者によって異なる癖字の一例を示す図であ
る。
【符号の説明】
2 認識処理部 5 キーボード(修正入力手段) 10 文字認識装置 23 記入者同一性判定部(文字相等性判定手段、活字
フォント同一性判定手段) 24 制御部(修正情報保持手段) 31 辞書 231 記入者特徴作成部(辞書使用頻度作成手段) 232 記入者特徴判定部(記入者同一性判定手段、修
正情報消去手段)

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 複数の、帳票又は原稿を読み取り、読取
    った帳票又は原稿上の文字イメージの特徴を抽出し、抽
    出された各文字イメージの特徴と認識辞書とを比較して
    各文字イメージの認識結果を出力する文字認識装置にお
    いて、 文字認識時に使用された複数の認識辞書の使用頻度を帳
    票又は原稿上の文字種毎に調べて文字種毎の辞書使用頻
    度を抽出する工程と、 直前の帳票又は原稿の辞書使用頻度と今回の帳票又は原
    稿の辞書使用頻度を基に文字種毎の辞書使用頻度の偏倚
    を算出する工程と、 文字種毎の辞書使用頻度の偏倚の合計を基に得た平均偏
    倚と相等文字群の辞書使用頻度分布パターンの平均偏倚
    との差である第1の偏倚差と、前記合計から得た平均偏
    倚と非相等文字群の辞書使用頻度分布パターンの平均偏
    倚との差である第2の偏倚差とを算出する工程と、 前記第1の偏倚差と第2の偏倚差の比較結果により直前
    の帳票又は原稿上の文字と今回の帳票又は原稿上の文字
    の相等性を判定する工程と、を備えたことを特徴とする
    帳票又は原稿の文字相等性判定方法。
  2. 【請求項2】 前記相等文字群の辞書使用頻度分布パタ
    ーンは記入者が同一である場合の帳票又は原稿に記入さ
    れた文字群の辞書使用頻度分布パターンであり、相等文
    字群の辞書使用頻度分布パターンは記入者が異なる場合
    の帳票又は原稿に記入された文字群の辞書使用頻度分布
    パターンであり、 前記帳票又は原稿上の文字の相等性を判定する工程は直
    前の帳票又は原稿と今回の帳票又は原稿の記入者の同一
    性を判定する工程であること、を特徴とする請求項1記
    載の帳票又は原稿の文字相等性判定方法。
  3. 【請求項3】 前記相等文字群の辞書使用頻度分布パタ
    ーンは活字フォントが同一である場合の帳票又は原稿に
    印字された文字群の辞書使用頻度分布パターンであり、
    相等文字群の辞書使用頻度分布パターンは活字フォント
    が異なる場合の帳票又は原稿に印字された文字群の辞書
    使用頻度分布パターンであり、 前記帳票又は原稿上の文字の相等性を判定する工程は直
    前の帳票又は原稿と今回の原稿に使用されている活字フ
    ォントの同一性を判定する工程であること、を特徴とす
    る請求項1記載の帳票又は原稿の文字相等性判定方法。
  4. 【請求項4】 複数の、帳票又は原稿を読み取り、読取
    った帳票又は原稿上の文字イメージの特徴を抽出し、抽
    出された各文字イメージの特徴と認識辞書とを比較して
    各文字イメージの認識結果を出力する文字認識装置にお
    いて、 文字認識時に使用された複数の認識辞書の使用頻度を帳
    票又は原稿上の文字種毎に調べて文字種毎の辞書使用頻
    度を抽出する工程と、 抽出された文字種ごとの辞書使用頻度を正規化する工程
    と、 直前に読取られた帳票又は原稿の正規化後の辞書使用頻
    度と今回読取られた帳票又は原稿の正規化後の辞書使用
    頻度から文字種毎の辞書使用頻度の偏倚を算出する工程
    と、 文字種毎の辞書使用頻度の偏倚の合計を基に得た平均偏
    倚と同一記入者による文字群の辞書使用頻度分布パター
    ンの平均偏倚との差である第1の偏倚差と、前記合計を
    基に得た平均偏倚と記入者が異なる文字群の辞書使用頻
    度分布パターンの平均偏倚との差である第2の偏倚差と
    を算出する工程と、 前記第1の偏倚差と第2の偏倚差の比較結果により直前
    に読取られた帳票又は原稿と今回の帳票又は原稿の記入
    者の同一性を判定する工程と、 を備えたことを特徴とする帳票又は原稿の記入者同一性
    判定方法。
  5. 【請求項5】 複数の、帳票又は原稿を読み取り、読取
    った帳票又は原稿上の文字イメージの特徴を抽出し、抽
    出された各文字イメージの特徴と認識辞書とを比較して
    各文字イメージの認識結果を出力する文字認識装置にお
    いて、 同一記入者による文字群の辞書使用頻度を示す第1の分
    布パターン及び記入者が異なる文字群の辞書使用頻度を
    示す第2の分布パターンと、 文字認識時に使用された複数の認識辞書の使用頻度を帳
    票又は原稿上の文字種毎に調べて文字種毎の辞書使用頻
    度を抽出する辞書使用頻度抽出手段と、 前記辞書使用頻度を基に直前に読取られた帳票又は原稿
    と今回読取られた帳票又は原稿の記入者の同一性を判定
    する記入者同一性判定手段と、 前記記入者同一性判定手段の判定により、直前に読取ら
    れた帳票又は原稿と今回読取られた帳票又は原稿の記入
    者が異なっていると判定された場合に、帳票又は原稿の
    修正情報を消去する修正情報消去手段と、 必要に応じて文字の修正入力を行う修正入力手段と、 前記修正入力手段による修正対象となった文字イメージ
    と前記各文字イメージのうちで修正情報によって示され
    る文字イメージが類似する場合に前記各文字イメージの
    うち前記修正標識が示されている文字イメージと類似し
    ている文字イメージの認識結果を前記修正入力の結果で
    自動修正する認識結果修正手段と、 前記修正入力の結果を修正情報として上書き保持する修
    正情報保持手段と、を含むことを特徴とする文字認識装
    置。
  6. 【請求項6】 帳票又は原稿上の文字イメージの特徴を
    抽出し、抽出された各文字イメージの特徴と認識辞書と
    を比較して各文字イメージの認識結果を出力する文字認
    識装置において実行されるプログラムであって、 文字認識時に使用された複数の認識辞書の使用頻度を帳
    票又は原稿上の文字種毎に調べ得点化するステップと、 使用した辞書毎に得点を加算するステップと、 文字種の使用頻度をカウントするステップと、 文字種の使用頻度を最少標本数と比較して有効文字種を
    抽出するステップと、 抽出された有効文字種毎に使用した辞書の累積得点を正
    規化するステップと、 直前の帳票又は原稿の正規化後の得点と今回の帳票又は
    原稿の正規化後の得点から有効文字種毎の得点の偏倚を
    算出するステップと、 有効文字種毎の得点の偏倚の合計を得るステップと、 有効文字種毎の得点の偏倚の合計から平均偏倚を得るス
    テップと、 前記合計から得た平均偏倚と相等文字群の得点分布パタ
    ーンの平均偏倚との差である第1の偏倚差を算出するス
    テップと、 前記合計から得た平均偏倚と非相等文字群の得点分布パ
    ターンの平均偏倚との差である第2の偏倚差を算出する
    ステップと、 前記第1の偏倚差と第2の偏倚差を比較するステップ
    と、 前記比較結果により直前の帳票又は原稿と今回の帳票又
    は原稿上の文字の相等性を判定するステップと、を含む
    ことを特徴とする帳票又は原稿の文字相等性判定プログ
    ラム。
JP2001004813A 2001-01-12 2001-01-12 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム Pending JP2002207965A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001004813A JP2002207965A (ja) 2001-01-12 2001-01-12 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001004813A JP2002207965A (ja) 2001-01-12 2001-01-12 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム

Publications (1)

Publication Number Publication Date
JP2002207965A true JP2002207965A (ja) 2002-07-26

Family

ID=18872951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001004813A Pending JP2002207965A (ja) 2001-01-12 2001-01-12 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム

Country Status (1)

Country Link
JP (1) JP2002207965A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528610A (zh) * 2014-09-30 2016-04-27 阿里巴巴集团控股有限公司 文字识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163681A (ja) * 1989-11-21 1991-07-15 Hitachi Ltd 文字認識装置
JP2002163608A (ja) * 2000-11-22 2002-06-07 Fujitsu Ltd 手書き文字認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163681A (ja) * 1989-11-21 1991-07-15 Hitachi Ltd 文字認識装置
JP2002163608A (ja) * 2000-11-22 2002-06-07 Fujitsu Ltd 手書き文字認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528610A (zh) * 2014-09-30 2016-04-27 阿里巴巴集团控股有限公司 文字识别方法和装置
CN105528610B (zh) * 2014-09-30 2019-05-07 阿里巴巴集团控股有限公司 文字识别方法和装置

Similar Documents

Publication Publication Date Title
JP3294995B2 (ja) 帳票読取装置
JP2000315247A (ja) 文字認識装置
EP2138959B1 (en) Word recognizing method and word recognizing program
JP2000089786A (ja) 音声認識結果の修正方法および装置
US11756321B2 (en) Information processing apparatus and non-transitory computer readable medium
JPH11272800A (ja) 文字認識装置
JP2002207965A (ja) 帳票又は原稿の文字相等性判定方法、記入者同一性判定方法、文字認識装置及び文字相等性判定プログラム
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム
JP5039659B2 (ja) 文字認識方法及び文字認識装置
JP2003030654A (ja) パターン識別装置、パターン識別方法及びパターン識別用プログラム
JP3812719B2 (ja) 文書検索装置
JP3930466B2 (ja) 文字認識装置、文字認識プログラム
JP7404625B2 (ja) 情報処理装置、及びプログラム
JP2906758B2 (ja) 文字読取装置
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JP3157557B2 (ja) 文字認識装置
JP2002074262A (ja) 認識文字修正方法
JPH0528319A (ja) 画像処理方法及び装置
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JP4633246B2 (ja) 認識文字修正方法および認識文字修正プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4081074B2 (ja) 帳票処理装置、帳票処理方法、及び帳票処理プログラム
JPH0652367A (ja) 文字認識結果の後処理方法
JP3033904B2 (ja) 文字認識後処理方法
JPH07152877A (ja) 英文字認識装置
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101012