JPH0772906B2 - 文書認識装置 - Google Patents

文書認識装置

Info

Publication number
JPH0772906B2
JPH0772906B2 JP3195100A JP19510091A JPH0772906B2 JP H0772906 B2 JPH0772906 B2 JP H0772906B2 JP 3195100 A JP3195100 A JP 3195100A JP 19510091 A JP19510091 A JP 19510091A JP H0772906 B2 JPH0772906 B2 JP H0772906B2
Authority
JP
Japan
Prior art keywords
character
character image
image
recognition
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3195100A
Other languages
English (en)
Other versions
JPH0520500A (ja
Inventor
潔 田代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP3195100A priority Critical patent/JPH0772906B2/ja
Priority to US07/910,377 priority patent/US5621818A/en
Publication of JPH0520500A publication Critical patent/JPH0520500A/ja
Publication of JPH0772906B2 publication Critical patent/JPH0772906B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書認識装置に関し、
特に、文書画像中から1文字分の画像を順次に切り出
し、切り出された1文字分の文字画像を認識することに
より、文書中の文字を認識する文書認識装置に関するも
のである。
【0002】
【従来の技術】従来から漢字仮名混じり文で書かれた大
量の原稿,帳票等を入力する手法のい一つとして、文字
認識装置を応用した文書認識装置が開発されている。文
書認識装置は、例えば、図9に示すように、文書画像か
ら1文字分の文字画像を切り出す文字切り出し部91
と、切り出された1文字分の文字画像を認識する文字認
識部92と、文字切り出し部91および文字認識部92
を制御する制御部93とから構成されている。文書認識
装置における文書認識動作は、制御部93が文字切り出
し部91および文字認識部92を起動することにより開
始される。文字切り出し部91が文書画像から1文字分
の文字画像を切り出し、文字認識部91に供給すると、
文字認識部92が1文字分の文字画像に対して特徴抽出
処理および認識処理を行い認識結果として文字コードを
出力する。この1文字分の文字認識動作を繰返し行い、
文書画像中の各文字を認識し、文書認識を行う。
【0003】図10は、文字認識部の構成例を示すブロ
ック図である。文字画像を精度良く認識するためには、
各々の文字の差をよく表し、かつ変形や雑音等には影響
されにくいような特徴を、認識対象となる画像から抽出
する必要がある。このため、従来から、各種の研究がな
されている。例えば、文献「萩田他“外郭方向寄与度特
徴による手書き漢字の識別”電子通信学会論文誌'83/1
0,Vol.J66-D,No.10, pp1185〜1192」には、大分類特徴
により分類の後、絞り込んだ候補文字に対して細部の識
別処理を行う2段階方式の識別処理により、手書き漢字
に対して高精度に文字識別を行うことができる文字認識
システムが報告されている。
【0004】このような2段階の識別処理システムで
は、文字認識処理を行う文字認識部の構成を、例えば、
図10のブロック図に示すように、画像特徴正規化部1
01,大分類用特徴抽出部102,大分類用特徴比較部
103,大分類標準特徴記憶部104,大分類用ソート
部105,詳細分類用特徴抽出部106,詳細分類用特
徴比較部107,詳細分類用標準特徴記憶部108,お
よび詳細分類用ソート部109で構成し、手書き漢字仮
名混じり文に対して、高精度に文字識別を行う。すなわ
ち、まず、画像特徴正規化部101が認識対象の画像の
正規化処理を行うと、大分類用特徴抽出部102が大分
類用の特徴を抽出する。抽出された大分類用の特徴を用
いて、次に、大分類用特徴比較部103が、大分類標準
特徴記憶部104に記憶されている標準特徴との比較を
行う。このような大分類比較の比較結果によって、大分
類用ソート部105が大分類を行う。そして、認識の対
象を絞り込み、更に詳細分類用特徴抽出部106が詳細
分類用の特徴の抽出を行う。次に、詳細分類用特徴比較
部107が、詳細分類用標準特徴記憶部108に記憶さ
れている標準特徴との比較を行い、この詳細分類特徴の
比較結果により、詳細分類用ソート部109がソート処
理を行う。
【0005】また、文字認識などの一般的なパターン識
別においては、特徴空間での各々の特徴の対象の変動を
統計的に解析し、距離または類似度の定義に反映させる
手法も有効である。この種のパターン識別装置の例とし
て、特公昭56−19656号公報に記載されているよ
うなパターン識別装置の提案がある。このパターン識別
装置では、標準パターンと入力パターンとの類似度から
パターン識別を行う。パターン識別は、特定の類に属す
る標準パターンに相当するものとして、M種類の標準パ
ターンとこれに直交するN種類の標準パターンとを予め
用意しておき、任意に与えられた入力パターンに対し
て、この入力パターンとM種類の標準パターンとの間に
作られるM種類の類似度の2乗和と、同じく、N種類の
標準パターンとの間に作られるN種類の類似度の2乗和
との差を求め、この値が所定の閾値より大きな値となる
か否かにより、入力パターンが該当の類に属するか否か
を決定する処理を行う。
【0006】
【発明が解決しようとする課題】ところで、上述のよう
に、漢字仮名混じり文や、一般図形の図形パターンを精
度良く識別しようとすると、かなり複雑な認識処理を必
要とする。一般の印刷文書を対象に認識精度を良くする
ためには、フォント間の差異を吸収するのに有効な特徴
を多く抽出し、多くの特徴を用いて識別を行う。これに
より、1文字の認識処理に多くの時間がかかるが、ほぼ
確実に文字認識を行うことができる。
【0007】しかし、文字認識の精度を良くするため
に、複雑な認識処理を用いると、認識速度が低下し、逆
に認識速度を向上させるために処理を簡単にすると、認
識精度が悪くなる。このように文字認識処理において、
認識速度と認識精度とは、両立して向上させることは困
難であるという問題点がある。
【0008】本発明は、上記のような問題点を解決する
ためになされたものであり、本発明の目的は、様々な種
類のフォントの文字を精度良く認識できる文字認識性能
を犠牲にせず、文書画像中の複数の文字を認識するとき
の全体としての認識速度を大幅に向上させる文書認識装
置を提供することにある。
【0009】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の文書認識装置は、文書画像中から文字画像
を切り出し、切り出された文字画像を認識し、文字コー
ドを出力する文字認識を行い、文字画像中の複数の文字
を順次に認識する文書認識装置であって、文書画像中か
ら1文字分の画像を切り出す文字切り出し手段(11)
と、切り出された1文字分の画像を認識し文字コードを
出力する文字認識手段(13)と、文字認識手段により
認識された1文字分の文字画像を認識結果の文字コード
と対応づけて記憶し、記憶した文字画像と新たに切り出
された1文字分の画像とを比較し、画像の類似度が十分
に大きい場合に、当該文字画像に対応づけて記憶されて
いる文字コードを認識結果として読み出す制御を行う制
御手段(16)とを有することを特徴とする。
【0010】また、更に、1文字分の文字画像に文字コ
ードを対応づけて記憶する文字画像記憶手段(14)
と、2つの1文字分の文字画像の間の類似度を求める文
字画像比較手段(12)とを備え、制御手段(16)
が、文字認識手段(13)により認識された1文字分の
文字画像を認識結果の文字コードと対応づけて文字画像
記憶手段(14)に記憶し、既に記憶されている文字画
像と新たに切り出された1文字分の画像とを文字画像比
較手段(12)により比較し、画像の類似度が十分に大
きい場合に、当該文字画像に対応づけて記憶されている
文字コードを認識結果として読み出す制御を行うことを
特徴とする。
【0011】また、ここでの制御手段(16)は、文字
認識手段(13)により認識された認識結果の確信度が
十分に大きいときに限って、文字画像記憶手段(14)
に当該文字画像と認識結果の文字コードとを対応づけて
記憶することを特徴とする。
【0012】また、制御手段(16)は、1文字分の文
字画像と当該文字画像の認識結果の文字コードとを対応
づけて1記憶単位(15)として記憶し、記憶した各々
の記憶単位の文字画像と新たに切り出された1文字分の
画像とを順次に比較し、画像の類似度が十分に大きい場
合には、記憶した文字画像に対応付けられた文字コード
を認識結果として読み出し、画像の類似度が十分に大き
くない場合には、文字認識手段(13)により認識され
た認識結果の文字コードを出力ことを特徴とする。
【0013】更に、制御手段(16)は、1文字分の文
字画像と当該文字画像の認識結果の文字コードとを対応
づけて1記憶単位(15)として記憶し、記憶した各々
の記憶単位の文字画像と新たに切り出された1文字分の
画像とを順次に比較し、画像の類似度が十分に大きい場
合には、記憶した文字画像に対応付けられた文字コード
を認識結果として読み出し、画像の類似度が十分に大き
くない場合には、文字認識手段により認識された認識結
果の文字コードを出力し、当該文字画像と認識結果の文
字コードとを対応づけて新たな1記憶単位として記憶す
ることを特徴とする。
【0014】この場合、1文字分の文字画像と当該文字
画像の認識結果の文字コードとを対応づけて記憶する記
憶単位(15)には、更に、当該記憶単位の文字コード
が読み出された頻度を登録する頻度情報を付加して記憶
し、記憶単位が記憶最大容量を超える場合に、それ迄の
文字認識を行った各文字画像の頻度情報をもとに削除す
る記憶単位を決定し、削除した記憶単位に新たに文字画
像と文字コードとを対応づけた記憶単位を記憶すること
を特徴とする。
【0015】また、本発明の文書認識装置は、文書画像
中から文字画像を切り出し、切り出された文字画像を認
識し、文字コードを出力する文字認識を行い、文字画像
中の複数の文字を順次に認識する文書認識装置であっ
て、文書画像中から1文字の画像を切り出す文字切り出
し手段(41)と、切り出された1文字分の画像を認識
し文字コードを出力する文字認識手段(44)と、切り
出された文字画像から簡易文字画像特徴を抽出する簡易
文字画像特徴抽出手段(42)と、1文字分の文字画像
から抽出された簡易文字画像特徴と文字コードと対応づ
けて記憶する文字画像特徴記憶手段(45)と、2つの
1文字分の簡易文字画像特徴の間の類似度を求める簡易
文字画像特徴比較手段(43)と、文字認識手段により
認識された文字画像の認識結果の文字コードと当該文字
画像の簡易文字画像特徴とを対応づけて文字画像特徴記
憶手段に記憶し、新たに切り出された1文字分の文字画
像に対して当該文字画像の簡易文字画像特徴と、文字画
像特徴記憶手段に記憶した簡易文字画像特徴とを比較
し、比較結果により簡易文字画像特徴の類似度が十分に
大きい場合に、当該簡易文字画像特徴と対応づけて記憶
されている文字コードを認識結果として読み出す制御を
行う制御手段(47)とを有することを特徴とする。
【0016】また、この文書認識装置において、制御手
段(47)は、文字認識手段により認識された認識結果
の確信度が十分に大きいときに限って、文字画像特徴記
憶手段に当該文字画像の簡易文字画像特徴を当該文字画
像の認識結果の文字コードとを対応づけて記憶すること
を特徴とする。
【0017】更に、この文書認識装置において、制御手
段(47)は、1文字分の簡易文字画像特徴と該当する
文字画像の認識結果の文字コードとを対応づけて1記憶
単位として文字画像特徴記憶手段に記憶し、記憶した各
々の記憶単位の簡易文字画像特徴と新たに切り出された
1文字分の簡易文字画像特徴とを順次に比較し、簡易文
字画像特徴の類似度が十分に大きい場合には、記憶した
簡易文字画像特徴に対応付けられた文字コードを認識結
果として読み出し、簡易文字画像特徴の類似度が十分に
大きくない場合には、文字認識手段により認識された認
識結果の文字コードを出力し、当該簡易文字画像特徴と
認識結果の文字コードとを対応づけて新たな1記憶単位
として記憶することを特徴とする。
【0018】この場合、1文字分の簡易文字画像特徴と
該当する文字画像の認識結果の文字コードとを対応づけ
て記憶する記憶単位(46)には、更に、当該記憶単位
の文字コードが読み出された頻度を登録する頻度情報を
付加して記憶し、記憶単位が記憶最大容量を超える場合
に、それ迄の文字認識を行った各文字画像の頻度情報を
もとに削除する記憶単位を決定し、削除した記憶単位に
新たに簡易文字画像特徴と文字コードとを対応づけた記
憶単位を記憶することを特徴とする。
【0019】
【作用】本発明の文書認識装置においては、文字切り出
し手段(11)が、認識対象の文書画像中から1文字分
の画像を切り出し、文字認識手段(13)が切り出され
た1文字分の画像を認識し文字コードを出力する。制御
手段(16)により、文字認識手段により認識された1
文字分の文字画像は、認識結果の文字コードと対応づけ
て記憶され、記憶された文字画像と新たに切り出された
1文字分の画像とが比較される。この比較の結果、画像
の類似度が十分に大きい場合に、当該文字画像に対応づ
けて記憶されている文字コードを認識結果として読み出
す制御を行う。これにより、簡単な文字画像の類似度の
比較によって、特に、文字認識の処理を行うことなく、
認識処理を行う場合と同様な精度によって、文字認識結
果の文字コードが得られる。
【0020】また、本発明の文書認識装置においては、
文字切り出し手段(41)が、文書画像中から1文字の
画像を切り出すと、文字認識手段(44)が切り出され
た1文字分の画像を認識し文字コードを出力する。この
とき、簡易文字画像特徴抽出手段(42)が、文字切り
出し手段(41)により切り出された文字画像から簡易
文字画像特徴を抽出する。簡易文字画像特徴比較手段
(43)は2つの1文字分の簡易文字画像特徴の間の類
似度を求める簡易文字比較を行う。文字画像特徴記憶手
段(45)には、1文字分の文字画像から抽出された簡
易文字画像特徴と当該文字画像の文字コードとが対応づ
けて記憶されており、文字画像特徴記憶手段(45)に
記憶された簡易文字画像特徴と、新たに切り出された1
文字分の文字画像から抽出された簡易文字画像特徴と類
似度の比較を、簡易文字画像特徴比較手段(43)が行
う。
【0021】制御手段(47)は、文字認識手段により
認識された文字画像の認識結果の文字コードと当該文字
画像の簡易文字画像特徴とを対応づけて文字画像特徴記
憶手段に記憶する制御を行い、新たに切り出された1文
字分の文字画像に対して当該文字画像の簡易文字画像特
徴と、文字画像特徴記憶手段に記憶した簡易文字画像特
徴とを比較する制御を行い、また、比較結果により簡易
文字画像特徴の類似度が十分に大きい場合に、当該簡易
文字画像特徴と対応づけて記憶されている文字コードを
認識結果として読み出す制御を行う。このような動作に
より、文書認識装置は、文書画像中から文字画像を切り
出し、切り出された文字画像を認識し、文字コードを出
力する文字認識を行い、文字画像中の複数の文字を順次
に認識する文書認識の処理を行う。
【0022】すなわち、この発明の文書認識装置におい
ては、一般的な印刷文書の次のような特性を利用する。
個々の文書内では、同一の大きさ、同一のフォントの文
字が多く用いられること、個々の文書内で用いられる文
字には偏りがあることを利用する。文書内での同一の文
字は、同一の大きさ,同一のフォントの文字が多く用い
られることから、文字画像そのものも類似している。あ
る2つの文字画像が同一の文字を表す文字画像であるか
否かを判定するには、文字認識処理のような複雑な特徴
抽出処理や識別処理を行わなくても、文字画像そのもの
を用いた画像比較か、または極めて簡略に抽出された特
徴を用いた比較かを行えば十分である。
【0023】新たに切り出された文字画像が、以前に複
雑な認識処理を行った文字画像と同一の文字を表してい
るか否かは、簡単な画像比較を行うか、または極めて簡
略に抽出された特徴を用いた比較を行うことにより短時
間で判定できる。このため、一度、認識処理を行った文
字画像をそのまま、またはその文字画像から簡略に抽出
された特徴を、以前に複雑な認識処理を行った認識結果
として得られた文字コードと対応付けて記憶しておけ
ば、簡単な類似比較により新たに切り出された文字画像
が以前に認識処理を行った文字画像と十分に類似してい
ると判定できたとき、同一文字を表していると判断し
て、以前の認識結果である文字コードを新たに切り出さ
れた文字画像の認識結果として利用することができる。
この場合、複雑な特徴抽出処理や識別処理を行う文字認
識処理が省略できるため、文字画像が切り出されてから
文字コードが得られるまでの処理時間が大幅に削減でき
る。
【0024】このため、本発明の文書認識装置において
は、更に、1文字分の文字画像に文字コードを対応づけ
て記憶する文字画像記憶手段(14)と、2つの1文字
分の文字画像の間の類似度を求める文字画像比較手段
(12)とが備えられ、制御手段(16)は、文字認識
手段(13)により認識された1文字分の文字画像を認
識結果の文字コードと対応づけて文字画像記憶手段(1
4)に記憶する制御を行い、また、既に記憶されている
文字画像と新たに切り出された1文字分の画像とを文字
画像比較手段(12)により比較し、画像の類似度が十
分に大きい場合、当該文字画像に対応づけて記憶されて
いる文字コードを認識結果として読み出す制御を行う。
【0025】個々の文書内で用いられる文字には偏りが
有り、特定の文字が繰返し出現する可能性が高いので、
上述のような認識処理の制御を行うことにより、複雑な
認識処理を省略できる割合は極めて高くなる。
【0026】このため、ここでの制御手段(16)は、
文字認識手段(13)により認識された認識結果の確信
度が十分に大きいときに限って、文字画像記憶手段(1
4)に当該文字画像と認識結果の文字コードとを対応づ
けて記憶する。また、制御手段(16)は、1文字分の
文字画像と当該文字画像の認識結果の文字コードとを対
応づけて1記憶単位(15)として記憶し、記憶した各
々の記憶単位の文字画像と新たに切り出された1文字分
の画像とを順次に比較し、画像の類似度が十分に大きい
場合には、記憶した文字画像に対応付けられた文字コー
ドを認識結果として読み出し、画像の類似度が十分に大
きくない場合には、文字認識手段(13)により認識さ
れた認識結果の文字コードを出力する。
【0027】また、制御手段(16)は、1文字分の文
字画像と当該文字画像の認識結果の文字コードとを対応
づけて1記憶単位(15)として記憶し、記憶した各々
の記憶単位の文字画像と新たに切り出された1文字分の
文字画像とを順次に比較する際、画像の類似度が十分に
大きい場合には、記憶した文字画像に対応付けられた文
字コードを認識結果として読み出して認識処理を終了す
る。なお、画像の類似度が十分に大きくない場合には、
文字認識手段により認識された認識結果の文字コードを
出力し、当該文字画像と認識結果の文字コードとを対応
づけて新たな1記憶単位として記憶する。これにより、
複雑な認識処理を行なった新たな文字画像は、順次に認
識結果の該当する文字画像の文字コードと対応づけられ
て記憶される。
【0028】また、更に、認識対象となる文書におい
て、個々の文書で用いられる文字に偏りがあることを利
用するため、出現回数の多い文字について優先的に、文
字画像またはその文字画像から簡略に抽出された特徴を
記憶しておく。これにより、少ない記憶容量で認識処理
の省略回数をなるべく多くでき、全体としての認識速度
が向上する。
【0029】このため、1文字分の文字画像と当該文字
画像の認識結果の文字コードとを対応づけて記憶する記
憶単位(15)には、更に、当該記憶単位の文字コード
が読み出された頻度を登録する頻度情報を付加して記憶
する。そして、記憶単位が記憶最大容量を超える場合
に、それ迄の文字認識を行った各文字画像の頻度情報を
もとに削除する記憶単位を決定し、削除した記憶単位に
新たに文字画像と文字コードとを対応づけた記憶単位を
記憶する。これにより、文字画像を記憶するには大きな
記憶容量を必要とするが、記憶部が限られた記憶容量で
あっても、十分に認識速度を向上させることができる。
【0030】
【実施例】以下、図面を参照して本発明の一実施例を具
体的に説明する。図1は本発明の第1の実施例にかかる
文書認識装置の全体構成を示すブロック図であり、図2
は文字画像記憶部に記憶される各記憶単位の情報を説明
する説明図である。図1および図2において、11は文
字切り出し部、12は文字画像比較部、13は文字認識
部、14は文字画像記憶部、15は文字画像と文字コー
ドとを対応づけて記憶する記憶単位であり、各記憶単位
15には付加情報として更に頻度情報が記憶される。ま
た、16は文書認識処理の全体の制御を行う制御部であ
る。21は文字画像情報、22は文字コード情報、23
は頻度情報をそれぞれ示している。
【0031】このように構成される文書認識装置の全体
の動作を説明する。認識対象の文書画像が与えられる
と、文字切り出し部11は、文書画像から1文字分の画
像を切り出し、文書画像比較部12および文字認識部1
3に対して、切り出した1文字分の文字画像を供給す
る。文字認識部13は、1文字分の文字画像が入力され
ると、当該文字画像に対して特徴抽出処理,大分類用特
徴による大分類処理,詳細特徴による識別処理などの文
字認識処理を行う。この文字認識部13による文字認識
処理は、高精度に文字認識処理を行うため、複雑な特徴
抽出処理などを行う処理であり、処理時間が多くかかる
処理ではあるが、文字切り出し部11から1文字分の文
字画像が与えられると処理が起動され、精度の高い文字
認識の処理が開始される。
【0032】一方、文字画像記憶部14には、既に認識
された文字画像がその認識結果の文字コードと対応づけ
られて、1つの記憶単位15として記憶されている。文
字画像記憶部14に記憶された各記憶単位15の文字画
像は、文字画像比較部12に順次に供給され、文字画像
比較部12に別に文字切り出し部11から供給されてい
る新たに切り出された文字画像との比較が行われ、2つ
の文字画像の類似度が求められる。この文字画像比較部
12による類以度の比較判定結果は、文字認識部13に
おける文字認識の処理よりも十分に早く得られるので、
制御部16は比較判定結果の類似度に応じて、文字画像
記憶部14に記憶されている文字コードを読みだす制御
を行い、または読み出さずに文字認識部13から文字コ
ードを出力する制御を行う。
【0033】すなわち、文字画像比較結果の類似度が十
分に大きい場合には、文字画像記憶部14において該当
する文字画像に対応づけて記憶されている記憶単位から
該当の文字コードを読み出し、認識結果として出力す
る。そして、該文字画像に対する文字認識処理を終了す
るため文字認識部13に対して処理の停止指示を出す。
その後、次の文字画像に対する認識処理に進むため、制
御部16は、文字切り出し部11,文字画像比較部1
2,および文字認識部13に対して、次の文字画像の処
理を開始する旨の指示を送出する。
【0034】また、文字画像比較部12から得られる画
像の類似度が十分に大きくない場合には、制御部16
は、文字画像記憶部14の記憶単位から文字コードを読
み出すことは行なわず、文字認識部13の認識処理が終
了し、認識結果の文字コードが得られるまで待ち、文字
認識部13から出力される認識結果の文字コードを出力
する。文字認識部13の処理が終了してから、次の文字
画像の認識処理に進むため、制御部16は、文字切り出
し部11,文字画像比較部12,および文字認識部13
に対して、次の文字画像の処理を開始する旨の指示を送
出する。
【0035】この場合、制御部16は、次の文字画像の
処理を開始する前に文字認識部13から得られた文字コ
ードを、当該文字画像の1文字分の文字画像と共にその
認識結果の文字コードを対応づけて、新たな1記憶単位
15として、文字画像記憶部14に記憶する制御を行
う。これにより、複雑な認識処理を行った新たな文字画
像は、順次に認識結果の該当する文字画像の文字コード
と対応付けられて、文字画像記憶部14に記憶される。
【0036】このようにして文字画像記憶部14には、
図2に示すように、文字認識部13により複雑な認識処
理を行って得られた文字コードが当該文字画像の1文字
分の文字画像情報21と共にその認識結果の文字コード
情報22とを対応づけて1記憶単位15として順次に記
憶される。また、図2に示す文字コード情報23の括弧
が付けられた文字コードは、文字認識処理が行なわれた
際に出力された次候補の文字コードを参照情報として共
に記憶していることを示している。また、ここでの記憶
単位15に記憶する文字画像情報21と対応づけて記憶
する文字コード情報22は、切り出された1文字部分の
文字画像に対して、特に文字認識処理を行うことなく、
人間の判断によって、正しい認識結果の文字コード情報
22を対応づけて、予じめ記憶しておくようにしてもよ
い。
【0037】文字画像記憶部14に記憶する記憶単位1
5には、図2に示すように、更に、文書認識処理を行っ
ている際に、当該記憶単位15の文字コード情報22が
読み出された頻度を登録する頻度情報23を付加して記
憶する。例えば、この頻度情報23は、その記憶単位に
1文字分の画像と文字コードが新たに格納されたときに
正の数Pに設定される。また、文書画像中から1文字分
の文字画像が切り出され、切り出された1文字分の文字
画像と、その記憶単位の1文字分の文字画像とが十分に
類似していると判定されたときには、頻度情報に正の数
Qが加えられて更新される。また、文書画像中から1文
字分の画像が切り出される度に、すべての記憶単位の頻
度情報23に負の数Rが加えられる。これらの操作によ
り、それまでの出現回数が多く最近に出現した文字を表
す1文字分の画像ほど、頻度情報の値は大きくなる。
【0038】認識対象となる文書において、個々の文書
で用いられる文字に偏りがある場合には、頻度情報で示
めされる出現回数の多い文字について優先的に文字画像
と文字コードとを対応づけて記憶単位として記憶し、文
字画像比較部12で画像比較を優先的に行うようにする
ことにより、文字画像記憶部14は、少ない記憶容量で
文字認識処理の省略回数を多くできる。このため、文書
認識処理の全体としての処理速度が向上する。
【0039】このような各々の記憶部位に付加して記憶
する頻度情報の他の利用法として、文字画像記憶部14
において、既に記憶された記憶単位15が多く存在し、
新たな文字画像の記憶単位を記憶しようとすると、記憶
最大容量を超える場合に、それ迄の文字認識を行った各
文字画像の頻度情報をもとに削除する記憶単位を決定
し、削除した記憶単位に新たに文字画像と文字コードと
を対応づけた記憶単位を記憶するように制御を行う。こ
れにより、認識対象となる文書において、個々の文書で
用いられる文字に偏り特性を利用して、少ない記憶容量
で認識処理の省略回数をなるべく多くでき、全体として
認識速度が向上する。
【0040】図3は、文書認識装置の制御部により制御
される文書認識処理の処理フローを示すフローチャート
である。図3を参照して、文書認識処理を説明する。こ
こでの文書認識処理では、まず、ステップ31におい
て、文字切り出し部11を制御して文書画像から1文字
分の画像を切り出す。次に、ステップ32において、文
字画像比較部12および文字画像記憶部14を制御し、
文字画像記憶部14から読み出した文字画像と切り出さ
れた文字画像とを比較し、切り出された1文字分の画像
と十分に類似している1文字分の画像が文字画像記憶部
内に存在するか否かを判定する。十分に類似している1
文字分の画像が文字画像記憶部内に存在する場合には、
ステップ33の処理に進み、文字画像記憶部14の該当
の文字画像に対応づけて記憶されている文字コードを読
み出し出力する。そして、ステップ36に進み、ステッ
プ36において、文書画像中の全ての文字について処理
を行ったか否かを判定する。これは、例えば、文字切り
出し部41において未処理の文字画像があるか否かを、
未だ切り出されていない文字画像領域が残っている否か
で判定する。この判定で、文書画像中の全ての文字につ
いて処理を行っていないことが判定されると、ステッッ
プ31に戻り、ステップ31からの処理を繰り返し行
う。
【0041】一方、ステップ32において、切り出され
た1文字分の画像と十分に類似している1文字分の画像
が文字画像記憶部内に存在することが判定できないと、
ステップ34に進み、制御部16は文字認識部13を制
御して、文字画像の画像認識処理を行い、文字認識部1
3から出力される認識結果の文字コードを出力する。そ
して、ステップ35に進み、この場合に、制御部16は
文字画像記憶部14を制御して、認識処理を行った1文
字分の文字画像とその認識結果の文字コードとを1記憶
単位として文字画像記憶部に格納する。そして、ステッ
プ36に進み、前述のようなステップ36の処理を行
う。
【0042】このような処理を、文書画像中の各文字に
ついて繰り返し行い、文書画像中のすべての文字につい
ての処理が終了したときに、文書画像に対する処理を終
了する。また、前述したように、制御部16が文字画像
記憶部14を制御して、認識処理を行った1文字分の文
字画像とその認識結果の文字コードとを1記憶単位とし
て文字画像記憶部に格納する処理(ステップ35)にお
いては、文字画像記憶部14において、既に記憶された
記憶単位15が多く存在し、新たな文字画像の記憶単位
を記憶しようとすると、文字画像記憶部14の記憶最大
容量を越える場合、記憶単位15に付加して記憶されて
いる頻度情報23の値により出現頻度の少ない記憶単位
を削除し、新たに記憶する文字画像の記憶単位を記憶す
る記憶制御が行なわれる。
【0043】図4は文字画像記憶部の各々の記憶単位に
付加した頻度情報を用いて、記憶容量が最大容量を越え
る場合に削除する記憶単位を選択して新たな記憶単位を
記憶する記憶制御処理の一例を示すフローチャートであ
る。ここでは文字画像記憶部に記憶できる記憶単位の個
数はN個とする。この処理では、図4に示すように、ま
ず、ステップ41において、各々の記憶単位を指示する
インデックス変数iを1に初期設定する。次に、このイ
ンデックス変数iを用いて、ステップ42で記憶単位i
に文字画像と文字コードが格納されているか否かを判定
する。記憶単位iに文字画像と文字コードが格納されて
いる場合には、ステップ43に進み、次の記憶単位をポ
イントするため、インデックス変数iに1を加算して、
次の記憶単位を指示するように更新し、次のステップ4
4において、インデックス変数iが最大値Nを越えたか
否かを判定する。最大値Nを越えていない場合には、ス
テップ42に戻り、再び、記憶単位iに文字画像と文字
コードが格納されているか否かを判定する処理を行う。
この処理を繰り返し行い、ステップ44で順次に更新し
たインデックス変数iが最大値Nを越えたことが判定さ
れると、文字画像記憶部に記憶されている記憶単位は、
最大容量となっているので、新たに文字画像と文字コー
ドとの記憶単位を記憶することはできない。このため、
ステップ47に進み、頻度情報が最小である記憶単位j
に格納されている前の文字画像と文字コードとを削除
し、この記憶単位jに新たな文字画像と当該文字画像の
文字コードとを格納する。そして、次のステップ48に
おいて、この記憶単位jには頻度情報Pを設定して処理
を終了する。
【0044】一方、ステップ42の判定処理において、
記憶単位iに文字画像と文字コードが格納されていない
ことが判定できると、この記憶単位iは空状態である
で、新たに記憶する文字画像と文字コードとは当該記憶
単位iに記憶する。このため、ステップ45に進み、記
憶単位iに文字画像と当該文字画像の文字コードとを格
納する。そして、次のステップ46において、この記憶
単位iに頻度情報Pを設定して処理を終了する。
【0045】このような記憶単位の格納処理により、1
文字分の画像と文字コードを新たに格納しようとすると
き、既にすべての記憶単位に1文字分の画像と文字コー
ドが格納されている場合は、頻度情報が最小である記憶
単位に格納されている前の文字画像と文字コードとを削
除し、この記憶単位に新たな1文字分の画像と文字コー
ドを格納する記憶処理が行なわれる。このような記憶単
位の格納方法により、それまでの出現回数が多く最近に
出現した文字を表す文字画像ほど、優先されて文字画像
記憶部14に残る。文書中では、それまでの出現回数が
多く最近に出現した文字ほど以降に出現する確率は高い
ので、以降の文字を認識する際に利用できる確率の高い
文字画像と文字コードとの記憶単位を文字画像記憶部に
記憶しておくことができる。
【0046】ところで、文字画像比較部で行う文字画像
の比較は、先に文字認識を行った文字画像と新たに切り
出された文字画像との概略の一致比較を行えば良いの
で、文字画像から抽出された極めて簡略な文字画像の特
徴を用いた比較を行うようにしても、十分にその類似性
を判定できる。例えば、文字画像特徴として、文字画像
を粗いメッシュで区切り、各々のメッシュ領域の平均濃
度をその文字画像の特徴として、画像特徴の比較を行う
ようにしても良い。これにより、文字画像特徴の比較処
理を高速に行うことができ、全体としての文書認識処理
の処理速度を向上させることができる。このような簡易
な文字画像特徴を用いた文書認識装置の実施例を次に説
明する。
【0047】図5は、本発明の第2の実施例にかかる文
書認識装置の全体構成を示すブロック図であり、図6は
簡易文字画像特徴のメッシュ特徴を説明する図である。
図7文字画像特徴記憶部に記憶される各記憶単位の情報
を説明する説明図である。図5において、51は文字切
り出し部、52は簡易文字画像特徴抽出部、53は文字
画像比較部、54は文字認識部、55は文字画像特徴記
憶部である。56は簡易文字画像特徴と文字コードとを
対応づけて記憶する記憶単位であり、各記憶単位55に
は、更に付加情報として頻度情報が付加されて記憶され
る。また、57は簡易文字画像特徴を用いた文書認識処
理の全体の制御を行う制御部である。
【0048】このように構成される文書認識装置の全体
の動作を説明する。認識対象の文書画像が与えられる
と、文字切り出し部51は、文書画像から1文字分の画
像を切り出し、簡易文字画像特徴抽出部52および文字
認識部54に対して、切り出した1文字分の文字画像を
供給する。文字認識部54は、1文字分の文字画像が入
力されると、当該文字画像に対して特徴抽出処理,大分
類用特徴による大分類処理,詳細特徴による識別処理な
どの文字認識処理を開始する。文字認識部54による文
字認識処理は通常のパターン認識処理などの複雑な処理
であり、処理時間が多くかかる処理ではあるが、文字切
り出し部51から1文字分の文字画像が与えられると処
理が起動され、精度の高い文字認識の処理が開始され
る。
【0049】一方、簡易文字画像特徴抽出部52は、文
字切り出し部51から切り出された1文字分の文字画像
が供給されると、図6に示すようなメッシュ特徴の簡易
文字画像特徴を抽出し、簡易文字画像特徴比較部53に
送出する。また、文字画像特徴記憶部55には、既に認
識された文字画像から抽出された簡易文字画像特徴と当
該文字画像の認識結果の文字コードと対応づけられて、
1つの記憶単位56として記憶されており、各々の記憶
単位56には更に頻度情報が付加されて記憶されてい
る。文字画像特徴記憶部55に記憶された各々の記憶単
位56の簡易文字画像特徴は、簡易文字画像特徴比較部
53に順次に供給され、簡易文字画像特徴比較部53に
別に簡易文字画像特徴抽出部52から供給されている新
たに切り出された文字画像の簡易文字画像特徴との比較
が行われる。そして、簡易文字画像特徴比較部53から
2つの簡易文字画像特徴の類似度が求められる。この簡
易文字画像特徴比較部53による類以度の比較判定結果
は、文字認識部54における文字認識の処理よりも十分
に早く得られるので、制御部57は比較判定結果の類似
度に応じて、文字画像特徴記憶部55に記憶されている
文字コードを読みだす制御を行う。または、読み出さず
に文字認識部54からの文字コードを出力する制御を行
う。
【0050】簡易文字画像特徴の類似度が十分に大きい
場合、文字画像特徴記憶部45において該当の簡易文字
画像特徴に対応づけて記憶されている該当する文字コー
ドを読み出し、認識結果として出力する。そして、この
場合、当該文字画像に対する文字認識処理を終了するた
め、文字認識部54に対して処理の停止指示を出す。次
に、文字画像の認識処理に進むため、制御部57は、文
字切り出し部51,簡易文字画像特徴抽出部52,簡易
文字画像特徴比較部53に対して、次の文字画像の処理
を開始する旨の指示を送出する。また、文字認識部54
に対しても、次の文字画像認識処理を開始する旨の指示
を送出する。
【0051】また、簡易文字画像特徴の比較を行った結
果、その類似度が十分に大きくない場合には、制御部5
7は、文字画像特徴記憶部55の記憶単位56から文字
コードを読み出すことは行なわず、文字認識部54の認
識処理が終了し、認識結果の文字コードが得られるまで
待ち、文字認識部54から出力される認識結果の文字コ
ードを出力する。そして、文字認識部54の処理が終了
してから、次の文字画像の認識処理に進むため、制御部
57は、文字切り出し部51,簡易文字画像特徴抽出部
52,簡易文字画像特徴比較部53,および文字認識部
54に対して、次の文字画像の処理を開始する旨の指示
を送出する。
【0052】この場合、次の文字画像の処理を開始する
前に、制御部57は文字認識部54から得られた文字コ
ードを、当該文字画像から抽出した簡易文字画像特徴と
共にその認識結果の文字コードを対応づけて、新たな1
記憶単位56として、文字画像特徴記憶部55に記憶す
る制御を行う。これにより、高精度で長時間に渡る複雑
な認識処理を行って得た新たな文字画像の認識結果の文
字コードは、順次に該当の簡易文字画像特徴と対応付け
られ、文字画像特徴記憶部14に記憶される。
【職権訂正2】
【0053】ここで用いる簡易文字画像特徴は、例え
ば、図6(A)に示すように、切り出された1文字分の
文字画像61に対して、粗いメッシュで文字画像を分割
し、分割された各々のメッシュ領域部分の平均画像濃度
を特徴パラメータとする特徴データである。これによ
り、簡易文字画像特徴は、図6(B)に示すように、4
×4の特徴パラメータを有するメッシュ特徴62とされ
る。このようなメッシュ特徴62の簡易文字画像特徴
は、図7に示すように、文字画像特徴記憶部55におい
て、簡易文字画像特徴情報71とこれに対応する文字コ
ード情報72とが1記憶単位56として記憶される。こ
の記憶単位56には、更に、前述の実施例と同様に、制
御部57の制御による文書認識処理を行っている際に、
当該記憶単位56の文字コード情報72が読みだされた
頻度を記録する頻度情報73が付加される。
【0054】ここで記憶される頻度情報73は、また、
前述の実施例と同様に、認識対象となる文書において、
個々の文書で用いられる文字に偏りがある場合に、出現
回数の多い文字について優先的に、簡易文字画像特徴と
文字コードとを対応づけて記憶単位として記憶するため
に利用される。これにより、出現回数の多い文字につい
て優先的に簡易文字画像特徴比較部53で類似度の比較
を行うようになり、文字画像特徴記憶部55は、少ない
記憶容量で文字認識処理の省略回数を多くできる。この
場合、更に、文書認識処理の全体としての処理速度も向
上する。
【0055】また、このように各文字単位56に付加し
て記憶する頻度情報63の利用の方法として、簡易文字
画像特徴を記憶する文字画像特徴記憶部55において、
既に記憶された記憶単位56が多く存在し、新たな記憶
単位を記憶しようとすると、記憶最大容量を超える場合
に、それ迄の文書認識の文字認識を行った際に出現した
各文字画像の頻度情報をもとに削除する記憶単位を決定
し、削除した記憶単位に新たに文字画像と文字コードと
を対応づけた記憶単位を記憶するように制御を行う。こ
れにより、認識対象となる文書において、個々の文書で
用いられる文字に偏り特性を利用することができ、少な
い記憶容量で認識処理の省略回数をなるべく多くでき
る。
【0056】図8は、第2の実施例による文書認識装置
の制御部により制御される文書認識処理の処理フローを
示すフローチャートである。図8を参照して、文書認識
処理を説明する。ここでの文書認識処理では、まず、ス
テップ81において、文字切り出し部51を制御して文
書画像から1文字分の画像を切り出す。次に、ステップ
82において、簡易文字画像特徴抽出部52を制御し
て、切り出された1文字分の画像から簡易文字画像特徴
を抽出する。次に、ステップ83に進み、簡易文字画像
特徴比較部53および文字画像特徴記憶部55を制御
し、文字画像特徴記憶部55から読み出した簡易文字画
像特徴と切り出された文字画像から抽出された簡易文字
画像特徴とを比較し、抽出された簡易文字画像特徴と十
分に類似している簡易文字画像特徴が文字画像特徴記憶
部内に存在するか否かを判定する。十分に類似している
簡易文字画像特徴が文字画像特徴記憶部内に存在する場
合は、ステップ84の処理に進み、文字画像特徴記憶部
55の該当の簡易文字画像特徴に対応づけて記憶されて
いる文字コードを読み出し出力する。そして、ステップ
87に進み、ステップ87において、文書画像中の全て
の文字について処理を行ったか否かを判定する。これ
は、例えば、文字切り出し部51において未処理の文字
画像があるか否かを、未だ切り出されていない文字画像
領域が残っている否かで判定する。この判定で、文書画
像中の全ての文字について処理を行っていないことが判
定されると、ステッップ81に戻り、ステップ81から
の処理を繰り返し行う。
【0057】一方、ステップ83の判定処理において、
抽出された簡易文字画像特徴と十分類似している簡易文
字画像特徴が文字画像特徴記憶部内に存在することが判
定できないと、ステップ85に進み、制御部57は文字
認識部54を制御して、文字画像の画像認識処理を行
い、文字認識部54から出力される認識結果の文字コー
ドを出力する。そして、ステップ86に進み、この場合
に、制御部57は文字画像特徴記憶部55を制御して、
認識処理を行った1文字分の文字画像の認識結果の文字
コードと、当該文字画像から抽出した簡易文字画像特徴
とを1記憶単位として新たに文字画像特徴記憶部55に
格納する。そして、ステップ87に進み、前述のような
ステップ87で、文書画像中の全ての文字について処理
を行ったか否かを判定する。文書画像中の全ての文字に
ついて処理を行っていないことが判定されると、ステッ
ップ81に戻り、ステップ81からの処理を繰り返し行
う。
【0058】このような処理を、文書画像中の各文字に
ついて繰り返し行い、文書画像中のすべての文字につい
ての処理が終了したときに、文書画像に対する処理を終
了する。この第2の実施例の文書画像認識装置では、第
1の実施例の1文字分の文字画像に替えて、文字画像か
ら抽出された簡易文字画像特徴を用いる。この簡易文字
画像特徴を対応する文字コードと共に記憶し、簡易文字
画像特徴比較を行うようにしている。ここでは簡易文字
画像特徴としてメッシュ特徴を用いるようにしている
が、他の特徴を用いるようにしてもよい。この簡易文字
画像特徴は、既に処理済の1文字分の文字画像と新たに
切り出された文字画像との一致比較を高速に行えればよ
いので、例えば、文字画像から矩形を抽出し、その矩形
数を簡易文字画像特徴として用い、その矩形数を比較す
るようにしてもよい。また、その他の特徴を利用するよ
うにしてもよい。
【0059】次に本発明の実施例について各部の変形例
について説明する。本発明の特徴にしたがって、既に処
理済の文字認識結果を利用しようとするとき、以前の認
識結果が誤っていると、その誤りが繰り返されることに
なる。これを避けるために、1文字分の文字画像を認識
したときの確信度を定義し、これが予め定められた閾値
よりも大きい場合にのみ、文字画像記憶部(または簡易
文字特徴記憶部)に文字画像(または簡易文字画像特
徴)を記憶するようにする。
【0060】このように確信度の定義としては、例え
ば、入力された1文字分の文字画像から抽出された特徴
と認識候補の標準特徴との距離の逆数を用いる。この確
信度が十分に大きいことは、入力された1文字分の画像
から抽出された特徴と認識候補の標準特徴とが十分に近
いことを意味しており、認識結果が誤りである確率は小
さくなる。また、別の確信度の定義として、特徴間の類
似度を用いるようにしてもよく、その他の確信度の定義
として、第1候補までの距離に対する第2候補までの距
離の比などを用いるようにしても良い。
【0061】また、前述した各実施例の説明では、文字
認識部が行う文字認識処理の細詳内容は、本発明の本質
的な部分に関係しないので、具体的に述べなかったが、
これは従来から開発されている認識精度の高い文字認識
処理を用いればよく、文字画像を入力し認識結果として
文字コードを出力する認識処理であれば、どのような認
識処理でも適用可能である。また、この文字認識処理
は、必ずしも1文字分の文字画像を認識する処理である
必要はなく、複数の文字を同時に認識する処理でも構わ
ない。この場合、文字認識部で出力され、文字画像記憶
部または簡易文字画像特徴記憶部に格納される文字コー
ドは、1文字分の文字画像に対して複数でも構わない。
1文字分の文字画像に対して複数の文字コードを対応さ
せて記憶し、複数の文字コードから1つの文字コードを
選択する処理は、順次に文字認識を行っている文書の前
後関係の文字コードから、単語,文節などの言語の文法
的性質を利用して判別するようにしてもよい。また、文
字コードはASCIIコード,JISコード等の他、内
部的に定義されたコードであっても良い。
【0062】また、文字画像または簡易文字画像特徴を
記憶する記憶単位に付加する頻度情報は、前述の説明し
たようなものに限定されるものでなく、以前の各文字の
出現状態から以後の各文字の出現確率を予測するような
数値を表わす他の求め方でも構わない。
【0063】また、本実施例では、特に文書認識を行う
場合の文字を認識対象として説明したが、複雑な特徴抽
出や識別処理を必要とし、同じパターンが複数回出現す
るようなパターン認識処理に対して、同様に本発明が適
用可能である。
【0064】以上、本発明を複数の実施例にもとづき具
体的に説明したが、本発明は、このように実施例に限定
されるものではなく、その要旨を逸脱しない範囲におい
て種々変更可能であることは言うまでもない。
【0065】
【発明の効果】以上説明したように、本発明の文書認識
装置によれば、文字認識部により認識された1文字分の
文字画像は、認識結果の文字コードと対応づけて記憶さ
れ、記憶された文字画像と新たに切り出された1文字分
の画像とが比較され、この比較の結果、画像の類似度が
十分に大きい場合に、当該文字画像に対応づけて記憶さ
れている文字コードを認識結果として読み出す制御が行
なわれる。このため、特に、既に認識処理が行なわれた
文字画像が再出現した場合については、簡単な文字画像
の類似度の比較により、複雑な文字認識の処理を行うこ
となく、認識結果の文字コードの読み出し処理のみで高
速に得られる。この場合にも、通常の認識処理を行う場
合と同様な精度によって、文字認識結果の文字コードが
得られる。したがって、文書認識装置は全体として、認
識精度を低下させることなく、文書認識処理の認識速度
を向上させることができる。
【図面の簡単な説明】
【図1】 図1は本発明の第1の実施例にかかる文書認
識装置の全体構成を示すブロック図、
【図2】 図2は文字画像記憶部に記憶される各記憶単
位の情報を説明する説明図、
【図3】 図3は文書認識装置の制御部により制御され
る文書認識処理の処理フローを示すフローチャート、
【図4】 図4は文字画像記憶部の各々の記憶単位に付
加した頻度情報を用いて、記憶容量が最大容量を越える
場合に削除する記憶単位を選択して新たな記憶単位を記
憶する記憶制御処理の一例を示すフローチャート、
【図5】 図5は本発明の第2の実施例にかかる文書認
識装置の全体構成を示すブロック図、
【図6】 図6は簡易文字画像特徴のメッシュ特徴を説
明する図、
【図7】 図7文字画像特徴記憶部に記憶される各記憶
単位の情報を説明する説明図、
【図8】 図8は第2の実施例による文書認識装置の制
御部により制御される文書認識処理の処理フローを示す
フローチャート、
【図9】 文書認識装置の全体の構成を説明するブロッ
ク図、
【図10】 文字認識部の各部の詳細な構成を説明する
ブロック図である。
【符号の説明】
11…文字切り出し部、12…文字画像比較部、13…
文字認識部、14…文字画像記憶部、15…記憶単位、
16…制御部、21…文字画像情報、22…文字コード
情報、23…頻度情報、51…文字切り出し部、52…
簡易文字画像特徴抽出部、53…文字画像比較部、54
…文字認識部、55…文字画像特徴記憶部、56…記憶
単位、57…制御部、61…1文字分の文字画像、62
…メッシュ特徴、71…文字画像情報、72…文字コー
ド情報、73…頻度情報。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 文書画像中から文字画像を切り出し、切
    り出された文字画像を認識し、文字コードを出力する文
    字認識を行い、文字画像中の複数の文字を順次に認識す
    る文書認識装置であって、 文書画像中から1文字分の画像を切り出す文字切り出し
    手段と、 切り出された1文字分の画像を認識し文字コードを出力
    する文字認識手段と、 文字認識手段により認識された1文字分の文字画像を認
    識結果の文字コードと対応づけて記憶し、記憶した文字
    画像と新たに切り出された1文字分の画像とを比較し、
    画像の類似度が十分に大きい場合に、当該文字画像に対
    応づけて記憶されている文字コードを認識結果として読
    み出す制御を行う制御手段とを有することを特徴とする
    文書認識装置。
  2. 【請求項2】 請求項1に記載の文書認識装置におい
    て、更に、 1文字分の文字画像に文字コードを対応づけて記憶する
    文字画像記憶手段と、 2つの1文字分の文字画像の間の類似度を求める文字画
    像比較手段とを備え、 制御手段が、文字認識手段により認識された1文字分の
    文字画像を認識結果の文字コードと対応づけて文字画像
    記憶手段に記憶し、既に記憶されている文字画像と新た
    に切り出された1文字分の画像とを文字画像比較手段に
    より比較し、画像の類似度が十分に大きい場合に、当該
    文字画像に対応づけて記憶されている文字コードを認識
    結果として読み出す制御を行うことを特徴とする文書認
    識装置。
  3. 【請求項3】 請求項2に記載の文書認識装置におい
    て、制御手段は、文字認識手段により認識された認識結
    果の確信度が十分に大きいときに限って、文字画像記憶
    手段に当該文字画像と認識結果の文字コードとを対応づ
    けて記憶することを特徴とする文書認識装置。
  4. 【請求項4】 請求項1に記載の文書認識装置におい
    て、制御手段は、1文字分の文字画像と当該文字画像の
    認識結果の文字コードとを対応づけて1記憶単位として
    記憶し、記憶した各々の記憶単位の文字画像と新たに切
    り出された1文字分の画像とを順次に比較し、画像の類
    似度が十分に大きい場合には、記憶した文字画像に対応
    付けられた文字コードを認識結果として読み出し、画像
    の類似度が十分に大きくない場合には、文字認識手段に
    より認識された認識結果の文字コードを出力することを
    特徴とする文書認識装置。
  5. 【請求項5】 請求項1に記載の文書認識装置におい
    て、制御手段は、1文字分の文字画像と当該文字画像の
    認識結果の文字コードとを対応づけて1記憶単位として
    記憶し、記憶した各々の記憶単位の文字画像と新たに切
    り出された1文字分の画像とを順次に比較し、画像の類
    似度が十分に大きい場合には、記憶した文字画像に対応
    付けられた文字コードを認識結果として読み出し、画像
    の類似度が十分に大きくない場合には、文字認識手段に
    より認識された認識結果の文字コードを出力し、当該文
    字画像と認識結果の文字コードとを対応づけて新たな1
    記憶単位として記憶することを特徴とする文書認識装
    置。
  6. 【請求項6】 請求項5に記載された文書認識装置にお
    いて、1文字分の文字画像と当該文字画像の認識結果の
    文字コードとを対応づけて記憶する記憶単位には、更
    に、当該記憶単位の文字コードが読み出された頻度を登
    録する頻度情報を付加して記憶し、記憶単位が記憶最大
    容量を超える場合に、それ迄の文字認識を行った各文字
    画像の頻度情報をもとに削除する記憶単位を決定し、削
    除した記憶単位に新たに文字画像と文字コードとを対応
    づけた記憶単位を記憶することを特徴とする文書認識装
    置。
  7. 【請求項7】 文書画像中から文字画像を切り出し、切
    り出された文字画像を認識し、文字コードを出力する文
    字認識を行い、文字画像中の複数の文字を順次に認識す
    る文書認識装置であって、 文書画像中から1文字の画像を切り出す文字切り出し手
    段と、 切り出された1文字分の画像を認識し文字コードを出力
    する文字認識手段と、 切り出された文字画像から簡易文字画像特徴を抽出する
    簡易文字画像特徴抽出手段と、 1文字分の文字画像から抽出された簡易文字画像特徴と
    文字コードと対応づけて記憶する文字画像特徴記憶手段
    と、 2つの1文字分の簡易文字画像特徴の間の類似度を求め
    る簡易文字画像特徴比較手段と、 文字認識手段により認識された文字画像の認識結果の文
    字コードと当該文字画像の簡易文字画像特徴とを対応づ
    けて文字画像特徴記憶手段に記憶し、新たに切り出され
    た1文字分の文字画像に対して当該文字画像の簡易文字
    画像特徴と、文字画像特徴記憶手段に記憶した簡易文字
    画像特徴とを比較し、比較結果により簡易文字画像特徴
    の類似度が十分に大きい場合に、当該簡易文字画像特徴
    と対応づけて記憶されている文字コードを認識結果とし
    て読み出す制御を行う制御手段とを有することを特徴と
    する文書認識装置。
  8. 【請求項8】 請求項7に記載の文書認識装置におい
    て、制御手段は、文字認識手段により認識された認識結
    果の確信度が十分に大きいときに限って、文字画像特徴
    記憶手段に当該文字画像の簡易文字画像特徴を当該文字
    画像の認識結果の文字コードとを対応づけて記憶するこ
    とを特徴とする文書認識装置。
  9. 【請求項9】 請求項7に記載の文書認識装置におい
    て、制御手段は、1文字分の簡易文字画像特徴と該当す
    る文字画像の認識結果の文字コードとを対応づけて1記
    憶単位として文字画像特徴記憶手段に記憶し、記憶した
    各々の記憶単位の簡易文字画像特徴と新たに切り出され
    た1文字分の簡易文字画像特徴とを順次に比較し、簡易
    文字画像特徴の類似度が十分に大きい場合には、記憶し
    た簡易文字画像特徴に対応付けられた文字コードを認識
    結果として読み出し、簡易文字画像特徴の類似度が十分
    に大きくない場合には、文字認識手段により認識された
    認識結果の文字コードを出力し、当該簡易文字画像特徴
    と認識結果の文字コードとを対応づけて新たな1記憶単
    位として記憶することを特徴とする文書認識装置。
  10. 【請求項10】 請求項7に記載された文書認識装置に
    おいて、1文字分の簡易文字画像特徴と該当する文字画
    像の認識結果の文字コードとを対応づけて記憶する記憶
    単位には、更に、当該記憶単位の文字コードが読み出さ
    れた頻度を登録する頻度情報を付加して記憶し、記憶単
    位が記憶最大容量を超える場合に、それ迄の文字認識を
    行った各文字画像の頻度情報をもとに削除する記憶単位
    を決定し、削除した記憶単位に新たに簡易文字画像特徴
    と文字コードとを対応づけた記憶単位を記憶することを
    特徴とする文書認識装置。
JP3195100A 1991-07-10 1991-07-10 文書認識装置 Expired - Fee Related JPH0772906B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP3195100A JPH0772906B2 (ja) 1991-07-10 1991-07-10 文書認識装置
US07/910,377 US5621818A (en) 1991-07-10 1992-07-09 Document recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3195100A JPH0772906B2 (ja) 1991-07-10 1991-07-10 文書認識装置

Publications (2)

Publication Number Publication Date
JPH0520500A JPH0520500A (ja) 1993-01-29
JPH0772906B2 true JPH0772906B2 (ja) 1995-08-02

Family

ID=16335524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3195100A Expired - Fee Related JPH0772906B2 (ja) 1991-07-10 1991-07-10 文書認識装置

Country Status (2)

Country Link
US (1) US5621818A (ja)
JP (1) JPH0772906B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08194780A (ja) * 1994-11-18 1996-07-30 Ricoh Co Ltd 特徴抽出方法
US6104833A (en) 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
US6188790B1 (en) * 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
US6044375A (en) * 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
JP2000040123A (ja) * 1998-07-23 2000-02-08 Ricoh Co Ltd 文字認識方法及び文字認識プログラムを記録した媒体
US6587577B1 (en) 1999-04-21 2003-07-01 International Business Machines Corporation On-line signature verification
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US7400748B2 (en) * 2003-12-16 2008-07-15 Xerox Corporation Method for assisting visually impaired users of a scanning device
CN101014998B (zh) 2004-07-14 2011-02-23 皇家飞利浦电子股份有限公司 音频通道转换
JP2006092027A (ja) * 2004-09-21 2006-04-06 Fuji Xerox Co Ltd 文字認識装置、文字認識方法および文字認識プログラム
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム
JP2008083892A (ja) * 2006-09-27 2008-04-10 Fujifilm Corp 画像評価装置および方法並びにプログラム
JP5041775B2 (ja) * 2006-09-28 2012-10-03 沖電気工業株式会社 文字切出方法及び文字認識装置
US7826464B2 (en) * 2007-01-10 2010-11-02 Mikhail Fedorov Communication system
US8379027B2 (en) * 2007-06-20 2013-02-19 Red Hat, Inc. Rendering engine test system
JP4973536B2 (ja) * 2008-02-19 2012-07-11 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2019215747A (ja) 2018-06-13 2019-12-19 富士ゼロックス株式会社 情報処理装置及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5619656A (en) * 1979-07-26 1981-02-24 Mitsubishi Electric Corp Semiconductor ic
US4410916A (en) * 1979-08-24 1983-10-18 Compression Labs, Inc. Dual mode facsimile coding system and method
JPS5769480A (en) * 1980-10-15 1982-04-28 Omron Tateisi Electronics Co Seal-impression collation system
JPS5975375A (ja) * 1982-10-21 1984-04-28 Sumitomo Electric Ind Ltd 文字認識装置
US4589142A (en) * 1983-12-28 1986-05-13 International Business Machines Corp. (Ibm) Method and apparatus for character recognition based upon the frequency of occurrence of said characters
JP2607457B2 (ja) * 1984-09-17 1997-05-07 株式会社東芝 パターン認識装置
JPH0743755B2 (ja) * 1985-10-09 1995-05-15 日本電気株式会社 文字認識装置
US4724542A (en) * 1986-01-22 1988-02-09 International Business Machines Corporation Automatic reference adaptation during dynamic signature verification
JPH0715703B2 (ja) * 1986-05-16 1995-02-22 富士電機株式会社 文字読取方式
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US4987603A (en) * 1988-09-22 1991-01-22 Glory Kogyo Kabushiki Kaisha Recognition method for letter patterns
JPH02268388A (ja) * 1989-04-10 1990-11-02 Hitachi Ltd 文字認識方法
JPH0482473A (ja) * 1990-07-25 1992-03-16 Konica Corp データの登録方法及びその検索方法
US5475770A (en) * 1990-09-24 1995-12-12 Cgk Computer Gesellschaft Konstanz Mbh Parallel recognition of document images with a time-elapsed processing abortion to improve overall throughput
US5146512A (en) * 1991-02-14 1992-09-08 Recognition Equipment Incorporated Method and apparatus for utilizing multiple data fields for character recognition
US5111512A (en) * 1991-05-14 1992-05-05 At&T Bell Laboratories Method for signature verification
US5317652A (en) * 1991-06-05 1994-05-31 Phoenix Imaging Rotation and position invariant optical character recognition

Also Published As

Publication number Publication date
JPH0520500A (ja) 1993-01-29
US5621818A (en) 1997-04-15

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
JP2973944B2 (ja) 文書処理装置および文書処理方法
JPH0772906B2 (ja) 文書認識装置
US7162086B2 (en) Character recognition apparatus and method
JP3452774B2 (ja) 文字認識方法
JPS63155386A (ja) 帳票デ−タ読取装置
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JPH0682403B2 (ja) 光学式文字読取装置
RU2166207C2 (ru) Способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения
JPH06215184A (ja) 抽出領域のラベリング装置
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JPH06223121A (ja) 情報検索装置
JP2746345B2 (ja) 文字認識の後処理方法
JP2982244B2 (ja) 文字認識後処理方式
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JP2003099709A (ja) 誤読文字修正方法及び光学的文字認識装置
JPH0589279A (ja) 文字認識装置
JPH07282198A (ja) 活字文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPS6143383A (ja) 文字認識装置
JPH06337966A (ja) 文字認識装置
JPH0484380A (ja) 文字認識装置
JPS60138689A (ja) 文字認識方法
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08185484A (ja) 文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees