JPH09326012A - 文字認識装置および文字認識方法 - Google Patents
文字認識装置および文字認識方法Info
- Publication number
- JPH09326012A JPH09326012A JP8142790A JP14279096A JPH09326012A JP H09326012 A JPH09326012 A JP H09326012A JP 8142790 A JP8142790 A JP 8142790A JP 14279096 A JP14279096 A JP 14279096A JP H09326012 A JPH09326012 A JP H09326012A
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- pattern
- candidates
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】 認識精度が高く、かつ、高速で処理できる文
字認識装置の提供。 【解決手段】 辞書マスク毎に識別子が設定された標準
文字パタンが格納された辞書部18を具え、特徴抽出部
16で抽出された特徴と標準文字パタンとを比較して文
字パタンの認識文字候補を順位を付けて設定する認識部
20を具え、単語照合辞書部24に格納されている単語
と認識文字候補からなる文字列とを照合して、照合の順
位が最も高い認識単語を認識結果として選択する単語照
合部26を具えている。この単語照合部26は、互いに
共通の識別子が付加された認識文字候補のみからなる文
字列を選択して単語照合を行う。
字認識装置の提供。 【解決手段】 辞書マスク毎に識別子が設定された標準
文字パタンが格納された辞書部18を具え、特徴抽出部
16で抽出された特徴と標準文字パタンとを比較して文
字パタンの認識文字候補を順位を付けて設定する認識部
20を具え、単語照合辞書部24に格納されている単語
と認識文字候補からなる文字列とを照合して、照合の順
位が最も高い認識単語を認識結果として選択する単語照
合部26を具えている。この単語照合部26は、互いに
共通の識別子が付加された認識文字候補のみからなる文
字列を選択して単語照合を行う。
Description
【0001】
【発明の属する技術分野】この発明は、読取り対象の文
書や帳票といった媒体上の文字パタンを認識する文字認
識装置および文字認識方法に関する。
書や帳票といった媒体上の文字パタンを認識する文字認
識装置および文字認識方法に関する。
【0002】
【従来の技術】従来の文字認識方法の一例が、文献:
「昭和57年度電子通信学会総合全国大会予稿集、5−
326」に「1341 手書漢字認識における単語情報
の利用」として記載されている。この文献に記載の文字
認識方法によれば、認識精度の向上のため、漢字認識の
後処理として、文脈情報としての単語情報を利用してい
る。単語情報の利用にあたっては、先ず、個々の文字パ
タンの特徴を抽出し、得られた特徴と、予め用意された
標準文字パタンとの照合を行って複数の認識文字候補を
順位付けて挙げる。次に、各文字パタン毎に1文字ずつ
選ばれた認識文字候補を組合せた種々の文字列からなる
単語の候補と、照合辞書中の認識単語の候補とを照合す
る。そして、単語の候補を構成する各認識文字の候補の
合計の順位が最も高くなる認識単語の候補を認識結果と
して出力する。このように、個々の文字認識を行った後
に、単語情報を利用した後処理を行うことによって、文
字の認識精度を向上させている。
「昭和57年度電子通信学会総合全国大会予稿集、5−
326」に「1341 手書漢字認識における単語情報
の利用」として記載されている。この文献に記載の文字
認識方法によれば、認識精度の向上のため、漢字認識の
後処理として、文脈情報としての単語情報を利用してい
る。単語情報の利用にあたっては、先ず、個々の文字パ
タンの特徴を抽出し、得られた特徴と、予め用意された
標準文字パタンとの照合を行って複数の認識文字候補を
順位付けて挙げる。次に、各文字パタン毎に1文字ずつ
選ばれた認識文字候補を組合せた種々の文字列からなる
単語の候補と、照合辞書中の認識単語の候補とを照合す
る。そして、単語の候補を構成する各認識文字の候補の
合計の順位が最も高くなる認識単語の候補を認識結果と
して出力する。このように、個々の文字認識を行った後
に、単語情報を利用した後処理を行うことによって、文
字の認識精度を向上させている。
【0003】
【発明が解決しようとする課題】一般に、文字認識にあ
たって照合される標準文字パタンの辞書マスクは、文字
の種類によって異なる。例えば、手書文字と活字とが混
在する媒体の文字認識を行う場合には、手書文字用の標
準文字パタンと活字用の標準文字パタンとが用いられ
る。さらに、活字用の標準文字パタンは、通常、活字の
字体によっても異なる。その結果、複数の標準文字パタ
ンを用いて文字認識を行うと、各文字の認識文字の複数
の候補には、複数の標準文字パタンに基づくものが混在
することになる。
たって照合される標準文字パタンの辞書マスクは、文字
の種類によって異なる。例えば、手書文字と活字とが混
在する媒体の文字認識を行う場合には、手書文字用の標
準文字パタンと活字用の標準文字パタンとが用いられ
る。さらに、活字用の標準文字パタンは、通常、活字の
字体によっても異なる。その結果、複数の標準文字パタ
ンを用いて文字認識を行うと、各文字の認識文字の複数
の候補には、複数の標準文字パタンに基づくものが混在
することになる。
【0004】ところで、手書きの文字パタンに対して
は、通常は、手書用の標準文字パタンの照合性が最も高
い。しかし、文字パタンにノイズやゴミがついた場合、
あるいは文字パタンに潰れやかすれが生じた場合には、
必ずしも手書文字用の標準文字パタンの照合性が高いと
は限らない。そのため、例えば、手書文字パタンである
にも関わらず、手書文字用の標準文字パタンの照合性よ
りも活字用の標準パタンの照合性が高くなる場合もあり
得る。そして、照合に使われるべき本来の標準文字パタ
ン以外の標準文字パタンとの照合が行われると、文字パ
タンの誤読や不読が起こる可能性が高い。
は、通常は、手書用の標準文字パタンの照合性が最も高
い。しかし、文字パタンにノイズやゴミがついた場合、
あるいは文字パタンに潰れやかすれが生じた場合には、
必ずしも手書文字用の標準文字パタンの照合性が高いと
は限らない。そのため、例えば、手書文字パタンである
にも関わらず、手書文字用の標準文字パタンの照合性よ
りも活字用の標準パタンの照合性が高くなる場合もあり
得る。そして、照合に使われるべき本来の標準文字パタ
ン以外の標準文字パタンとの照合が行われると、文字パ
タンの誤読や不読が起こる可能性が高い。
【0005】その結果、複数の標準文字パタンに基づい
てそれぞれ求められた認識文字候補を用いて、前述の単
語情報を用いた後処理を行った場合に、単語の候補を構
成する各認識文字候補の合計の順位が最も高い認識単語
の候補が、認識対象の文字パタンと必ずしも一致しない
場合が発生することがある。このため、後処理を行って
も間違った認識結果が出力されてしまうことがあるとい
う問題点がある。
てそれぞれ求められた認識文字候補を用いて、前述の単
語情報を用いた後処理を行った場合に、単語の候補を構
成する各認識文字候補の合計の順位が最も高い認識単語
の候補が、認識対象の文字パタンと必ずしも一致しない
場合が発生することがある。このため、後処理を行って
も間違った認識結果が出力されてしまうことがあるとい
う問題点がある。
【0006】さらに、複数の標準文字パタンからの認識
文字候補の全ての組合せと、認識辞書の認識単語の候補
とを照合すると、文字認識に時間がかかるという問題点
があった。
文字候補の全ての組合せと、認識辞書の認識単語の候補
とを照合すると、文字認識に時間がかかるという問題点
があった。
【0007】このため、認識精度が高く、かつ、高速で
処理できる文字認識装置および文字認識方法の実現が望
まれていた。
処理できる文字認識装置および文字認識方法の実現が望
まれていた。
【0008】
(第1の発明)この出願に係る第1の発明の文字認識装
置によれば、文字パタンの特徴を抽出して、抽出された
この特徴と標準文字パタンの特徴との照合を行って、こ
の文字パタンに対する認識文字候補を順位をつけて出力
する文字パタン認識部と、この文字パタン認識部から出
力された認識文字候補からなる文字列について、単語照
合を行って、照合順位の最も高い文字列を認識結果とし
て出力する単語照合部とを具えた文字認識装置におい
て、標準文字パタンの辞書マスク毎に識別子が設定され
ており、単語照合部は、互いに共通の識別子が付加され
た認識文字候補のみからなる文字列を選択して単語照合
を行う単語照合部であることを特徴とする。
置によれば、文字パタンの特徴を抽出して、抽出された
この特徴と標準文字パタンの特徴との照合を行って、こ
の文字パタンに対する認識文字候補を順位をつけて出力
する文字パタン認識部と、この文字パタン認識部から出
力された認識文字候補からなる文字列について、単語照
合を行って、照合順位の最も高い文字列を認識結果とし
て出力する単語照合部とを具えた文字認識装置におい
て、標準文字パタンの辞書マスク毎に識別子が設定され
ており、単語照合部は、互いに共通の識別子が付加され
た認識文字候補のみからなる文字列を選択して単語照合
を行う単語照合部であることを特徴とする。
【0009】このように、識別子を用いて単語照合の対
象となる文字列を限定するため、誤読、不読を低減し
て、認識精度の向上を図ることができ、かつ、高速で処
理することが可能となる。
象となる文字列を限定するため、誤読、不読を低減し
て、認識精度の向上を図ることができ、かつ、高速で処
理することが可能となる。
【0010】また、第1の発明の文字認識装置におい
て、好ましくは、出力された認識結果を表示する表示部
であって、特定の識別子が付された認識文字候補のみか
らなる文字列の認識結果を、この識別子が付されていな
い認識文字候補のみからなる文字列の認識結果と区別し
て表示する表示部を具えてなると良い。
て、好ましくは、出力された認識結果を表示する表示部
であって、特定の識別子が付された認識文字候補のみか
らなる文字列の認識結果を、この識別子が付されていな
い認識文字候補のみからなる文字列の認識結果と区別し
て表示する表示部を具えてなると良い。
【0011】認識結果を識別子に基づいて区別して表示
すれば、オペレータは、活字に比べて一般に認識精度が
低い手書きの文字パタンの認識結果を重点的に確認する
ことができる。このため、認識結果の確認、修正作業を
迅速かつ正確に行うことができる。
すれば、オペレータは、活字に比べて一般に認識精度が
低い手書きの文字パタンの認識結果を重点的に確認する
ことができる。このため、認識結果の確認、修正作業を
迅速かつ正確に行うことができる。
【0012】また、第1の発明の文字認識装置におい
て、好ましくは、入力媒体が、認識結果の文字列を構成
する認識文字候補に付された識別子に応じて分類されて
保管されるスタッカを具えてなると良い。
て、好ましくは、入力媒体が、認識結果の文字列を構成
する認識文字候補に付された識別子に応じて分類されて
保管されるスタッカを具えてなると良い。
【0013】入力媒体を、識別子に基づいて分類して保
管するスタッカを具えれば、認識結果の確認、修正作業
を、特定のスタッカに保管された、特定の識別子によっ
て分類された入力媒体のみを参照して行うことができ
る。その結果、活字に比べて一般に認識精度が低い手書
きの文字パタンの認識結果を重点的に確認することがで
きる。このため、認識結果の確認、修正作業を迅速かつ
正確に行うことができる。
管するスタッカを具えれば、認識結果の確認、修正作業
を、特定のスタッカに保管された、特定の識別子によっ
て分類された入力媒体のみを参照して行うことができ
る。その結果、活字に比べて一般に認識精度が低い手書
きの文字パタンの認識結果を重点的に確認することがで
きる。このため、認識結果の確認、修正作業を迅速かつ
正確に行うことができる。
【0014】(第2の発明)また、この出願に係る第2
の発明の文字認識方法によれば、文字パタンの特徴を抽
出し、抽出されたこの特徴と標準文字パタンの特徴との
照合を行って、この文字パタンに対する認識文字候補を
順位をつけて設定し、認識文字候補からなる文字列につ
いて単語照合を行って、照合順位の最も高い文字列を認
識結果として選択して文字認識を行うにあたり、認識文
字候補に、標準文字パタンの辞書マスク毎に識別子を付
し、単語照合にあたり、互いに共通の識別子が付加され
た認識文字候補のみからなる文字列を選択して単語照合
を行うことを特徴とする。
の発明の文字認識方法によれば、文字パタンの特徴を抽
出し、抽出されたこの特徴と標準文字パタンの特徴との
照合を行って、この文字パタンに対する認識文字候補を
順位をつけて設定し、認識文字候補からなる文字列につ
いて単語照合を行って、照合順位の最も高い文字列を認
識結果として選択して文字認識を行うにあたり、認識文
字候補に、標準文字パタンの辞書マスク毎に識別子を付
し、単語照合にあたり、互いに共通の識別子が付加され
た認識文字候補のみからなる文字列を選択して単語照合
を行うことを特徴とする。
【0015】
【発明の実施の形態】以下、図面を参照して、第1の発
明の文字認識装置および第2の発明に文字認識方法の例
について説明する。尚、参照する図面は、これらの発明
が理解できる程度に各構成成分を概略的に示してあるに
すぎない。従って、これらの発明は図示例にのみ限定さ
れるものではない。
明の文字認識装置および第2の発明に文字認識方法の例
について説明する。尚、参照する図面は、これらの発明
が理解できる程度に各構成成分を概略的に示してあるに
すぎない。従って、これらの発明は図示例にのみ限定さ
れるものではない。
【0016】(第1の実施の形態) (文字認識装置の構成について)先ず、図1を参照し
て、第1の実施の形態の文字認識装置について説明す
る。図1は、第1の実施の形態の文字認識装置の説明に
供するブロック図である。
て、第1の実施の形態の文字認識装置について説明す
る。図1は、第1の実施の形態の文字認識装置の説明に
供するブロック図である。
【0017】この実施の形態の文字認識装置は、入力媒
体のイメージを取り込む走査部10を具え、走査部10
によって取り込まれたイメージを格納するイメージ記憶
部12を具えている。また、取り込まれたイメージから
一文字単位に文字パタンを切出す文字切出し部14を具
えている。また、文字切出し部14で切出された文字パ
タンの特徴を抽出する特徴抽出部16を具えている。
体のイメージを取り込む走査部10を具え、走査部10
によって取り込まれたイメージを格納するイメージ記憶
部12を具えている。また、取り込まれたイメージから
一文字単位に文字パタンを切出す文字切出し部14を具
えている。また、文字切出し部14で切出された文字パ
タンの特徴を抽出する特徴抽出部16を具えている。
【0018】ここで、図2に、特徴抽出部16の内部構
成のブロック図を示す。この特徴抽出部16は、パタン
レジスタ32、線幅計算部34、文字枠検出部36、サ
ブパタン抽出部38、文字枠分割決定部40および特徴
マトリクス抽出部42を以って構成されている。
成のブロック図を示す。この特徴抽出部16は、パタン
レジスタ32、線幅計算部34、文字枠検出部36、サ
ブパタン抽出部38、文字枠分割決定部40および特徴
マトリクス抽出部42を以って構成されている。
【0019】また、この実施の形態の文字認識装置は、
標準文字パタンが格納された辞書部18を具えている。
そして、この標準文字パタンの辞書マスク毎に識別子が
設定されている。
標準文字パタンが格納された辞書部18を具えている。
そして、この標準文字パタンの辞書マスク毎に識別子が
設定されている。
【0020】また、この実施の形態の文字認識装置は、
特徴抽出部16で抽出された特徴と標準文字パタンとを
比較して文字パタンの認識文字候補を順位を付けて設定
する認識部20を具えている。また、認識文字候補を格
納するメモリ部22を具えている。
特徴抽出部16で抽出された特徴と標準文字パタンとを
比較して文字パタンの認識文字候補を順位を付けて設定
する認識部20を具えている。また、認識文字候補を格
納するメモリ部22を具えている。
【0021】また、この実施の形態の文字認識装置は、
認識単語の候補となる単語が格納された単語照合辞書部
24を具えている。ここでは、単語照合辞書部24に、
地名を格納している。
認識単語の候補となる単語が格納された単語照合辞書部
24を具えている。ここでは、単語照合辞書部24に、
地名を格納している。
【0022】また、この実施の形態の文字認識装置は、
単語照合辞書部24に格納されている単語と、認識文字
候補からなる文字列とを照合して、照合の順位が最も高
い認識単語を認識結果として選択する単語照合部26を
具えている。この単語照合部26は、共通の識別子が付
加された認識文字候補のみからなる文字列を選択して単
語照合を行う。また、単語照合部26で選択された認識
単語を出力する結果出力部28を具えている。
単語照合辞書部24に格納されている単語と、認識文字
候補からなる文字列とを照合して、照合の順位が最も高
い認識単語を認識結果として選択する単語照合部26を
具えている。この単語照合部26は、共通の識別子が付
加された認識文字候補のみからなる文字列を選択して単
語照合を行う。また、単語照合部26で選択された認識
単語を出力する結果出力部28を具えている。
【0023】(文字認識方法)次に、第1の発明の文字
認識装置を用いて第2の発明の文字認識方法について、
図3に示す入力媒体(被読取媒体とも称する)上に記載
された手書文字の文字認識を行う場合について説明す
る。図3に示す入力媒体上には、「大田原市」と手書き
で記載されている。そして「大」の字にゴミがついてい
る。
認識装置を用いて第2の発明の文字認識方法について、
図3に示す入力媒体(被読取媒体とも称する)上に記載
された手書文字の文字認識を行う場合について説明す
る。図3に示す入力媒体上には、「大田原市」と手書き
で記載されている。そして「大」の字にゴミがついてい
る。
【0024】先ず、走査部10において、入力媒体のイ
メージを取り込む。
メージを取り込む。
【0025】次に、走査部10によって取り込まれたイ
メージをイメージ記憶部12へ格納する。
メージをイメージ記憶部12へ格納する。
【0026】次に、イメージ記憶部12へ格納されたイ
メージを読出してきて、文字切出し部14において、イ
メージから一文字単位に文字パタンを切出す。文字パタ
ンの切出し方法は、従来周知の任意好適な方法を用いる
ことができる。
メージを読出してきて、文字切出し部14において、イ
メージから一文字単位に文字パタンを切出す。文字パタ
ンの切出し方法は、従来周知の任意好適な方法を用いる
ことができる。
【0027】次に、特徴抽出部16において、切出され
た文字パタンの特徴を抽出する。ここでは、文字パタン
の特徴抽出方法の一例として、サブパタンを作成して得
た特徴マトリクスを用いる方法について説明する。
た文字パタンの特徴を抽出する。ここでは、文字パタン
の特徴抽出方法の一例として、サブパタンを作成して得
た特徴マトリクスを用いる方法について説明する。
【0028】特徴抽出部16へ入力された文字パタン
は、先ず、パタンレジスタ32および線幅計算部34へ
入力される。
は、先ず、パタンレジスタ32および線幅計算部34へ
入力される。
【0029】線幅計算部34では、文字パタンの線幅
(W)を計算する。線幅(W)の計算にあたっては、先
ず、文字パタンの各部分を2×2の4画素の窓で走査し
たときに、4画素全てが黒画素となる窓の個数Mと、そ
の文字パタンを構成する全黒画素Aとを計数する。そし
て、窓の個数Mと全黒画素数Aとから、線幅(W)を下
記の(1)式で計数する。
(W)を計算する。線幅(W)の計算にあたっては、先
ず、文字パタンの各部分を2×2の4画素の窓で走査し
たときに、4画素全てが黒画素となる窓の個数Mと、そ
の文字パタンを構成する全黒画素Aとを計数する。そし
て、窓の個数Mと全黒画素数Aとから、線幅(W)を下
記の(1)式で計数する。
【0030】W=A/(A−M)・・・(1) 次に、サブパタン抽出部38において、パタンレジスタ
32について垂直スキャンを全面行って、黒ビット連続
長さと線幅計算部34で得られた線幅(W)との関係よ
り垂直サブパタン(VSP)を抽出する。同様に、VS
Pと同様にして、水平スキャンを行って水平サブパタン
(HSP)を抽出し、右斜め45°スキャンを行って右
斜めサブパタン(RSP)を抽出し、左斜め45°スキ
ャンを行って左斜めサブパタン(LSP)を抽出する。
32について垂直スキャンを全面行って、黒ビット連続
長さと線幅計算部34で得られた線幅(W)との関係よ
り垂直サブパタン(VSP)を抽出する。同様に、VS
Pと同様にして、水平スキャンを行って水平サブパタン
(HSP)を抽出し、右斜め45°スキャンを行って右
斜めサブパタン(RSP)を抽出し、左斜め45°スキ
ャンを行って左斜めサブパタン(LSP)を抽出する。
【0031】また、文字枠検出部36において、パタン
レジスタ32から入力された文字パタンについて、文字
パタンに外接する文字枠を検出し、その結果を文字枠分
割決定部40へ送る。
レジスタ32から入力された文字パタンについて、文字
パタンに外接する文字枠を検出し、その結果を文字枠分
割決定部40へ送る。
【0032】次に、文字枠分割決定部40において、文
字枠検出部36で検出された文字枠内をN×Mの領域
(NおよびMは定数、ここでは例えばN=M=5)に分
割するためのX軸(文字枠の水平方向をX軸とする)お
よびY軸(文字枠の垂直方向をY軸とする)上の分割点
座標を決定する。
字枠検出部36で検出された文字枠内をN×Mの領域
(NおよびMは定数、ここでは例えばN=M=5)に分
割するためのX軸(文字枠の水平方向をX軸とする)お
よびY軸(文字枠の垂直方向をY軸とする)上の分割点
座標を決定する。
【0033】次に、特徴マトリクス抽出部42におい
て、文字枠分割決定部40で決定された分割点座標によ
りVSP、HSP、RSPおよびLSPの4つの各サブ
パタンの文字枠領域をN×Mの領域に分割する。次に、
分割された各領域の黒ビット数(Bij)を計数する。次
に、この黒ビット数(Bij)と線幅(W)とから、下記
の(2)式を用いて各領域の文字線長(Lij)を計算す
る。
て、文字枠分割決定部40で決定された分割点座標によ
りVSP、HSP、RSPおよびLSPの4つの各サブ
パタンの文字枠領域をN×Mの領域に分割する。次に、
分割された各領域の黒ビット数(Bij)を計数する。次
に、この黒ビット数(Bij)と線幅(W)とから、下記
の(2)式を用いて各領域の文字線長(Lij)を計算す
る。
【0034】Lij=Bij/W・・・(2) 但し、1≦i≦N、1≦j≦Mとする。
【0035】次に、文字線長(Lij)を入力パタンの大
きさで正規化する。例えば、VSPの特徴マトリクスに
おいては、文字枠のY方向の長さΔYで正規化を行い、
また、HSPの特徴マトリクスにおいては、文字枠のX
方向の長さΔXで正規化を行う。また、RSPおよびL
SPの特徴マトリクスにおいては(ΔX2 +ΔY2 )
1/2 で正規化する。そして、文字線長を正規化した値
を、各領域の値とした(N×M)×4次元の特徴マトリ
クスを作成する。
きさで正規化する。例えば、VSPの特徴マトリクスに
おいては、文字枠のY方向の長さΔYで正規化を行い、
また、HSPの特徴マトリクスにおいては、文字枠のX
方向の長さΔXで正規化を行う。また、RSPおよびL
SPの特徴マトリクスにおいては(ΔX2 +ΔY2 )
1/2 で正規化する。そして、文字線長を正規化した値
を、各領域の値とした(N×M)×4次元の特徴マトリ
クスを作成する。
【0036】このようにして、サブパタンを作成して得
た特徴マトリクスを用いて文字パタンの特徴を抽出す
る。
た特徴マトリクスを用いて文字パタンの特徴を抽出す
る。
【0037】次に、この特徴マトリクスは、識別部20
へ入力される。識別部において、文字パタンの特徴マト
リクス(fi )と、辞書部18に格納されている標準文
字パタンの特徴マトリクス(fm )との間の距離Dを、
周知の下記の(3)式を用いて求める。
へ入力される。識別部において、文字パタンの特徴マト
リクス(fi )と、辞書部18に格納されている標準文
字パタンの特徴マトリクス(fm )との間の距離Dを、
周知の下記の(3)式を用いて求める。
【0038】 D={Σ(fi −fm )2 }1/2 ・・・(3) ここで、標準文字パタンの特徴マトリクスは、入力文字
パタンが手書文字や活字であることを考慮して、複数種
類準備されている。そして、各標準文字パタンの辞書マ
スクには、それぞれその標準文字パタンの特徴マトリク
スが、手書文字を基にして作成されたものなのか、ある
いは、活字を基にして作成されたものなのかを識別でき
るような識別子が設定されている。
パタンが手書文字や活字であることを考慮して、複数種
類準備されている。そして、各標準文字パタンの辞書マ
スクには、それぞれその標準文字パタンの特徴マトリク
スが、手書文字を基にして作成されたものなのか、ある
いは、活字を基にして作成されたものなのかを識別でき
るような識別子が設定されている。
【0039】そして、上記の(3)式で求めた距離Dが
近いものから順に、文字パタンの認識文字候補を順位付
けて設定する。そして、認識文字候補の標準文字パタン
名と距離、識別子をメモリ部22に格納する。この識別
子を見ることによって、その認識文字候補の特徴マトリ
クスが、手書文字用の標準文字パタンを基に作成された
ものなのか、あるいは、活字用の標準文字パタンを基に
作成されたものなのかを確認することができる。
近いものから順に、文字パタンの認識文字候補を順位付
けて設定する。そして、認識文字候補の標準文字パタン
名と距離、識別子をメモリ部22に格納する。この識別
子を見ることによって、その認識文字候補の特徴マトリ
クスが、手書文字用の標準文字パタンを基に作成された
ものなのか、あるいは、活字用の標準文字パタンを基に
作成されたものなのかを確認することができる。
【0040】また、この実施の形態の文字認識装置は、
特徴抽出部16で抽出された特徴と標準文字パタンとを
比較して文字パタンの認識文字候補を順位を付けて設定
する認識部20を具えている。また、認識文字候補を格
納するメモリ部22を具えている。
特徴抽出部16で抽出された特徴と標準文字パタンとを
比較して文字パタンの認識文字候補を順位を付けて設定
する認識部20を具えている。また、認識文字候補を格
納するメモリ部22を具えている。
【0041】ここで、図4に、認識文字候補の一覧を示
す。各認識文字候補の右上の黒色の菱形の印は、手書識
別子を表してる。尚、活字識別子の表示は省略してい
る。
す。各認識文字候補の右上の黒色の菱形の印は、手書識
別子を表してる。尚、活字識別子の表示は省略してい
る。
【0042】入力文字パタンは「大田原市」であるが、
「大」の文字には「ゴミ」がついているため、「大」の
入力文字パタンに対する認識文字候補の第1位は「太」
(手書)、第2位は「小」(活字)である。そして、第
3位が「大」(手書)である。また、「田」の入力文字
パタンに対する認識文字候補の第1位は「田」(手
書)、第2位は「口」(活字)、第3位は「日」(活
字)である。また、「原」の入力文字パタンに対する認
識文字候補の第1は「厚」(手書)、第2位は「原」
(手書)、第3位は「源」(活字)である。また、
「市」の入力文字パタンに対する認識文字候補の第1位
は「市」(手書)、第2位は「宇」(活字)、第3位は
「芋」(活字)である。
「大」の文字には「ゴミ」がついているため、「大」の
入力文字パタンに対する認識文字候補の第1位は「太」
(手書)、第2位は「小」(活字)である。そして、第
3位が「大」(手書)である。また、「田」の入力文字
パタンに対する認識文字候補の第1位は「田」(手
書)、第2位は「口」(活字)、第3位は「日」(活
字)である。また、「原」の入力文字パタンに対する認
識文字候補の第1は「厚」(手書)、第2位は「原」
(手書)、第3位は「源」(活字)である。また、
「市」の入力文字パタンに対する認識文字候補の第1位
は「市」(手書)、第2位は「宇」(活字)、第3位は
「芋」(活字)である。
【0043】次に、単語照合部26において、単語照合
辞書部24に格納されている地名の単語と、認識文字候
補からなる文字列とを照合して、照合の順位が最も高い
認識単語を認識結果として選択する。
辞書部24に格納されている地名の単語と、認識文字候
補からなる文字列とを照合して、照合の順位が最も高い
認識単語を認識結果として選択する。
【0044】ここで、図5に、単語照合辞書部24に格
納されている地名の単語の一部を示す(図5では、単語
照合辞書と表記している。)。図5では、候補の単語と
して、「大田区」、「大田原市」「小田原市」を例示し
ている。
納されている地名の単語の一部を示す(図5では、単語
照合辞書と表記している。)。図5では、候補の単語と
して、「大田区」、「大田原市」「小田原市」を例示し
ている。
【0045】ところで、図4に示したように、「大」の
入力文字パタンに対する認識文字候補の順位は、「小」
が第2位であり、「大」が第3位である。従って、従来
のように、手書用および活字用の標準文字パタンを区別
せずに単語照合を行うと、認識文字候補の合計の順位の
高い「小田原市」が選択されてしまうことになる。
入力文字パタンに対する認識文字候補の順位は、「小」
が第2位であり、「大」が第3位である。従って、従来
のように、手書用および活字用の標準文字パタンを区別
せずに単語照合を行うと、認識文字候補の合計の順位の
高い「小田原市」が選択されてしまうことになる。
【0046】そこで、この発明の文字認識装置および文
字認識方法においては、単語照合にあたり、互いに共通
の識別子が付加された認識文字候補のみからなる文字列
を選択して単語照合を行う。すなわち、手書文字用の識
別子が設定されている認識文字候補のみ、あるいは、活
字用の識別子が設定されている認識文字候補のみから構
成される単語を選択する。
字認識方法においては、単語照合にあたり、互いに共通
の識別子が付加された認識文字候補のみからなる文字列
を選択して単語照合を行う。すなわち、手書文字用の識
別子が設定されている認識文字候補のみ、あるいは、活
字用の識別子が設定されている認識文字候補のみから構
成される単語を選択する。
【0047】ここで、図6の(A)に、図5に示された
第1位から第3位の候補の組合せのうち、手書文字用の
識別子が設定された認識文字候補のみからなる4文字の
文字列の組合せを示す。ここでは、「太田厚市」、「太
田原市」、「大田厚市」および「大田原市」の4通りの
組合せが選択可能である。
第1位から第3位の候補の組合せのうち、手書文字用の
識別子が設定された認識文字候補のみからなる4文字の
文字列の組合せを示す。ここでは、「太田厚市」、「太
田原市」、「大田厚市」および「大田原市」の4通りの
組合せが選択可能である。
【0048】また、図6の(B)に、図5に示された第
1位から第3位の候補の組合せのうち、活字用の識別子
が設定された認識文字候補のみからなる4文字の文字列
の組合せを示す。ここでは、「小口源宇」、「小口源
芋」、「小日源宇」および「小日源芋」の4通りの組合
せが可能である。
1位から第3位の候補の組合せのうち、活字用の識別子
が設定された認識文字候補のみからなる4文字の文字列
の組合せを示す。ここでは、「小口源宇」、「小口源
芋」、「小日源宇」および「小日源芋」の4通りの組合
せが可能である。
【0049】そして、この実施の形態においては、図5
に示した単語照合辞書部に格納されている単語と、図6
の(A)および(B)に示した文字列とを照合し、一致
したもののうち、4文字の認識文字候補の各候補順位の
和が最も小さいものを認識結果として、結果出力部28
へ出力する。ここでは、一致の取れるものが「大田原
市」のみなので、認識結果は「大田原市」となる。
に示した単語照合辞書部に格納されている単語と、図6
の(A)および(B)に示した文字列とを照合し、一致
したもののうち、4文字の認識文字候補の各候補順位の
和が最も小さいものを認識結果として、結果出力部28
へ出力する。ここでは、一致の取れるものが「大田原
市」のみなので、認識結果は「大田原市」となる。
【0050】そして、結果出力部28は、例えばプリン
タに認識結果としての「大田原市」を出力する。
タに認識結果としての「大田原市」を出力する。
【0051】このように、識別子を用いて単語照合の対
象となる文字列を限定するため、誤読、不読を低減し
て、認識精度の向上を図ることができ、かつ、高速で処
理することが可能となる。
象となる文字列を限定するため、誤読、不読を低減し
て、認識精度の向上を図ることができ、かつ、高速で処
理することが可能となる。
【0052】(第2の実施の形態)次に、第1の発明の
文字認識装置の第2の実施の形態について説明する。第
2の実施の形態においては、結果出力部として、出力さ
れた認識結果を表示する表示部であって、特定の識別子
が付された認識文字候補のみからなる文字列の認識結果
を、この識別子が付されていない認識文字候補のみから
なる文字列の認識結果と区別して表示する表示部を具え
てる。
文字認識装置の第2の実施の形態について説明する。第
2の実施の形態においては、結果出力部として、出力さ
れた認識結果を表示する表示部であって、特定の識別子
が付された認識文字候補のみからなる文字列の認識結果
を、この識別子が付されていない認識文字候補のみから
なる文字列の認識結果と区別して表示する表示部を具え
てる。
【0053】ここでは、表示部としてカラーCRTを用
い、認識結果が、活字識別子を持つ結果からなるもの
か、あるいは、手書識別子を持つ結果からなるものかを
色分けして表示することにより区別する。
い、認識結果が、活字識別子を持つ結果からなるもの
か、あるいは、手書識別子を持つ結果からなるものかを
色分けして表示することにより区別する。
【0054】このように、認識結果を区別して表示すれ
ば、オペレータは、活字に比べて一般に認識精度が低い
手書きの文字パタンの認識結果を重点的に確認すること
ができる。このため、認識結果の確認、修正作業を迅速
かつ正確に行うことができる。
ば、オペレータは、活字に比べて一般に認識精度が低い
手書きの文字パタンの認識結果を重点的に確認すること
ができる。このため、認識結果の確認、修正作業を迅速
かつ正確に行うことができる。
【0055】(第3の実施の形態)次に、図7を参照し
て、第1の発明の文字認識装置の第3の実施の形態につ
いて説明する。
て、第1の発明の文字認識装置の第3の実施の形態につ
いて説明する。
【0056】また、第3の実施の形態の文字認識装置に
おいて、認識結果の文字列を構成する認識文字候補に付
された識別子に応じて入力媒体が分類されて保管される
スタッカ44を具えている。
おいて、認識結果の文字列を構成する認識文字候補に付
された識別子に応じて入力媒体が分類されて保管される
スタッカ44を具えている。
【0057】入力媒体を識別子に基づいて分類して保管
するスタッカ44を設ければ、認識結果の確認、修正作
業を行うにあたり、スタッカに保管された、特定の識別
子によって分類された入力媒体のみを参照して行うこと
ができる。その結果、活字に比べて一般に認識精度が低
い手書きの文字パタンの認識結果を重点的に確認するこ
とができる。このため、認識結果の確認、修正作業を迅
速かつ正確に行なうことができる。
するスタッカ44を設ければ、認識結果の確認、修正作
業を行うにあたり、スタッカに保管された、特定の識別
子によって分類された入力媒体のみを参照して行うこと
ができる。その結果、活字に比べて一般に認識精度が低
い手書きの文字パタンの認識結果を重点的に確認するこ
とができる。このため、認識結果の確認、修正作業を迅
速かつ正確に行なうことができる。
【0058】上述した実施の形態では、これらの発明を
特定の条件で構成した例について説明したが、これらの
発明は、種々の変更および変形を行うことができる。例
えば、上述した各実施の形態においては、1枚の入力媒
体上の文字パタンを認識対象としたが、これらの発明に
おいては、入力媒体は1枚に限定されるものではなく、
複数枚、複数頁の入力媒体上の文字パタン、あるいは、
入力媒体上の一部領域の文字パタンのみを認識対象とし
ても良い。
特定の条件で構成した例について説明したが、これらの
発明は、種々の変更および変形を行うことができる。例
えば、上述した各実施の形態においては、1枚の入力媒
体上の文字パタンを認識対象としたが、これらの発明に
おいては、入力媒体は1枚に限定されるものではなく、
複数枚、複数頁の入力媒体上の文字パタン、あるいは、
入力媒体上の一部領域の文字パタンのみを認識対象とし
ても良い。
【0059】また、上述した各実施の形態においては、
個々の文字パタンの特徴の抽出にあたり、文字パタンの
各方向の文字線方向を表すサブパタンを抽出し、このサ
ブパタンに基づいて特徴マトリクスを作成する方法を用
いたが、これらの発明においては、個々の文字パタンの
特徴の抽出には、任意好適な方法を用いることができ
る。
個々の文字パタンの特徴の抽出にあたり、文字パタンの
各方向の文字線方向を表すサブパタンを抽出し、このサ
ブパタンに基づいて特徴マトリクスを作成する方法を用
いたが、これらの発明においては、個々の文字パタンの
特徴の抽出には、任意好適な方法を用いることができ
る。
【0060】また、上述した各実施の形態においては、
4つの文字からなる文字列について単語照合を行った
が、これらの発明では、文字列の文字数に制限はない。
4つの文字からなる文字列について単語照合を行った
が、これらの発明では、文字列の文字数に制限はない。
【0061】また、上述した各実施の形態においては、
標準マトリクスに付加する識別子を手書および活字の二
通りとしたが、これらの発明では、識別子の種類はこれ
に限定されるものではなく、例えば、ゴシック体や明朝
体といった活字の字体(文字種)の識別子を単独あるい
は複数組合せたものを用いても良い。
標準マトリクスに付加する識別子を手書および活字の二
通りとしたが、これらの発明では、識別子の種類はこれ
に限定されるものではなく、例えば、ゴシック体や明朝
体といった活字の字体(文字種)の識別子を単独あるい
は複数組合せたものを用いても良い。
【0062】また、上述した第2の実施の形態において
は、結果出力部の表示装置としてカラーCRTを用い
て、識別子により色分けをして表示したが、この発明に
おいては、識別子による表示の区別はこれに限定される
ものではなく、例えば、識別子に応じて、文字を点滅さ
せたり、アンダーラインを付加しても良く、また、識別
子に応じて、文字を反転表示させても良い。
は、結果出力部の表示装置としてカラーCRTを用い
て、識別子により色分けをして表示したが、この発明に
おいては、識別子による表示の区別はこれに限定される
ものではなく、例えば、識別子に応じて、文字を点滅さ
せたり、アンダーラインを付加しても良く、また、識別
子に応じて、文字を反転表示させても良い。
【0063】
【発明の効果】第1の発明の文字認識装置によれば、識
別子を用いて単語照合の対象となる文字列を限定するた
め、誤読、不読を低減して、認識精度の向上を図ること
ができ、かつ、高速で処理することが可能となる。
別子を用いて単語照合の対象となる文字列を限定するた
め、誤読、不読を低減して、認識精度の向上を図ること
ができ、かつ、高速で処理することが可能となる。
【0064】また、認識結果を識別子に基づいて区別し
て表示すれば、オペレータは、活字に比べて一般に認識
精度が低い手書きの文字パタンの認識結果を重点的に確
認することができる。このため、認識結果の確認、修正
作業を迅速かつ正確に行うことができる。
て表示すれば、オペレータは、活字に比べて一般に認識
精度が低い手書きの文字パタンの認識結果を重点的に確
認することができる。このため、認識結果の確認、修正
作業を迅速かつ正確に行うことができる。
【0065】また、入力媒体を、識別子に基づいて分類
して保管するスタッカを具えれば、認識結果の確認、修
正作業を、特定のスタッカに保管された、特定の識別子
によって分類された入力媒体のみを参照して行うことが
できる。その結果、活字に比べて一般に認識精度が低い
手書きの文字パタンの認識結果を重点的に確認すること
ができる。このため、認識結果の確認、修正作業を迅速
かつ正確に行うことができる。
して保管するスタッカを具えれば、認識結果の確認、修
正作業を、特定のスタッカに保管された、特定の識別子
によって分類された入力媒体のみを参照して行うことが
できる。その結果、活字に比べて一般に認識精度が低い
手書きの文字パタンの認識結果を重点的に確認すること
ができる。このため、認識結果の確認、修正作業を迅速
かつ正確に行うことができる。
【0066】また、第2の発明の文字認識方法によれ
ば、識別子を用いて単語照合の対象となる文字列を限定
するため、誤読、不読を低減して、認識精度の向上を図
ることができ、かつ、高速で処理することが可能とな
る。
ば、識別子を用いて単語照合の対象となる文字列を限定
するため、誤読、不読を低減して、認識精度の向上を図
ることができ、かつ、高速で処理することが可能とな
る。
【図1】第1の実施の形態の文字認識装置の説明に供す
るブロック図である。
るブロック図である。
【図2】第1の実施の形態の文字認識装置の特徴抽出部
の内部構成の説明に供するブロック図である。
の内部構成の説明に供するブロック図である。
【図3】被読取媒体の入力文字パタンの説明に供する図
である。
である。
【図4】認識結果の認識文字候補の説明に供する図であ
る。
る。
【図5】単語照合辞書部に格納されている単語の説明に
供する図である。
供する図である。
【図6】(A)は、単語候補として、手書識別子の付い
た認識文字候補からなる文字列の組合せを示し、(B)
は、単語候補として、活字識別子の付いた認識文字候補
からなる文字列の組合せを示す。
た認識文字候補からなる文字列の組合せを示し、(B)
は、単語候補として、活字識別子の付いた認識文字候補
からなる文字列の組合せを示す。
【図7】第3の実施の形態の文字認識装置の説明に供す
るブロック図である。
るブロック図である。
10:走査部 12:イメージ記憶部 14:文字切出し部 16:特徴抽出部 18:辞書部 20:識別部 22:メモリ部 24:単語照合辞書部 26:単語照合部 28:結果出力部 32:パタンレジスタ 34:線幅計算部 36:文字枠検出部 38:サブパタン抽出部 40:文字枠分割決定部 42:特徴マトリクス抽出部 44:スタッカ
Claims (4)
- 【請求項1】 文字パタンの特徴を抽出して、抽出され
た該特徴と標準文字パタンの特徴との照合を行って、該
文字パタンに対する認識文字候補を順位をつけて出力す
る文字パタン認識部と、 該文字パタン認識部から出力された前記認識文字候補か
らなる文字列について、単語照合を行って、文字列を認
識結果として出力する単語照合部とを具えた文字認識装
置において、 前記標準文字パタンの辞書マスク毎に識別子が設定され
ており、 前記単語照合部は、互いに共通の前記識別子が付加され
た前記認識文字候補のみからなる文字列を選択して単語
照合を行う単語照合部であることを特徴とする文字認識
装置。 - 【請求項2】 請求項1に記載の文字認識装置におい
て、 出力された前記認識結果を表示する表示部であって、 特定の識別子が付された前記認識文字候補のみからなる
文字列の認識結果を、該識別子が付されていない前記認
識文字候補のみからなる文字列の認識結果と区別して表
示する表示部を具えてなることを特徴とする文字認識装
置。 - 【請求項3】 請求項1に記載の文字認識装置におい
て、 前記入力媒体が、前記認識結果の文字列を構成する認識
文字候補に付された識別子に応じて分類されて保管され
るスタッカを具えてなることを特徴とする文字認識装
置。 - 【請求項4】 文字パタンの特徴を抽出し、 抽出された該特徴と標準文字パタンの特徴との照合を行
って、該文字パタンに対する認識文字候補を順位をつけ
て設定し、 前記認識文字候補からなる文字列について単語照合を行
って、照合順位の最も高い文字列を認識結果として選択
して文字認識を行うにあたり、 前記認識文字候補に、前記標準文字パタンの辞書マスク
毎に識別子を付し、 前記単語照合にあたり、互いに共通の前記識別子が付加
された前記認識文字候補のみからなる文字列を選択して
単語照合を行うことを特徴とする文字認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8142790A JPH09326012A (ja) | 1996-06-05 | 1996-06-05 | 文字認識装置および文字認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8142790A JPH09326012A (ja) | 1996-06-05 | 1996-06-05 | 文字認識装置および文字認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09326012A true JPH09326012A (ja) | 1997-12-16 |
Family
ID=15323677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8142790A Pending JPH09326012A (ja) | 1996-06-05 | 1996-06-05 | 文字認識装置および文字認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09326012A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100582039B1 (ko) * | 1999-05-06 | 2006-05-23 | 후지쯔 가부시끼가이샤 | 문자 인식 장치 |
JP2018132894A (ja) * | 2017-02-14 | 2018-08-23 | 株式会社Pfu | 日付識別装置、日付識別方法及び日付識別プログラム |
-
1996
- 1996-06-05 JP JP8142790A patent/JPH09326012A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100582039B1 (ko) * | 1999-05-06 | 2006-05-23 | 후지쯔 가부시끼가이샤 | 문자 인식 장치 |
JP2018132894A (ja) * | 2017-02-14 | 2018-08-23 | 株式会社Pfu | 日付識別装置、日付識別方法及び日付識別プログラム |
US10380416B2 (en) | 2017-02-14 | 2019-08-13 | Pfu Limited | Date identifying apparatus, date identifying method, and computer-readable recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6970601B1 (en) | Form search apparatus and method | |
Eskenazi et al. | A comprehensive survey of mostly textual document segmentation algorithms since 2008 | |
Casey et al. | Intelligent forms processing system | |
US6252988B1 (en) | Method and apparatus for character recognition using stop words | |
WO1994027251A1 (en) | Automated reading system and method | |
US5561720A (en) | Method for extracting individual characters from raster images of a read-in handwritten or typed character sequence having a free pitch | |
JP2000285190A (ja) | 帳票識別方法および帳票識別装置および記憶媒体 | |
US7149352B2 (en) | Image processing device, program product and system | |
JPH09319824A (ja) | 帳票認識方法 | |
JP3573945B2 (ja) | フォーマット認識装置及び文字読み取り装置 | |
JP3923474B2 (ja) | 文字読み取り装置 | |
Baird | Global-to-local layout analysis | |
JPH09326012A (ja) | 文字認識装置および文字認識方法 | |
JP2008084105A (ja) | 文字切出方法及び文字認識装置 | |
CN111476073B (zh) | 信息处理装置、记录媒体及信息处理方法 | |
JP3159087B2 (ja) | 文書照合装置および方法 | |
JP3114446B2 (ja) | 文字認識装置 | |
JPH0991385A (ja) | 文字認識辞書追加方法及びこれを用いた端末ocr装置 | |
JP3276554B2 (ja) | フォーマット認識装置及び文字読取り装置 | |
JP2005004395A (ja) | 帳票、帳票処理方法、帳票処理プログラム、帳票処理プログラムを記録した記録媒体及び帳票処理装置 | |
JP3197464B2 (ja) | 文字認識方法および文字認識装置 | |
JP2931485B2 (ja) | 文字切出し装置及び方法 | |
JP3071048B2 (ja) | 文字認識装置及び方法 | |
JP2616995B2 (ja) | 文字認識装置 | |
Said | Automatic processing of documents and bank cheques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050926 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051206 |