JPH04299485A - 文字列認識方法及びその装置 - Google Patents

文字列認識方法及びその装置

Info

Publication number
JPH04299485A
JPH04299485A JP3064180A JP6418091A JPH04299485A JP H04299485 A JPH04299485 A JP H04299485A JP 3064180 A JP3064180 A JP 3064180A JP 6418091 A JP6418091 A JP 6418091A JP H04299485 A JPH04299485 A JP H04299485A
Authority
JP
Japan
Prior art keywords
character
evaluation value
pattern
recognition
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3064180A
Other languages
English (en)
Inventor
Yayoi Kobayashi
小林 弥生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3064180A priority Critical patent/JPH04299485A/ja
Publication of JPH04299485A publication Critical patent/JPH04299485A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的文字読み取り装
置(OCR)等における文字列認識方法及びその装置に
関する。
【0002】
【従来技術】文字列認識は、従来の文字記入枠内に1文
字ずつ記入された文字を対象とする認識方法とは異なり
、罫線のような緩い筆記制約のもとで記入された文字を
認識するための技術であり、OCRの帳票形式をより使
いやすいものにすることを可能にする。文字列認識では
、文字記入枠が無いために文字の切り出しが一つの重要
な課題となる。特に手書き文字を認識対象にすると、文
字の大きさや文字間隔等、文字の図形的な特徴の変動が
大きいために、パタンの図形的な特徴だけからは一文字
ずつを切り出すことは困難である。又、文字候補となる
パタンの認識結果を利用して、最適な組み合わせを探索
する方法が知られている。例えば、文献「候補文字ラテ
ィス法による枠無し筆記文字列のオンライン認識」(村
瀬・若原・梅田、電子情報通信学会論文誌(D)J68
−D,No4、1985、pp765〜772)に記載
されている技術がある。ところが、従来の個別文字認識
技術では前処理として大きさの正規化を含むために、パ
タンの図形的な特徴の一部が失われ、複数の文字を含む
パタンに対しても標準パタンと高い類似度で認識結果を
出力する場合がある等の問題点があり、認識結果だけで
は有効な文字切り出しは困難である。
【0003】更に、パタンの図形的な特徴と認識結果と
の両方を利用して文字パタンを切り出す方法が知られて
いる。そのような方法の1つとして本願と同一出願人に
よる特願平1−3440961「文字列認識方法及びそ
の装置」に記載されている技術がある。図9はその実施
例の1つである。候補文字パタン作成手段52で抽出さ
れた候補文字パタンに対して、形状評価値算出手段53
で文字形状に関する知識と入力されたパタンの形状特徴
から形状に関する文字らしさの評価値を算出し、文字認
識手段55では候補文字パタンを認識処理し、その結果
得られる認識評価値と形状評価値、及び文字らしさを評
価するための特性関数を用いて文字評価値算出手段57
で文字評価値を算出し、これを用いて文字切り出しを行
うものである。
【0004】
【発明が解決しようとする課題】この方法では形状評価
値として全てのカテゴリに一様な評価基準、例えば「文
字の縦横比の平均はrである。」、「文字の内部の余白
は小さいほど良い」といった基準を設けて、入力パタン
の形状に関する特徴量から評価値を算出している。しか
しながら、例えば、文字「東」と「一」では、各文字毎
に得られる縦横比の平均は大きく異なり、また、文字「
台」と「東」では文字の内部余白の平均は異なる。これ
らをまとめて一つの基準で形状評価値を設定すると、例
えば第2図のような切り出し誤りが生ずることになる。
【0005】本発明の目的は、このような問題を解決す
るために、各文字毎に、あるいは形状に関して類似の文
字のグループ毎に、形状に関する標準的な特徴量を文字
形状辞書として記憶し、これを形状評価値を算出するた
めの評価基準として用いることにより、候補文字パタン
の形状評価値をより適切に算出することが可能になり、
細長い文字や複数の連結領域に分離する文字等を含む文
字列からの正確な文字切り出しが可能になる。
【0006】
【課題を解決するための手段】本発明の文字列認識方法
は、文字列画像を光学的に読み込み、認識する方法にお
いて、文字列画像から図形的なまとまりの最小単位であ
る基本パタンを抽出し、抽出された基本パタンの少なく
とも1つにもとづいて候補文字パタンを作成し、前記候
補文字パタンと文字認識辞書の標準パタンとを照合して
認識処理を行い、文字形状辞書に格納された形状に関す
る標準特徴量を読み込み、前記標準特徴量を基に形状評
価値を算出し、前記形状評価値及び前記文字認識処理結
果から得られる認識評価値から文字評価値を算出し、前
記候補文字パタンを組み合わせて構成される文字列の内
、前記文字評価値から設定される文字列評価値の最大に
なる候補文字パタンの組み合わせを探索し、前記候補文
字パタンの組み合わせを前記文字列画像の認識結果とす
ることを特徴とする。
【0007】また、本発明の文字列認識装置は、文字列
画像を光学的に読み込み、認識する装置において、光学
的に走査された文字列画像を格納する文字列画像記憶手
段と、前記文字列画像から図形的なまとまりの最小単位
である基本パタンを抽出する基本パタン抽出手段と、抽
出された基本パタンの少なくとも1つにもとづいて候補
文字パタンを作成する候補文字パタン作成手段と、前記
候補文字パタンと文字認識辞書の標準パタンとを照合す
る文字認識手段と、形状に関する標準特徴量を格納する
文字形状辞書記憶手段と、前記文字形状辞書記憶手段に
格納された前記標準特徴量を読み込み、前記標準特徴量
を基に形状評価値を算出する形状評価値算出手段と、前
記形状評価値算出手段から得られる形状評価値及び前記
文字認識手段から得られる認識評価値から文字評価値を
算出する文字評価値算出手段と、前記候補文字パタンを
組み合わせて構成される文字列の内、前記文字評価値か
ら設定される文字列評価値の最大になる候補文字パタン
の組み合わせを探索する最適組合せ探索手段と、前記候
補文字パタンの組み合わせを前記文字列画像の認識結果
として出力する文字列認識結果出力手段とを有すること
を特徴とする。
【0008】また、本発明の文字列認識装置において、
文字列画像を光学的に読み込み、認識する装置において
、光学的に走査された文字列画像を格納する文字列画像
記憶手段と、前記文字列画像記憶手段から前記文字列画
像を読み込み、前記文字列画像から基本パタンを抽出し
、これを格納する基本パタン抽出手段と、前記基本パタ
ン抽出手段から前記基本パタンを読み込み、抽出された
基本パタンの少なくとも1つにもとづいて候補文字パタ
ンを作成し、これを格納する候補文字パタン作成手段と
、文字の標準パタンを格納する文字認識辞書記憶手段と
、前記候補文字パタン作成手段から、前記候補文字パタ
ンを読み込み、前記文字認識辞書記憶手段から前記文字
の標準パタンを読み込み、前記候補文字パタンと前記標
準パタンとを照合して認識処理を行い、文字コードと認
識評価値を格納する文字認識手段と、形状に関する標準
特徴量を格納する文字形状辞書記憶手段と、前記候補文
字パタン作成手段から前記候補文字パタンを読み込み、
前記文字形状辞書記憶手段から形状に関する標準特徴量
を読み込み、前記標準特徴量を基に形状評価値を算出し
、これを格納する形状評価値算出手段と、前記形状評価
値算出手段から前記候補文字パタンの前記形状評価値を
読み込み、前記文字認識手段から前記候補文字パタンの
前記認識評価値を読み込み、前記形状評価値と前記認識
評価値から文字評価値を算出し、これを格納する文字評
価値算出手段と、前記候補文字パタンを組み合わせて構
成される文字列の文字列評価値を前記文字評価値算出手
段から読み込まれた前記候補文字パタンの前記文字評価
値を基に算出し、前記文字列評価値が最大になる前記候
補文字パタンの組み合わせを探索し、これを格納する最
適組み合わせ探索手段と、前記最適組み合わせ探索手段
から前記候補文字パタンの最適な組み合わせを読み込み
、各前記候補文字パタンの前記認識処理結果を前記文字
認識手段から読み込み、これを出力する文字列認識結果
出力手段とを有することを特徴とする。
【0009】
【作用】図面を参照して本発明の一つである文字列認識
方法の原理について詳細に説明する。以下の説明では、
縦書き文字列画像を例として用いるが、横書きの文字列
についても同様の原理が適用できる。図3(a)は手書
き文字列画像の例である。入力された文字列画像に対し
て、図3(b)のように図形としてのまとまりの最小単
位である基本パタンを抽出する。これは、例えば文字列
方向と垂直な方向に走査し、黒画素の個数を計数して得
られる投影分布を基に、その極小値を切り出し位置とし
て文字列画像を分割することにより可能である。これに
より、たとえ文字と文字が接触していても、これらを分
割することが可能である。抽出された基本パタンの切り
出し位置を切り出し候補位置と呼び、文字列の先頭から
N0 ,...,Nk と表す(図3(b))。切り出
し候補位置Ni とNj とに挟まれた複数個の基本パ
タンを組み合わせたパタンを候補文字パタンと呼び、l
(i,j)と表す。切り出し候補位置{Ni }の中に
求める文字の切り出し位置が含まれていれば、文字パタ
ンは必ずあるl(i,j)により表すことができる。切
り出し候補位置Ni をノードとし、候補文字パタンl
(i,j)をノードNi とNj を結ぶリンクとする
と、文字列画像から図3(c)のような2端子有向グラ
フが得られる。
【0010】以上の処理を行うことにより、文字列から
文字を切り出すことは、2端子有向グラフの各リンクに
対して、対応する候補文字パタンの文字である信頼性を
表す文字評価値を算出し、2端子有向グラフの始点から
終点に至るパスで、各リンクの文字評価値が高いものを
探索する問題に帰着する。そこで重要なのは、文字評価
値を如何に設定するかという点である。本発明では、文
字評価値としてパタンの認識結果とパタンの形状から、
そのパタンが文字であることの信頼性を評価する。その
ときにパタンの形状に関する評価基準を全てのパタンに
対して一様に、「文字パタンの外接矩形は正方形に近い
」といった仮定を設けるのではなく、各文字毎にパタン
の標準的な特徴量を知識として用意し、これを基に候補
文字パタンの文字である信頼性を評価する。これによっ
て、全てのパタンに対して一様な評価基準で生ずる、第
2図のような切り出し誤りも、本発明によって正しく切
り出すことが可能になる。具体的には、以下のようにし
て文字評価値を算出する。
【0011】まず、候補文字パタンを一文字パタンと見
なして認識する。認識方法としては、例えば従来より良
く知られている技術である類似度法を利用する。その認
識結果であるカテゴリを記憶すると同時に、類似度値を
認識評価値として記憶する。次にパタンの形状に関して
、文字である信頼性の評価を行う。そのために、事前に
文字形状辞書として、各カテゴリ毎に標準特徴量を算出
しこれを記憶する。例えば、標準特徴量として、図4に
示されるパタンの縦横比r(w/h)、及び内部の余白
i(s/w)それぞれの平均値、分散を用い、学習パタ
ンを基にこれらを算出しておくことは可能である。候補
文字パタンの認識結果に対応する標準特徴量を文字形状
辞書から読みだし、これを文字である信頼性を図る評価
基準に用い、形状評価値を算出する。例えば、上述のパ
タンの縦横比r及び内部余白iを用いて、式(1)で形
状評価値wf を算出する。
【0012】
【数1】
【0013】
【0014】上式中、R、σr は外接矩形の縦横比の
平均値及び分散であり、I、σi は内部余白の平均値
及び分散である。
【0015】各候補文字パタンの形状評価値wf 及び
認識評価値wr を基に、文字である信頼性を表す文字
評価値を算出する。このとき、文字評価値は以下の特性
を満たすものを利用する。  候補文字パタンl(i,
j)より候補文字パタンl(i’,j’)の方が一文字
パタンである信頼性が高いならば、w(i,j)<w(
i’,j’)が成り立つ。
【0016】このような特性を満たす評価値として、例
えば、本願と同一出願人による特願平1−334347
「文字列認識方法及びその装置」で開示されている特性
関数(2)を文字評価関数として用いて、文字評価値を
算出する。
【0017】
【数2】
【0018】
【0019】また、式中α1 、α2 、β1 、β2
 は、文字列の品質に応じて予め設定しておくパラメー
タであり、wr ,wf は、候補文字パタンl(i,
j)の認識評価値及び形状評価値である。
【0020】文字列画像を基に得られている2端子有向
グラフの、始点から終点に至るパスp={Ns<0>,
...,Ns<n>}に対して、切り出し位置の信頼性
を表す文字列評価値を文字評価値を使って以下の式(3
)で算出し、文字列評価値の最大になるパスを探索する
【0021】
【数3】
【0022】
【0023】これにより、文字列全体として、そこに含
まれる各文字の文字評価値の高い切り出し位置を得るこ
とが可能になる。文字列評価値の最大になるパスに対し
て、そのノードに対応する文字列画像中の位置座標を文
字の切り出し位置とし、そのリンクに対応するパタンの
認識結果を文字列の認識結果として出力する。
【0024】形状評価値として、全ての文字に一様な評
価基準ではなく、複数の評価基準を設けることによって
、カテゴリ毎に異なる形状のばらつきを吸収し、文字の
切り出し性能の向上を図ることが本発明の特徴であるが
、これはまた、以下のような方法によっても可能である
【0025】文字形状辞書として、形状に関して類似の
文字をグループにし、グループ毎にそこに含まれる文字
の学習パタンから、標準特徴量を前述と同様に算出し、
これを記憶しておく。グループとして、例えばその縦横
比や内部余白の相違により、図5のように分類しておく
。候補文字パタンに対して、この文字形状辞書から各グ
ループの標準特徴量を読みだし、そのグループに属して
いると仮定した場合の、形状から判断した文字である信
頼性を、その標準特徴量から評価する。評価方法は前述
と同様に、例えば、縦横比と内部余白を利用して式(1
)で算出する。得られた複数の評価値の中で、最大の評
価値を与えるグループをそのパタンが属するグループと
判断し、また、その評価値を形状評価値とする。このよ
うに形状評価値を算出することによっても、カテゴリの
違いによる形状のばらつきを吸収し、適応的な評価をす
ることができる。
【0026】
【実施例】図1は本発明の一実施例の構成を示すブロッ
ク図である。文字列画像記憶手段1は、2値化された文
字列画像を格納する通常の記憶手段である。基本パタン
抽出手段2は、文字列画像記憶手段1から文字列画像を
信号11として読み込み、図形としてのまとまりの最小
単位のパタンを抽出し、その切り出し位置を通常の記憶
装置に格納する手段である。例えばこれは、次のように
して実現できる。文字列画像に対してその文字列方向と
垂直な方向に黒画素を計数して得られる投影関数をf(
x)とする(図6(a))。関数f(x)に対して式(
4)で表されるガウシャン関数g(x)を用いて、式(
5)の計算を施し、平滑化した投影関数f’(x)を算
出する(図6(b))。
【0027】
【数4】
【0028】
【0029】投影関数f’(x)の極小値を与える全て
のx座標を算出し、この点を切り出し候補位置Ni と
し、この点を通り文字列方向と垂直な方向の直線を切り
出し候補線とする。隣合う切り出し候補線に挟まれたパ
タンを基本パタンとする。
【0030】候補文字パタン作成手段3では、信号12
として切り出し候補位置を読み込み、2つの切り出し候
補線に挟まれたパタンが1文字であるかを判断し、1文
字と判断されたパタンを候補文字パタンとして通常の記
憶手段により記憶する。ここで、1文字である可能性の
あるパタンとは、例えば以下のような判定基準(1)及
び(2)により判定するもので、パタンの外接矩形の縦
横比や内部の余白の算出、及び判定(1)や(2)は従
来技術により実現できる。 (1)パタンの外接矩形の縦横比(w/h)が、0.5
≦r≦2.5ならばそのパタンは候補文字パタンとする
(図4) (2)パタンの内部の余白(s)の文字幅(w)に対す
る比が0.5以下ならば、候補文字パタンとする(図4
)。
【0031】文字認識手段5は、候補文字パタン作成手
段3から信号13として各候補文字パタンを読み込み、
文字認識辞書4から信号14として標準パタンを読み込
み、候補文字パタンの認識を行い、文字コードと認識評
価値を通常の記憶手段によって記憶する。ここで、認識
は例えば従来より良く知られている単純類似度法(文献
「文字認識概論」オーム社、1982、pp34−35
参照)を用い、また認識評価値として類似度値を用いる
ことにより実現が可能である。
【0032】文字形状辞書記憶手段6では、予めカテゴ
リ毎に学習パタンから形状に関する標準特徴量を算出し
、これを通常の記憶手段により記憶しておく。標準特徴
量とは、例えば、外接矩形の縦横比の平均R、分散σr
 及び内部余白の平均I、分散σi である。
【0033】形状評価値算出手段7では、候補文字パタ
ン算出手段3より信号15として、候補文字パタンを読
み込み、文字認識手段5から信号16としてその文字コ
ードを読み込み、文字形状辞書6から信号17として、
そのカテゴリの標準特徴量を読み込み、この標準特徴量
を判断基準として候補文字パタンの形状評価値を算出し
、通常の記憶手段により記憶する。このような算出手段
は、形状評価値として例えば上述の式(1)を用いるこ
とにより、実現可能である。
【0034】文字評価値算出手段8では、文字認識手段
5から信号18として認識評価値を読み込み、形状評価
値7から信号19として形状評価値を読み込み、認識評
価値と形状評価値から候補文字パタンの文字評価値を算
出し、これを通常の記憶手段により記憶する。文字評価
値の算出については、例えば、上述の式(2)を用いる
ことにより、実現が可能である。
【0035】最適組み合わせ探索手段9では、文字評価
値算出手段8から信号20として、各候補文字パタンの
文字評価値を読み込み、切り出し候補位置Ni をノー
ドとし、候補文字パタンl(i,j)をリンクとする2
端子有向グラフに於いて、始点N0 から終点Nk に
至る、n個のリンクを通るパスp={Ns<0>,..
.,Ns<n>}に対して、パスを構成するリンクの文
字評価値から決まる文字列評価値Φ(p)を算出し、こ
の文字列評価値を最大にするパスを探索し、このパスを
通常の記憶手段により記憶する。このような探索手段は
、文字列評価値Φ(p)として、例えば、上述の式(3
)を用いて算出し、更に最適パスを、動的計画法(文献
「音声認識」共立出版、1979、pp107−108
参照)を用いて効率的に探索することにより実現できる
【0036】文字列認識結果出力手段10では、最適組
み合わせ探索手段9から信号21として最適パスp={
Ns<0>,...,Ns<n>}を読み込み、そこに
含まれる各候補文字パタンl(s(i),s(i+1)
)に対応する文字コードを文字認識手段5から信号22
として読み込み、文字列画像の先頭に位置する候補文字
パタンから文字コードを出力する。
【0037】以上、実施例をもって本発明を詳細に説明
したが、本発明はこの実施例にのみ限定されるものでは
ない。例えば、本実施例では、縦書きの文字列を前提と
していたために、そこで利用する形状特徴量として、縦
横比rと内部の余白i(s/w)を利用したが、横書き
の文字列の場合には、内部余白iの代わりにi’(s’
/h)を利用した方が文字の切り出しには有効である。 (図7)。また、文字形状辞書記憶手段6では、各カテ
ゴリ毎に形状特徴量の統計量を記憶していたが、これを
形状が類似の文字をグループにまとめておくことも可能
である。グループ毎にこれに含まれる学習パタンから形
状特徴量の統計量を記憶しておいて、候補文字の認識結
果から、その文字が属するグループの形状特徴量を文字
形状辞書記憶手段から読み込んでも、本発明には支障な
く適用できる。この場合、グループ分けとして、例えば
図5のような分類を用いれば実現が可能である。
【0038】更に、前述の形状評価値算出手段7では、
文字認識手段5から候補文字パタンの認識結果を読み込
んでいるが、図8のような構成も本発明の実施例の一つ
である。図8は図1の候補文字パタン作成手段3から文
字評価値算出手段8までの部分を取り出し、形状評価値
算出部分の構成を替えたものである。以下、図8につい
て説明する。文字形状辞書記憶手段32では、上述のよ
うに、形状が類似の文字グループ毎に標準特徴量を通常
の記憶手段により記憶する。標準特徴量とは例えば、外
接矩形の縦横比の平均R、分散σr 及び内部余白の平
均I、分散σi である。形状評価値算出手段33では
、候補文字パタン作成手段30から、信号35として候
補文字パタンを読み込み、文字形状辞書記憶手段32か
ら信号36として全てのグループの標準特徴量を読み込
み、各グループ毎に候補文字パタンの評価値を式(1)
で算出し、その最大の評価値をその候補文字パタンの形
状評価値として、通常の記憶手段により記憶する。文字
評価値算出手段34は文字認識手段31から信号37に
より認識評価値を読み込み、形状評価値算出手段33か
ら形状評価値を信号38として読み込み、認識評価値と
形状評価値から図1の実施例と同様に、文字評価値を算
出し、これを通常の記憶手段により記憶する。以上のよ
うな装置を図1の候補文字パタン作成手段3から文字評
価値算出手段8までの部分に置き換えたものも本発明の
一実施例である。
【0039】
【発明の効果】以上のように、本発明によれば、文字列
中の各文字の縦横比等の形状にばらつきがあっても、文
字である信頼性を評価する上で、文字毎に評価基準を設
けているために、正しく文字を切り出すことが可能にな
る。
【図面の簡単な説明】
【図1】本発明の1つである文字列認識装置の1実施例
の構成を示すブロック図
【図2】発明が解決するための課題を説明するための図
【図3】本発明の原理を説明するための図。
【図4】本発明の原理を説明するための図。
【図5】本発明の原理を説明するための図。
【図6】本発明の実施例を説明するための図
【図7】本
発明の実施例を説明するための図
【図8】本発明の1つ
である文字列認識装置の1実施例の構成を示すブロック
【図9】従来例の構成を示すブロック図
【符号の説明】
1  文字列画像記憶手段 2  基本パタン抽出手段 3  候補文字パタン作成手段 4  文字認識辞書記憶手段 5  文字認識手段 6  文字形状辞書記憶手段 7  形状評価値算出手段 8  文字評価値算出手段 9  最適組み合わせ探索手段 10  文字列認識結果出力手段 30  候補文字パタン作成手段 31  文字認識手段 32  文字形状辞書記憶手段 33  形状評価値算出手段 34  文字評価値算出手段 50  文字列画像記憶手段 51  基本パタン抽出手段 52  候補文字パタン作成手段 53  形状評価値算出手段 54  文字認識辞書記憶手段 55  文字認識手段 56  特性関数構成手段 57  文字評価値算出手段 58  最適組み合わせ探索手段 59  文字列認識結果出力手段

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】  文字列画像を光学的に読み込み、認識
    する方法において、文字列画像から図形的なまとまりの
    最小単位である基本パタンを抽出し、抽出された基本パ
    タンの少なくとも1つにもとづいて候補文字パタンを作
    成し、前記候補文字パタンと文字認識辞書の標準パタン
    とを照合して認識処理を行い、文字形状辞書に格納され
    た形状に関する標準特徴量を読み込み、前記標準特徴量
    を基に形状評価値を算出し、前記形状評価値及び前記文
    字認識処理結果から得られる認識評価値から文字評価値
    を算出し、前記候補文字パタンを組み合わせて構成され
    る文字列の内、前記文字評価値から設定される文字列評
    価値の最大になる候補文字パタンの組み合わせを探索し
    、前記候補文字パタンの組み合わせを前記文字列画像の
    認識結果とすることを特徴とする文字列認識方法。
  2. 【請求項2】  前記標準特徴量が字種毎の特徴量であ
    り、前記認識処理結果に対応して読み込み、前記形状評
    価値を前記標準特徴量を基に算出することを特徴とする
    請求項1記載の文字列認識方法。
  3. 【請求項3】  前記標準特徴量が形状が類似の文字か
    らなる文字グループ毎の特徴量であり、前記形状評価値
    を各前記文字グループに対して前記候補文字パタンの評
    価値を算出し、前記評価値の内、最大のものとすること
    を特徴とする請求項1記載の文字列認識方法。
  4. 【請求項4】  文字列画像を光学的に読み込み、認識
    する装置において、光学的に走査された文字列画像を格
    納する文字列画像記憶手段と、前記文字列画像から図形
    的なまとまりの最小単位である基本パタンを抽出する基
    本パタン抽出手段と、抽出された基本パタンの少なくと
    も1つにもとづいて候補文字パタン作成する候補文字パ
    タン作成手段と、前記候補文字パタンと文字認識辞書の
    標準パタンとを照合する文字認識手段と、形状に関する
    標準特徴量を格納する文字形状辞書記憶手段と、前記文
    字形状辞書記憶手段に格納された前記標準特徴量を読み
    込み、前記標準特徴量を基に形状評価値を算出する形状
    評価値算出手段と、前記形状評価値算出手段から得られ
    る形状評価値及び前記文字認識手段から得られる認識評
    価値から文字評価値を算出する文字評価値算出手段と、
    前記候補文字パタンを組み合わせて構成される文字列の
    内、前記文字評価値から設定される文字列評価値の最大
    になる候補文字パタンの組み合わせを探索する最適組合
    せ探索手段と、前記候補文字パタンの組み合わせを前記
    文字列画像の認識結果として出力する文字列認識結果出
    力手段とを有することを特徴とする文字列認識装置。
  5. 【請求項5】  文字列画像を光学的に読み込み、認識
    する装置において、光学的に走査された文字列画像を格
    納する文字列画像記憶手段と、前記文字列画像記憶手段
    から前記文字列画像を読み込み、前記文字列画像から基
    本パタンを抽出し、これを格納する基本パタン抽出手段
    と、前記基本パタン抽出手段から前記基本パタンを読み
    込み、抽出された基本パタンの少なくとも1つにもとづ
    いて候補文字パタンを作成し、これを格納する候補文字
    パタン作成手段と、文字の標準パタンを格納する文字認
    識辞書記憶手段と、前記候補文字パタン作成手段から、
    前記候補文字パタンを読み込み、前記文字認識辞書記憶
    手段から前記文字の標準パタンを読み込み、前記候補文
    字パタンと前記標準パタンとを照合して認識処理を行い
    、文字コードと認識評価値を格納する文字認識手段と、
    形状に関する標準特徴量を格納する文字形状辞書記憶手
    段と、前記候補文字パタン作成手段から前記候補文字パ
    タンを読み込み、前記文字形状辞書記憶手段から形状に
    関する標準特徴量を読み込み、前記標準特徴量を基に形
    状評価値を算出し、これを格納する形状評価値算出手段
    と、前記形状評価値算出手段から前記候補文字パタンの
    前記形状評価値を読み込み、前記文字認識手段から前記
    候補文字パタンの前記認識評価値を読み込み、前記形状
    評価値と前記認識評価値から文字評価値を算出し、これ
    を格納する文字評価値算出手段と、前記候補文字パタン
    を組み合わせて構成される文字列の文字列評価値を前記
    文字評価値算出手段から読み込まれた前記候補文字パタ
    ンの前記文字評価値を基に算出し、前記文字列評価値が
    最大になる前記候補文字パタンの組み合わせを探索し、
    これを格納する最適組み合わせ探索手段と、前記最適組
    み合わせ探索手段から前記候補文字パタンの最適な組み
    合わせを読み込み、各前記候補文字パタンの前記認識処
    理結果を前記文字認識手段から読み込み、これを出力す
    る文字列認識結果出力手段とを有することを特徴とする
    文字列認識装置。
  6. 【請求項6】  前記標準特徴量が字種毎の特徴量であ
    り、前記形状評価値算出手段が前記標準特徴量を基に候
    補パタンの形状評価値を算出し、これを格納することを
    特徴とする請求項4又は請求項5記載の文字列認識装置
  7. 【請求項7】  前記標準特徴量が形状が類似の文字か
    らなる文字グループ毎の特徴量であり、前記形状評価値
    算出手段が前記文字形状辞書から前記標準特徴量を読み
    込み、各前記文字グループに対して前記標準特徴量を基
    準として前記候補文字パタンの評価値を算出し、その最
    大値を前記候補文字パタンの形状評価値とし、これを格
    納することを特徴とする請求項4又は請求項5記載の文
    字列認識装置。
JP3064180A 1991-03-28 1991-03-28 文字列認識方法及びその装置 Pending JPH04299485A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3064180A JPH04299485A (ja) 1991-03-28 1991-03-28 文字列認識方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3064180A JPH04299485A (ja) 1991-03-28 1991-03-28 文字列認識方法及びその装置

Publications (1)

Publication Number Publication Date
JPH04299485A true JPH04299485A (ja) 1992-10-22

Family

ID=13250606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3064180A Pending JPH04299485A (ja) 1991-03-28 1991-03-28 文字列認識方法及びその装置

Country Status (1)

Country Link
JP (1) JPH04299485A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277149A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文字画像切出装置、文字画像切出方法およびプログラム
JP2010020421A (ja) * 2008-07-08 2010-01-28 Canon Inc 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277149A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文字画像切出装置、文字画像切出方法およびプログラム
JP2010020421A (ja) * 2008-07-08 2010-01-28 Canon Inc 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体

Similar Documents

Publication Publication Date Title
JP3842006B2 (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Bensefia et al. Writer identification by writer's invariants
Sharma et al. Recognition of isolated handwritten characters in Gurmukhi script
US5390259A (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
CA2077970C (en) Optical word recognition by examination of word shape
US5321770A (en) Method for determining boundaries of words in text
US5687253A (en) Method for comparing word shapes
Kanai et al. Automated evaluation of OCR zoning
US20060050962A1 (en) System, process and software arrangement for recognizing handwritten characters
Lee et al. Binary segmentation algorithm for English cursive handwriting recognition
JPH0664631B2 (ja) 文字認識装置
Elms et al. The advantage of using an HMM-based approach for faxed word recognition
Lehal et al. Feature extraction and classification for OCR of Gurmukhi script
CN113420669A (zh) 基于多尺度训练和级联检测的文档版面分析方法和系统
JPH08167000A (ja) 文字認識装置および方法
Ho et al. Pattern classification with compact distribution maps
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
CN110796134B (zh) 一种强噪声复杂背景图像中的汉字组词方法
Al-Maadeed et al. Automatic handedness detection from off-line handwriting
Khan et al. A holistic approach to Urdu language word recognition using deep neural networks
JPH04299485A (ja) 文字列認識方法及びその装置
JPS60153574A (ja) 文字読取方法
Amrouch et al. A novel feature set for recognition of printed amazigh text using maximum deviation and hmm
Mehta et al. Optical music notes recognition for printed piano music score sheet
JP2903779B2 (ja) 文字列認識方法及びその装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19981027