JP3180792B2 - 文字認識装置、文字学習装置およびコンピュータ可読記録媒体 - Google Patents

文字認識装置、文字学習装置およびコンピュータ可読記録媒体

Info

Publication number
JP3180792B2
JP3180792B2 JP00762199A JP762199A JP3180792B2 JP 3180792 B2 JP3180792 B2 JP 3180792B2 JP 00762199 A JP00762199 A JP 00762199A JP 762199 A JP762199 A JP 762199A JP 3180792 B2 JP3180792 B2 JP 3180792B2
Authority
JP
Japan
Prior art keywords
character
state
string
probability
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00762199A
Other languages
English (en)
Other versions
JP2000207495A (ja
Inventor
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP00762199A priority Critical patent/JP3180792B2/ja
Publication of JP2000207495A publication Critical patent/JP2000207495A/ja
Application granted granted Critical
Publication of JP3180792B2 publication Critical patent/JP3180792B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、紙などに書かれた
文字を光学センサで取り込んで読み取る光学的文字認識
の分野に関し、特に単語や文のように複数の文字が並ん
だ文字列を認識する文字認識技術に関する。
【0002】
【従来の技術】従来この種の文字認識では、文字列内の
文字の境界を同定する文字切り出しと、切り出されたそ
れぞれの文字を読み取る文字認識とを組み合わせること
によって文字列を読み取っていた。
【0003】従来技術の一例が文献「1994年、スー・リ
ャン他、セグメンテーション・オブ・タッチング・キャ
ラクターズ・イン・プリンテッド・ドキュメント・レコ
グニション、パターン・レコグニション、第27巻、第6
号、825〜840 頁(Su Liang etal., Segmentation of T
ouching Characters in Printed Document Recognitio
n, Pattern Recognition, Vol.27, No.6,pp.825-84
0,1994) 」 に記載されている。この文献に記載されて
いる方式では、投影ヒストグラムの形状およびそれより
派生する情報を利用して文字境界の候補を抽出し、任意
の2つの文字境界で挟まれる文字列の一部を文字パタン
候補としてすべて抽出する (文字切り出し) 。次に、す
べての文字パタン候補に対して文字認識を行って、それ
ぞれに認識結果とそのもっともらしさ(得点) を計算す
る。最後に、文字列として連結した際に得点が最大とな
るように、文字パタン候補を選び、同時に正しいと思わ
れる文字列の切り出し位置を決定する。
【0004】この他にもいくつかの方式が従来から考え
られているが、多くは文字切り出しに用いる情報が異な
るのみであるもの、あるいは文字切り出しをせずに網羅
的に文字列中のあらゆる部分で文字認識を行って最適な
切り出し位置を決定するもの、または文字認識で文字画
像から抽出する特徴量や文字を識別する方法が異なるの
みであるものがほとんどであった。上述した例は印刷文
字を認識対象としているが、手書き文字を対象とする方
式でも同様で、多くの場合、文字切り出しと文字認識は
別個のモジュールとして構成され、それらを組み合わせ
て文字列の読み取りを行うという手順が採用されてき
た。
【0005】
【発明が解決しようとする課題】従来の技術では、文字
切り出しと文字認識の処理が別個に用いられるため、ひ
とたび1つの文字と思われる部分画像(文字パタン候
補) が切り出されると、その文字は前後の文字の存在と
関わりなく、それぞれ独立に認識処理にかけられる。
【0006】図8は従来の技術の一例の機能的な構成を
示すブロック図である。この従来例は、入力された文字
列画像を記憶する画像記憶手段41と、画像記憶手段41よ
り受け取った文字列画像から隣接文字間の境界の候補を
切り出し位置候補として検出し、また文字列画像を識別
に有用なより少数の量(特徴) に変換する特徴抽出を行
う文字切り出し・特徴抽出手段42と、いくつかの切り出
し位置候補を選んで文字列画像を分割した際の個々の文
字パタン候補について文字認識を行って文字列全体とし
ての認識結果および認識結果の確からしさを表す認識得
点を計算し、認識得点が最大となる切り出しおよび認識
結果を文字列の読み取り結果として出力する文字列読み
取り手段43と、文字列読み取り手段43の要求に応じて、
与えられた文字パタン候補が、与えられた文字カテゴリ
(文字コード)のもとで出現する確率を計算する文字出
現確率計算手段44と、文字出現確率計算手段44が文字出
現確率を計算する際、与えられた文字パタン候補が与え
られた文字カテゴリにどれくらい近いかを計算するため
に必要な数値(文字テンプレート) を格納しておく文字
テンプレート格納手段45とを有する。また、文字読み取
り手段43が文字出現確率計算手段44に認識対象である文
字パタン候補と文字コードを渡す際のインタフェースと
して、文字パタン記憶手段46および文字コード記憶手段
47を備える。
【0007】文字列読み取り手段43はいくつかの切り出
し位置で切った文字列の部分画像を文字パタン候補と
し、あらゆる文字カテゴリを想定した場合のそれら文字
パタン候補と文字テンプレートとの近さを文字出現確率
計算手段44により求め、個々の文字パタン候補と文字テ
ンプレートの近さが文字列全体でもっとも高くなるよう
に、文字の切り出し位置および文字コード列を決定す
る。なお、この従来の技術では、文字テンプレートは、
文字学習手段49により、学習文字データ格納手段48に格
納された個別文字データを用いて学習される。
【0008】しかし、手書き文字列、特に筆記体英字列
のように続け書きで書かれる文字列の場合、個々の文字
は前後の文字とのつながりによって形状を変える。した
がって、従来の技術のように前後の文字の形状を無視し
て一定の認識処理を施す場合、続け書きによって引き起
こされる変形に対応できず、誤認識を生ずることがしば
しばである。
【0009】例えば、筆記体で続けて書かれた文字列の
場合、“a”という文字を書き終わった時点でのペンの
位置は下部にあるが、“o”を書き終わった時点でのペ
ンの位置は上部である。したがって、同じ文字であって
も、“a”の次に書かれるか“o”の次に書かれるかに
よって文字の形状が変化する(図2)。これは個別文字
では起こり得ない、文字列特有の変形である。このよう
な変形は、個別文字を認識することを目的として構築さ
れる従来の文字認識処理では対応不可能であり、しばし
ば誤認識の原因となる。
【0010】従来技術には続け書きの認識以外にも問題
点が存在する。アラビア数字では、“1”と“7”や
“4”と“9”のように、同一の筆者が書いた文字は互
いに識別できるが、異なる筆者同士を比べると識別不能
となる文字が存在する。例えば図3において、左上の
“17”と右上の“17”は異なる筆者によって書かれた文
字列の例である。同一筆者では“1”と“7”の識別は
容易であるが、矩形で囲って示した2つの文字、すなわ
ち第1の筆者の“7”と第2の筆者の“1”は形状的に
類似しており、識別するのが困難となりやすい。同様
に、図3の左下の“49”と右下の“49”も、同一筆者の
“4”と“9”は容易に識別できるが、第1の筆者の
“4”と第2の筆者の“9”は、それだけを見て比べる
と、識別が困難となる。この場合も、近隣の文字の形状
を見ずにある文字だけを単独で認識すると誤認識を生ず
るという問題が存在することがわかる。
【0011】上述したような、隣接する文字に依存して
文字が変形を受ける問題に対して、解決の試みが従来全
くみられなかったわけではない。ただし、認識精度や処
理速度等に問題を抱えており、実用に耐え得る方式とは
なり得ていない。
【0012】例えば、隣接する2文字を1つのパタンと
考えて、字種数の2乗個のテンプレートを学習して辞書
を構築し、認識対象の文字列を2文字単位で認識する方
法が考えられる。しかし、2文字の並びはパタンとして
の変形のバリエーションが極めて多様となり、膨大な量
の学習データが必要となる。しかしながら、テンプレト
は字種数の2乗個必要となるため、学習データ不足の問
題が深刻となる。また、仮に大量の学習データを得られ
たとしても、1文字のパタンに比べて極めて多様な変形
をする2文字分のパタンを、1文字の字種の二乗個のク
ラスから選ぶという識別は本質的に困難さが増している
ので、認識精度の劣化は避けられない。よって、2文字
を1パタンとして字種の2乗個のテンプレートを準備す
る方法は実用に適さない。
【0013】従来技術にはまた、文字列を文字のような
下位の要素に分解することをせずに単語単位で認識する
ことによって文字間の依存性を吸収しようとする方式も
ある。しかしながらこのような方式も、単語パタンの変
形バリエーションが膨大であるため、上記の隣接2文字
パタンを用いる方式と同様あるいはそれ以上の問題を抱
える。さらに、文字に比べて大規模の画像を扱うため、
処理効率も悪い。
【0014】上記以外にも、隣接する文字同士の関係を
考慮した従来技術があるが、字種の並びを考慮するに過
ぎず、パタンの変形までは考慮していない。その一例が
文献「1989年、クンドゥ他、レコグニション・オブ・ハ
ンドリトゥン・ワード:ファースト・アンド・セカンド
・オーダー・ヒドゥン・マルコフ・モデル・ベースト・
アプローチ、パターン・レコグニション、第27巻、第3
号、283〜297ページ(Recognition of handwritten wor
d; first and second order hidden Markov modelbased
approach, Kundu et al, Pattern Recognition, Vol.2
2, No.3, pp.283−297, 1989) 」に記載されている。
この文献に記載されている方式では、国語辞典や新聞雑
誌の文章から、あらゆる字種の2文字組の隣接する頻度
の統計を抽出しておき、その結果を文字列認識に利用す
る。すなわち、隣接する頻度の高い2文字組は文字認識
で現われやすいように文字認識の出力結果を調整する。
このように字種(文字コード) の2文字組の頻度情報を
利用する方式はバイグラム(bigram)と呼ばれ、これを利
用した技術は、この他にも多く報告されている。ただ、
はじめにも述べたように、bigramは文字コードの隣接関
係を考慮するに過ぎず、文字パタンの変形を考慮して文
字の隣接関係を考慮する技術とは別物である。
【0015】このように、文字コードレベルでの隣接関
係を利用して文字列を認識する技術は広く使われている
が、文字コードレベルとは別に文字パタンレベルでの隣
接関係を利用する技術は、文字パタンという次元数の大
きい情報を扱うことの困難さから、上述のように実用に
耐え得る技術は確立されていない。
【0016】そこで本発明の目的は、隣接する文字間の
依存性に起因して生ずる文字の変形の影響を受けにく
い、すなわち文字の接触や続け書き、および筆者ごとの
字形の個人差に対して頑健な、かつ実用的な処理速度で
動作可能な文字認識装置を提供することである。
【0017】
【課題を解決するための手段】上述した目的を達成する
ために、本発明による文字認識装置は、文字カテゴリご
とに、文字パタンの変形のタイプを代表するいくつかの
離散的な文字状態を想定し、それらの文字状態を接続し
た状態ネットワークを考える。1つの文字の直後にもう
1つの文字が続くことはネットワーク上での1回の状態
遷移に対応する。状態遷移によって新しい文字状態に移
るたびに、文字パタンが1つ発生するとし、1つの文字
列は文字数と同数の文字状態を経由することによって観
測されると考える。1つの文字状態から他の文字状態へ
の遷移は、ある文字状態からある文字状態へ遷移する確
率として規定されている。また各文字状態には、文字カ
テゴリごとに、変形した文字パタンを代表する代表パタ
ン(文字テンプレート) が関連づけられており、文字状
態からの文字パタンの発生は代表パタンを元にした確率
密度関数によって規定されている。これら文字状態の遷
移と代表パタンにより、入力文字列画像から抽出される
あらゆる文字パタン候補およびそれらの隣接関係の尤も
らしさを考慮しながら、文字列全体の認識結果を算出す
る。具体的には、本発明の文字認識装置は、入力された
文字列画像を格納する画像記憶手段と、前記画像記憶手
段より受け取った文字列画像より隣接文字間の境界の候
補を切り出し位置候補として検出し、また文字列画像を
識別に有用なより少数の量(特徴) に変換する特徴抽出
を行う文字切り出し・特徴抽出手段と、いくつかの切り
出し位置候補を選んで文字列画像を分割した際の個々の
文字パタン候補について文字認識を行って、文字列全体
として最適な切り出しおよび最適な文字コード列を文字
列の読み取り結果として出力する文字列読み取り手段
と、前記文字列読み取り手段から文字パタン候補、文字
コード、文字の変形のタイプを表すインデクスである文
字状態、与えられた文字パタン候補の直前に位置する文
字パタン候補の文字コード、文字状態を受け取り、与え
られた文字パタン候補が与えられた文字コードおよび文
字状態のもとで出現する確率を計算する文字出現確率計
算手段と、前記文字出現確率計算手段が文字出現確率を
計算する際、確率の文字状態に依存する部分を計算する
ために必要な数値(状態遷移確率) を格納しておく文字
状態遷移確率格納手段と、前記文字出現確率計算手段が
文字出現確率を計算する際、確率の文字パタンに依存す
る部分を計算するために必要な数値(文字テンプレー
ト) を格納しておく文字テンプレート格納手段とを有す
る。
【0018】また、本発明の文字学習装置では、上記ネ
ットワーク上での状態遷移を規定する確率(以下、文字
状態遷移確率とする)および文字パタンの出力を規定す
る確率密度関数を定めるパラメータ(以下、文字テンプ
レートとする) は、正解文字コード列を付与された文字
列画像から、学習によって自動的に獲得される。学習に
おいて用いられる文字列画像には、正解文字コード列さ
え付与されていれば、文字間の境界等の情報を与えなく
とも、学習の過程で個々の文字パタンが自動的に切り出
されて学習が進行する。具体的には、本発明の文字学習
装置は、最適な文字状態遷移確率の推定および最適な文
字テンプレートの推定を、与えられた文字列画像とその
正解文字コード列から推定する際に用いる文字列データ
を格納する学習文字列データ格納手段と、前記学習文字
列データ格納手段より受け取った文字列画像より隣接文
字間の境界の候補を切り出し位置候補として検出し、ま
た文字列画像を識別に有用なより少数の量(特徴) に変
換する特徴抽出を行う文字切り出し・特徴抽出手段と、
文字パタン候補、文字コード、文字の変形のタイプを表
すインデクスである文字状態、与えられた文字パタン候
補の直前に位置する文字パタン候補の文字コード、文字
状態を受け取り、与えられた文字パタン候補が与えられ
た文字コードおよび文字状態のもとで出現する確率を計
算する文字出現確率計算手段と、文字列画像に付与され
た正解文字コード列と前記文字出現確率計算手段を用い
て文字列画像中の文字の境界を推定する文字境界決定手
段と、前記文字境界決定手段が前記文字出現確率計算手
段に文字の出現確率の計算を要求する際に渡す文字パタ
ン候補を記憶する文字パタン記憶手段と、文字パタン候
補に対応する、正解文字コード列中の文字コードとその
直前の文字コードを記憶する2つの文字コード記憶手段
と、同じく前記文字パタン候補に対応する文字状態とそ
の直前の文字パタン候補に対応する文字状態を記憶する
2つの文字状態記憶手段と、前記文字出現確率計算手段
が文字出現確率を計算する際、確率の文字状態に依存す
る部分を計算するために必要な数値(状態遷移確率) を
格納しておく文字状態遷移確率格納手段と、前記文字出
現確率計算手段が文字出現確率を計算する際、確率の文
字パタンに依存する部分を計算するために必要な数値
(文字テンプレート)を格納しておく文字テンプレート
格納手段と、前記文字境界決定手段によって切り出され
た個々の文字パタンとその並び順を用いて、前記文字状
態遷移確率格納手段に格納されている文字状態遷移確率
および前記文字テンプレート格納手段に格納されている
文字テンプレートを更新する文字学習手段とを有する。
【0019】
【発明の実施の形態】次に、本発明の第一の実施の形態
について図面を参照して詳細に説明する。
【0020】図1は、本発明の一実施例を示すブロック
図である。この実施例は、入力された文字列画像を光学
センサで取り込んで格納する画像記憶手段11と、画像記
憶手段11より受け取った文字列画像から隣接文字間の境
界の候補を切り出し位置候補として検出し、また文字列
画像を識別に有用なより少数の量(特徴) に変換する特
徴抽出を行う文字切り出し・特徴抽出手段12と、いくつ
かの切り出し位置候補を選んで文字列画像を分割した際
に得られる文字パタン候補について文字認識を行って文
字列全体としての認識得点を計算し、最も高い認識得点
が得られる切り出しおよび文字コード列を文字列の読み
取り結果として出力する文字列読み取り手段13と、文字
列読み取り手段13の要求に応じて、文字列読取り手段13
より文字パタン候補とそれに対応する文字コード(主文
字コード)、文字状態(主文字状態)、文字パタン候補
の直前に位置するもう一つの文字パタン候補に対応する
文字コード(副文字コード)および文字状態(副文字状
態)を受け取り、文字パタン候補が出現する確率を計算
する文字出現確率計算手段14と、文字出現確率計算手段
14が文字出現確率を計算する際、文字間の接続すなわち
文字状態の遷移に依存する部分を計算するために必要な
数値(文字状態遷移確率) を格納しておく文状態遷移確
率格納手段15と、文字出現確率計算手段14が文字出現確
率を計算する際、与えられた文字パタンそのものに依存
する部分を計算するために必要な数値(文字テンプレー
ト) を格納しておく文字テンプレート格納手段16と、文
字列読み取り手段13が文字出現確率計算手段14に文字の
出現確率の計算を要求する際に渡す文字パタン、文字コ
ードおよび文字状態を格納する文字パタン記憶手段30、
主文字コード記憶手段31、副文字コード記憶手段32、主
文字状態記憶手段33および副文字状態記憶手段34とを有
する。
【0021】さらにこの実施例は、最適な文字状態遷移
確率および文字テンプレートを、与えられた文字列デー
タから推定する際に用いる学習用の文字列データを格納
する学習文字列データ格納手段21と、学習文字列データ
格納手段21より受け取った文字列画像より切り出し位置
候補を検出し、また文字列画像を識別に有用なより少数
の量(特徴) に変換する特徴抽出を行う文字切り出し・
特徴抽出手段22と、文字列画像に付与された正解文字コ
ード列と文字出現確率計算手段14を用いて、文字列画像
中の切り出し位置候補から切り出し位置を選択する文字
境界決定手段23と、文字境界決定手段23が文字出現確率
計算手段14に文字の出現確率の計算を要求する際に渡す
文字パタン候補、文字コードおよび文字状態を格納する
文字パタン記憶手段35、主文字コード記憶手段36、副文
字コード記憶手段37、主文字状態記憶手段38および副文
字状態記憶手段39と、文字境界決定手段23によって切り
出された個々の文字パタンとその並び順を用いて、文字
状態遷移確率格納手段15に格納されている文字状態遷移
確率および文字テンプレート格納手段16に格納されてい
る文字テンプレートを更新する文字学習手段24とを有す
る。
【0022】各々の手段はそれぞれ計算機上に記憶され
たプログラムとして動作させることにより実現可能であ
る。
【0023】画像記憶手段11、文字切り出し・特徴抽出
手段12、文字列読み取り手段13、文字出現確率計算手段
14、文字状態遷移確率格納手段15、文字テンプレート格
納手段16、各記憶手段30〜34で文字列認識装置1が構成
される(図1の点線枠) 。また、学習文字列データ格納
手段21、文字切り出し・特徴抽出手段22、文字境界決定
手段23、文字学習手段24、各記憶手段35〜39で、文字列
学習装置2が構成される(図1の破線枠) 。なお、文字
列認識装置1内の文字切り出し・特徴抽出手段12と文字
列学習装置2内の文字切り出し・特徴抽出手段22は同一
の機能を備える。また文字列認識装置1と文字列学習装
置2は通常は同時に使われないので、文字列認識装置1
と文字列学習装置2で1つの文字切り出し・特徴抽出手
段を共有するような構成でもよい。
【0024】なお、文字列の認識や学習を行う場合に
は、入力画像に対して前処理を行うのが一般的であり、
前処理としては、多値画像をより扱いやすい2値画像に
変換する2値化処理、文字の大きさやストロークの間
隔、傾き等を整形する正規化処理、画像中の細かな汚れ
やかすれを除くノイズ除去処理などが考えられる。ここ
では図示していないが、これらの前処理を、必要に応じ
て文字切り出し・特徴抽出手段12や文字切り出し・特徴
抽出手段22、文字列読み取り手段13、文字境界決定手段
23、文字出現確率計算手段14の内部等に導入してよい。
また、これらの前処理と文字切り出し、特徴抽出は、前
後関係を問わずあらゆる順序で適用することができる。
【0025】以下、本実施の形態による本発明の動作に
ついて段階を追って説明する。まず、文字列認識装置1
の動作について、図5の流れ図を参照しながら説明す
る。
【0026】読み取り対象の画像はスキャナ等によって
光学的に入力され、画像記憶手段11に格納され、さらに
文字切り出し・特徴抽出手段12へ送られる。図5の流れ
図の画像読み込み100 がこれに相当する。文字切り出し
・特徴抽出手段12は、文字列画像に2値化処理、正規化
処理等適当な前処理を施した上で、文字列画像からいく
つかの切り出し位置(文字境界) 候補(これは横書き文
字列を扱う場合はx軸上の、つまり水平方向の座標とし
て表される)を検出し、その座標および文字列画像また
は文字列画像を特徴抽出処理により変換した特徴パタン
を文字列読み取り手段13へ送る。図5の流れ図の文字切
り出し・特徴抽出101がこれに相当する。
【0027】文字切り出し・特徴抽出101 において、切
り出し位置候補の検出には、例えば図形的な情報を利用
する。図形的な情報としては、例えば文字列の (文字列
が横書きならば縦方向の、縦書きならば横方向の) 投影
ヒストグラムを計算し、度数があらかじめ設定したしき
い値よりも低い位置を切り出し位置候補とすればよい。
別の図形的な情報を用いた切り出し手段として、文字列
の輪郭線を追跡してその凹凸を計測し、凹みがしきい値
よりも大きくなる位置を切り出し位置候補として記憶す
るという方法も考えられる。また、複数の図形的特徴を
併用して切り出し位置候補を求める方法も可能である。
【0028】図形的情報を利用しないで切り出し位置候
補を作成することも可能である。図形的情報を利用しな
い場合は、文字列画像の開始位置の座標から終了位置の
座標までを等間隔に区切り、その区切り点をすべて切り
出し位置候補として記憶する。この場合はある程度多数
の(例えば想定される文字数の数倍程度の) 切り出し位
置候補を記憶する。
【0029】文字切り出し・特徴抽出101 における特徴
抽出処理には任意の方法が採用可能である。以下では、
特徴抽出の例として2値画像からの方向特徴の抽出処理
を挙げる。2値画像の各画素について、その画素を含む
水平方向(0°方向) の黒ランのラン長を画素値として
(ただし、注目している画素が白画素なら画素値は0と
する) 、多値画像を作る。これにより水平方向のストロ
ークのみを強調した方向画像ができる。鉛直方向(90°
方向)、斜め方向(45°、135°方向) についても同様
に、各方向を強調した方向画像が作れるので、計4枚の
画像ができる。図4は方向特徴の抽出例を示す図であ
り、“92383”と書かれた数字列画像から0°、45°、90
°、135°の4方向を強調した方向画像が抽出されてい
る。
【0030】この後、必要ならばさらにパタンの圧縮を
行う。すなわち、それぞれの方向画像で、鉛直方向を適
当な数(例えば4、5等)に、また水平方向を画素単位
で小領域に分割し、各小領域の画素値を領域全体の画素
値の平均値あるいは最大値に置き換える。これによって
鉛直方向の画像サイズは数画素に圧縮される。
【0031】文字列読み取り手段13は、入力画像にT個
の文字が含まれていると仮定して、切り出し位置候補か
ら(T-1) 個の切り出し位置の選び方および各々の選び方
でできるT個の文字パタン候補の属するカテゴリの可能
性を、すべての組合せについて調べ、最も認識得点(認
識結果の確からしさを示す尺度) の高い切り出し位置お
よび文字カテゴリ(文字コード) を選んだ場合の認識得
点を計算する。図5の流れ図の文字列出現確率計算102
がこれに相当する。ここで、Tの値としては、一般に
は、想定し得る幾つかの候補を考え、それぞれの文字数
について認識得点を計算して、一番得点の高いところを
選ぶようにする。但し、例えば海外の郵便で使われるpo
stal codeなどは、必ず5桁の数字と決まっているの
で、本発明をpostal codeを認識する装置など、入力画
像中に含まれる文字数が既知の或る値Dである装置に適
用する場合には、T=Dに固定すれば良い。
【0032】さらに、文字列読み取り手段13は、認識得
点が最高となった場合に選ばれるはずの(T-1)個の切り
出し位置とT個の文字カテゴリを求め、これと文字列出
現確率計算102 で得られた認識得点を併せて読み取り結
果として出力する。図5の流れ図の正解文字コード計算
・正解切り出し位置計算103 がこれに相当する。
【0033】この一連の動作について、以降でさらに詳
しく説明する。
【0034】まず、文字列の認識得点の定義を示す。入
力画像の文字数をTとして、切り出し位置候補の数を
(S−1)とする(T≦S)。入力画像またはそれを特
徴に変換した特徴パタンをすべての切り出し位置候補で
分割すると、S個の部分画像ができる。このS個の部分
画像を左から順にx1 ,x2 ,…,xS とする(1,
…,Sは部分画像のインデクス)。S個の部分画像x
1 ,x2 ,…,xS の並びを任意にT個のグループに分
割した各々のグループを入力画像中に含まれるT個の文
字の各々に対応付けたとき、それぞれの文字の終端にく
る部分画像のインデクスをS1 ,S2,…,ST とする。
ただし、すべての部分画像が過不足なくいずれかの文字
に割り当てられると考えてS1 <S2 <…<ST =Sと
する。 例えば、T=5、S=9とすると、 x1 ,x2 ,x ,x ,x,x ,x,x
,x という9個の部分画像ができ、これを、 グループ1 x1 ,x2 グループ2 x グループ3 x,x,x グループ4 x,x グループ5 x のようにT=5個にグループ分けした場合、x1 ,x2
を連結したパタンが先頭の文字、xが単独で2番目
の文 字、x ,x,xを連結したパタンが3番
目の文字というように各部分画像が各文字に割り当てら
れる。そして、文字の終端にくる部分画像は、各グルー
プの右端に位置する部分画像(x 2 ,x ,x
,x)となる。つまり、S1 =2、S2= 3、
=6、S=8、S=9である(実際の処理で
は、グループ分けは1種類だけしか考えないのではな
く、あらゆるグループ分けの組み合わせで認識得点を計
算してみて、一番認識得点の 高いグループ分けを選び
出すことにより、正しいと思われる文字切り出しを求め
る)。また、第t目の文字に対応する文字パタンXt
は、いくつかの部分画像を連結したパタンとして、Xt
=(xs t - 1+1,…,xS t)と表される(ただしS0
= 0)。また、各文字の属するカテゴリをW1
2 ,…,WT とする。このとき、認識得点Aは〔数1〕
で定義される。
【0035】
【数1】
【0036】ここに、z1,…,zT は、それぞれ1,
…,T番目の文字に対応する文字状態を表す。πi k
1文字目がカテゴリkに属しているという条件のもとで
文字状態がiにある確率、ai j k lは2文字目以降の
ある文字が文字カテゴリl(エル)に属し、かつその直
前の文字が文字カテゴリkに属し、かつ直前の文字の時
点で文字状態がiにあったという条件のもとで、現時点
の文字状態がjにある確率を意味する。 また、
μi k 、Σi kは、文字状態i、文字カテゴリkのとき
の文字パタンの発生を特徴づけるパラメータで、それぞ
れ平均と共分散である。f( X |μ,Σ )は平均μ、共分
散Σの正規分布(ガウス分布) を表す。
【0037】πi kとai j k l(i,j=1,2,…,
N。k,l=1,2,…,C。Nは文字状態の数、Cは
文字カテゴリの数) は、文字カテゴリk,lを条件とし
て文字状態の遷移を規定するパラメータで、文字パタン
間の隣接の尤もらしさを表すパラメータである。これら
を文字状態遷移確率と呼ぶ。これらは図1のブロック図
の文字状態遷移確率格納手段15に格納されている。一
方、μi k、Σi kは、状態i、カテゴリkを仮定したと
きに、与えられた文字パタンが現出する確率密度関数f
を規定するので、一種のテンプレートと考えられる。こ
れらは図1のブロック図の文字テンプレート格納手段16
に格納されている。
【0038】文字状態遷移確率ai j k lは、文字テン
プレート (μi k ,Σi k ) と (μj l, Σj l ) の間
の遷移を規定している。ai j k lの値が大きいほど、
文字テンプレート(μi k ,Σi k ) に代表される文字
パタン候補と (μj l ,Σj l )に代表される文字パタ
ン候補が隣接することの妥当性は高いことを意味する。
これら文字状態遷移確率や文字テンプレートのパラメー
タの値は、後述するように学習によって自動的に 獲得
される。
【0039】文字出現確率計算手段14は、文字列読み取
り手段13の要求に応じて、また文字状態遷移確率格納手
段15および文字テンプレート格納手段16が有するパラメ
ータを参照しながら、与えられた文字パタン候補が出現
する確率を計算する。つまり、文字列読み取り手段13が
文字パタン候補Xt =(xs t - 1+1,…,xS t)お
よびその文字パタン候補が属すると仮定する文字カテゴ
リlと文字状態j、その文字の直前の文字Xt - 1 が属
すると仮定する文字カテゴリkと文字状態iをそれぞれ
文字パタン記憶手段30、主文字コード記憶手段31、副文
字コード記憶手段32、主文字状態記憶手段33、副文字状
態記憶手段34に格納すると、文字出現確率計算14はそれ
らを読み出して、その文字パタン候補が出現する確率a
i j k l f( X t|μj l ,Σj l )を返す。ただし、与
えられた文字パタン候補が文字列の先頭の文字である場
合には、π j l f ( X t |μj l ,Σj l ) を返す。
【0040】このように、文字出現確率計算手段14は、
文字状態を用いて文字パタン候補の出現確率を計算する
際に、各文字状態が、対応する文字パタン候補の変形の
傾向に応じてマルコフ確率過程に従って遷移し、この状
態間の遷移確率の大小で隣接する文字間の接続の妥当性
を評価することによって文字出現確率の値を加減する。
また、与えられた文字パタン候補と辞書パタンとの距離
を計算する際、文字パタン候補に対応する前記文字状態
に応じて文字テンプレートを選択する。
【0041】文字列読み取り手段13は、上記l、kとし
て考えられるすべての文字カテゴリを1つずつ順番に、
また上記j、iとして1〜Nまでのすべての文字状態を
1つずつ順番に代入して、その度に文字出現確率計算手
段14で文字パタンの出現する確率を計算する。こうし
て、文字列読み取り手段13は、考えられるすべての文字
カテゴリ、文字状態を網羅的に調べて、一番認識得点の
高い文字カテゴリの組合せを見つける。
【0042】なお、文字出現確率計算手段14がパタンX
t =(xs t - 1+1,…,xS t)の出現確率を計算す
る際、文字パタン候補に対して簡単な特徴変換を施す。
すなわち、文字切り出し・特徴抽出手段12では鉛直方向
の画素数を圧縮したが、それと同様に水平方向の画素数
を数画素に圧縮する。例えば文字切り出し・特徴抽出手
段12で鉛直方向を4画素に圧縮していたとすると、ここ
で水平方向も4画素に圧縮する。これにより4×4=16
画素が残るので、4つの各方向画像ごとにこれらの画素
値を並べて合計64次元のベクトルを作る。これをもとに
文字パタン候補の出現確率を計算する。
【0043】図5の文字列出現確率計算102 における
〔数1〕の認識得点の最大値を求める処理と、図5の正
解文字コード計算・正解切り出し位置計算103 における
(T−1)個の切り出し位置とT個のカテゴリの組合せ
を求める処理では、処理時間を短縮するため、漸化式を
用いて効率的に計算する。その計算手順について説明す
る。
【0044】今、部分画像x1,…,xS のうち1番目
からs番目までを使って1文字目からt文字目までを認
識させたとして、t番目の文字がカテゴリwに属し、か
つそのときの状態がzにあるという条件の下での認識得
点の最大値をA t (s,z,w)とおく(小文字sと
大文字S の違いに注意)。つまり、A t (s,z,
w)は、t番目の文字の属する文字カテゴリがwで、t
番目の文字に対応する文字状態がzにあり、かつ、t番
目の文字とt+1番目の文字との境界位置s(=t文字
目の終端に位置する部分画像のインデクス)であると仮
定したときの、1文字目からt文字目までの認識得点の
最大値である。このとき、〔数2〕のようなtに関する
漸化式が成り立つ。
【数2】
【0045】この漸化式に従って、文字列読み取り手段
13は、tを順次増加させながらs,z,wに関する計算
を進めることによって、最終的な認識得点AはA=ma
w ΣzT(S, z,w)と求めることができる(こ
こでの Σzはzに関する総和を意味する)。このとき文
字列読み取り手段13は、着目する文字の属する文字カテ
ゴリ(文字コード) 、対応する文字状態および次の文字
との境界位置を記憶しながら漸化式に従って認識得点を
計算する。tを1つ増やして次の段階の認識得点A
T+1(s,z,w)を計算する際に、すべてのs,
z,wの値にわたって、At(s,z,w)の値が必要
なので、それら(すべてのs,z,wに関するA
t(s,z,w)の値)を記憶しておく必要があるから
である。
【0046】また、各文字の終端位置および属するカテ
ゴリは、〔数3〕に示す漸化式でtを順次減じてゆくこ
とによって求めることができる。
【数3】
【0047】ただしここに、argmaxは、最大値を
求める計算をして最大値が得られたときの引数値を返す
関数である。
【0048】次に、図1の文字列学習装置2の動作につ
いて、図6の流れ図を参照しながら説明する。文字列学
習装置2は、学習用の文字列データ、すなわち文字列画
像とそれらに付与された正解文字コード列を用いて、文
字状態遷移確率格納手段15および文字テンプレート格納
手段16に格納されているパラメータを最適化する。学習
には複数の文字列データを用いる。これらの画像はスキ
ャナ等の適当な手段によって学習文字列データ格納手段
21に格納される。学習文字列データ格納手段21には、画
像の他に、画像に書かれた文字列の正解のデータも(キ
ーボード入力等の適当な手段によって) 格納される。図
6の画像読み込み200 がこれに相当する。
【0049】学習文字列データ格納手段21に格納された
文字列データの個数をKとする。文字切り出し・特徴抽
出手段22では、これらK個の文字列画像の各々につい
て、2値化処理、正規化処理等適当な前処理を施した上
で、文字列画像からいくつかの切り出し位置候補を検出
し、その座標および文字列画像または文字列画像を特徴
抽出処理により変換した特徴パタンを文字境界決定手段
23へ送る。前処理、切り出し位置検出、特徴抽出の詳細
は、文字列認識装置1の文字切り出し・特徴抽出手段12
と同一である。図6の文字切り出し・特徴抽出201 がこ
れに相当する。
【0050】文字境界決定手段23は、文字切り出し・特
徴抽出手段22より、K個の画像から得られた切り出し位
置候補、特徴パタンおよび正解文字コード列の組を受け
取る。k番目の文字列画像あるいは文字列画像を変換し
た特徴パタンをX( k ) 、これに対応する正解文字コー
ド列をW 1 ( k ) ,…,W T ( k ) とする。ここでは
正解の文字数Tは文字列画像ごとに一定とするが、各々
異なっていても構わない。次に、文字境界決定手段23
は、k個のデータの各々について、正解文字コードを既
知として、切り出し位置候補から(T−1)個の切り出
し位置の選び方すべての組合せを調べ、最も認識得点の
高い切り出し位置を選んだ場合の得点を計算する。計算
手順は、正解文字コードが固定である以外は、前述の文
字列読取り手段13と同様である。つまり、文字列読み取
り手段13が文字パタン候補Xt ( k )およびその文字パタ
ン候補が属すべきカテゴリm = Wt ( k )と文字状態j、
その文字パタン候補の直前に位置する文字パタン候補が
属すべきカテゴリ l = W t - 1 ( k ) と文字状態iを
それぞれ文字パタン記憶手段35、主文字コード記憶手段
36、副文字コード記憶手段37、主文字状態記憶手段38、
副文字状態記憶手段39に格納すると、文字出現確率計算
手段14はそれらを読み出して、その文字パタン候補が出
現する確率ai j l m f ( X t ( k ) |μj m j m )
を返す。図6の流れ図の文字列出現確率計算202 がこれ
に相当する。
【0051】この場合の文字列の認識得点は前述の〔数
1〕と同様の表式で定義されるが、正解文字コードが既
知であるので、これに関する最大化maxW 1 ( k )
…,W T ( k )は不要となる。認識得点の計算において
は、前述の〔数2〕と同様、漸化式による効率的な計算
が適用可能であるが、正解文字コードが既知であること
から、文字コードに関する最大化計算が不要となり、よ
り簡略化された計算で認識得点が求められる。
【0052】さらに文字境界決定手段23は、認識得点が
最高となった場合に選ばれる(T−1)個の切り出し位
置を求める。この手順は、正解文字コードが固定である
点を除いて、前述の〔数3〕でS1 ,…,ST - 1
求めたのと同様である。図6の流れ図の正解切り出し位
置計算203 がこれに相当する。
【0053】ここまでの手続きによって、文字列データ
から個別の文字パタンまたはそれを変換した特徴パタン
t ( k ) および対応する正解文字カテゴリw
t ( k )(t=1,…,T。k=1,…,K)が得られる
ので、これらを文字学習手段24に送る。図6の流れ図の
文字データ生成204 がこれに相当する。
【0054】文字学習手段24は、文字境界決定手段23よ
り個別文字の特徴パタンXt ( k ) および対応する正解
文字コードwt ( k )(t=1,…,T。k=1,…,
K)を受け取り、文字状態遷移確率格納手段15および文
字テンプレート格納手段16に格納されたパラメータを最
適化する。すなわち、各文字列画像に関する認識得点の
総和または総積が最大となるようにパラメータを更新す
る。図6の流れ図のパラメータ更新205 がこれに相当す
る。以下でパラメータ更新の計算の詳細について示す。
【0055】まず、次の〔数4〕の漸化式に従って、α
t ( k )( i ) およびβt ( k )( j )(i,j=1,…,
N。k=1,…,K。t=1,…,T)を計算し記憶す
る。α t ( k ) ( i ) は、t文字目に対応する文字状態
がiであるという条件の下での文字パタン候補X1 ( k )
,…,Xt ( k ) の認識得点、βt ( k ) ( j ) は、t
文字目に対応する文字状態がjであるという条件の下で
の文字パタン候補Xt + 1 ( k ) ,…,XT ( k ) の認
識得点を表す。
【数4】
【0056】上記αt ( k ) ( i ) 、βt ( k ) ( j ) と
現状のパラメータを用いて、次の〔数5〕のようにパラ
メータを更新する。
【数式5】
【0057】ただし、〔数5〕の中のP(X 1
( k ) ,…,X T ( k ) |w 1 ( k ) ,…, w t
( k ) ) は、α T ( k ) ( i ) のiに関する総和Σ
i=1 N αT ( k ) (i ) として計算可能である(ここでの
Σi=1 N はi=1,2,…,Nに関する総和を意味する) 。また
δi j はクロネッカーのデルタを意味する(i=jなら
1、そうでなければ0)。〔数5〕のパラメータ更新手
順に従えば、k個の文字列画像データの認識得点の総積
は単調に増大する。更新手続を何回かくり返せば、認識
得点の総積の増加傾向が或る程度小さくなって殆ど増加
しなくなる。これをもって、収束と判定する(図6の処
理206)。この時点で、所望のパラメータの値が得ら
れる。
【0058】上記のパラメータ更新手続きでは、現状で
得られているパラメータの値を用いてよりよいパラメー
タ値を得るという方法を採っているので、最初にパラメ
ータの初期値を設定する必要がある。そこでパラメータ
の初期値設定の手順について以下に説明する。
【0059】はじめに、個別に切り出されて文字カテゴ
リごとに分類された少量の文字画像データを準備する。
必要ならば、文字画像は前述の文字列認識装置1、文字
列学習装置2と同様に前処理を施し、特徴パタンに変換
する。次に、各カテゴリごとに、k−means等のク
ラスタリングアルゴリズムを用いて、カテゴリ内のデー
タを所望の状態数Nと同数のクラスタに分類し、各クラ
スタの中心(平均) と分散を求める。そして、第i番目
のカテゴリの第k番目のクラスタの中心をμi kに代入
する。またΣi kの対角成分にクラスタの分散を代入
し、非対角成分には0を代入する。この後、最尤推定法
を用いて混合正規分布の推定を行い、μi kおよびΣi k
をより精度よく推定する。なお、k−meansアル
ゴリズムおよび最尤推定法に基づく混合正規分布の推定
の手順は、例えば文献「1990年、ファン他、ヒドゥン・
マルコフ・モデルズ・フォー・スピーチ・レコグニショ
ン、エジンバラ・ユニバーシティ・プレス(Huang et a
l., Hidden Markov Models forSpeech Recognition,
Edinburgh University Press, 1990) 」等、多くの文
献に記載されている公知の技術である。
【0060】πi kとai j k lは確率の値なので、何ら
かの総和が1になるように適当に設定する。πi kはπ
1k+ π2k+…+πNk=1でなくてはならず、a
i j k lはai 1 k l+ai 2 k l+…+ai N k l
1でなくてはならないので、πi kとai j k lには例え
ば1/Nを代入すれば良い。
【0061】次に、本発明の第二の実施の形態について
図面を参照して説明する。
【0062】図7を参照すると、本発明の第二の実施の
形態は、データ処理装置18と、文字認識プログラムを記
録した記録媒体17と、図1と同様な画像記憶手段11、文
字状態遷移確率格納手段15、文字テンプレート格納手段
16とを備える。この記録媒体17はCD−ROM、磁気デ
ィスク、半導体メモリその他の記録媒体であってよく、
ネットワークを介して流通する場合も含む。データ処理
装置18はCPUおよびメモリを含む。
【0063】文字認識プログラムは記録媒体17からデー
タ処理装置18に読み込まれ、データ処理装置18の動作を
制御することにより、データ処理装置18上に、図1に示
した文字切り出し・特徴抽出手段12、文字列読み取り手
段13、文字出現確率計算手段14、各記憶手段30〜34を実
現する。データ処理装置18は文字認識プログラムの制御
により、文字切り出し・特徴抽出手段を用いて画像記憶
手段11に入力された文字列画像からいくつかの切り出し
位置候補を検出し、画像に前処理を施し、特徴を抽出す
る。次に、文字列読み取り手段、文字出現確率計算手
段、各記憶手段を用いて、それら複数の切り出し位置候
補よりいくつかの文字パタン候補を生成し、それら文字
パタン候補のそれぞれについて、文字状態遷移確率格納
手段15および文字テンプレート格納手段16にそれぞれ格
納された文字状態遷移確率および文字テンプレートを用
いて認識処理を行い、文字列全体として最大の認識得点
が得られるような読み取り結果を求めて出力する。即
ち、本実施の形態の実施例では、データ処理装置18が文
字認識プログラムの制御により、第一の実施の形態にお
ける文字切り出し・特徴抽出手段12、文字列読み取り手
段13、文字出現確率計算手段14、文字パタン記憶手段3
0、主文字コード記憶手段31、副文字コード記憶手段3
2、主文字状態記憶手段33および副文字状態記憶手段34
による処理と同一の処理を実行して文字列の読み取り結
果を出力する。
【0064】
【発明の効果】以上説明したように、本発明によれば、
文字列の読み取りにおいて、文字カテゴリごとに文字の
変形のいくつかのタイプを代表する複数の文字状態を準
備し、それらを接続したネットワークを考え、隣接する
2つの文字パタンのそれぞれの形状を代表する文字状態
および文字カテゴリを鑑みてその接続の妥当性を評価す
ることにより、直前に書かれた文字からの続け書きや接
触、筆者の変化によって文字形状が変形することを考慮
に入れて、高精度に文字を認識することが可能となり、
結果として正確な文字列の読み取りが実現される。ま
た、この状態ネットワークは、文字パタンのテンプレー
トとともに、切り出し位置が未知の学習文字列データを
用いて最適化できるため、学習用に個別文字データを準
備する等の作業が不要となり、高精度の読み取り処理系
をより少ない労力で容易に構築することが可能となる。
また、文字パタンの間の依存性を文字状態という離散的
な記号の依存性に置き換えて処理するため、処理量も低
く抑えられる。
【図面の簡単な説明】
【図1】本発明の一実施例の機能的な構成を表したブロ
ック図である。
【図2】文字の誤り方がその字種に依存する例を示す文
字画像の図である。
【図3】文字の誤り方が筆者に依存する例を示す文字画
像の図である。
【図4】入力文字列画像を特徴パタンに変換した結果の
一例を示す図である。
【図5】本発明の一実施例の処理の流れを表した流れ図
である。
【図6】本発明の一実施例の処理の流れを表した流れ図
である。
【図7】本発明の一実施例の機能的な構成を表したブロ
ック図である。
【図8】従来技術の一実施例の機能的な構成を表したブ
ロック図である。
【符号の説明】
1 文字列認識装置 2 文字列学習装置 11 画像記憶手段 12 文字切り出し・特徴抽出手段 13 文字列読み取り手段 14 文字出現確率計算手段 15 文字状態遷移確率格納手段 16 文字テンプレート格納手段 17 記録媒体 18 データ処理装置 21 学習文字列データ格納手段 22 文字切り出し・特徴抽出手段 23 文字境界決定手段 24 文字学習手段 30 文字パタン記憶手段 31 主文字コード記憶手段 32 副文字コード記憶手段 33 主文字状態記憶手段 34 副文字状態記憶手段 35 文字パタン記憶手段 36 主文字コード記憶手段 37 副文字コード記憶手段 38 主文字状態記憶手段 39 副文字状態記憶手段 41 画像記憶手段 42 文字切り出し・特徴抽出手段 43 文字列読み取り手段 44 文字出現確率計算手段 45 文字テンプレート格納手段 46 文字パタン記憶手段 47 文字コード記憶手段 48 学習文字データ格納手段 49 文字学習手段 100 画像読み込み 101 文字切り出し・特徴抽出 102 文字列出現確率計算 103 正解文字コード計算・正解切り出し位置計算 200 画像読み込み 201 文字切り出し・特徴抽出 202 文字列出現確率計算 203 正解切り出し位置計算 204 文字データ生成 205 パラメータ更新 206 収束判定
フロントページの続き (56)参考文献 特開 平8−96085(JP,A) 特開 平5−6464(JP,A) 「電子情報通信学会技術研究報告 P RMU98−139」Vol.98 No.489 p.25−30(1998)”確率モデルの基 づくオンライン枠なし手書き文字列認 識" 「電子情報通信学会技術研究報告 P RMU98−138」Vol.98 No.489 p.17−24(1998)”切り出し・認 識・言語の確信度を統合した枠なしオン ライン文字列認識手法" 「情報処理学会研究報告」Vol.93 No.79 p.37−44(1993)”Bi gramによるオンライン漢字認識の文 脈後処理手法" 「情報処理学会論文誌」Vol.39 No.3 p.625−635(1998)”認識 誤りを含む和文テキストにおける全文検 索手法" (58)調査した分野(Int.Cl.7,DB名) G06K 9/62 - 9/72 JICSTファイル(JOIS)

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文字列画像を格納する画像記
    憶手段と、前記画像記憶手段より受け取った文字列画像
    より隣接文字間の境界の候補を切り出し位置候補として
    検出し、また文字列画像を識別に有用なより少数の量
    (特徴) に変換する特徴抽出を行う文字切り出し・特徴
    抽出手段と、いくつかの切り出し位置候補を選んで文字
    列画像を分割した際の個々の文字パタン候補について文
    字認識を行って、文字列全体として最適な切り出しおよ
    び最適な文字コード列を文字列の読み取り結果として出
    力する文字列読み取り手段と、前記文字列読み取り手段
    から文字パタン候補、文字コード、文字の変形のタイプ
    を表すインデクスである文字状態、与えられた文字パタ
    ン候補の直前に位置する文字パタン候補の文字コード、
    文字状態を受け取り、与えられた文字パタン候補が与え
    られた文字コードおよび文字状態のもとで出現する確率
    を計算する文字出現確率計算手段と、前記文字出現確率
    計算手段が文字出現確率を計算する際、確率の文字状態
    に依存する部分を計算するために必要な数値(状態遷移
    確率) を格納しておく文字状態遷移確率格納手段と、前
    記文字出現確率計算手段が文字出現確率を計算する際、
    確率の文字パタンに依存する部分を計算するために必要
    な数値(文字テンプレート) を格納しておく文字テンプ
    レート格納手段とを有することを特徴とする文字認識装
    置。
  2. 【請求項2】 前記文字列読み取り手段が前記文字出現
    確率計算手段に文字の出現確率の計算を要求する際に渡
    す文字パタンを記憶する文字パタン記憶手段と、同じく
    前記文字列読み取り手段が前記文字出現確率計算手段に
    渡す、前記文字パタン候補に対応する文字コードとその
    直前に位置する文字パタン候補に対応する文字コードを
    記憶する2 つの文字コード記憶手段と、同じく前記文字
    列読み取り手段が前記文字出現確率計算手段に渡す、前
    記文字パタン候補に対応する文字状態とその直前に位置
    する文字パタン候補に対応する文字状態を記憶する2つ
    の文字状態記憶手段とを有することを特徴とする請求項
    1記載の文字認識装置。
  3. 【請求項3】 前記文字出現確率計算手段が前記文字状
    態を用いて文字パタン候補の出現確率を計算する際に、
    各文字状態が、対応する文字パタン候補の変形の傾向に
    応じてマルコフ確率過程に従って遷移し、この状態間の
    遷移確率の大小で隣接する文字間の接続の妥当性を評価
    することによって文字出現確率の値を加減することを特
    徴とする請求項1または2記載の文字認識装置。
  4. 【請求項4】 前記文字出現確率計算手段が与えられた
    文字パタン候補と辞書パタンとの距離を計算する際、文
    字パタン候補に対応する前記文字状態に応じて文字テン
    プレートを選択することを特徴とする請求項3記載の文
    字認識装置。
  5. 【請求項5】 前記文字出現確率計算手段が、直前の文
    字パタン候補に対応する文字状態に応じて使い分けるた
    めの複数の文字テンプレートを正規分布の形式で文字テ
    ンプレート格納手段内に備えることを特徴とする請求項
    4記載の文字認識装置。
  6. 【請求項6】 前記文字列読み取り手段が文字列の認識
    結果の確からしさの尺度である認識得点を計算する際、
    先頭の文字に起因する得点から始めて2番目の文字、3
    番目の文字と順次得点を加算してゆき、着目する文字の
    属する文字カテゴリ( 文字コード) 、対応する文字状態
    および次の文字との境界位置を記憶しながら漸化式に従
    って認識得点を計算することを特徴とする請求項1また
    は2記載の文字認識装置。
  7. 【請求項7】 最適な文字状態遷移確率の推定および最
    適な文字テンプレートの推定を、与えられた文字列画像
    とその正解文字コード列から推定する際に用いる文字列
    データを格納する学習文字列データ格納手段と、前記学
    習文字列データ格納手段より受け取った文字列画像より
    隣接文字間の境界の候補を切り出し位置候補として検出
    し、また文字列画像を識別に有用なより少数の量(特
    徴) に変換する特徴抽出を行う文字切り出し・特徴抽出
    手段と、文字パタン候補、文字コード、文字の変形のタ
    イプを表すインデクスである文字状態、与えられた文字
    パタン候補の直前に位置する文字パタン候補の文字コー
    ド、文字状態を受け取り、与えられた文字パタン候補が
    与えられた文字コードおよび文字状態のもとで出現する
    確率を計算する文字出現確率計算手段と、文字列画像に
    付与された正解文字コード列と前記文字出現確率計算手
    段を用いて文字列画像中の文字の境界を推定する文字境
    界決定手段と、前記文字境界決定手段が前記文字出現確
    率計算手段に文字の出現確率の計算を要求する際に渡す
    文字パタン候補を記憶する文字パタン記憶手段と、文字
    パタン候補に対応する、正解文字コード列中の文字コー
    ドとその直前の文字コードを記憶する2つの文字コード
    記憶手段と、同じく前記文字パタン候補に対応する文字
    状態とその直前の文字パタン候補に対応する文字状態を
    記憶する2つの文字状態記憶手段と、前記文字出現確率
    計算手段が文字出現確率を計算する際、確率の文字状態
    に依存する部分を計算するために必要な数値(状態遷移
    確率) を格納しておく文字状態遷移確率格納手段と、前
    記文字出現確率計算手段が文字出現確率を計算する際、
    確率の文字パタンに依存する部分を計算するために必要
    な数値(文字テンプレート) を格納しておく文字テンプ
    レート格納手段と、前記文字境界決定手段によって切り
    出された個々の文字パタンとその並び順を用いて、前記
    文字状態遷移確率格納手段に格納されている文字状態遷
    移確率および前記文字テンプレート格納手段に格納され
    ている文字テンプレートを更新する文字学習手段とを有
    することを特徴とする文字学習装置。
  8. 【請求項8】 前記文字境界決定手段が前記文字出現確
    率計算手段に文字の出現確率の計算を要求する際に渡す
    文字パタン候補を記憶する文字パタン記憶手段と、文字
    パタン候補に対応する、正解文字コード列中の文字コー
    ドとその直前の文字コードを記憶する2つの文字コード
    記憶手段と、同じく前記文字パタン候補に対応する文字
    状態とその直前の文字パタン候補に対応する文字状態を
    記憶する2つの文字状態記憶手段とを有することを特徴
    とする請求項7記載の文字学習装置。
  9. 【請求項9】 前記文字学習手段が、文字列データの認
    識得点の総和または総積が最大となるように文字状態遷
    移確率と文字テンプレートを同時に最適化することを特
    徴とする請求項7または8記載の文字学習装置。
  10. 【請求項10】 前記文字学習手段が、切り出し位置が
    未知である文字列データを使い、文字境界決定手段によ
    って文字列の認識得点が最大となるように自動的に切り
    出された個別文字画像を用いて文字状態遷移確率および
    文字テンプレートを同時に最適化することを特徴とする
    請求項7または8記載の文字学習装置。
  11. 【請求項11】 コンピュータ上で動作する文字認識プ
    ログラムを記録した記録媒体であって、コンピュータ
    に、 文字列画像を入力し記憶するステップと、 文字列画像からいくつかの文字の境界の候補、すなわち
    切り出し位置候補を検出し、また文字列画像を識別に有
    用なより少数の量(特徴)に変換する特徴抽出を行うス
    テップと、 切り出し位置候補に基づいて複数の文字パタン候補を生
    成し、それぞれの文字パタン候補と、その文字パタン候
    補に対する文字コードおよび文字の変形のタイプを表す
    インデクスである文字状態、文字パタン候補の直前に位
    置するもう一つの文字パタン候補に対する文字コードお
    よび文字状態を用いて、それぞれの文字パタン候補が出
    現する確率を、その文字パタン候補に対応する文字コー
    ドおよび文字状態のもとでその文字パタン候補が出現す
    る確率と、その文字パタン候補に対応する文字状態とそ
    の文字パタン候補の直前に位置する文字パタン候補に対
    応する文字状態が連続して発生する確率(状態遷移確
    率)という2つの確率から算出するステップと、 文字列全体でもっとも高い得点を得られるような文字切
    り出しおよび文字コード列を探索して出力するステップ
    とを、 実行させるプログラムを記録したコンピュータ可読記録
    媒体。
JP00762199A 1999-01-14 1999-01-14 文字認識装置、文字学習装置およびコンピュータ可読記録媒体 Expired - Fee Related JP3180792B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00762199A JP3180792B2 (ja) 1999-01-14 1999-01-14 文字認識装置、文字学習装置およびコンピュータ可読記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00762199A JP3180792B2 (ja) 1999-01-14 1999-01-14 文字認識装置、文字学習装置およびコンピュータ可読記録媒体

Publications (2)

Publication Number Publication Date
JP2000207495A JP2000207495A (ja) 2000-07-28
JP3180792B2 true JP3180792B2 (ja) 2001-06-25

Family

ID=11670903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00762199A Expired - Fee Related JP3180792B2 (ja) 1999-01-14 1999-01-14 文字認識装置、文字学習装置およびコンピュータ可読記録媒体

Country Status (1)

Country Link
JP (1) JP3180792B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074331A (ja) * 2004-09-01 2006-03-16 Ricoh Co Ltd 画像処理装置、画像処理プログラム、記憶媒体、画像処理装置の画像処理制御方法および画像形成装置
JP5365440B2 (ja) * 2009-09-15 2013-12-11 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP6511942B2 (ja) * 2015-04-30 2019-05-15 富士ゼロックス株式会社 情報処理装置および情報処理プログラム
CN111461238B (zh) * 2020-04-03 2024-03-05 讯飞智元信息科技有限公司 模型训练方法、字符识别方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
「情報処理学会研究報告」Vol.93 No.79 p.37−44(1993)"Bigramによるオンライン漢字認識の文脈後処理手法"
「情報処理学会論文誌」Vol.39 No.3 p.625−635(1998)"認識誤りを含む和文テキストにおける全文検索手法"
「電子情報通信学会技術研究報告 PRMU98−138」Vol.98 No.489 p.17−24(1998)"切り出し・認識・言語の確信度を統合した枠なしオンライン文字列認識手法"
「電子情報通信学会技術研究報告 PRMU98−139」Vol.98 No.489 p.25−30(1998)"確率モデルの基づくオンライン枠なし手書き文字列認識"

Also Published As

Publication number Publication date
JP2000207495A (ja) 2000-07-28

Similar Documents

Publication Publication Date Title
AlKhateeb et al. Offline handwritten Arabic cursive text recognition using Hidden Markov Models and re-ranking
US6556712B1 (en) Methods and apparatus for handwriting recognition
Naz et al. The optical character recognition of Urdu-like cursive scripts
Namboodiri et al. Online handwritten script recognition
US7630551B2 (en) Method and system for line extraction in digital ink
Khayyat et al. Learning-based word spotting system for Arabic handwritten documents
WO1997044758A9 (en) Methods and apparatuses for handwriting recognition
Shaw et al. Offline Handwritten Devanagari Word Recognition: A holistic approach based on directional chain code feature and HMM
Patel et al. Handwritten character recognition in english: a survey
Ghiasi et al. An efficient method for offline text independent writer identification
Saba et al. Online versus offline Arabic script classification
Mozaffari et al. Lexicon reduction using dots for off-line Farsi/Arabic handwritten word recognition
Sharma et al. RETRACTED ARTICLE: Offline scripting-free author identification based on speeded-up robust features
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
BJ et al. Kannada confusing character recognition and classification using random forest and SVM
Huang et al. Keyword spotting in unconstrained handwritten Chinese documents using contextual word model
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Nguyen et al. A segmentation method of single-and multiple-touching characters in offline handwritten japanese text recognition
JP3180792B2 (ja) 文字認識装置、文字学習装置およびコンピュータ可読記録媒体
Jameel et al. Offline recognition of handwritten urdu characters using b spline curves: A survey
Firdaus et al. Arabic letter segmentation using modified connected component labeling
Koga et al. Segmentation of Japanese handwritten characters using peripheral feature analysis
Fu et al. A hidden Markov model based segmentation and recognition algorithm for Chinese handwritten address character strings
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
Shaw et al. A two stage recognition scheme for offline handwritten Devanagari words

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080420

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090420

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100420

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140420

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees