JP3180792B2

JP3180792B2 - 文字認識装置、文字学習装置およびコンピュータ可読記録媒体

Info

Publication number: JP3180792B2
Application number: JP00762199A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-01-14
Filing date: 1999-01-14
Publication date: 2001-06-25
Anticipated expiration: 2019-01-14
Also published as: JP2000207495A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、紙などに書かれた
文字を光学センサで取り込んで読み取る光学的文字認識
の分野に関し、特に単語や文のように複数の文字が並ん
だ文字列を認識する文字認識技術に関する。

【０００２】

【従来の技術】従来この種の文字認識では、文字列内の
文字の境界を同定する文字切り出しと、切り出されたそ
れぞれの文字を読み取る文字認識とを組み合わせること
によって文字列を読み取っていた。

【０００３】従来技術の一例が文献「1994年、スー・リ
ャン他、セグメンテーション・オブ・タッチング・キャ
ラクターズ・イン・プリンテッド・ドキュメント・レコ
グニション、パターン・レコグニション、第27巻、第６
号、825〜840 頁(Su Liang etal.， Segmentation of T
ouching Characters in Printed Document Recognitio
n， Pattern Recognition， Vol.27， No.6，pp.825-84
0，1994) 」に記載されている。この文献に記載されて
いる方式では、投影ヒストグラムの形状およびそれより
派生する情報を利用して文字境界の候補を抽出し、任意
の２つの文字境界で挟まれる文字列の一部を文字パタン
候補としてすべて抽出する (文字切り出し) 。次に、す
べての文字パタン候補に対して文字認識を行って、それ
ぞれに認識結果とそのもっともらしさ（得点) を計算す
る。最後に、文字列として連結した際に得点が最大とな
るように、文字パタン候補を選び、同時に正しいと思わ
れる文字列の切り出し位置を決定する。

【０００４】この他にもいくつかの方式が従来から考え
られているが、多くは文字切り出しに用いる情報が異な
るのみであるもの、あるいは文字切り出しをせずに網羅
的に文字列中のあらゆる部分で文字認識を行って最適な
切り出し位置を決定するもの、または文字認識で文字画
像から抽出する特徴量や文字を識別する方法が異なるの
みであるものがほとんどであった。上述した例は印刷文
字を認識対象としているが、手書き文字を対象とする方
式でも同様で、多くの場合、文字切り出しと文字認識は
別個のモジュールとして構成され、それらを組み合わせ
て文字列の読み取りを行うという手順が採用されてき
た。

【０００５】

【発明が解決しようとする課題】従来の技術では、文字
切り出しと文字認識の処理が別個に用いられるため、ひ
とたび１つの文字と思われる部分画像（文字パタン候
補) が切り出されると、その文字は前後の文字の存在と
関わりなく、それぞれ独立に認識処理にかけられる。

【０００６】図８は従来の技術の一例の機能的な構成を
示すブロック図である。この従来例は、入力された文字
列画像を記憶する画像記憶手段41と、画像記憶手段41よ
り受け取った文字列画像から隣接文字間の境界の候補を
切り出し位置候補として検出し、また文字列画像を識別
に有用なより少数の量（特徴) に変換する特徴抽出を行
う文字切り出し・特徴抽出手段42と、いくつかの切り出
し位置候補を選んで文字列画像を分割した際の個々の文
字パタン候補について文字認識を行って文字列全体とし
ての認識結果および認識結果の確からしさを表す認識得
点を計算し、認識得点が最大となる切り出しおよび認識
結果を文字列の読み取り結果として出力する文字列読み
取り手段43と、文字列読み取り手段43の要求に応じて、
与えられた文字パタン候補が、与えられた文字カテゴリ
（文字コード）のもとで出現する確率を計算する文字出
現確率計算手段44と、文字出現確率計算手段44が文字出
現確率を計算する際、与えられた文字パタン候補が与え
られた文字カテゴリにどれくらい近いかを計算するため
に必要な数値（文字テンプレート) を格納しておく文字
テンプレート格納手段45とを有する。また、文字読み取
り手段43が文字出現確率計算手段44に認識対象である文
字パタン候補と文字コードを渡す際のインタフェースと
して、文字パタン記憶手段46および文字コード記憶手段
47を備える。

【０００７】文字列読み取り手段43はいくつかの切り出
し位置で切った文字列の部分画像を文字パタン候補と
し、あらゆる文字カテゴリを想定した場合のそれら文字
パタン候補と文字テンプレートとの近さを文字出現確率
計算手段44により求め、個々の文字パタン候補と文字テ
ンプレートの近さが文字列全体でもっとも高くなるよう
に、文字の切り出し位置および文字コード列を決定す
る。なお、この従来の技術では、文字テンプレートは、
文字学習手段49により、学習文字データ格納手段48に格
納された個別文字データを用いて学習される。

【０００８】しかし、手書き文字列、特に筆記体英字列
のように続け書きで書かれる文字列の場合、個々の文字
は前後の文字とのつながりによって形状を変える。した
がって、従来の技術のように前後の文字の形状を無視し
て一定の認識処理を施す場合、続け書きによって引き起
こされる変形に対応できず、誤認識を生ずることがしば
しばである。

【０００９】例えば、筆記体で続けて書かれた文字列の
場合、“ａ”という文字を書き終わった時点でのペンの
位置は下部にあるが、“ｏ”を書き終わった時点でのペ
ンの位置は上部である。したがって、同じ文字であって
も、“ａ”の次に書かれるか“ｏ”の次に書かれるかに
よって文字の形状が変化する（図２）。これは個別文字
では起こり得ない、文字列特有の変形である。このよう
な変形は、個別文字を認識することを目的として構築さ
れる従来の文字認識処理では対応不可能であり、しばし
ば誤認識の原因となる。

【００１０】従来技術には続け書きの認識以外にも問題
点が存在する。アラビア数字では、“１”と“７”や
“４”と“９”のように、同一の筆者が書いた文字は互
いに識別できるが、異なる筆者同士を比べると識別不能
となる文字が存在する。例えば図３において、左上の
“17”と右上の“17”は異なる筆者によって書かれた文
字列の例である。同一筆者では“１”と“７”の識別は
容易であるが、矩形で囲って示した２つの文字、すなわ
ち第１の筆者の“７”と第２の筆者の“１”は形状的に
類似しており、識別するのが困難となりやすい。同様
に、図３の左下の“49”と右下の“49”も、同一筆者の
“４”と“９”は容易に識別できるが、第１の筆者の
“４”と第２の筆者の“９”は、それだけを見て比べる
と、識別が困難となる。この場合も、近隣の文字の形状
を見ずにある文字だけを単独で認識すると誤認識を生ず
るという問題が存在することがわかる。

【００１１】上述したような、隣接する文字に依存して
文字が変形を受ける問題に対して、解決の試みが従来全
くみられなかったわけではない。ただし、認識精度や処
理速度等に問題を抱えており、実用に耐え得る方式とは
なり得ていない。

【００１２】例えば、隣接する２文字を１つのパタンと
考えて、字種数の２乗個のテンプレートを学習して辞書
を構築し、認識対象の文字列を２文字単位で認識する方
法が考えられる。しかし、２文字の並びはパタンとして
の変形のバリエーションが極めて多様となり、膨大な量
の学習データが必要となる。しかしながら、テンプレト
は字種数の２乗個必要となるため、学習データ不足の問
題が深刻となる。また、仮に大量の学習データを得られ
たとしても、１文字のパタンに比べて極めて多様な変形
をする２文字分のパタンを、１文字の字種の二乗個のク
ラスから選ぶという識別は本質的に困難さが増している
ので、認識精度の劣化は避けられない。よって、２文字
を１パタンとして字種の２乗個のテンプレートを準備す
る方法は実用に適さない。

【００１３】従来技術にはまた、文字列を文字のような
下位の要素に分解することをせずに単語単位で認識する
ことによって文字間の依存性を吸収しようとする方式も
ある。しかしながらこのような方式も、単語パタンの変
形バリエーションが膨大であるため、上記の隣接２文字
パタンを用いる方式と同様あるいはそれ以上の問題を抱
える。さらに、文字に比べて大規模の画像を扱うため、
処理効率も悪い。

【００１４】上記以外にも、隣接する文字同士の関係を
考慮した従来技術があるが、字種の並びを考慮するに過
ぎず、パタンの変形までは考慮していない。その一例が
文献「1989年、クンドゥ他、レコグニション・オブ・ハ
ンドリトゥン・ワード：ファースト・アンド・セカンド
・オーダー・ヒドゥン・マルコフ・モデル・ベースト・
アプローチ、パターン・レコグニション、第27巻、第３
号、283〜297ページ(Recognition of handwritten wor
d; first and second order hidden Markov modelbased
approach, Kundu et al, Pattern Recognition, Vol.2
2, No．3, pp．283−297, 1989) 」に記載されている。
この文献に記載されている方式では、国語辞典や新聞雑
誌の文章から、あらゆる字種の２文字組の隣接する頻度
の統計を抽出しておき、その結果を文字列認識に利用す
る。すなわち、隣接する頻度の高い２文字組は文字認識
で現われやすいように文字認識の出力結果を調整する。
このように字種（文字コード) の２文字組の頻度情報を
利用する方式はバイグラム(bigram)と呼ばれ、これを利
用した技術は、この他にも多く報告されている。ただ、
はじめにも述べたように、bigramは文字コードの隣接関
係を考慮するに過ぎず、文字パタンの変形を考慮して文
字の隣接関係を考慮する技術とは別物である。

【００１５】このように、文字コードレベルでの隣接関
係を利用して文字列を認識する技術は広く使われている
が、文字コードレベルとは別に文字パタンレベルでの隣
接関係を利用する技術は、文字パタンという次元数の大
きい情報を扱うことの困難さから、上述のように実用に
耐え得る技術は確立されていない。

【００１６】そこで本発明の目的は、隣接する文字間の
依存性に起因して生ずる文字の変形の影響を受けにく
い、すなわち文字の接触や続け書き、および筆者ごとの
字形の個人差に対して頑健な、かつ実用的な処理速度で
動作可能な文字認識装置を提供することである。

【００１７】

【課題を解決するための手段】上述した目的を達成する
ために、本発明による文字認識装置は、文字カテゴリご
とに、文字パタンの変形のタイプを代表するいくつかの
離散的な文字状態を想定し、それらの文字状態を接続し
た状態ネットワークを考える。１つの文字の直後にもう
１つの文字が続くことはネットワーク上での１回の状態
遷移に対応する。状態遷移によって新しい文字状態に移
るたびに、文字パタンが１つ発生するとし、１つの文字
列は文字数と同数の文字状態を経由することによって観
測されると考える。１つの文字状態から他の文字状態へ
の遷移は、ある文字状態からある文字状態へ遷移する確
率として規定されている。また各文字状態には、文字カ
テゴリごとに、変形した文字パタンを代表する代表パタ
ン（文字テンプレート) が関連づけられており、文字状
態からの文字パタンの発生は代表パタンを元にした確率
密度関数によって規定されている。これら文字状態の遷
移と代表パタンにより、入力文字列画像から抽出される
あらゆる文字パタン候補およびそれらの隣接関係の尤も
らしさを考慮しながら、文字列全体の認識結果を算出す
る。具体的には、本発明の文字認識装置は、入力された
文字列画像を格納する画像記憶手段と、前記画像記憶手
段より受け取った文字列画像より隣接文字間の境界の候
補を切り出し位置候補として検出し、また文字列画像を
識別に有用なより少数の量（特徴) に変換する特徴抽出
を行う文字切り出し・特徴抽出手段と、いくつかの切り
出し位置候補を選んで文字列画像を分割した際の個々の
文字パタン候補について文字認識を行って、文字列全体
として最適な切り出しおよび最適な文字コード列を文字
列の読み取り結果として出力する文字列読み取り手段
と、前記文字列読み取り手段から文字パタン候補、文字
コード、文字の変形のタイプを表すインデクスである文
字状態、与えられた文字パタン候補の直前に位置する文
字パタン候補の文字コード、文字状態を受け取り、与え
られた文字パタン候補が与えられた文字コードおよび文
字状態のもとで出現する確率を計算する文字出現確率計
算手段と、前記文字出現確率計算手段が文字出現確率を
計算する際、確率の文字状態に依存する部分を計算する
ために必要な数値（状態遷移確率) を格納しておく文字
状態遷移確率格納手段と、前記文字出現確率計算手段が
文字出現確率を計算する際、確率の文字パタンに依存す
る部分を計算するために必要な数値（文字テンプレー
ト) を格納しておく文字テンプレート格納手段とを有す
る。

【００１８】また、本発明の文字学習装置では、上記ネ
ットワーク上での状態遷移を規定する確率（以下、文字
状態遷移確率とする）および文字パタンの出力を規定す
る確率密度関数を定めるパラメータ（以下、文字テンプ
レートとする) は、正解文字コード列を付与された文字
列画像から、学習によって自動的に獲得される。学習に
おいて用いられる文字列画像には、正解文字コード列さ
え付与されていれば、文字間の境界等の情報を与えなく
とも、学習の過程で個々の文字パタンが自動的に切り出
されて学習が進行する。具体的には、本発明の文字学習
装置は、最適な文字状態遷移確率の推定および最適な文
字テンプレートの推定を、与えられた文字列画像とその
正解文字コード列から推定する際に用いる文字列データ
を格納する学習文字列データ格納手段と、前記学習文字
列データ格納手段より受け取った文字列画像より隣接文
字間の境界の候補を切り出し位置候補として検出し、ま
た文字列画像を識別に有用なより少数の量（特徴) に変
換する特徴抽出を行う文字切り出し・特徴抽出手段と、
文字パタン候補、文字コード、文字の変形のタイプを表
すインデクスである文字状態、与えられた文字パタン候
補の直前に位置する文字パタン候補の文字コード、文字
状態を受け取り、与えられた文字パタン候補が与えられ
た文字コードおよび文字状態のもとで出現する確率を計
算する文字出現確率計算手段と、文字列画像に付与され
た正解文字コード列と前記文字出現確率計算手段を用い
て文字列画像中の文字の境界を推定する文字境界決定手
段と、前記文字境界決定手段が前記文字出現確率計算手
段に文字の出現確率の計算を要求する際に渡す文字パタ
ン候補を記憶する文字パタン記憶手段と、文字パタン候
補に対応する、正解文字コード列中の文字コードとその
直前の文字コードを記憶する２つの文字コード記憶手段
と、同じく前記文字パタン候補に対応する文字状態とそ
の直前の文字パタン候補に対応する文字状態を記憶する
２つの文字状態記憶手段と、前記文字出現確率計算手段
が文字出現確率を計算する際、確率の文字状態に依存す
る部分を計算するために必要な数値（状態遷移確率) を
格納しておく文字状態遷移確率格納手段と、前記文字出
現確率計算手段が文字出現確率を計算する際、確率の文
字パタンに依存する部分を計算するために必要な数値
（文字テンプレート）を格納しておく文字テンプレート
格納手段と、前記文字境界決定手段によって切り出され
た個々の文字パタンとその並び順を用いて、前記文字状
態遷移確率格納手段に格納されている文字状態遷移確率
および前記文字テンプレート格納手段に格納されている
文字テンプレートを更新する文字学習手段とを有する。

【００１９】

【発明の実施の形態】次に、本発明の第一の実施の形態
について図面を参照して詳細に説明する。

【００２０】図１は、本発明の一実施例を示すブロック
図である。この実施例は、入力された文字列画像を光学
センサで取り込んで格納する画像記憶手段11と、画像記
憶手段11より受け取った文字列画像から隣接文字間の境
界の候補を切り出し位置候補として検出し、また文字列
画像を識別に有用なより少数の量（特徴) に変換する特
徴抽出を行う文字切り出し・特徴抽出手段12と、いくつ
かの切り出し位置候補を選んで文字列画像を分割した際
に得られる文字パタン候補について文字認識を行って文
字列全体としての認識得点を計算し、最も高い認識得点
が得られる切り出しおよび文字コード列を文字列の読み
取り結果として出力する文字列読み取り手段13と、文字
列読み取り手段13の要求に応じて、文字列読取り手段13
より文字パタン候補とそれに対応する文字コード（主文
字コード）、文字状態（主文字状態）、文字パタン候補
の直前に位置するもう一つの文字パタン候補に対応する
文字コード（副文字コード）および文字状態（副文字状
態）を受け取り、文字パタン候補が出現する確率を計算
する文字出現確率計算手段14と、文字出現確率計算手段
14が文字出現確率を計算する際、文字間の接続すなわち
文字状態の遷移に依存する部分を計算するために必要な
数値（文字状態遷移確率) を格納しておく文状態遷移確
率格納手段15と、文字出現確率計算手段14が文字出現確
率を計算する際、与えられた文字パタンそのものに依存
する部分を計算するために必要な数値（文字テンプレー
ト) を格納しておく文字テンプレート格納手段16と、文
字列読み取り手段13が文字出現確率計算手段14に文字の
出現確率の計算を要求する際に渡す文字パタン、文字コ
ードおよび文字状態を格納する文字パタン記憶手段30、
主文字コード記憶手段31、副文字コード記憶手段32、主
文字状態記憶手段33および副文字状態記憶手段34とを有
する。

【００２１】さらにこの実施例は、最適な文字状態遷移
確率および文字テンプレートを、与えられた文字列デー
タから推定する際に用いる学習用の文字列データを格納
する学習文字列データ格納手段21と、学習文字列データ
格納手段21より受け取った文字列画像より切り出し位置
候補を検出し、また文字列画像を識別に有用なより少数
の量（特徴) に変換する特徴抽出を行う文字切り出し・
特徴抽出手段22と、文字列画像に付与された正解文字コ
ード列と文字出現確率計算手段14を用いて、文字列画像
中の切り出し位置候補から切り出し位置を選択する文字
境界決定手段23と、文字境界決定手段23が文字出現確率
計算手段14に文字の出現確率の計算を要求する際に渡す
文字パタン候補、文字コードおよび文字状態を格納する
文字パタン記憶手段35、主文字コード記憶手段36、副文
字コード記憶手段37、主文字状態記憶手段38および副文
字状態記憶手段39と、文字境界決定手段23によって切り
出された個々の文字パタンとその並び順を用いて、文字
状態遷移確率格納手段15に格納されている文字状態遷移
確率および文字テンプレート格納手段16に格納されてい
る文字テンプレートを更新する文字学習手段24とを有す
る。

【００２２】各々の手段はそれぞれ計算機上に記憶され
たプログラムとして動作させることにより実現可能であ
る。

【００２３】画像記憶手段11、文字切り出し・特徴抽出
手段12、文字列読み取り手段13、文字出現確率計算手段
14、文字状態遷移確率格納手段15、文字テンプレート格
納手段16、各記憶手段30〜34で文字列認識装置１が構成
される（図１の点線枠) 。また、学習文字列データ格納
手段21、文字切り出し・特徴抽出手段22、文字境界決定
手段23、文字学習手段24、各記憶手段35〜39で、文字列
学習装置２が構成される（図１の破線枠) 。なお、文字
列認識装置１内の文字切り出し・特徴抽出手段12と文字
列学習装置２内の文字切り出し・特徴抽出手段22は同一
の機能を備える。また文字列認識装置１と文字列学習装
置２は通常は同時に使われないので、文字列認識装置１
と文字列学習装置２で１つの文字切り出し・特徴抽出手
段を共有するような構成でもよい。

【００２４】なお、文字列の認識や学習を行う場合に
は、入力画像に対して前処理を行うのが一般的であり、
前処理としては、多値画像をより扱いやすい２値画像に
変換する２値化処理、文字の大きさやストロークの間
隔、傾き等を整形する正規化処理、画像中の細かな汚れ
やかすれを除くノイズ除去処理などが考えられる。ここ
では図示していないが、これらの前処理を、必要に応じ
て文字切り出し・特徴抽出手段12や文字切り出し・特徴
抽出手段22、文字列読み取り手段13、文字境界決定手段
23、文字出現確率計算手段14の内部等に導入してよい。
また、これらの前処理と文字切り出し、特徴抽出は、前
後関係を問わずあらゆる順序で適用することができる。

【００２５】以下、本実施の形態による本発明の動作に
ついて段階を追って説明する。まず、文字列認識装置１
の動作について、図５の流れ図を参照しながら説明す
る。

【００２６】読み取り対象の画像はスキャナ等によって
光学的に入力され、画像記憶手段11に格納され、さらに
文字切り出し・特徴抽出手段12へ送られる。図５の流れ
図の画像読み込み100 がこれに相当する。文字切り出し
・特徴抽出手段12は、文字列画像に２値化処理、正規化
処理等適当な前処理を施した上で、文字列画像からいく
つかの切り出し位置（文字境界) 候補（これは横書き文
字列を扱う場合はｘ軸上の、つまり水平方向の座標とし
て表される）を検出し、その座標および文字列画像また
は文字列画像を特徴抽出処理により変換した特徴パタン
を文字列読み取り手段13へ送る。図５の流れ図の文字切
り出し・特徴抽出101がこれに相当する。

【００２７】文字切り出し・特徴抽出101 において、切
り出し位置候補の検出には、例えば図形的な情報を利用
する。図形的な情報としては、例えば文字列の (文字列
が横書きならば縦方向の、縦書きならば横方向の) 投影
ヒストグラムを計算し、度数があらかじめ設定したしき
い値よりも低い位置を切り出し位置候補とすればよい。
別の図形的な情報を用いた切り出し手段として、文字列
の輪郭線を追跡してその凹凸を計測し、凹みがしきい値
よりも大きくなる位置を切り出し位置候補として記憶す
るという方法も考えられる。また、複数の図形的特徴を
併用して切り出し位置候補を求める方法も可能である。

【００２８】図形的情報を利用しないで切り出し位置候
補を作成することも可能である。図形的情報を利用しな
い場合は、文字列画像の開始位置の座標から終了位置の
座標までを等間隔に区切り、その区切り点をすべて切り
出し位置候補として記憶する。この場合はある程度多数
の（例えば想定される文字数の数倍程度の) 切り出し位
置候補を記憶する。

【００２９】文字切り出し・特徴抽出101 における特徴
抽出処理には任意の方法が採用可能である。以下では、
特徴抽出の例として２値画像からの方向特徴の抽出処理
を挙げる。２値画像の各画素について、その画素を含む
水平方向(0°方向) の黒ランのラン長を画素値として
（ただし、注目している画素が白画素なら画素値は０と
する) 、多値画像を作る。これにより水平方向のストロ
ークのみを強調した方向画像ができる。鉛直方向(90°
方向)、斜め方向(45°、135°方向) についても同様
に、各方向を強調した方向画像が作れるので、計４枚の
画像ができる。図４は方向特徴の抽出例を示す図であ
り、“92383”と書かれた数字列画像から0°、45°、90
°、135°の４方向を強調した方向画像が抽出されてい
る。

【００３０】この後、必要ならばさらにパタンの圧縮を
行う。すなわち、それぞれの方向画像で、鉛直方向を適
当な数（例えば４、５等)に、また水平方向を画素単位
で小領域に分割し、各小領域の画素値を領域全体の画素
値の平均値あるいは最大値に置き換える。これによって
鉛直方向の画像サイズは数画素に圧縮される。

【００３１】文字列読み取り手段13は、入力画像にＴ個
の文字が含まれていると仮定して、切り出し位置候補か
ら(T-1) 個の切り出し位置の選び方および各々の選び方
でできるＴ個の文字パタン候補の属するカテゴリの可能
性を、すべての組合せについて調べ、最も認識得点（認
識結果の確からしさを示す尺度) の高い切り出し位置お
よび文字カテゴリ（文字コード) を選んだ場合の認識得
点を計算する。図５の流れ図の文字列出現確率計算102
がこれに相当する。ここで、Ｔの値としては、一般に
は、想定し得る幾つかの候補を考え、それぞれの文字数
について認識得点を計算して、一番得点の高いところを
選ぶようにする。但し、例えば海外の郵便で使われるpo
stal codeなどは、必ず５桁の数字と決まっているの
で、本発明をpostal codeを認識する装置など、入力画
像中に含まれる文字数が既知の或る値Ｄである装置に適
用する場合には、Ｔ＝Ｄに固定すれば良い。

【００３２】さらに、文字列読み取り手段13は、認識得
点が最高となった場合に選ばれるはずの（T-1)個の切り
出し位置とＴ個の文字カテゴリを求め、これと文字列出
現確率計算102 で得られた認識得点を併せて読み取り結
果として出力する。図５の流れ図の正解文字コード計算
・正解切り出し位置計算103 がこれに相当する。

【００３３】この一連の動作について、以降でさらに詳
しく説明する。

【００３４】まず、文字列の認識得点の定義を示す。入
力画像の文字数をＴとして、切り出し位置候補の数を
（Ｓ−１）とする（Ｔ≦Ｓ）。入力画像またはそれを特
徴に変換した特徴パタンをすべての切り出し位置候補で
分割すると、Ｓ個の部分画像ができる。このＳ個の部分
画像を左から順にｘ₁ ，ｘ₂，…，ｘ_Sとする（１，
…，Ｓは部分画像のインデクス）。Ｓ個の部分画像ｘ
₁ ，ｘ₂，…，ｘ_Sの並びを任意にＴ個のグループに分
割した各々のグループを入力画像中に含まれるＴ個の文
字の各々に対応付けたとき、それぞれの文字の終端にく
る部分画像のインデクスをＳ₁，Ｓ_2,…，Ｓ_Tとする。
ただし、すべての部分画像が過不足なくいずれかの文字
に割り当てられると考えてＳ₁ ＜Ｓ₂ ＜…＜Ｓ_T ＝Ｓと
する。例えば、Ｔ＝５、Ｓ＝９とすると、ｘ₁ ，ｘ₂，ｘ_３，ｘ_４，ｘ_５，ｘ_６，ｘ_７，ｘ
_８，ｘ_９という９個の部分画像ができ、これを、グループ１ｘ₁ ，ｘ₂ グループ２ｘ_３グループ３ｘ_４，ｘ_５，ｘ_６グループ４ｘ_７，ｘ_８グループ５ｘ_９のようにＴ＝５個にグループ分けした場合、ｘ₁ ，ｘ₂
を連結したパタンが先頭の文字、ｘ_３が単独で２番目
の文字、ｘ_４，ｘ_５，ｘ_６を連結したパタンが３番
目の文字というように各部分画像が各文字に割り当てら
れる。そして、文字の終端にくる部分画像は、各グルー
プの右端に位置する部分画像（ｘ ₂，ｘ _３，ｘ_６，
ｘ_８，ｘ_９）となる。つまり、Ｓ₁＝２、Ｓ₂＝３、
Ｓ_３＝６、Ｓ_４＝８、Ｓ_５＝９である（実際の処理で
は、グループ分けは１種類だけしか考えないのではな
く、あらゆるグループ分けの組み合わせで認識得点を計
算してみて、一番認識得点の高いグループ分けを選び
出すことにより、正しいと思われる文字切り出しを求め
る）。また、第ｔ目の文字に対応する文字パタンＸ_t
は、いくつかの部分画像を連結したパタンとして、Ｘ_t
＝（ｘ_{s t - 1}＋１，…，ｘ_S _t）と表される（ただしＳ₀
＝０）。また、各文字の属するカテゴリをＷ₁，Ｗ
₂，…，Ｗ_T とする。このとき、認識得点Ａは〔数１〕
で定義される。

【００３５】

【数１】

【００３６】ここに、ｚ₁，…，ｚ_T は、それぞれ１，
…，Ｔ番目の文字に対応する文字状態を表す。π_{i k}は
１文字目がカテゴリｋに属しているという条件のもとで
文字状態がｉにある確率、ａ_{i j k l}は２文字目以降の
ある文字が文字カテゴリｌ（エル）に属し、かつその直
前の文字が文字カテゴリｋに属し、かつ直前の文字の時
点で文字状態がｉにあったという条件のもとで、現時点
の文字状態がｊにある確率を意味する。また、
μ_{i k}、Σ_{i k}は、文字状態ｉ、文字カテゴリｋのとき
の文字パタンの発生を特徴づけるパラメータで、それぞ
れ平均と共分散である。f( X ｜μ,Σ )は平均μ、共分
散Σの正規分布（ガウス分布) を表す。

【００３７】π_{i k}とａ_{i j k l}（ｉ，ｊ＝１，２，…，
Ｎ。ｋ，ｌ＝１，２，…，Ｃ。Ｎは文字状態の数、Ｃは
文字カテゴリの数) は、文字カテゴリｋ,ｌを条件とし
て文字状態の遷移を規定するパラメータで、文字パタン
間の隣接の尤もらしさを表すパラメータである。これら
を文字状態遷移確率と呼ぶ。これらは図１のブロック図
の文字状態遷移確率格納手段15に格納されている。一
方、μ_{i k}、Σ_{i k}は、状態ｉ、カテゴリｋを仮定したと
きに、与えられた文字パタンが現出する確率密度関数ｆ
を規定するので、一種のテンプレートと考えられる。こ
れらは図１のブロック図の文字テンプレート格納手段16
に格納されている。

【００３８】文字状態遷移確率ａ_{i j k l}は、文字テン
プレート (μ_{i k}，Σ_{i k} ) と (μ_{j l}, Σ_{j l}) の間
の遷移を規定している。ａ_{i j k l}の値が大きいほど、
文字テンプレート(μ_{i k}，Σ_{i k} ) に代表される文字
パタン候補と (μ_{j l}，Σ_{j l} )に代表される文字パタ
ン候補が隣接することの妥当性は高いことを意味する。
これら文字状態遷移確率や文字テンプレートのパラメー
タの値は、後述するように学習によって自動的に獲得
される。

【００３９】文字出現確率計算手段14は、文字列読み取
り手段13の要求に応じて、また文字状態遷移確率格納手
段15および文字テンプレート格納手段16が有するパラメ
ータを参照しながら、与えられた文字パタン候補が出現
する確率を計算する。つまり、文字列読み取り手段13が
文字パタン候補Ｘ_t ＝（ｘ_{s t - 1}＋１，…，ｘ_{S t}）お
よびその文字パタン候補が属すると仮定する文字カテゴ
リｌと文字状態ｊ、その文字の直前の文字Ｘ_{t - 1} が属
すると仮定する文字カテゴリｋと文字状態ｉをそれぞれ
文字パタン記憶手段30、主文字コード記憶手段31、副文
字コード記憶手段32、主文字状態記憶手段33、副文字状
態記憶手段34に格納すると、文字出現確率計算14はそれ
らを読み出して、その文字パタン候補が出現する確率ａ
_{i j k l} f( X _t｜μ_{j l} ，Σ_{j l} )を返す。ただし、与
えられた文字パタン候補が文字列の先頭の文字である場
合には、π _{j l} f ( X _t ｜μ_{j l} ，Σ_{j l} ) を返す。

【００４０】このように、文字出現確率計算手段14は、
文字状態を用いて文字パタン候補の出現確率を計算する
際に、各文字状態が、対応する文字パタン候補の変形の
傾向に応じてマルコフ確率過程に従って遷移し、この状
態間の遷移確率の大小で隣接する文字間の接続の妥当性
を評価することによって文字出現確率の値を加減する。
また、与えられた文字パタン候補と辞書パタンとの距離
を計算する際、文字パタン候補に対応する前記文字状態
に応じて文字テンプレートを選択する。

【００４１】文字列読み取り手段13は、上記ｌ、ｋとし
て考えられるすべての文字カテゴリを１つずつ順番に、
また上記ｊ、ｉとして１〜Ｎまでのすべての文字状態を
１つずつ順番に代入して、その度に文字出現確率計算手
段14で文字パタンの出現する確率を計算する。こうし
て、文字列読み取り手段13は、考えられるすべての文字
カテゴリ、文字状態を網羅的に調べて、一番認識得点の
高い文字カテゴリの組合せを見つける。

【００４２】なお、文字出現確率計算手段14がパタンＸ
_t ＝（ｘ_{s t - 1}＋１，…，ｘ_{S t}）の出現確率を計算す
る際、文字パタン候補に対して簡単な特徴変換を施す。
すなわち、文字切り出し・特徴抽出手段12では鉛直方向
の画素数を圧縮したが、それと同様に水平方向の画素数
を数画素に圧縮する。例えば文字切り出し・特徴抽出手
段12で鉛直方向を４画素に圧縮していたとすると、ここ
で水平方向も４画素に圧縮する。これにより４×４＝16
画素が残るので、４つの各方向画像ごとにこれらの画素
値を並べて合計64次元のベクトルを作る。これをもとに
文字パタン候補の出現確率を計算する。

【００４３】図５の文字列出現確率計算102 における
〔数１〕の認識得点の最大値を求める処理と、図５の正
解文字コード計算・正解切り出し位置計算103 における
（Ｔ−１）個の切り出し位置とＴ個のカテゴリの組合せ
を求める処理では、処理時間を短縮するため、漸化式を
用いて効率的に計算する。その計算手順について説明す
る。

【００４４】今、部分画像ｘ₁，…，ｘ_S のうち１番目
からｓ番目までを使って１文字目からｔ文字目までを認
識させたとして、ｔ番目の文字がカテゴリｗに属し、か
つそのときの状態がｚにあるという条件の下での認識得
点の最大値をＡ _t （ｓ，ｚ，ｗ）とおく（小文字ｓと
大文字Ｓの違いに注意)。つまり、Ａ _t （ｓ，ｚ，
ｗ）は、ｔ番目の文字の属する文字カテゴリがｗで、ｔ
番目の文字に対応する文字状態がｚにあり、かつ、ｔ番
目の文字とｔ＋１番目の文字との境界位置ｓ（＝ｔ文字
目の終端に位置する部分画像のインデクス）であると仮
定したときの、１文字目からｔ文字目までの認識得点の
最大値である。このとき、〔数２〕のようなｔに関する
漸化式が成り立つ。

【数２】

【００４５】この漸化式に従って、文字列読み取り手段
13は、ｔを順次増加させながらｓ，ｚ，ｗに関する計算
を進めることによって、最終的な認識得点ＡはＡ＝ｍａ
ｘ_w Σ_z Ａ_T（Ｓ，ｚ，ｗ）と求めることができる(こ
こでの Σ_zはｚに関する総和を意味する)。このとき文
字列読み取り手段13は、着目する文字の属する文字カテ
ゴリ（文字コード) 、対応する文字状態および次の文字
との境界位置を記憶しながら漸化式に従って認識得点を
計算する。ｔを１つ増やして次の段階の認識得点Ａ
_T＋１（ｓ，ｚ，ｗ）を計算する際に、すべてのｓ，
ｚ，ｗの値にわたって、Ａ_t（ｓ，ｚ，ｗ）の値が必要
なので、それら（すべてのｓ，ｚ，ｗに関するＡ
_t（ｓ，ｚ，ｗ）の値）を記憶しておく必要があるから
である。

【００４６】また、各文字の終端位置および属するカテ
ゴリは、〔数３〕に示す漸化式でｔを順次減じてゆくこ
とによって求めることができる。

【数３】

【００４７】ただしここに、ａｒｇｍａｘは、最大値を
求める計算をして最大値が得られたときの引数値を返す
関数である。

【００４８】次に、図１の文字列学習装置２の動作につ
いて、図６の流れ図を参照しながら説明する。文字列学
習装置２は、学習用の文字列データ、すなわち文字列画
像とそれらに付与された正解文字コード列を用いて、文
字状態遷移確率格納手段15および文字テンプレート格納
手段16に格納されているパラメータを最適化する。学習
には複数の文字列データを用いる。これらの画像はスキ
ャナ等の適当な手段によって学習文字列データ格納手段
21に格納される。学習文字列データ格納手段21には、画
像の他に、画像に書かれた文字列の正解のデータも（キ
ーボード入力等の適当な手段によって) 格納される。図
６の画像読み込み200 がこれに相当する。

【００４９】学習文字列データ格納手段21に格納された
文字列データの個数をＫとする。文字切り出し・特徴抽
出手段22では、これらＫ個の文字列画像の各々につい
て、２値化処理、正規化処理等適当な前処理を施した上
で、文字列画像からいくつかの切り出し位置候補を検出
し、その座標および文字列画像または文字列画像を特徴
抽出処理により変換した特徴パタンを文字境界決定手段
23へ送る。前処理、切り出し位置検出、特徴抽出の詳細
は、文字列認識装置１の文字切り出し・特徴抽出手段12
と同一である。図６の文字切り出し・特徴抽出201 がこ
れに相当する。

【００５０】文字境界決定手段23は、文字切り出し・特
徴抽出手段22より、Ｋ個の画像から得られた切り出し位
置候補、特徴パタンおよび正解文字コード列の組を受け
取る。ｋ番目の文字列画像あるいは文字列画像を変換し
た特徴パタンをＸ^{( k )} 、これに対応する正解文字コー
ド列をＷ ₁ ^{( k )} ，…，Ｗ _T ^{( k )} とする。ここでは
正解の文字数Ｔは文字列画像ごとに一定とするが、各々
異なっていても構わない。次に、文字境界決定手段23
は、ｋ個のデータの各々について、正解文字コードを既
知として、切り出し位置候補から（Ｔ−１）個の切り出
し位置の選び方すべての組合せを調べ、最も認識得点の
高い切り出し位置を選んだ場合の得点を計算する。計算
手順は、正解文字コードが固定である以外は、前述の文
字列読取り手段13と同様である。つまり、文字列読み取
り手段13が文字パタン候補Ｘ_t ^{( k )}およびその文字パタ
ン候補が属すべきカテゴリm = Ｗ_t ^{( k )}と文字状態ｊ、
その文字パタン候補の直前に位置する文字パタン候補が
属すべきカテゴリ l = Ｗ _{t -} ₁ ^{( k )}と文字状態ｉを
それぞれ文字パタン記憶手段35、主文字コード記憶手段
36、副文字コード記憶手段37、主文字状態記憶手段38、
副文字状態記憶手段39に格納すると、文字出現確率計算
手段14はそれらを読み出して、その文字パタン候補が出
現する確率ａ_{i j l m} f ( X _t ^{( k )} ｜μ_{j m},Σ_{j m} )
を返す。図６の流れ図の文字列出現確率計算202 がこれ
に相当する。

【００５１】この場合の文字列の認識得点は前述の〔数
１〕と同様の表式で定義されるが、正解文字コードが既
知であるので、これに関する最大化ｍａｘ_{W 1} ^{( k )}，
…，_{W T} ^{( k )}は不要となる。認識得点の計算において
は、前述の〔数２〕と同様、漸化式による効率的な計算
が適用可能であるが、正解文字コードが既知であること
から、文字コードに関する最大化計算が不要となり、よ
り簡略化された計算で認識得点が求められる。

【００５２】さらに文字境界決定手段23は、認識得点が
最高となった場合に選ばれる（Ｔ−１）個の切り出し位
置を求める。この手順は、正解文字コードが固定である
点を除いて、前述の〔数３〕でＳ₁，…，Ｓ_{T - 1} を
求めたのと同様である。図６の流れ図の正解切り出し位
置計算203 がこれに相当する。

【００５３】ここまでの手続きによって、文字列データ
から個別の文字パタンまたはそれを変換した特徴パタン
Ｘ_t ^{( k )} および対応する正解文字カテゴリｗ
_t ^{( k )}（ｔ＝１，…，Ｔ。ｋ＝１，…，Ｋ）が得られる
ので、これらを文字学習手段24に送る。図６の流れ図の
文字データ生成204 がこれに相当する。

【００５４】文字学習手段24は、文字境界決定手段23よ
り個別文字の特徴パタンＸ_t ^{( k )}および対応する正解
文字コードｗ_t ^{( k )}（ｔ＝１，…，Ｔ。ｋ＝１，…，
Ｋ）を受け取り、文字状態遷移確率格納手段15および文
字テンプレート格納手段16に格納されたパラメータを最
適化する。すなわち、各文字列画像に関する認識得点の
総和または総積が最大となるようにパラメータを更新す
る。図６の流れ図のパラメータ更新205 がこれに相当す
る。以下でパラメータ更新の計算の詳細について示す。

【００５５】まず、次の〔数４〕の漸化式に従って、α
_t ^{( k )}( i ) およびβ_t ^{( k )}( j )（ｉ，ｊ＝１，…，
Ｎ。ｋ＝１，…，Ｋ。ｔ＝１，…，Ｔ）を計算し記憶す
る。α _t ^{( k )} ( i ) は、ｔ文字目に対応する文字状態
がｉであるという条件の下での文字パタン候補Ｘ₁ ^{( k )}
，…，Ｘ_t ^{( k )} の認識得点、β_t ^{( k )}( j ) は、ｔ
文字目に対応する文字状態がｊであるという条件の下で
の文字パタン候補Ｘ_{t +} ₁ ^{( k )}，…，Ｘ_T ^{( k )} の認
識得点を表す。

【数４】

【００５６】上記α_t ^{( k )} ( i ) 、β_t ^{( k )} ( j ) と
現状のパラメータを用いて、次の〔数５〕のようにパラ
メータを更新する。

【数式５】

【００５７】ただし、〔数５〕の中のＰ（Ｘ ₁
^{( k )} ，…，Ｘ _T ^{( k )} ｜ｗ ₁ ^{( k )} ，…，ｗ _t
^{( k )} ) は、α _T ^{( k )}( i ) のｉに関する総和Σ
_i=1 ^N α_T ^{( k )} (i ) として計算可能である(ここでの
Σ_i=1 ^Nはi=1,2,…,Nに関する総和を意味する) 。また
δ_{i j}はクロネッカーのデルタを意味する（ｉ＝ｊなら
１、そうでなければ０）。〔数５〕のパラメータ更新手
順に従えば、ｋ個の文字列画像データの認識得点の総積
は単調に増大する。更新手続を何回かくり返せば、認識
得点の総積の増加傾向が或る程度小さくなって殆ど増加
しなくなる。これをもって、収束と判定する（図６の処
理２０６）。この時点で、所望のパラメータの値が得ら
れる。

【００５８】上記のパラメータ更新手続きでは、現状で
得られているパラメータの値を用いてよりよいパラメー
タ値を得るという方法を採っているので、最初にパラメ
ータの初期値を設定する必要がある。そこでパラメータ
の初期値設定の手順について以下に説明する。

【００５９】はじめに、個別に切り出されて文字カテゴ
リごとに分類された少量の文字画像データを準備する。
必要ならば、文字画像は前述の文字列認識装置１、文字
列学習装置２と同様に前処理を施し、特徴パタンに変換
する。次に、各カテゴリごとに、ｋ−ｍｅａｎｓ等のク
ラスタリングアルゴリズムを用いて、カテゴリ内のデー
タを所望の状態数Ｎと同数のクラスタに分類し、各クラ
スタの中心（平均) と分散を求める。そして、第ｉ番目
のカテゴリの第ｋ番目のクラスタの中心をμ_{i k}に代入
する。またΣ_{i k}の対角成分にクラスタの分散を代入
し、非対角成分には０を代入する。この後、最尤推定法
を用いて混合正規分布の推定を行い、μ_{i k}およびΣ_{i k}
をより精度よく推定する。なお、ｋ−ｍｅａｎｓアル
ゴリズムおよび最尤推定法に基づく混合正規分布の推定
の手順は、例えば文献「1990年、ファン他、ヒドゥン・
マルコフ・モデルズ・フォー・スピーチ・レコグニショ
ン、エジンバラ・ユニバーシティ・プレス(Huang et a
l.， Hidden Markov Models forSpeech Recognition，
Edinburgh University Press， 1990) 」等、多くの文
献に記載されている公知の技術である。

【００６０】π_{i k}とａ_{i j k l}は確率の値なので、何ら
かの総和が１になるように適当に設定する。π_{i k}はπ
_１ｋ＋ π_２ｋ＋…＋π_Ｎｋ＝１でなくてはならず、ａ
_{i j k l}はａ_{i １ k l}＋ａ_{i ２ k l}＋…＋ａ_{i Ｎ k l}＝
１でなくてはならないので、π_i _kとａ_{i j k l}には例え
ば１／Ｎを代入すれば良い。

【００６１】次に、本発明の第二の実施の形態について
図面を参照して説明する。

【００６２】図７を参照すると、本発明の第二の実施の
形態は、データ処理装置18と、文字認識プログラムを記
録した記録媒体17と、図１と同様な画像記憶手段11、文
字状態遷移確率格納手段15、文字テンプレート格納手段
16とを備える。この記録媒体17はＣＤ−ＲＯＭ、磁気デ
ィスク、半導体メモリその他の記録媒体であってよく、
ネットワークを介して流通する場合も含む。データ処理
装置18はＣＰＵおよびメモリを含む。

【００６３】文字認識プログラムは記録媒体17からデー
タ処理装置18に読み込まれ、データ処理装置18の動作を
制御することにより、データ処理装置18上に、図１に示
した文字切り出し・特徴抽出手段12、文字列読み取り手
段13、文字出現確率計算手段14、各記憶手段30〜34を実
現する。データ処理装置18は文字認識プログラムの制御
により、文字切り出し・特徴抽出手段を用いて画像記憶
手段11に入力された文字列画像からいくつかの切り出し
位置候補を検出し、画像に前処理を施し、特徴を抽出す
る。次に、文字列読み取り手段、文字出現確率計算手
段、各記憶手段を用いて、それら複数の切り出し位置候
補よりいくつかの文字パタン候補を生成し、それら文字
パタン候補のそれぞれについて、文字状態遷移確率格納
手段15および文字テンプレート格納手段16にそれぞれ格
納された文字状態遷移確率および文字テンプレートを用
いて認識処理を行い、文字列全体として最大の認識得点
が得られるような読み取り結果を求めて出力する。即
ち、本実施の形態の実施例では、データ処理装置18が文
字認識プログラムの制御により、第一の実施の形態にお
ける文字切り出し・特徴抽出手段12、文字列読み取り手
段13、文字出現確率計算手段14、文字パタン記憶手段3
0、主文字コード記憶手段31、副文字コード記憶手段3
2、主文字状態記憶手段33および副文字状態記憶手段34
による処理と同一の処理を実行して文字列の読み取り結
果を出力する。

【００６４】

【発明の効果】以上説明したように、本発明によれば、
文字列の読み取りにおいて、文字カテゴリごとに文字の
変形のいくつかのタイプを代表する複数の文字状態を準
備し、それらを接続したネットワークを考え、隣接する
２つの文字パタンのそれぞれの形状を代表する文字状態
および文字カテゴリを鑑みてその接続の妥当性を評価す
ることにより、直前に書かれた文字からの続け書きや接
触、筆者の変化によって文字形状が変形することを考慮
に入れて、高精度に文字を認識することが可能となり、
結果として正確な文字列の読み取りが実現される。ま
た、この状態ネットワークは、文字パタンのテンプレー
トとともに、切り出し位置が未知の学習文字列データを
用いて最適化できるため、学習用に個別文字データを準
備する等の作業が不要となり、高精度の読み取り処理系
をより少ない労力で容易に構築することが可能となる。
また、文字パタンの間の依存性を文字状態という離散的
な記号の依存性に置き換えて処理するため、処理量も低
く抑えられる。

【図面の簡単な説明】

【図１】本発明の一実施例の機能的な構成を表したブロ
ック図である。

【図２】文字の誤り方がその字種に依存する例を示す文
字画像の図である。

【図３】文字の誤り方が筆者に依存する例を示す文字画
像の図である。

【図４】入力文字列画像を特徴パタンに変換した結果の
一例を示す図である。

【図５】本発明の一実施例の処理の流れを表した流れ図
である。

【図６】本発明の一実施例の処理の流れを表した流れ図
である。

【図７】本発明の一実施例の機能的な構成を表したブロ
ック図である。

【図８】従来技術の一実施例の機能的な構成を表したブ
ロック図である。

【符号の説明】

１文字列認識装置２文字列学習装置 11 画像記憶手段 12 文字切り出し・特徴抽出手段 13 文字列読み取り手段 14 文字出現確率計算手段 15 文字状態遷移確率格納手段 16 文字テンプレート格納手段 17 記録媒体 18 データ処理装置 21 学習文字列データ格納手段 22 文字切り出し・特徴抽出手段 23 文字境界決定手段 24 文字学習手段 30 文字パタン記憶手段 31 主文字コード記憶手段 32 副文字コード記憶手段 33 主文字状態記憶手段 34 副文字状態記憶手段 35 文字パタン記憶手段 36 主文字コード記憶手段 37 副文字コード記憶手段 38 主文字状態記憶手段 39 副文字状態記憶手段 41 画像記憶手段 42 文字切り出し・特徴抽出手段 43 文字列読み取り手段 44 文字出現確率計算手段 45 文字テンプレート格納手段 46 文字パタン記憶手段 47 文字コード記憶手段 48 学習文字データ格納手段 49 文字学習手段 100 画像読み込み 101 文字切り出し・特徴抽出 102 文字列出現確率計算 103 正解文字コード計算・正解切り出し位置計算 200 画像読み込み 201 文字切り出し・特徴抽出 202 文字列出現確率計算 203 正解切り出し位置計算 204 文字データ生成 205 パラメータ更新 206 収束判定

フロントページの続き (56)参考文献特開平８−96085（ＪＰ，Ａ) 特開平５−6464（ＪＰ，Ａ) 「電子情報通信学会技術研究報告ＰＲＭＵ98−139」Ｖｏｌ．98 Ｎｏ．489 ｐ．25−30（1998）”確率モデルの基づくオンライン枠なし手書き文字列認識" 「電子情報通信学会技術研究報告ＰＲＭＵ98−138」Ｖｏｌ．98 Ｎｏ．489 ｐ．17−24（1998）”切り出し・認識・言語の確信度を統合した枠なしオンライン文字列認識手法" 「情報処理学会研究報告」Ｖｏｌ．93 Ｎｏ．79 ｐ．37−44（1993）”Ｂｉｇｒａｍによるオンライン漢字認識の文脈後処理手法" 「情報処理学会論文誌」Ｖｏｌ．39 Ｎｏ．３ｐ．625−635（1998）”認識誤りを含む和文テキストにおける全文検索手法" (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/62 - 9/72 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力された文字列画像を格納する画像記
憶手段と、前記画像記憶手段より受け取った文字列画像
より隣接文字間の境界の候補を切り出し位置候補として
検出し、また文字列画像を識別に有用なより少数の量
（特徴) に変換する特徴抽出を行う文字切り出し・特徴
抽出手段と、いくつかの切り出し位置候補を選んで文字
列画像を分割した際の個々の文字パタン候補について文
字認識を行って、文字列全体として最適な切り出しおよ
び最適な文字コード列を文字列の読み取り結果として出
力する文字列読み取り手段と、前記文字列読み取り手段
から文字パタン候補、文字コード、文字の変形のタイプ
を表すインデクスである文字状態、与えられた文字パタ
ン候補の直前に位置する文字パタン候補の文字コード、
文字状態を受け取り、与えられた文字パタン候補が与え
られた文字コードおよび文字状態のもとで出現する確率
を計算する文字出現確率計算手段と、前記文字出現確率
計算手段が文字出現確率を計算する際、確率の文字状態
に依存する部分を計算するために必要な数値（状態遷移
確率) を格納しておく文字状態遷移確率格納手段と、前
記文字出現確率計算手段が文字出現確率を計算する際、
確率の文字パタンに依存する部分を計算するために必要
な数値（文字テンプレート) を格納しておく文字テンプ
レート格納手段とを有することを特徴とする文字認識装
置。
【請求項２】前記文字列読み取り手段が前記文字出現
確率計算手段に文字の出現確率の計算を要求する際に渡
す文字パタンを記憶する文字パタン記憶手段と、同じく
前記文字列読み取り手段が前記文字出現確率計算手段に
渡す、前記文字パタン候補に対応する文字コードとその
直前に位置する文字パタン候補に対応する文字コードを
記憶する2 つの文字コード記憶手段と、同じく前記文字
列読み取り手段が前記文字出現確率計算手段に渡す、前
記文字パタン候補に対応する文字状態とその直前に位置
する文字パタン候補に対応する文字状態を記憶する２つ
の文字状態記憶手段とを有することを特徴とする請求項
１記載の文字認識装置。
【請求項３】前記文字出現確率計算手段が前記文字状
態を用いて文字パタン候補の出現確率を計算する際に、
各文字状態が、対応する文字パタン候補の変形の傾向に
応じてマルコフ確率過程に従って遷移し、この状態間の
遷移確率の大小で隣接する文字間の接続の妥当性を評価
することによって文字出現確率の値を加減することを特
徴とする請求項１または２記載の文字認識装置。
【請求項４】前記文字出現確率計算手段が与えられた
文字パタン候補と辞書パタンとの距離を計算する際、文
字パタン候補に対応する前記文字状態に応じて文字テン
プレートを選択することを特徴とする請求項３記載の文
字認識装置。
【請求項５】前記文字出現確率計算手段が、直前の文
字パタン候補に対応する文字状態に応じて使い分けるた
めの複数の文字テンプレートを正規分布の形式で文字テ
ンプレート格納手段内に備えることを特徴とする請求項
４記載の文字認識装置。
【請求項６】前記文字列読み取り手段が文字列の認識
結果の確からしさの尺度である認識得点を計算する際、
先頭の文字に起因する得点から始めて２番目の文字、３
番目の文字と順次得点を加算してゆき、着目する文字の
属する文字カテゴリ( 文字コード) 、対応する文字状態
および次の文字との境界位置を記憶しながら漸化式に従
って認識得点を計算することを特徴とする請求項１また
は２記載の文字認識装置。
【請求項７】最適な文字状態遷移確率の推定および最
適な文字テンプレートの推定を、与えられた文字列画像
とその正解文字コード列から推定する際に用いる文字列
データを格納する学習文字列データ格納手段と、前記学
習文字列データ格納手段より受け取った文字列画像より
隣接文字間の境界の候補を切り出し位置候補として検出
し、また文字列画像を識別に有用なより少数の量（特
徴) に変換する特徴抽出を行う文字切り出し・特徴抽出
手段と、文字パタン候補、文字コード、文字の変形のタ
イプを表すインデクスである文字状態、与えられた文字
パタン候補の直前に位置する文字パタン候補の文字コー
ド、文字状態を受け取り、与えられた文字パタン候補が
与えられた文字コードおよび文字状態のもとで出現する
確率を計算する文字出現確率計算手段と、文字列画像に
付与された正解文字コード列と前記文字出現確率計算手
段を用いて文字列画像中の文字の境界を推定する文字境
界決定手段と、前記文字境界決定手段が前記文字出現確
率計算手段に文字の出現確率の計算を要求する際に渡す
文字パタン候補を記憶する文字パタン記憶手段と、文字
パタン候補に対応する、正解文字コード列中の文字コー
ドとその直前の文字コードを記憶する２つの文字コード
記憶手段と、同じく前記文字パタン候補に対応する文字
状態とその直前の文字パタン候補に対応する文字状態を
記憶する２つの文字状態記憶手段と、前記文字出現確率
計算手段が文字出現確率を計算する際、確率の文字状態
に依存する部分を計算するために必要な数値（状態遷移
確率) を格納しておく文字状態遷移確率格納手段と、前
記文字出現確率計算手段が文字出現確率を計算する際、
確率の文字パタンに依存する部分を計算するために必要
な数値（文字テンプレート) を格納しておく文字テンプ
レート格納手段と、前記文字境界決定手段によって切り
出された個々の文字パタンとその並び順を用いて、前記
文字状態遷移確率格納手段に格納されている文字状態遷
移確率および前記文字テンプレート格納手段に格納され
ている文字テンプレートを更新する文字学習手段とを有
することを特徴とする文字学習装置。
【請求項８】前記文字境界決定手段が前記文字出現確
率計算手段に文字の出現確率の計算を要求する際に渡す
文字パタン候補を記憶する文字パタン記憶手段と、文字
パタン候補に対応する、正解文字コード列中の文字コー
ドとその直前の文字コードを記憶する２つの文字コード
記憶手段と、同じく前記文字パタン候補に対応する文字
状態とその直前の文字パタン候補に対応する文字状態を
記憶する２つの文字状態記憶手段とを有することを特徴
とする請求項７記載の文字学習装置。
【請求項９】前記文字学習手段が、文字列データの認
識得点の総和または総積が最大となるように文字状態遷
移確率と文字テンプレートを同時に最適化することを特
徴とする請求項７または８記載の文字学習装置。
【請求項１０】前記文字学習手段が、切り出し位置が
未知である文字列データを使い、文字境界決定手段によ
って文字列の認識得点が最大となるように自動的に切り
出された個別文字画像を用いて文字状態遷移確率および
文字テンプレートを同時に最適化することを特徴とする
請求項７または８記載の文字学習装置。
【請求項１１】コンピュータ上で動作する文字認識プ
ログラムを記録した記録媒体であって、コンピュータ
に、文字列画像を入力し記憶するステップと、文字列画像からいくつかの文字の境界の候補、すなわち
切り出し位置候補を検出し、また文字列画像を識別に有
用なより少数の量（特徴）に変換する特徴抽出を行うス
テップと、切り出し位置候補に基づいて複数の文字パタン候補を生
成し、それぞれの文字パタン候補と、その文字パタン候
補に対する文字コードおよび文字の変形のタイプを表す
インデクスである文字状態、文字パタン候補の直前に位
置するもう一つの文字パタン候補に対する文字コードお
よび文字状態を用いて、それぞれの文字パタン候補が出
現する確率を、その文字パタン候補に対応する文字コー
ドおよび文字状態のもとでその文字パタン候補が出現す
る確率と、その文字パタン候補に対応する文字状態とそ
の文字パタン候補の直前に位置する文字パタン候補に対
応する文字状態が連続して発生する確率（状態遷移確
率）という２つの確率から算出するステップと、文字列全体でもっとも高い得点を得られるような文字切
り出しおよび文字コード列を探索して出力するステップ
とを、実行させるプログラムを記録したコンピュータ可読記録
媒体。