JP4686433B2

JP4686433B2 - 単語認識方法および単語認識装置

Info

Publication number: JP4686433B2
Application number: JP2006280413A
Authority: JP
Inventors: 倫行浜村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-10-13
Filing date: 2006-10-13
Publication date: 2011-05-25
Anticipated expiration: 2026-10-13
Also published as: US20090190841A1; KR20090053953A; EP2088537A4; JP2008097452A; KR101065152B1; WO2008044393A1; EP2088537A1

Description

本発明は、たとえば、被読取物上に記載された複数の文字からなる単語を光学的に読取る光学的文字読取装置などにおいて単語認識を行う単語認識方法、および、その単語認識処理を行わせるための単語認識プログラムに関する。

一般に、たとえば、光学的文字読取装置において、被読取物上に記載された文字を読取る場合、個々の文字認識精度が低くても、単語の知識を用いることで精度良く読取ることができる。従来、その実施方法として種々の方法が提案されている。

その中で、単語の評価値として事後確率（ａｐｏｓｔｅｒｉｏｒｉｐｒｏｂａｂｉｌｉｔｙ）を用い、かつ文字数が一定でない場合においても精度良く単語認識が行える方法として、特許文献１に開示されるものがある。
特開２００１−２８３１５７号公報

しかしながら、特許文献１に開示されるものは、単語の評価値である事後確率の近似計算における誤差が大きく、リジェクトを行うにあたり不都合が生じる。リジェクトは事後確率が一定値以下であった場合に行うのが最適であるが、特許文献１の技術では誤差によりリジェクトに失敗する可能性がある。そのため、特許文献１の技術を用いてリジェクトを行う場合は、他の単語の評価値との差を見ることで、リジェクトを行っている。しかし、この方法はヒューリスティックであり、最適であるとは言えない。

そこで本発明は、事後確率の近似計算における誤差を抑え、精度良くリジェクトを行える単語認識方法および単語認識装置を提供することを目的とする。

本発明の単語認識方法は、認識すべき単語に対応した入力文字列を各文字ごとに認識処理を行うことにより文字認識結果を得る文字認識処理ステップと、あらかじめ認識すべき単語の候補が格納されている単語辞書内の各単語の各文字を条件として上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率を求める確率算出ステップと、この確率算出ステップにより求めた確率と上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率との間で除算を行う第１の演算ステップと、上記除算により上記単語辞書内の各単語の各文字に対してそれぞれ求めた各演算結果の間で乗算を行う第２の演算ステップと、上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を全て足し合わせる第３の演算ステップと、上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を第３の演算ステップの演算結果で割る第４の演算ステップと、この第４の演算ステップによる演算結果の最大値が所定のしきい値以下の場合は認識結果をリジェクトとし、前記所定のしきい値を超える場合は最大値となる単語を認識結果とする単語認識処理ステップとを具備している。

また、本発明の単語認識方法は、認識すべき単語に対応した入力文字列を各文字ごとに切出す切出しステップと、この切出しステップによる文字切出しによって、文字間が接しているかあるいは文字間が離れているかを考慮した複数種類の切出し結果を求めるステップと、このステップにより求めた全ての切出し結果の各文字に対してそれぞれ認識処理を行う文字認識処理ステップと、あらかじめ認識すべき単語の候補が格納されている単語辞書内の各単語の各文字を条件として上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率を求める確率算出ステップと、この確率算出ステップにより求めた確率と上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率との間で除算を行う第１の演算ステップと、上記除算により上記単語辞書内の各単語の各文字に対してそれぞれ求めた各演算結果の間で乗算を行う第２の演算ステップと、上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を全て足し合わせる第３の演算ステップと、上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を第３の演算ステップの演算結果で割る第４の演算ステップと、この第４の演算ステップによる演算結果の最大値が所定のしきい値以下の場合は認識結果をリジェクトとし、前記所定のしきい値を超える場合は最大値となる単語を認識結果とする単語認識処理ステップと、を具備している。

また、本発明の単語認識装置は、認識すべき単語に対応した入力文字列を各文字ごとに認識処理を行うことにより文字認識結果を得る文字認識処理手段と、あらかじめ認識すべき単語の候補が格納されている単語辞書内の各単語の各文字を条件として上記文字認識処理手段により文字認識結果として得られた特徴が出現する確率を求める確率算出手段と、この確率算出手段により求めた確率と上記文字認識処理手段により文字認識結果として得られた特徴が出現する確率との間で除算を行う第１の演算手段と、上記除算により上記単語辞書内の各単語の各文字に対してそれぞれ求めた各演算結果の間で乗算を行う第２の演算手段と、上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を全て足し合わせる第３の演算手段と、上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を第３の演算手段の演算結果で割る第４の演算手段と、この第４の演算手段による演算結果の最大値が所定のしきい値以下の場合は認識結果をリジェクトとし、前記所定のしきい値を超える場合は最大値となる単語を認識結果とする単語認識処理手段と、を具備したことを特徴とする。

この発明によれば、事後確率の近似計算における誤差を抑え、精度良くリジェクトを行える単語認識方法および単語認識装置を提供できる。

以下、本発明の実施の形態について図面を参照して説明する。

図１は、本発明の実施の形態に係る単語認識方法を実現するための単語認識システムの構成を概略的に示すものである。

図１において、この単語認識システムは、ＣＰＵ（セントラル・プロセッシング・ユニット）１、入力装置２、画像入力手段としてのスキャナ３、表示装置４、記憶手段としての第１メモリ５、記憶手段としての第２メモリ６、および、読取装置７などによって構成されている。

ＣＰＵ１は、第２メモリ６に格納されたオペレーティングシステムプログラム、および、第２メモリ６に格納されたアプリケーションプログラム（単語認識プログラムなど）を実行することにより、後で詳細を説明するような単語認識処理などを行うものである。

入力装置２は、たとえば、キーボードやマウスなどからなり、利用者が各種操作を行ったり、各種データを入力するために使用される。

スキャナ３は、被読取物上に記載された単語の各文字を光学的な走査により読取って入力するものである。上記被読取物としてはたとえば宛名が記載されている郵便物Ｐであり、上記宛名の記載方法として、図２に示すように、１番下の行から順にしかも右側から順に郵便番号、州名、都市名、ストリート名、ストリート番号の順に記載されるようになっている。

表示装置４は、たとえば、ディスプレイ装置やプリンタなどからなり、各種データを出力するものである。

第１メモリ５は、たとえば、ＲＡＭ（ランダム・アクセス・メモリ）により構成されていて、ＣＰＵ１の作業用メモリとして使用され、処理中の各種データなどを一時記憶するものである。

第２メモリ６は、たとえば、ハードディスク装置により構成されていて、ＣＰＵ１を動作させるための各種プログラムなどを記憶するものである。第２メモリ６には、入力装置２、スキャナ３、表示装置４、第１メモリ５、第２メモリ６、読取装置７などを動作させるためのオペレーティングシステムプログラム、単語認識プログラムおよび単語を構成する文字の認識用の文字辞書９、単語認識用の単語辞書１０、単語を構成する文字の出現確率を記憶している確率テーブル１１などが記憶されている。上記単語辞書１０としては、あらかじめ認識すべき単語の候補が複数格納されているものであり、単語認識システムが設置されている地域たとえば州における都市名が登録されている都市名辞書となっている。

読取装置７は、たとえば、ＣＤ−ＲＯＭドライブ装置などからなり、記憶媒体としてのＣＤ−ＲＯＭ８に格納（記憶）されている単語認識プログラムおよび単語認識用の単語辞書１０などを読取るものである。読取装置７により読取られた単語認識プログラム、文字辞書９、単語辞書１０、確率テーブル１１は、第２メモリ６に格納（記憶）される。

次に、単語認識方法の概略について、図３に示すフローチャートを参照しつつ説明する。

まず、スキャナ３により郵便物Ｐの画像を取り込む（読取る）画像取り込み処理が行われる（ＳＴ１）。この画像取り込み処理により取り込んだ画像により宛名の記載されている領域を検出する領域検出処理が行われる（ＳＴ２）。この領域検出処理により検出した宛名の記載領域から都市名に対応する単語の１文字ずつの矩形領域の文字パターンを、垂直射影や水平射影を用いて切出す切出し処理が行われる（ＳＴ３）。この切出し処理により切出された単語の１文字ずつの文字パターンと文字辞書９に記憶されている文字パターンとを比較して得られる類似度により文字の認識候補を得る文字認識処理が行われる（ＳＴ４）。この文字認識処理により得られる単語の１文字ずつの認識結果と単語辞書１０に記憶されている都市名の各文字と確率テーブル１１とを用いて、単語辞書１０の各都市名ごとの事後確率を算出し、事後確率の一番大きなものを単語として認識する単語認識処理が行われる（ＳＴ５）。上記各処理はＣＰＵ１により制御されている。

上記ステップ３により文字パターンの切出し処理が行われる際に、１文字ずつの文字パターンと文字パターンのすき間の大きさにより、単語の切れ目を判断するものであっても良い。また、そのすき間の大きさにより、文字の接触、文字の分離を判断するものであっても良い。

本発明の実施の形態に係る単語認識方法は、このようなシステム構成において実現されるものであるが、まず概要について説明する。

１．概要
たとえば、光学的文字読取装置による文字読取りを考える。文字認識の性能が高く、ほとんど読み間違えないのならば問題はないが、たとえば、手書文字の認識ではそこまでの性能を得るのが難しい。そこで、単語の知識を用いることで認識精度を高める。具体的には、単語の辞書の中から正しいと考えられる単語を選び出す。そのために、各単語ごとに何らかの評価値を計算し、最も高い（低い）評価値をとった単語を認識結果とすることになる。評価関数として、従来は前述したような各種のものが考えられているが、前述したような各種問題がある。

そこで、本実施の形態では、評価関数として前述した各種問題を考慮した事後確率を用いる。これにより、文字数の違い、単語切出しの曖昧さ、文字接触、ノイズ、文字分離までを全て確率の計算により１つの評価関数に自然に組込むことができる。

次に、本発明で用いるベイズ推定（ＢａｙｅｓＥｓｔｉｍａｔｉｏｎ）の一般論について説明する。

２．ベイズ推定の一般論
入力パターン（入力文字列）をｘとする。認識処理とは、ｘに対しある処理を行い、分類結果が得られるものである。これを分解して考えてみると、以下の２つのプロセスに分けることができる。

(1) ｘについて何らかの特徴量を得る特徴抽出処理Ｒをかけることで、「特徴」ｒ（＝Ｒ（ｘ））を得る。

(2) 「特徴」ｒを見てそこに何らかの評価法を用い、分類結果ｋi を得る。

分類結果ｋi が「認識結果」である。単語認識においては、「特徴」の１つとして文字認識の「認識結果」が使われるので注意が必要である。今後、用語としての「特徴」と「認識結果」を区別して用いる。

ベイズ推定は、２番目のプロセスにおける評価法として用いられる。事後確率Ｐ（ｋi ｜ｒ）が最大となるカテゴリｋi を認識結果とする。事後確率Ｐ（ｋi ｜ｒ）を直接計算するのが困難、もしくは不可能である場合、ベイズの定理、

を用いて間接的に計算する。分母のＰ（ｒ）はｉによらない定数であるため、分子のＰ（ｒ｜ｋi ）Ｐ（ｋi ）を計算することで、事後確率Ｐ（ｋi ｜ｒ）の大小を評価することができる。

次に、以後の説明の理解を容易にするため、文字数が一定であった場合の単語認識におけるベイズ推定について説明する。この場合のベイズ推定は、英語などの、単語を分けて書く言語において有用である。

３．文字数一定の場合のベイズ推定
３．１．定式化
文字の切出し、単語の切出しが完全に成功しており、また文字間のノイズの混入もなく、文字数が確定していると仮定する。次のように定義する。

このとき、ベイズ推定によって書かれている単語を推定することを考える。

Ｐ（ｒ｜ｋi ）は次のように表わされる。

Ｐ（ｋi ）は統計的に求まっているものとする。たとえば、郵便物の宛名読取りの場合、宛先の統計だけでなく、書状内での位置、行内での位置などに依存することも考えられる。

なお、Ｐ（ｒ｜ｋi ）は積で表わされているが、これに限らず、たとえば、対数をとり、加算に変換することも可能である。以下の説明においても同じことが言える。

３．２．実用に向けた近似
特徴ｒi として何を用いるかにより、認識の性能に大きな違いがでる。

３．２．１．１位候補を用いた場合
文字特徴ｒi として「１位候補の文字」を用いることを考えてみる。次のように定義する。

・文字集合Ｃ＝｛ｃi ｝
例ｃi ：数字、ｃi ：アルファベット大文字小文字など
・文字特徴集合Ｅ＝｛ｅi ｝
ｅi ＝（１位候補がｃi ）
・ｒi ∈Ｅ
たとえば、文字集合Ｃとして、「アルファベット大文字小文字＋数字」を想定すると、特徴ｅi の種類も文字ｃi の種類もｎ（Ｃ）＝ｎ（Ｅ）＝６２通りであるため、（ｅi ，ｃj ）の組合わせは「６２」の二乗通りであり、「６２」の二乗通りのＰ（ｅi ｜ｃj ）をあらかじめ用意しておくことで、上記式（３）は計算される。具体的には、たとえば、Ｐ（ｅi ｜″Ａ″）を求めるには、″Ａ″のサンプルをたくさん特徴抽出処理Ｒに流し、各特徴ｅi の出現頻度を調べればよい。

３．２．２．近似
ここで、次のような近似を用いることも考えられる。

上記式（４）、式（５）は、どの文字ｃi でも、１位候補がその文字自体になる確率は等しくｐであり、それ以外の文字になる確率は等しくｑである、という近似である。このとき、
ｐ＋｛ｎ（Ｅ）−１｝ｑ＝１
式（６）
が成り立っている。

この近似は、１位候補を並べた文字列を仮の認識結果とし、その文字列と各ワードｗａが何文字一致しているかを見るマッチングと対応している。ａの数の文字が一致したとき(ａ個の文字が一致したとき))、

と表わされ、簡便である。

３．３．具体例
たとえば、図２に示すような、英語で書かれた郵便物Ｐの宛名読取りにおいて、都市名を読むことを考える。図４は、上述した切出し処理により切出された都市名が書かれていると考えられる部分に対応する文字パターンの切出し処理結果であり、４つの文字であることが検出されている。単語辞書１０としては文字数ごとの都市名（単語）の候補が格納されており、たとえば、４つの文字からなる都市名（単語）の候補が、図５により示されている。この場合、４つの文字数の都市名として、「ＭＡＩＲ」（ｋ１）、「ＳＯＲＤ」（ｋ２）、「ＡＢＬＡ」（ｋ３）、「ＨＡＭＡ」（ｋ４）、「ＨＥＷＮ」（ｋ５）の５つが格納されている。

図４の各文字パターンに対して上述した文字認識処理により文字認識を行う。この各文字パターンごとの文字認識結果を基に、図５の各都市名ごとの事後確率を計算する。

計算に用いる特徴（＝文字認識結果）は様々であるが、ここでは１位候補の文字を用いた例を示す。この場合、図４の各文字パターンに対して、文字認識結果が左の文字から順に「Ｈ、Ａ、Ｉ、Ａ」となっている。実際に書かれている文字列が「ＭＡＩＲ」（ｋ１）であったとき、図４の文字認識結果「Ｈ、Ａ、Ｉ、Ａ」が生じる確率Ｐ（ｒ｜ｋ１）は、上記式（３）より、

である。３．２．１節で述べたように、あらかじめ右辺の各項の値は求めておき、確率テーブル１１として用意しておく。もしくは、３．２．２節で述べた近似を用いれば、たとえば、ｐ＝０．５、ｎ（Ｅ）＝２６のときは、ｑ＝０．０２であるから、
Ｐ（ｒ｜ｋ1 ）＝ｑ・ｐ・ｐ・ｑ＝０．０００１
式（９）
が算出される。

すなわち、実際に書かれている文字列が「ＭＡＩＲ」（ｋ１）であったとき、図４の文字認識結果「Ｈ、Ａ、Ｉ、Ａ」が生じる確率Ｐ（ｒ｜ｋ１）は、「０．０００１」となる。

同様にして
Ｐ（ｒ｜ｋ2 ）＝ｑ・ｑ・ｑ・ｑ＝０．００００００１６
Ｐ（ｒ｜ｋ3 ）＝ｑ・ｑ・ｑ・ｐ＝０．０００００４
Ｐ（ｒ｜ｋ4 ）＝ｐ・ｐ・ｑ・ｐ＝０．００２５
Ｐ（ｒ｜ｋ5 ）＝ｐ・ｑ・ｑ・ｑ＝０．０００００４
式（１０）
すなわち、実際に書かれている文字列「ＳＯＲＤ」（ｋ２）であったとき、図４の文字認識結果「Ｈ、Ａ、Ｉ、Ａ」が生じる確率Ｐ（ｒ｜ｋ２）は、「０．００００００１６」となる。

実際に書かれている文字列「ＡＢＬＡ」（ｋ３）であったとき、図４の文字認識結果「Ｈ、Ａ、Ｉ、Ａ」が生じる確率Ｐ（ｒ｜ｋ３）は、「０．０００００４」となる。

実際に書かれている文字列「ＨＡＭＡ」（ｋ４）であったとき、図４の文字認識結果「Ｈ、Ａ、Ｉ、Ａ」が生じる確率（ｒ｜ｋ２）は、「０．００００００１６」となる。

実際に書かれている文字列「ＨＥＷＮ」（ｋ５）であったとき、図４の文字認識結果「Ｈ、Ａ、Ｉ、Ａ」が生じる確率Ｐ（ｒ｜ｋ５）は、「０．０００００４」となる。

Ｐ（ｋ1 ）〜Ｐ（ｋ5 ）を等しいと見なせば、上記式（２）より事後確率Ｐ（ｋi ｜ｒ）の大小はＰ（ｒ｜ｋi ）と同じである。したがって、上記式（９）、式（１０）の大小を比較すればよく、最も大きいのはＰ（ｒ｜ｋ4 ）であるので、図２に書かれている都市名は「ＨＡＭＡ」であると推定される。

ここで、確率テーブル１１の説明をしておく。
図６は、３．２．２節で述べた近似を確率テーブルの形で表したものである。文字種は、アルファベットの大文字２６種であるとする。
縦軸が実際に書かれている文字であり、横軸がその文字認識結果である。
例えば、確率テーブル１１において、縦軸の”Ｍ”と横軸”Ｈ”の交点は、実際に書かれている文字が”Ｍ”であったときに文字認識結果が”Ｈ”となる確率Ｐ（”Ｈ”｜”Ｍ”）である。
３．２．２節の近似では、文字認識結果が実際に書かれている文字自体になる確率を等しくｐとしているため、確率テーブル１１の左上から右下にかけての対角線上は全て等しくなる。図６では確率は０．５である。

また、３．２．２節の近似では、文字認識結果が実際に書かれている文字と異なる確率を等しくｑとしているため、確率テーブル１１の左上から右下にかけての対角線上以外の部分は、全て等しくなる。図６では確率は０．０２である。

３．２．２節の近似を用いた結果、図４の文字認識結果と図５の単語辞書１０の各都市名の間で一致している文字数が多い都市名が選ばれることになっている。３．２．２節の近似を用いず、３．２．１節で述べたように、あらかじめ各Ｐ（ｅi ｜ｃj ）を求めて、それを計算に用いた場合、一致した文字数が多ければよいとは限らない。

たとえば、上記式（８）の第１項は、「Ｈ」と「Ｍ」は形状が似ていることから比較的大きい値であり、

とする。また、第４項も同様であり、

であるとする。確率テーブル１１は図７のようになる。他の文字に関しては、３．２．２節の近似が成り立つとする。このとき、

であり、Ｐ（ｒ｜ｋ1 ）が最も大きな値となり、図２の郵便物Ｐに書かれていると推定される都市名は「ＭＡＩＲ」となる。

次に、本発明の第１の実施の形態としての、文字数が一定でない場合の単語認識におけるベイズ推定について説明する。この場合のベイズ推定は、日本語などの、単語を分けて書かない言語において有用である。また、単語を分けて書く言語においても、単語辞書に複数単語からなる文字列がある場合は有用である。

４．文字数が一定でない場合のベイズ推定
実際には、複数単語の文字列がカテゴリに含まれる場合（例：ＮＯＲＴＨＹＯＲＫ）もあるが、３節で述べた方法では１単語の文字列と２単語の文字列での比較はできない。また、単語を分けて書かない言語（日本語など）では文字数が一定とならず、３節の方法は使えない。そこで、本節では文字数が一定とは限らない場合に対応した単語認識方法を説明する。

４．１．定式化
入力パターンｘを、１単語ではなく、複数単語とし、３節と同様にベイズ推定を行う。この場合、３節の定義を次のように追加変更する。

変更
・入力パターンｘを複数単語とする。

・Ｌ：入力パターンｘ内の全文字数
・カテゴリ集合Ｋ＝｛ｋi ｝

追加

このとき、ベイズ推定を用いると、事後確率Ｐ（ｋi ｜ｒ）は、上記式（２）と同じである。

Ｐ（ｒ｜ｋi ）は次のように表わされる。

Ｐ（ｋi ）は、３節と同様に求まっているものとする。ｎ（Ｋ）は、３節よりも増えるため、単純にはＰ（ｋi ）は３節よりも小さな値となることに注意する。

４．２．実用に向けた近似
４．２．１．文字列のない部分に対する近似と文字数正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）
上記式（１３）の第１項を次のように近似する。

１行目の近似は、「入力パターンｘの全文字のうち文字列ｗｂが当てはまっていない部分への、ｗｂによる影響を無視する」というものである。２行目は、「各ｒk が独立である」というものである。実際にはそうではなく、粗い近似ではあるが、非常に有効である。

同様に、上記式（１３）の第３項も近似すると、上記式（１３）は次のようになる。

ここで、Ｐ（ｋi ｜ｒ）／Ｐ（ｋi ）という値を考える。これは、ｋi である確率が、特徴ｒを知ることでどれほど増減したかを示す値である。

上記式（１６）の２行目の分母で用いている近似は、上記式（１４）と同様である。

この結果は非常に重要である。上記式（１６）の右辺には、全文字のうち文字列ｗｂが当てはまっていない部分に関する記述はない。すなわち、上記式（１６）は、入力パターンｘが何であるかに無関係である。このことから、文字列ｗｂの位置、長さは気にせずに上記式（１６）を計算し、Ｐ（ｋi ）をかけることで、Ｐ（ｋi ｜ｒ）を計算できることがわかる。

上記式（１６）の分子を見ると、上記式（３）、つまり文字数を一定とした場合のＰ（ｒ｜ｋi ）と同じ式になっている。これは、上記式（１６）は分母によって文字数の正規化を行っているといえる。

４．２．２．１位候補を用いた場合
ここで、特徴として３．２．１節のように「１位候補の文字」を用いたとする。すると、Ｐ（ｒk ）の近似として次のものが考えられる。

実際には、各文字の生起確率を考慮する必要があり、それを無視したものである。このとき、３．２．２節の近似も用いて上記式（１６）を近似すると、次の式となる。

ｎ（Ｅ）Ljにより正規化がなされている。

４．２．３．誤差の抑制
上記式（１６）は粗い近似の元に導かれた式であり、精度に問題の起こることがある。そこで、より精度を高めるため、上記式（１２）からの式変形を以下のように行う。

但し、

とする。

これにより、上記式（１６）の２行目の分母で用いていた近似を回避することができ、誤差が抑制される。

ｍａｔｃｈ（ｋi ）は上記式（１６）の３行目と同じ式である。つまり、各ｋi について上記式（１６）を計算し、それを代入することで、上記式（１６−２）は計算される。

４．３．具体例
たとえば、郵便物の宛名読取りにおいて、都市名を読むことを考える。

・単語を分けて書く言語（英語など）であり、複数単語の都市名が存在するとき
・単語を分けて書かない言語（日本語など）のとき
以上のとき、各候補の文字数は一定にはならない。例として、図８に示すような、英語で書かれた郵便物Ｐの宛名読取りにおいて、都市名を読むことを考える。図９は、上述した切出し処理により切出された都市名が書かれていると考えられる部分に対応する文字パターンの切出し処理結果であり、２文字単語の後、スペースが空いて、その後に３文字の単語が存在することが検出されている。単語辞書１０としては、図１０に示すように、図９に当てはまる文字数、単語数を持つ都市名が全て格納されている。この場合、都市名として、「ＣＯＨ」（ｋ１）、「ＬＥＩＴＨ」（ｋ２）、「ＯＴＨ」（ｋ３）、「ＳＫ」（ｋ４）、「ＳＴＬＩＮ」（ｋ５）の５つが格納されている。

図９の各文字パターンに対して上述した文字認識処理により文字認識を行う。この各文字パターンごとの文字認識結果を基に、図１０の各都市名ごとの事後確率を計算する。

計算に用いる特徴（＝文字認識結果）は様々であるが、ここでは１位候補の文字を用いた例を示す。この場合、図９の各文字パターンに対して、文字認識結果が左の文字から順に「Ｓ、Ｋ、Ｃ、Ｔ、Ｈ」となっている。文字認識結果が「Ｓ、Ｋ、Ｃ、Ｔ、Ｈ」であったとき、実際には、右の３文字に「ＣＯＨ」が書かれているという確率Ｐ（ｋi ｜ｒ）は、４．２．１節で述べた近似を用いると、上記式（１６）により、

から計算できる。さらに、３．２．２節、４．２．２節で述べた近似を用いれば、たとえば、ｐ＝０．５、ｎ（Ｅ）＝２６のときは、ｑ＝０．０２であるから、

同様にして

ただし、ｋ3 は右３文字が「ＯＴＨ」であり、ｋ4 は左２文字が「ＳＫ」であるとしたものである。

Ｐ（ｋ1 ）〜Ｐ（ｋ5 ）を等しいと見なせば、事後確率Ｐ（ｋi ｜ｒ）の大小は上記式（２０）、式（２１）の大小を比較すればよく、最も大きいのはＰ（ｋ4 ｜ｒ）であるので、図８に書かれている都市名は「ＳＫ」であると推定される。

３．２．２節の近似を用いず、３．２．１節で述べたように、あらかじめ各Ｐ（ｅi ｜ｃj ）を求めて、それを計算に用いた場合の例もあげておく。

「Ｃ」と「Ｌ」、「Ｔ」と「Ｉ」、「Ｈ」と「Ｎ」の形状が似ていることから、

であるとし、他の文字に関しては、３．２．２節の近似が成り立つとする。確率テーブル１１は図１１のようになる。このとき、

であり、Ｐ（ｋ5 ｜ｒ）／Ｐ（ｋ5 ）が最も大きな値となり、図８に書かれていると推定される都市名は「ＳＴＬＩＮ」となる。

また、４．２．３節で述べたような、誤差を抑制する計算の例も示しておく。上記式（１６−２）を計算する。Ｐ（ｋ1 ）〜Ｐ（ｋ5 ）は等しいとみなし、約分しておく。分母は上記式（２２）の総和であり、５６．２４＋１５．２１＋５６．２４＋１６９＋２０５．３≒５０２である。分子は上記式（２２）の各々の結果である。よって、

となり、確率０．５以下の時はリジェクトとすることにすると、認識結果はリジェクトとなる。

このように、第１の実施の形態では、認識すべき単語に対応した入力文字列を各文字ごとに認識処理を行い、あらかじめ認識すべき単語の候補が格納されている単語辞書内の各単語の各文字を条件として文字認識結果として得られた特徴が出現する確率を求め、この求めた確率を文字認識結果として得られた特徴が出現する確率で除算し、単語辞書内の各単語の各文字に対してそれぞれ求めた上記各除算結果を全ての文字について乗算し、単語辞書内の各単語に対してそれぞれ求めた上記乗算結果を全て加算し、単語辞書内の各単語に対してそれぞれ求めた上記乗算結果を上記加算結果で除算し、この結果に基づき上記単語の認識結果を得るものである。

すなわち、文字認識結果を用いた単語認識において、単語の文字数が一定とは限らない場合にも用いることのできる、事後確率を基にした評価関数を用いることにより、単語の文字数が一定でない場合においても精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

次に、本発明の第２の実施の形態としての、単語切出しが曖昧であるとき、その曖昧さまで事後確率の計算に含めたベイズ推定について説明する。この場合のベイズ推定は、単語切れ目の誤検出が無視できないときに有用となる。

５．単語切出しの統合
単語を分けて書く言語（英語など）においては、４節までで述べた方法では、単語が必ず正しく切出されているという前提があり、これが満たされず文字数に変化があると対応できない。そこで、本節では、単語切出しの結果を絶対とせず、確率として扱うことで、単語切出しの曖昧さを単語認識におけるベイズ推定に統合する。４節との大きな違いは、単語切出しの結果として得られる文字間の特徴を考慮していることである。

５．１．定式化
ここでも文字の切出しは完全に成功しており、ノイズの混入もないとする。４節の定義を基に次のように追加変更する。

変更
・入力パターンｘを行とする。

・Ｌ：入力行ｘ内の全文字数
・カテゴリ集合Ｋ＝｛ｋi ｝

追加

変更
・特徴ｒ＝（ｒc ，ｒs ）
ｒc ：文字特徴、ｒs ：文字間特徴
追加

このとき、事後確率Ｐ（ｋi ｜ｒ）は以下の式で表わされる。

ここで、Ｐ（ｒs ｜ｋi ）とＰ（ｒc ｜ｋi ）が独立であると仮定すると（これは文字特徴抽出と文字間特徴抽出が独立であることを意味する）、Ｐ（ｒc ｜ｒs ，ｋi ）＝Ｐ（ｒc ｜ｋi ）であるから、上記式（２３）は以下のようになる。

Ｐ（ｒc ｜ｋi ）は、上記式（１３）とほぼ同様である。

Ｐ（ｒs ｜ｋi ）は次のように表わされる。

Ｐ（ｋi ）は、４節までと同様に求まっているものとする。ただし、一般にｎ（Ｋ）は４節のときよりも大幅に増えることに注意する。

５．２．実用に向けた近似
５．２．１．文字列のない部分に対する近似と文字数正規化
４．２．１節と同様の近似を上記式（２５）に用いると次のようになる。

同様に、上記式（２６）は次のように近似される。

４．２．１節と同様、Ｐ（ｋi ｜ｒ）／Ｐ（ｋi ）という値を考えると、以下のように変形される。

上記式（２９）の１行目は、上記式（２４）による。２行目は、

という近似を用いている。上記式（２９）は、「ｋi である確率の、『特徴』を知ることによる変化」はｒc とｒs で独立に扱えることを示している。以下にそれぞれを計算する。

上記式（３０）、式（３１）の２行目の分母で用いている近似は、上記式（１４）と同様である。なお、式（３１）の３行目において、ｒs0，ｒsLは必ず行先頭、最後尾《次節５．２．２の例ではｄ3 》であるので、Ｐ（ｒs0）＝Ｐ（ｒsL）＝１である。

以上より、

上記式（１６）と同様、上記式（３２）も文字列ｗｃの当てはまらない部分に関する記述はない。すなわち、この場合も「分母による正規化」の考え方ができる。

５．２．２．文字間特徴ｒs の一例
例として次のように定義する。

・文字間特徴集合Ｄ＝｛ｄ0 ，ｄ1 ，ｄ2 （，ｄ3 ）｝
ｄ0 ：文字間が広い
ｄ1 ：文字間が狭い
ｄ2 ：接触している
（ｄ3 ：行の先頭または最後尾であり、必ず単語切れ目である）
・ｒs ∈Ｄ
このとき、

をあらかじめ求めておくことで、上記式（３２）の第２項分子

を求めることができる。ただし、Ｐ（ｄ3 ｜ｓ2 ）＝１である。

また、

を求めておくことで、上記式（３２）の第２項分母Ｐ（ｒsk）を求めることができる。

５．２．３．誤差の抑制
上記式（３２）は粗い近似の元に導かれた式であり、精度に問題の起こることがある。そこで、より精度を高めるため、上記式（２３）からの式変形を以下のように行う。

但し、

とする。

これにより、上記式（３０）の2行目の分母、上記式（３１）の2行目の分母で用いていた近似を回避することができ、誤差が抑制される。

ｍａｔｃｈＢ（ｋｉ）は上記式（３２）と同じ式である。つまり、各ｋｉについて上記式（３２）を計算し、それを代入することで、上記式（２３−２）は計算される。

５．３．具体例
４．３節と同様に、英語の郵便物の宛名読取りにおいて、都市名を読むことを考える。

たとえば、図１２に示すような、英語で書かれた郵便物Ｐの宛名読取りにおいて、都市名を読むことを考える。図１３は、上述した切出し処理により切出された都市名が書かれていると考えられる部分に対応する文字パターンの切出し処理結果であり、全部で５文字であることが検出されている。１−２文字目は接触しており、２−３文字目の間は広く、３−４文字目の間、４−５文字目の間は狭いことが検出されている。図１４（ａ）から（ｃ）は単語辞書１０の内容であり、全ての都市名が格納されている。この場合、都市名として、図１４（ａ）に示す、「ＳＴＬＩＮ」、図１４（ｂ）に示す、「ＳＬＩＭ」、図１４（ｃ）に示す、「ＳＩＭ」の３つが格納されている。各都市名の下に記載された記号（ｓ0 ，ｓ1 ）は単語切れ目か否かを示すものであり、ｓ0 は単語切れ目、ｓ1 は単語切れ目でないところ、である。

図１５は、カテゴリの集合を図示したものである。カテゴリには位置情報が含まれるため、単語辞書１０とは異なる。カテゴリｋ1 は図１４（ａ）の単語から作られ、カテゴリｋ2 ，ｋ3 は図１４（ｂ）の単語から作られ、カテゴリｋ4 ，ｋ5 ，ｋ6 は図１４（ｃ）の単語から作られている。カテゴリｋ1 は「ＳＴＬＩＮ」、カテゴリｋ2は「ＳＬＩＭ」、カテゴリｋ3 は「ＳＬＩＭ」、カテゴリｋ4 は「ＳＩＭ」、カテゴリｋ5 は「ＳＩＭ」、カテゴリｋ6 は「ＳＩＭ」となっている。

図１３の各文字パターンに対して上述した文字認識処理により文字認識を行う。この文字認識結果が図１５の各カテゴリの事後確率の計算に用いられる。計算に用いる特徴（＝文字認識結果）は様々であるが、ここでは１位候補の文字を用いた例を示す。

この場合、図１３の各文字パターンに対して文字認識結果が左の文字から順に「Ｓ、Ｓ、Ｌ、Ｉ、Ｍ」となっている。

文字間の特徴も様々なものが考えられるが、ここでは５．２．２節で述べた例を用いる。図１３には各文字間の特徴を示している。１−２文字目の間は接触しているため、文字間の特徴はｄ2 である。２−３文字目の間は広いため、文字間の特徴はｄ0 である。３−４文字目の間、４−５文字目の間は狭いため、文字間の特徴はｄ1 である。

５．２．１節で述べた近似を用いると、カテゴリｋ1 の生起確率の、文字認識結果「Ｓ、Ｓ、Ｌ、Ｉ、Ｍ」を知ることによる変化Ｐ（ｋ1 ｜ｒc ）／Ｐ（ｋ1 ）は、上記式（３０）により、

である。カテゴリｋ1 の生起確率の、図１３の文字間特徴を知ることによる変化Ｐ（ｋ1 ｜ｒs ）／Ｐ（ｋ1 ）は、上記式（３１）により、

である。

上記式（３３）の計算をするために、３．２．２節、４．２．２節で述べた近似を用いれば、たとえば、ｐ＝０．５、ｎ（Ｅ）＝２６のときは、ｑ＝０．０２であるから、上記式（３３）は次のように計算される。

上記式（３４）の計算をするために、あらかじめ

を求めておく必要がある。例として、下記表１、表２の値が得られたとする。

上記表１は

の値、表２はＰ（ｄk ｜ｓl）の値を表にしたものである。この場合、

の関係にあることに注意する。実際に上記式（３４）の計算に必要なのは、Ｐ（ｄk ｜ｓl ）／Ｐ（ｄk ）であるので、それを計算したものが下記表３である。

上記表３の値を基にして、上記式（３４）は次のように計算される。

上記式（２９）より、カテゴリｋ1 の生起確率の、文字認識結果「Ｓ、Ｓ、Ｌ、Ｉ、Ｍ」および図１３の文字間特徴を知ることによる変化Ｐ（ｋ1 ｜ｒ）／Ｐ（ｋ1 ）は、上記式（３５）、式（３６）の積で表わされるので、次のようになる。

同様に、ｋ2 〜ｋ6 についても、Ｐ（ｋi ｜ｒc ）／Ｐ（ｋi ）、Ｐ（ｋi ｜ｒs ）／Ｐ（ｋi ）、Ｐ（ｋi ｜ｒ）／Ｐ（ｋi ）を求めると、以下のようになる。

上記式（３７）、式（４０）の中で最大なのはカテゴリｋ1 である。したがって、推定結果は「ＳＴＬＩＮ」となる。

文字間の特徴を用いない４節の方法では、上記式（３５）、式（３８）の中で最大であるカテゴリｋ3 が推定結果となるが、文字間の特徴まで統合することで、総合的に最もマッチしていると考えられるカテゴリｋ1 が選ばれていることがわかる。

また、５．２．３節で述べたような、誤差を抑制する計算の例も示しておく。上記式（２３−２）を計算する。Ｐ（ｋ１）〜Ｐ（ｋ６）は等しいとみなし、約分しておく。分母は上記式（４０）の総和であり、３９００＋０．２２７＋１３５０＋０．３３７＋０．０５００＋４７３≒５７２０である。分子は上記式（４０）の各々の結果である。よって、

となり、確率０．７以下の時はリジェクトとすることにすると、認識結果はリジェクトとなる。

このように、第２の実施の形態では、認識すべき単語に対応した入力文字列を各文字ごとに切出し、この文字切出しによって文字間の特徴を抽出するとともに、上記文字切出しによって得られる各文字に対してそれぞれ認識処理を行い、あらかじめ認識すべき単語と単語の文字間の特徴の候補が格納されている単語辞書内の各単語の各文字および文字間の特徴を条件として文字認識結果として得られた特徴が出現する確率を求め、この求めた確率を文字認識結果として得られた特徴が出現する確率で除算し、単語辞書内の各単語の各文字および文字間の特徴に対してそれぞれ求めた上記各演算結果を全ての文字および文字間について乗算し、単語辞書内の各単語に対してそれぞれ求めた上記乗算結果を全て加算し、単語辞書内の各単語に対してそれぞれ求めた上記乗算結果を上記加算結果で除算し、この結果に基づき上記単語の認識結果を得るものである。

すなわち、文字認識結果を用いた単語認識において、少なくとも単語切出しの曖昧さをも考慮した、事後確率を基にした評価関数を用いることにより、単語切出しが確実でない場合にも精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

次に、本発明の第３の実施の形態としての、文字接触、ノイズ混入のあるときのベイズ推定について説明する。この場合のベイズ推定は、文字接触、ノイズ混入が無視できないときに有用となる。

６．文字接触、ノイズ混入の統合
５節までで述べた方法では、文字が必ず正しく切出されているという前提があり、これが満たされずに文字接触があると対応できない。また、ノイズの混入にも対応できない。そこで、本節では、カテゴリを変更することにより、文字接触、ノイズの混入に対応したベイズ推定を行う。

６．１．定式化
５節の定義を基に、次のように定義を追加変更する。

変更
・カテゴリＫ＝｛ｋi ｝

追加

・ａ0 ：作用なし
該当２文字間に何もしない。

・ａ1 ：接触
該当２文字を接触させる。この作用により、該当２文字は１つの非文字に変換される。

例「ＯＮＴＡＲＩＯ」の「Ｔ」と「Ａ」とを接触→ＯＮ＃ＲＩＯ（＃は接触による非文字）
・ａ2 ：ノイズ混入
該当２文字間にノイズ（非文字）を挿入する。

例「ＯＮＴ」の「Ｎ」と「Ｔ」との間にノイズを挿入→ＯＮ＊Ｔ（＊はノイズによる非文字）
ただし、ｌ＝０，Ｌj のときは、それぞれ文字列ｗｃの左端、右端にノイズがあるとする。また、本定義では、ノイズが２文字以上連続して混入することはないと仮定している。

・非文字γ∈Ｃ
文字接触、ノイズ混入を考慮することによる非文字を同一視してγとし、文字集合Ｃに含める。

このとき、事後確率Ｐ（ｋi ｜ｒ）は上記式（２３）、式（２４）と同様である。

Ｐ（ｒc ｜ｋi ）もほぼ上記式（２５）と同様である。

Ｐ（ｒs ｜ｋi ）もほぼ上記式（２６）と同様である。

６．２．Ｐ（ｋi ）について
Ｐ（ｗｃ）がわかっているものとする。ここで、Ｐ（ｗｃ）は、実際には、たとえば、郵便物Ｐの宛名読取りであれば、書状内での位置、行内での位置などの影響を受けるが、それらの期待値として与えられるものとする。このとき、Ｐ（ｗｄ）とＰ（ｗｃ）は次のような関係にあると考えられる。

すなわち、文字接触とノイズ混入は、接触確率Ｐ（ａ1 ）、ノイズ混入確率Ｐ（ａ2 ）を与えることで、５節までの枠組みに統合できる。ただし、上記式（４４）で

は両端のノイズの有無に関する項であり、一般に文字間と両端ではノイズの存在する確率が異なるため、ノイズ混入確率Ｐ（ａ2 ）とは別に値を定めるものとする。

Ｐ（ｗｃ）とＰ（ｗｃ，ｈ）や、Ｐ（ｗｄ）とＰ（ｗｄ，ｈ）の関係は、先ほども述べたような影響（書状内での位置など）をどうモデル化し、近似するかによるため、ここでは触れない。

６．３．非文字γについて
文字特徴として、３．２．１節のように、「１位候補の文字」を用いた場合を考える。非文字γを特徴抽出したとき、出現する１位候補の文字はどれも同様に確からしいと考えられる。そこで、次のように非文字を扱う。

６．４．具体例
５．３節と同様に、たとえば、図１６に示すような、英語の郵便物Ｐの宛名読取りにおいて、都市名を読むことを考える。

本節の特徴を分かりやすくするため、単語切出しが完全に成功しており、また、カテゴリに複数単語からなる文字列が存在しないという前提を設ける。図１７は上述した切出し処理により切出された都市名が書かれていると考えられる部分に対応する文字パターンの切出し処理結果であり、全部で５文字であることが検出されている。単語辞書１０としては、図１８に示すように、都市名が全て格納されている。この場合、都市名として、「ＳＩＳＴＡＬ」、「ＰＥＴＡＲ」、「ＳＴＡＬ」の３つが格納されている。

図１９は、カテゴリ集合を図示したものであり、単語辞書１０を基に作られる派生文字列のうち、５文字であるものが列挙されている。全ての５文字の派生文字列を列挙すると、たとえば、「ＰＥＴＡＲ」より派生する「Ｐ＃Ａ＊Ｒ」なども含まれなければならないが、６．２節に述べた接触確率Ｐ（ａ1 ）、ノイズ混入確率Ｐ（ａ2 ）がある程度以上小さい場合は無視することができる。本例では無視することにする。

カテゴリｋ1 〜ｋ5 は、「ＳＩＳＴＡＬ」の単語から作られ、カテゴリｋ6 は、「ＰＥＴＡＲ」の単語であり，カテゴリｋ7 〜ｋ11は「ＳＴＡＬ」の単語から作られている。カテゴリｋ1 は「＃ＳＴＡＬ」、カテゴリｋ2は「Ｓ＃ＴＡＬ」、カテゴリｋ3 は「ＳＩ＃ＡＬ」、カテゴリｋ4 は「ＳＩＳ＃Ｌ」、カテゴリｋ5 は「ＳＩＳＴ＃」、カテゴリｋ6 は「ＰＥＴＡＲ」、カテゴリｋ7 は「＊ＳＴＡＬ」、カテゴリｋ8は「Ｓ＊ＴＡＬ」、カテゴリｋ9 は「ＳＴ＊ＡＬ」、カテゴリｋ10 は「ＳＴＡ＊Ｌ」、カテゴリｋ11 は「ＳＴＡＬ＊」となっている。

図１７の各文字パターンに対して上述した文字認識処理により文字認識を行う。この各文字パターンごとの文字認識結果を基に、図１９に示す各カテゴリごとの事後確率を計算する。

計算に用いる特徴（＝文字認識結果）は様々であるが、ここでは１位候補の文字を用いた例を示す。この場合、図１７の各文字パターンに対して、文字認識結果が左の文字から順に「Ｓ、Ｅ、Ｔ、Ａ、Ｌ」となっている。これにより、図１９に示すカテゴリｋ2 （Ｓ＃ＴＡＬ）の生起確率の、文字認識結果を知ることによる変化Ｐ（ｋ2 ｜ｒ）／Ｐ（ｋ2 ）は、上記式（１６）より、

である。さらに、３．２節、４．２．２節で述べた近似を用いれば、たとえば、ｐ＝０．５、ｎ（Ｅ）＝２６のときは、ｑ＝０．０２であるから、上記式（４６）は次のように計算される。

計算過程を見ると、結局、非文字以外の４文字について計算していることと等価になっている。同様にして、他のカテゴリについても計算される。ここでは代表として、大きな値を示すと容易に推察されるｋ6 ，ｋ7 ，ｋ8 について計算する。

これらの比較に際し、５節まではＰ（ｋi ）を等しいと見なしていたが、本節では６．２節で述べたように、文字接触、ノイズ混入を考慮することによって、Ｐ（ｋi ）に変化が生じている。そこで、変化が生じる前のＰ（ｋi ）を、全て等しいと見なしてＰ（ｋi ）＝Ｐ0 とおくことにする。Ｐ0 は、上記式（４４）におけるＰ（ｗｃ）であると考えることができる。また、変化が生じた後のＰ（ｋi ）は、上記式（４４）におけるＰ（ｗｄ）と考えられる。したがって、変化が生じた後のＰ（ｋi ）は次のようになる。

ここで、接触確率Ｐ（ａ1 ）＝０．０５、文字間ノイズ混入確率Ｐ（ａ2 ）＝０．００２、両端ノイズ混入確率Ｐ′（ａ2 ）＝０．０６とすると、たとえば、Ｐ（ｋ2 ）は次のように計算される。

計算中、文字間において文字接触もノイズ混入もない確率Ｐ（ａ0 ）＝１−Ｐ（ａ1 ）−Ｐ（ａ2 ）＝０．９４８、両端においてノイズ混入のない確率Ｐ′（ａ0 ）＝１−Ｐ′（ａ2 ）＝０．９４を用いている。

同様にして、Ｐ（ｋ6 ），Ｐ（ｋ7 ），Ｐ（ｋ8 ）を計算すると、

上記式（５０）、式（５１）を上記式（４７）、式（４８）に用いて変形すると、以下のようになる。

参考までに他のカテゴリについて同様な計算をすると、以下のようになる。

以上より、事後確率が最も大きいのはカテゴリｋ2 であり、図１６に書かれている都市名は「ＳＩＳＴＡＬ」で、「Ｉ」と「Ｓ」とが接触していると推定される。

また、誤差を抑制する計算の例も示しておく。分母は、上記Ｐ（ｋ1 ｜ｒ）〜Ｐ（ｋ11｜ｒ）の総和であり、４０．７Ｐ0 ＋１０２０Ｐ0 ＋４０．７Ｐ0 ＋１．６３Ｐ0 ＋０．０６５３Ｐ0 ＋４２４Ｐ0 ＋５４．８Ｐ0 ＋４５．５Ｐ0 ＋１．８１Ｐ0 ＋０．０７２７Ｐ0 ＋０．０８８０Ｐ0 ≒１６３０Ｐ0 である。分子は上記Ｐ（ｋ1 ｜ｒ）〜Ｐ（ｋ11｜ｒ）である。よって、最大であるｋ2 についてのみ計算すると、

このように、第３の実施の形態は、単語辞書内の各単語の各文字には、文字に加えて非文字の情報を含ませ、かつ、非文字の情報を含む文字の単語の出現確率は、非文字の情報を含まない文字の単語の出現確率を基に設定することにより、文字認識結果を用いた単語認識において、文字接触やノイズ混入をも考慮した、事後確率を基にした評価関数を用いて単語認識を行うことができ、これにより、文字接触やノイズ混入がある場合にも精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

次に、本発明の第４の実施の形態としての、文字の切出しが一意に定まらないときのベイズ推定について説明する。この場合のベイズ推定は、漢字や仮名など、分離のある文字では有用である。また、英語における筆記体など、実際の文字どうしの切れ目以外にも多くの切れ目の候補を出さざるを得ない場合にも有用である。

７．文字切出しの統合
６節までで述べてきた方法では、文字自体が分離することはないという前提があった。しかし、漢字や仮名など、文字自体が２つ以上に分離する場合もある。たとえば、『明』という漢字は、文字切出しを行うと、へんとつくりが別々に文字候補として切出される。このとき、２つの文字候補を結合するべきか、別々にするべきか、により、複数の文字切出し候補が現われる。

このような文字の分離には、６節までの方法では対応できない。また、逆に文字接触が多く、それを切る処理をしている場合、実際に接触しているところだけでなく、文字自体を切ってしまうこともある。後で詳しく述べるが、認識の戦略として文字自体の切断をある程度許容する方が、性能がよい。この場合も同様に、６節までの方法では対応できない。そこで、本節では、文字の分離による複数の文字切出し候補に対応したベイズ推定を行う。

７．１．文字切出しについて
文字が接触することのある対象における文字切出しにおいては、文字接触を切る処理が行われる。この処理において、「文字の切れ目でない箇所」が切れ目候補に挙がる場合と、「文字の切れ目」が切れ目候補に挙がらない場合を比べると、後者の方が認識に悪影響を与える。理由は次の通りである。

・「文字の切れ目でない箇所」が切れ目候補に挙がる場合
「切れ目候補で切った場合」と「切らない場合」を試すことができるので、切り過ぎたことで正しい文字切出しがなくなるわけではない。

・「文字の切れ目」が切れ目候補に挙がらない場合
正しい文字切出しを得る手段はない。

このため、文字切出しにおいて、文字の切れ目以外にも多くの切れ目候補を挙げておくことは有用である。しかし、「切れ目候補で切った場合」と「切らない場合」を試すということは、複数の文字切出しパターン候補があることになる。６節までで述べてきた方法では、異なる文字切出しパターン候補間の比較はできない。そこで、以下に説明する方法でこれを解決する。

７．２．定式化
６節の定義を基に、次のように定義を追加変更する。

変更
・切れ目状態の集合Ｓ＝｛ｓ0 ，ｓ1 ，ｓ2 （，ｓ3 ）｝
ｓ0 ：単語切れ目である、ｓ1 ：文字切れ目である、ｓ2 ：文字切れ目ではない、（ｓ3 ：行先頭または最後尾）
５節以降で定義していた『切れ目である』は「単語切れ目である」の意味であり、ｓ0 にあたる。『切れ目でない』はｓ1 とｓ2 に分かれたことになる。

・Ｌ：切れ目候補で分割された部分（これを「セル」と呼ぶことにする）の個数
追加

変更
・カテゴリＫ＝｛ｋi ｝

追加

変更

このとき、事後確率Ｐ（ｋi ｜ｒ）は、やはり上記式（２３）、式（２４）と同様である。

Ｐ（ｒc ｜ｋi ）は次のように表わされる。

Ｐ（ｒs ｜ｋi ）は次のように表わされる。

Ｐ（ｋi ）は、本節ではカテゴリｋi にｍjkが含まれているため、その影響を考慮する必要がある。個々の文字の当てはまるユニットの形状、ユニットに当てはまっている文字、近傍ユニット間の形状バランスなどが影響すると考えられるが、そのモデル化についてはここでは触れない。

７．３．実用に向けた近似
７．３．１．文字列のない部分に対する近似と文字数正規化
４．２．１節と同様の近似を上記式（５４）に用いると、次のようになる。

実際には、ｒcn1n3とｒcn1n2，ｒcn2cn3との間には何らかの相関があると考えられるため、この近似は４．２．１節のときよりもさらに粗いものである。

また、上記式（５５）も同様に近似すると次のようになる。

さらに、５．２．１節と同様に、Ｐ（ｋi ｜ｒ）／Ｐ（ｋi ）を計算すると次のようになる。

上記式（３２）と同様、上記式（５８）も派生文字列ｗｄの当てはまっていない部分に関する記述はなく、「分母による正規化」の考え方ができる。

７．３．２．切れ目と文字間特徴ｒs について
６節までと違い、本節では切れ目状態としてｓ2 （文字切れ目でない）があるので、文字間特徴集合として５．２．２節と同様にＤを用いた場合、

を求めておけばよいことになる。ここで注意しなければならないのは、これらは全て７．１節で述べたように、「切れ目候補」として挙がった部分における話であることである。ｓ2 （文字切れ目でない）は、「切れ目候補として挙がったが切れ目ではない」という意味であり、

を求める際に気をつける必要がある。

を求める際も同様である。

７．３．３．誤差の抑制
上記式（５８）は粗い近似の元に導かれた式であり、精度に問題の起こることがある。そこで、より精度を高めるため、上記式（５３）からの式変形を以下のように行う。

但し、

とする。

これにより、上記式（５８）の2行目の分母で用いていた近似を回避することができ、誤差が抑制される。

ｍａｔｃｈＣ（ｋi ）は上記式（５８）と同じ式である。つまり、各ｋi について上記式（５８）を計算し、それを代入することで、上記式（５３−２）は計算される。

７．４．具体例
６．４節と同様に、英語の郵便物の宛名読取りにおいて、都市名を読むことを考える。

本節の特徴を分かりやすくするため、単語切出しが完全に成功しており、カテゴリに複数の単語からなる文字列が存在せず、ノイズの混入もなく、文字切出しによって全ての文字切れ目が検出されている（すなわち、６節のようにノイズ、接触文字に関するカテゴリが必要ない）とする。

図２０は、都市名が書かれていると考えられる部分であり、５つのセルがある。図２１（ａ）〜図２１（ｄ）は、考えられる文字切出しパターン候補である。本例では、簡単のため、セル２と３、セル４と５の間は必ず切れることがあらかじめ分かっているとした（切れない確率がごく小さいため、無視したと考えてもよい）。

すると、切れ目候補はセル１と２、セル３と４の間であり、考えられる文字切出しパターン候補を列挙すると、図２１（ａ）〜図２１（ｄ）のようになる。図２２は単語辞書１０の内容であり、全ての都市名が格納されている。本例では、都市名は３候補ある。

この場合、都市名として、「ＢＡＹＧＥ」、「ＲＡＧＥ」、「ＲＯＥ」の３つが格納されている。

図２３（ａ）〜図２３（ｄ）は、カテゴリ集合を図示したものである。単語切出しが完全に成功しているという前提なので、「ＢＡＹＧＥ」は図２１（ａ）、「ＲＡＧＥ」は図２１（ｂ）、図２１（ｃ）、「ＲＯＥ」は図２１ｄにのみ当てはまる。

図２３（ａ）に示すカテゴリｋ１において、セル１−２間、セル３−４の間は共に、「文字の切れ目」（Ｓ１）となっている。

図２３（ｂ）に示すカテゴリｋ２において、セル１−２間は、「文字の切れ目」（Ｓ１）となり、セル３−４の間は「文字の切れ目でない」（Ｓ２）となっている。

図２３（ｃ）に示すカテゴリｋ３において、セル１−２間は、「文字の切れ目でない」（Ｓ２）となり、セル３−４の間は「文字の切れ目」（Ｓ１）となっている。

図２３（ｄ）に示すカテゴリｋ４において、セル１−２間、セル３−４の間は共に、「文字の切れ目でない」（Ｓ２）となっている。

図２１（ａ）〜図２１（ｄ）に現れる各ユニットを文字認識にかけ、その文字認識結果が図２３（ａ）〜図２３（ｄ）のカテゴリの事後確率の計算に用いられる。計算に用いる特徴（＝文字認識結果）は様々であるが、ここでは１位候補の文字を用いた例を示す。

図２４は、各ユニットの認識結果を示している。たとえば、セル１と２とを結合したユニットは、認識結果の１位が「Ｒ」であったことを示す。

文字間特徴も様々なものが考えられるが、ここでは５．２．２節で述べた例を簡略化して、次のようなものを用いる。

・文字間特徴集合Ｄ′＝｛ｄ′1 ，ｄ′2 ｝
ｄ′1 ：接触していない
ｄ′2 ：接触している
図２５は、セル１−２間、３−４間の文字間特徴を示している。１−２間は接触しておらず、３−４間は接触している。

７．３．１節で述べた近似を用いると、カテゴリｋ1 （ＢＡＹＧＥ）の生起確率の、図２４の認識結果を知ることによる変化Ｐ（ｋ1 ｜ｒc ）／Ｐ（ｋ1 ）は、上記式（５８）より、

である。カテゴリｋ1 の生起確率の、図２５の文字間特徴を知ることによる変化Ｐ（ｋ1 ｜ｒs ）／Ｐ（ｋ1 ）は、上記式（５８）より、

である。

上記式（５９）の計算をするために、３．２．２節、４．２．２節で述べた近似を用いれば、たとえば、ｐ＝０．５、ｎ（Ｅ）＝２６のときは、ｑ＝０．０２であるから、上記式（５９）は次のように計算される。

上記式（６０）の計算をするために、あらかじめ

を求めておく必要がある。例として下記表４、表５の値が得られたとする。

上記表４は

の値、表５はＰ（ｄ'k ｜ｓl ）の値を表にしたものである。この場合、

の関係にあることに注意する。実際に上記式（６０）の計算に必要なのは、Ｐ（ｄ'k ｜ｓl ）/Ｐ（ｄ'k ）であるので、それを計算したものが下記表６である。

上記表６の値を基にして、上記式（６０）は次のように計算される。

上記式（６０）より、カテゴリｋ1 の生起確率の、図２４の文字認識結果および図２５の文字間特徴を知ることによる変化Ｐ（ｋ1 ｜ｒ）／Ｐ（ｋ1 ）は、上記式（６１）、式（６２）の積で表わされるので、次のようになる。

同様に、ｋ2 〜ｋ4 についても、Ｐ（ｋi ｜ｒc ）／Ｐ（ｋi ）、Ｐ（ｋi ｜ｒs ）／Ｐ（ｋi ）、Ｐ（ｋi ｜ｒ）／Ｐ（ｋi ）を求めると、以下のようになる。

これらの比較に際し、５節まではＰ（ｋi ）を等しいと見なしていたが、本節では文字の形状を考慮にいれる。

図２１（ｄ）は各ユニットの幅が揃っている。図２１（ａ）はそれに次いで揃っている。しかし、図２１（ｂ）、図２１（ｃ）は不揃いである。

この揃っているかどうかの度合いを何らかの方法でモデル化してＰ（ｋi ）に反映させれば、より正確な単語認識が可能になるが、ここではその方法は問わない。

本例では、その結果として、

になったとする。比例定数をＰ1 とし、上記式（６３）、式（６６）に上記式（６７）を用いて変形すると、以下のようになる。

以上より、事後確率が最も大きいのはカテゴリｋ1 であり、図１６に書かれている都市名は「ＢＡＹＧＥ」であると推定される。

図２４の文字認識による結果が最も大きいのは、上記式（６１）、式（６４）よりカテゴリｋ3 であり、図２５の文字間特徴による結果が最も大きいのは、上記式（６２）、式（６５）よりカテゴリｋ2 であり、文字形状のバランスの評価が最も高いのはカテゴリｋ4 であるが、全てを統合した推定を行うことで、カテゴリｋ1 を選ぶことができている。

また、７．３．３節で述べたような、誤差を抑制する計算の例も示しておく。上記式（５３−２）を計算する。分母は上記式（６８）の総和であり、１１０８６Ｐ1 ＋１６２Ｐ1 ＋２４９Ｐ1 ＋１７１０Ｐ1 ≒１３２００Ｐ1 である。分子は上記式（６８）の各々の結果である。よって、

となり、確率０．９以下の時はリジェクトとすることにすると、認識結果はリジェクトとなる。

このように、第４の実施の形態では、認識すべき単語に対応した入力文字列を各文字ごとに切出すとともに、この文字切出しによって文字間の接離を考慮した複数種類の切出し結果を求め、この求めた全ての切出し結果の各文字に対してそれぞれ認識処理を行い、あらかじめ認識すべき単語と単語の文字間の特徴の候補が格納されている単語辞書内の各単語の各文字および文字間の特徴を条件として文字認識結果として得られた特徴が出現する確率を求め、この求めた確率を文字認識結果として得られた特徴が出現する確率で除算し、単語辞書内の各単語の各文字および文字間の特徴に対してそれぞれ求めた上記各演算結果を全ての文字および文字間について乗算し、単語辞書内の各単語に対してそれぞれ求めた上記乗算結果を全て加算し、単語辞書内の各単語に対してそれぞれ求めた上記乗算結果を上記加算結果で除算し、この結果に基づき上記単語の認識結果を得るものである。

すなわち、文字認識結果を用いた単語認識において、少なくとも文字切出しの曖昧さをも考慮した、事後確率を基にした評価関数を用いることにより、文字切出しが確実でない場合にも精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

本発明によれば、文字認識結果を用いた単語認識において、単語の文字数が一定とは限らない場合にも用いることのできる事後確率を基にした評価関数を用いることにより、単語の文字数が一定でない場合においても精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

また、本発明によれば、文字認識結果を用いた単語認識において、少なくとも単語切出しの曖昧さをも考慮した事後確率を基にした評価関数を用いることにより、単語切出しが確実でない場合にも精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

また、本発明によれば、文字認識結果を用いた単語認識において、少なくとも文字接触をも考慮した事後確率を基にした評価関数を用いることにより、文字接触がある場合にも精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

また、本発明によれば、文字認識結果を用いた単語認識において、少なくともノイズ混入をも考慮した事後確率を基にした評価関数を用いることにより、ノイズ混入がある場合にも精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

さらに、本発明によれば、文字認識結果を用いた単語認識において、少なくとも文字切出しの曖昧さをも考慮した事後確率を基にした評価関数を用いることにより、文字切出しが確実でない場合にも精度良く単語認識が行える。

また、リジェクト処理も精度良く行える。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

図１は、本発明の実施の形態に係る単語認識方法を実現するための単語認識システムの構成を概略的に示すブロック図。図２は、宛名が記載されている郵便物の記載例を示す図。図３は、単語認識方法の概略を説明するフローチャート。図４は、都市名として切出された文字パターンを示す図。図５は、単語辞書の内容を示す図。図６は、確率テーブルの内容を示す図。図７は、確率テーブルの内容を示す図。図８は、宛名が記載されている郵便物の記載例を示す図。図９は、都市名として切出された文字パターンを示す図。図１０は、単語辞書の内容を示す図。図１１は、確率テーブルの内容を示す図。図１１は、宛名が記載されている郵便物の記載例を示す図。図１３は、都市名として切出された文字パターンを示す図。図１４は、単語辞書の内容を示す図。図１５は、図１４の単語辞書に対するカテゴリの集合を示す図。図１６は、宛名が記載されている郵便物の記載例を示す図。図１７は、都市名として切出された文字パターンを示す図。図１８は、単語辞書の内容を示す図。図１９は、図１８の単語辞書に対するカテゴリの集合を示す図。図２０は、都市名として切り出されセルを示す図。図２１は、文字切出しパターン候補を示す図。図２２は、単語辞書の内容を示す図。図２３は、図２２の単語辞書に対するカテゴリの集合を示す図。図２４は、文字切出しパターン候補に対する各ユニットの認識結果を示す図。図２５は、文字間特徴を示す図。

符号の説明

１…ＣＰＵ、２…入力装置、３…スキャナ、４…表示装置、５…第１のメモリ、６…第２のメモリ、７…読取装置、８…ＲＯＭ、９…文字辞書、１０…単語辞書、１１…確率テーブル。

Claims

認識すべき単語に対応した入力文字列を各文字ごとに認識処理を行うことにより文字認識結果を得る文字認識処理ステップと、
あらかじめ認識すべき単語の候補が格納されている単語辞書内の各単語の各文字を条件として上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率を求める確率算出ステップと、
この確率算出ステップにより求めた確率と上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率との間で除算を行う第１の演算ステップと、
上記除算により上記単語辞書内の各単語の各文字に対してそれぞれ求めた各演算結果の間で乗算を行う第２の演算ステップと、
上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を全て足し合わせる第３の演算ステップと、
上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を第３の演算ステップの演算結果で割る第４の演算ステップと、
この第４の演算ステップによる演算結果の最大値が所定のしきい値以下の場合は認識結果をリジェクトとし、前記所定のしきい値を超える場合は最大値となる単語を認識結果とする単語認識処理ステップと、
を具備したことを特徴とする単語認識方法。
認識すべき単語に対応した入力文字列を各文字ごとに切出す切出しステップと、
この切出しステップによる文字切出しによって、文字間が接しているかあるいは文字間が離れているかを考慮した複数種類の切出し結果を求めるステップと、
このステップにより求めた全ての切出し結果の各文字に対してそれぞれ認識処理を行う文字認識処理ステップと、
あらかじめ認識すべき単語の候補が格納されている単語辞書内の各単語の各文字を条件として上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率を求める確率算出ステップと、
この確率算出ステップにより求めた確率と上記文字認識処理ステップにより文字認識結果として得られた特徴が出現する確率との間で除算を行う第１の演算ステップと、
上記除算により上記単語辞書内の各単語の各文字に対してそれぞれ求めた各演算結果の間で乗算を行う第２の演算ステップと、
上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を全て足し合わせる第３の演算ステップと、
上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を第３の演算ステップの演算結果で割る第４の演算ステップと、
この第４の演算ステップによる演算結果の最大値が所定のしきい値以下の場合は認識結果をリジェクトとし、前記所定のしきい値を超える場合は最大値となる単語を認識結果とする単語認識処理ステップと、
を具備したことを特徴とする単語認識方法。
認識すべき単語に対応した入力文字列を各文字ごとに認識処理を行うことにより文字認識結果を得る文字認識処理手段と、
あらかじめ認識すべき単語の候補が格納されている単語辞書内の各単語の各文字を条件として上記文字認識処理手段により文字認識結果として得られた特徴が出現する確率を求める確率算出手段と、
この確率算出手段により求めた確率と上記文字認識処理手段により文字認識結果として得られた特徴が出現する確率との間で除算を行う第１の演算手段と、
上記除算により上記単語辞書内の各単語の各文字に対してそれぞれ求めた各演算結果の間で乗算を行う第２の演算手段と、
上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を全て足し合わせる第３の演算手段と、
上記乗算により上記単語辞書内の各単語に対してそれぞれ求めた各演算結果を第３の演算手段の演算結果で割る第４の演算手段と、
この第４の演算手段による演算結果の最大値が所定のしきい値以下の場合は認識結果をリジェクトとし、前記所定のしきい値を超える場合は最大値となる単語を認識結果とする単語認識処理手段と、
を具備したことを特徴とする単語認識装置。