JP2008226030A

JP2008226030A - 単語認識方法および単語認識プログラム

Info

Publication number: JP2008226030A
Application number: JP2007065522A
Authority: JP
Inventors: Tomoyuki Hamamura; 倫行浜村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-14
Filing date: 2007-03-14
Publication date: 2008-09-25
Anticipated expiration: 2027-03-14
Also published as: EP2138959A4; WO2008111399A1; EP2138959B1; EP2138959A1; US20080292186A1; JP4672692B2; US8208685B2; KR20090088304A; KR101016544B1

Abstract

【課題】単語の記載位置が未知である場合においても精度良く単語認識が行えるようにすること。
【解決手段】被読取物上に記載された文字情報の文字読取を行って得られる各単語候補に対する認識処理を行う単語認識方法において、上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出する単語マッチング処理（１２）を行い、上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出処理（１３）を行い、上記文字品質スコア算出処理で得られる文字品質スコアを元に上記マッチング処理で得られるマッチングスコアを補正する処理（１４）を行う。
【選択図】図６

Description

本発明は、例えば、被読取物上に記載された複数の文字からなる単語を光学的に読取る光学的文字読取装置などにおいて単語認識を行う単語認識方法、および、その単語認識処理を行わせるための単語認識プログラムに関する。

一般に、例えば、光学的文字読取装置において、被読取物上に記載された文字を読取る場合、個々の文字認識精度が低くても、単語の知識を用いることで精度良く読取ることができる。従来、その実施方法として種々の方法が提案されている。

その中で、単語の評価値として事後確率（ａｐｏｓｔｅｒｉｏｒｉｐｒｏｂａｂｉｌｉｔｙ）を用い、かつ文字数が一定でない場合においても精度良く単語認識が行える方法として、特許文献１に開示されるものがある。
特開２００１−２８３１５７号公報

しかしながら、特許文献１に開示されるものは、単語の記載位置が既知である場合を想定しており、単語の記載位置が未知である場合は十分な精度で単語認識を行えるとは言えない。例えば、正解単語が乱雑に記載されており、非正解単語が丁寧に記載されていたような場合、非正解単語と似た辞書内単語の評価値（マッチングスコア）が高くなってしまい、その結果、誤認識が生じやすくなる。

そこで本発明は、単語の記載位置が未知である場合においても精度良く単語認識が行える単語認識方法および単語認識プログラムを提供することを目的とする。

本発明に係る単語認識方法は、被読取物上に記載された文字情報の文字読取を行って得られる各単語候補に対する認識処理を行う単語認識方法であって、上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップとを具備したことを特徴とする。

本発明に係る単語認識プログラムは、コンピュータに、被読取物上に記載された文字情報の文字読取を行って得られる単語候補に対する認識処理を行わせる単語認識プログラムであって、上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップとを有することを特徴とする。

この発明によれば、単語の記載位置が未知である場合においても精度良く単語認識が行える単語認識方法および単語認識プログラムを提供できる。

以下、本発明の実施の形態について図面を参照して説明する。

図１は、本発明の実施の形態に係る単語認識方法を実現するための単語認識システムの構成を概略的に示すものである。

図１において、この単語認識システムは、ＣＰＵ（セントラル・プロセッシング・ユニット）１、入力装置２、画像入力手段としてのスキャナ３、表示装置４、記憶手段としての第１メモリ５、記憶手段としての第２メモリ６、および、読取装置７などによって構成されている。

ＣＰＵ１は、第２メモリ６に格納されたオペレーティングシステムプログラム、および、第２メモリ６に格納されたアプリケーションプログラム（単語認識プログラムなど）を実行することにより、後で詳細を説明するような単語認識処理などを行うものである。

入力装置２は、例えば、キーボードやマウスなどからなり、利用者が各種操作を行ったり、各種データを入力するために使用される。

スキャナ３は、被読取物上に記載された単語の各文字を光学的な走査により読取って入力するものである。

表示装置４は、例えば、ディスプレイ装置やプリンタなどからなり、各種データを出力するものである。

第１メモリ５は、例えば、ＲＡＭ（ランダム・アクセス・メモリ）により構成されていて、ＣＰＵ１の作業用メモリとして使用され、処理中の各種データなどを一時記憶するものである。例えば、後述する文字辞書９、単語辞書１０、確率テーブル１１などを一時記憶する。

第２メモリ６は、例えば、ハードディスク装置により構成されていて、ＣＰＵ１を動作させるための各種プログラムなどを記憶するものである。第２メモリ６には、入力装置２、スキャナ３、表示装置４、第１メモリ５、第２メモリ６、読取装置７などを動作させるためのオペレーティングシステムプログラム、単語認識プログラムおよび単語を構成する文字の認識用の文字辞書９、単語認識用の単語辞書１０、単語を構成する文字の出現確率を記憶している確率テーブル１１などが記憶されている。上記単語辞書１０としては、あらかじめ認識すべき単語の候補が複数格納されているものであり、単語認識システムが設置されている地域、例えば州における都市名が登録されている都市名辞書となっている。

読取装置７は、例えば、ＣＤ−ＲＯＭドライブ装置などからなり、記憶媒体としてのＣＤ−ＲＯＭ８に格納（記憶）されている単語認識プログラムおよび単語認識用の単語辞書１０などを読取るものである。読取装置７により読取られた単語認識プログラム、文字辞書９、単語辞書１０、確率テーブル１１は、第２メモリ６に格納（記憶）される。

次に、単語認識方法の概略について、図２に示すフローチャートを参照しつつ説明する。

まず、スキャナ３により郵便物Ｐの画像を取り込む（読取る）画像取り込み処理が行われる（ステップＳＴ１）。この画像取り込み処理により取り込んだ画像により宛名の記載されている領域を検出する領域検出処理が行われる（ステップＳＴ２）。この領域検出処理により検出した宛名の記載領域から都市名に対応する単語の１文字ずつの矩形領域の文字パターンを、垂直射影や水平射影を用いて切出す切出し処理が行われる（ステップＳＴ３）。この切出し処理により切出された単語の１文字ずつの文字パターンと文字辞書９に記憶されている文字パターンとを比較して得られる類似度により文字の認識候補を得る文字認識処理が行われる（ステップＳＴ４）。この文字認識処理により得られる単語の１文字ずつの認識結果と単語辞書１０に記憶されている都市名の各文字と確率テーブル１１とを用いて、単語辞書１０の各都市名ごとの事後確率を算出し、事後確率の一番大きなものを単語として認識する単語認識処理が行われる（ステップＳＴ５）。上記各処理はＣＰＵ１により制御されている。

以下では、具体例の１つとして、アルファベット圏の帳票等に記載された宛先住所の中から、都市名を読み取る例について説明する。

図３はスキャナ等により取り込まれたアルファベット圏の帳票等の画像の例を示す図である。図４はスキャナ等により取り込まれた画像から検出される単語候補の例を示す図である。図５は都市名単語の登録された単語辞書の例を示す図である。この場合、図３の画像の中から、図４の画像に示されるような単語候補が検出され、これら単語候補の中から単語辞書に登録されている単語（例えば、図５の単語辞書に登録されている都市名）が探し出され、当該帳票等に記載されている単語（例えば、都市名）が特定されることになる。その際、本実施形態では特に、単語候補と単語辞書内の単語とのマッチング処理の結果に対し、所定の補正処理が施される。

ここで、本実施形態による補正処理を含む単語認識方法について、図６に示すフローチャートを参照しつつ説明する。

図３に示されるような帳票等の画像がスキャナ等を通じて取り込まれると、図４に示されるように画像の中に含まれる個々の単語候補が検出される（ステップ１１）。検出された単語候補には通し番号が振られる。

次に、各単語候補に対する単語マッチング処理が行われる（ステップ１２）。単語マッチング処理は、各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出する処理である。

この単語マッチング処理には、ＤＰ（Dynamic Programming）マッチング（もしくは「動的計画法」）と呼ばれる周知の技術を適用することが可能である。このＤＰマッチングは、特に要素数（例えば文字数）が異なる対象物（例えば単語）どうしを照合するにあたり、類似度などを算出する計算処理を最小限にするアルゴリズムとしてよく知られ、要素間のずれなどを考慮しつつ、要素間の対応付け（整列化）を行い、最適な照合処理を実現するものである。この技術を援用することにより、マッチング処理における速度の向上などを図ることができる。

単語マッチング処理で算出されたマッチングスコアは、マッチングスコアテーブルに記憶される。図７は、マッチングスコアテーブルに記憶されたマッチングスコアの例を示す図である。このマッチングスコアテーブルには、通し番号１〜７の各単語候補と単語辞書内の都市名単語“ＳＴＯＣＫＨＯＬＭ”，“ＴＯＣＨＩＣＡ”，“ＭＯＨＥＤＡ”，…とのマッチング処理結果であるマッチングスコアが単語毎に記憶されている。

通し番号３の単語候補は、実際の帳票上では、町名を示す“ＴＯＳＨＩＢＡ”が書かれており、単語辞書内の各都市名単語とのマッチングスコアは低くなることが予想される。しかしながら、単語辞書内には、“ＴＯＳＨＩＢＡ”とは５文字が一致し、２文字が異なる都市名単語“ＴＯＣＨＩＣＡ”が存在する。帳票上では“ＴＯＳＨＩＢＡ”を構成する個々の文字が丁寧に書かれているがために、一致する５文字により、単語辞書内の都市名単語“ＴＯＣＨＩＣＡ”とのマッチングスコア（符号ａ）が高くなってしまっている。

一方、通し番号６の単語候補は、実際の帳票上では、都市名を示す“ＳｔｏｃｋＨｏｌｍ”が書かれており、単語辞書内の都市名単語“ＳＴＯＣＫＨＯＬＭ”とのマッチングスコアが高くなることが期待される。しかしながら、帳票上では“ＳＴＯＣＫＨＯＬＭ”が乱雑に書かれているがために、そのマッチングスコア（符号ｂ）は期待されるほど高くなってはいない。

この時点では、符号ｂのマッチングスコアよりも符号ａのマッチングスコアの方が高いため、帳票上に書かれた“ＴＯＳＨＩＢＡ”が都市名単語“ＴＯＣＨＩＣＡ”として誤認識されてしまう可能性がある。本実施形態では、以下の各ステップによりこの誤認識を防止する。

上記単語マッチング処理の後、各単語候補に対する文字品質スコア算出処理が行われる（ステップ１３）。この文字品質スコア算出処理は、各単語候補を構成する各文字が任意の文字（文字辞書内のアルファベットのうちのいずれかの文字）に一致する度合いを示す文字品質スコアを算出する処理である。例えば、ある単語候補内のある文字候補の品質スコアを算出する際には、その文字候補が文字辞書内のいずれかのアルファベットに一致する確率（もしくは類似度）を算出する。このような算出処理を文字候補毎に行って得られる個々の品質スコアをそれぞれ加算等した結果が、その単語候補の文字品質スコアとして採用される。

この文字品質スコア算出処理においても、文字候補のマッチング処理の際に前述したＤＰマッチングを適用することが可能である。

文字品質スコア算出処理で算出された文字品質スコアは、文字品質スコアテーブルに記憶される。図８は、文字品質スコアテーブルに記憶された文字品質スコアの例を示す図である。この文字品質スコアテーブルには、通し番号１〜７の各単語候補に対する文字品質スコアが記憶されている。

例えば、帳票上に書かれた通し番号３の単語候補や通し番号７の単語候補は、各文字が丁寧に書かれている。特に文字と文字との境目がはっきりとしているため個々の文字を間違いなく特定できる。特定される個々の文字の形状が単語辞書内の任意のアルファベットにほぼ一致するため、他の候補よりも文字品質スコアが高くなっている。例えば、通し番号３の単語候補“ＴＯＳＨＩＢＡ”の場合、手書きで書かれた文字“Ｔ”，“Ｏ”，“Ｓ”，“Ｈ”，“Ｉ”，“Ｂ”，“Ａ”はそれぞれ、文字辞書内のアルファベット“Ｔ”，“Ｏ”，“Ｓ”，“Ｈ”，“Ｉ”，“Ｂ”，“Ａ”にほぼ一致するほど丁寧である（一致もしくは類似する度合いが高い）ため、高めのスコアが付されている。通し番号７の単語候補の場合も、同様、高めのスコアが付されている。

一方、帳票上に書かれた通し番号４の単語候補や通し番号６の単語候補は、各文字が乱雑な筆記体で書かれている。特に文字と文字との境目が不明確であるため個々の文字の特定が困難であり、個々の文字の特定を誤りやすい。個々の文字を正しく特定できたとしても、その形状が文字辞書内の任意のアルファベットにほぼ一致するものが見つからない場合が多い。このため、他の候補よりも文字品質スコアが低くなっている。例えば、乱雑に書かれた通し番号６の単語候補“ＳｔｏｃｋＨｏｌｍ”がこれに該当し、低めのスコアが付されている。通し番号４の単語候補の場合も、同様、低めのスコアが付されている。

文字品質スコア算出処理の後、各単語候補に対する補正スコア計算処理が行われる（ステップ１４）。補正スコア計算処理は、上記文字品質スコア算出処理で得られた文字品質スコアを元に上記単語マッチング処理で得られたマッチングスコアを補正する処理である。例えば、上記単語マッチング処理で得られたマッチングスコアから、上記文字品質スコア算出処理で得られる文字品質スコアを差し引く処理を行う。これにより、文字が丁寧に書かれた単語候補のマッチングスコアは補正処理により大きく低下し、一方、文字が乱雑に書かれた単語候補のマッチングスコアは補正処理により小さく低下することになる。

補正スコア計算処理で算出された補正スコアは、補正スコアテーブルに記憶される。図９は、補正スコアテーブルに記憶された補正スコアの例を示す図である。この補正スコアテーブルには、通し番号１〜７の各単語候補と単語辞書内の都市名単語“ＳＴＯＣＫＨＯＬＭ”，“ＴＯＣＨＩＣＡ”，“ＭＯＨＥＤＡ”，…とのマッチング処理結果であるマッチングスコアを補正した結果である補正スコアが単語毎に記憶されている。

上記単語マッチング処理を行った時点では、通し番号６の単語候補と辞書内単語“ＳＴＯＣＫＨＯＬＭ”とのマッチングスコア（符号ｂ）よりも、通し番号３の単語候補と辞書内単語“ＴＯＣＨＩＣＡ”とのマッチングスコア（符号ａ）の方が高かったが、補正スコア計算処理後においては、スコアの高低が逆転している。すなわち、補正スコア計算処理後においては、通し番号３の単語候補と辞書内単語“ＴＯＣＨＩＣＡ”とのマッチングスコア（補正スコア）（符号ａ’）よりも通し番号６の単語候補と辞書内単語“ＳＴＯＣＫＨＯＬＭ”とのマッチングスコア（補正スコア）（符号ｂ’）の方が高くなっている。これにより、正しい認識結果が得られることが期待される。

補正スコア計算処理の後、補正スコアテーブル上において補正スコアを最大とする都市名単語が単語辞書から選択され、選択された都市名単語が認識結果として出力される（ステップ１５）。

次に、図６中の単語マッチング処理の詳細について、図１０のフローチャートを参照しつつ説明する。

まず、単語候補の番号ｉに１がセットされる（ステップ２１）。そして、ｉ番目の単語候補が選択される（ステップ２２）。

次に、単語辞書内の単語の番号ｊに１がセットされる（ステップ２３）。そして、単語辞書内のｊ番目の単語が選択される（ステップ２４）。

次に、選択されたｉ番目の単語候補とｊ番目の辞書内単語とのマッチング処理が行われ、マッチングスコアが計算される（ステップ２５）。そして、マッチングスコアテーブルの位置（ｉ，ｊ）にマッチングスコアが書き込まれる（ステップ２６）。

ここで、ｊと辞書内全単語数が比較される（ステップ２７）。ｊが辞書内全単語数より小さい場合、ｊに１が加算され（ステップ２８）、ステップ２４からの処理が繰り返される。一方、そうでない場合、ｉと全単語候補数が比較される（ステップ２９）。ｉが全単語候補数より小さい場合、ｉに１が加算され（ステップ３０）、ステップ２２からの処理が繰り返される。一方、そうでない場合、単語マッチング処理を終了する。

次に、図６中の文字品質スコア算出処理の詳細について、図１１のフローチャートを参照しつつ説明する。

まず、単語候補の番号ｉに１がセットされる（ステップ４１）。そして、ｉ番目の単語候補が選択される（ステップ４２）。

次に、単語候補を構成する文字候補の文字品質スコアが計算される（ステップ４３）。そして、文字品質スコアテーブルの位置ｉに文字品質スコアが書き込まれる（ステップ４４）。

次に、ｉと全単語候補数が比較される（ステップ４５）。ｉが全単語候補数より小さい場合、ｉに１が加算され（ステップ４６）、ステップ４２からの処理が繰り返される。一方、そうでない場合、文字品質スコア算出処理を終了する。

次に、図６中の補正スコア計算処理の詳細について、図１２のフローチャートを参照しつつ説明する。

まず、単語候補の番号ｉに１がセットされる（ステップ５１）。そして、補正値ｈに、文字品質スコアテーブルの位置ｉの値が読み込まれる（ステップ５２）。

次に、単語辞書内の単語の番号ｊに１がセットされる（ステップ５３）。そして、スコアｓに、マッチングスコアテーブルの位置（ｉ，ｊ）の値が読み込まれる（ステップ５４）。さらに、スコアｓから補正値ｈが減算され、算出結果が補正スコアテーブルの位置（ｉ，ｊ）に書き込まれる（ステップ５５）。

次に、ｊと辞書内全単語数が比較される（ステップ５６）。ｊが辞書内全単語数より小さい場合、ｊに１が加算され（ステップ５７）、ステップ５４からの処理が繰り返される。一方、そうでない場合、ｉと全単語候補数が比較される（ステップ５８）。ｉが全単語候補数より小さい場合、ｉに１が加算され（ステップ５９）、ステップ５２からの処理が繰り返される。一方、そうでない場合、補正スコア計算処理を終了する。

次に、上述した各種のスコアを算出するための計算式の具体例について説明する。

ここでは、単語辞書内の単語、全ての文字候補の文字認識結果、文字候補の位置の全集合、ある位置の左端から右端に至る経路の全集合を、それぞれ次のように定義する。

ある１つの単語候補とある１つの辞書内単語とのマッチングスコアを算出するには、事後確率比を用いた計算を行う。この場合、基本となる計算式として、例えば次の式（１）を採用する。

式（１）の左辺における分数部分の分子は事後確率に相当し、分母は事前確率に相当する。

式（１）に基づき、前述の単語マッチング処理におけるマッチングスコア（図７のスコアテーブルに相当）を算出するには、次の式（２）を用いる。

また、前述の文字品質スコア算出処理における文字品質スコア（図８のスコアテーブルに相当）を算出するには、次の式（３）を用いる。

なお、式（３）中の「Ｃ＊」は、任意のアルファベットであることを示している。

最終的に、上記の式（２）および式（３）に基づき、前述の補正スコア計算処理における補正スコア（図９のスコアテーブルに相当）の最大値を算出するには、評価関数として次の式（４）を用いる。

上述した実施形態によれば、単語の記載位置が未知である場合であっても、精度良く単語認識を行うことが可能となる。例えば、正解単語が乱雑に記載されており、非正解単語が丁寧に記載されていたような場合であっても、マッチングスコアが補正されて適切な評価値が得られるため、誤認識の発生を防止することが可能となる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の実施の形態に係る単語認識方法を実現するための単語認識システムの構成を概略的に示すブロック図。単語認識方法の概略を説明するためのフローチャート。スキャナ等で取り込まれたアルファベット圏の帳票等の画像の例を示す図。取り込まれた画像から検出される単語候補の例を示す図。都市名単語の登録された単語辞書の例を示す図。補正処理を含む単語認識方法を説明するためのフローチャート。マッチングスコアテーブルに記憶されたマッチングスコアの例を示す図。文字品質スコアテーブルに記憶された文字品質スコアの例を示す図。補正スコアテーブルに記憶された補正スコアの例を示す図。図６中の単語マッチング処理の詳細を説明するためのフローチャート。図６中の文字品質スコア算出処理の詳細を説明するためのフローチャート。図６中の補正スコア計算処理の詳細を説明するためのフローチャート。

符号の説明

１…ＣＰＵ、２…入力装置、３…スキャナ、４…表示装置、５…第１のメモリ、６…第２のメモリ、７…読取装置、８…ＲＯＭ、９…文字辞書、１０…単語辞書、１１…確率テーブル。

Claims

被読取物上に記載された文字情報の文字読取を行って得られる各単語候補に対する認識処理を行う単語認識方法であって、
上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、
上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、
上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップと、
を具備したことを特徴とする単語認識方法。
前記補正ステップは、上記マッチング処理ステップで得られるマッチングスコアから、上記文字品質スコア算出ステップで得られる文字品質スコアを差し引く処理を行うことを特徴とする請求項１記載の単語認識方法。
前記任意の文字は、アルファベットのうちのいずれかの文字であることを特徴とする請求項１記載の単語認識方法。
前記補正ステップにより補正された各マッチングスコアのうち、最も高いマッチングスコアの単語を認識結果として出力する出力ステップを更に具備したことを特徴とする請求項１記載の単語認識方法。
コンピュータに、被読取物上に記載された文字情報の文字読取を行って得られる単語候補に対する認識処理を行わせる単語認識プログラムであって、
上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、
上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、
上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップと、
を有することを特徴とする単語認識プログラム。