JP2002074268A

JP2002074268A - 文字認識システム

Info

Publication number: JP2002074268A
Application number: JP2000262096A
Authority: JP
Inventors: Shinya Nakagawa; 真也中川
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2000-08-31
Filing date: 2000-08-31
Publication date: 2002-03-15
Anticipated expiration: 2020-08-31
Also published as: KR20020081210A; EP1314129B1; CN100501764C; TW540007B; JP4674778B2; KR100843504B1; EP1314129A2; WO2002019248A2; WO2002019248A3; EP1314129A4; DE60128706T2; DE60128706D1; WO2002019248A9; CN1388947A

Abstract

(57)【要約】【課題】従来技術では、日本語など多数の文字を含む言
語の文字認識において、入力パターンから特徴ベクトル
を求め、特徴ベクトルと参照ベクトルとの距離を求め、
距離値の最も小さい参照ベクトルに対応する文字を認識
文字としている。しかし、多数の文字を含む言語の文字
認識では、比較する参照ベクトルの数が多いために、文
字認識の処理速度の向上には限度があった。【解決手段】本願発明では、文字の出現頻度に基づい
て、文字に対応する参照ベクトルを複数のクラスに分類
する。特徴ベクトルと参照ベクトルとの距離を計算する
時に、文字の出現頻度の高いクラスの参照ベクトルから
順に比較しすることにより、文字認識の処理速度の向上
を図る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、日本語、中国
語、韓国語その他多数の文字を含む言語の文字認識に関
する。

【０００２】

【従来の技術】日本語、中国語、韓国語など多数の文字
を含む言語の文字認識においては、入力パターンから特
徴を抽出して特徴ベクトルを求め、認識対象となるすべ
ての文字について予め用意された参照ベクトルとの距離
を求めて、距離値の最も小さい参照ベクトルに対応する
文字を認識文字として出力することが行われている。特
開平2-186490号公報には、入力された文字のパターンか
ら得られるベクトルと予め記憶されている既知の文字の
パターンから得られる参照ベクトルとの距離を計算して
文字認識を行うシステムが記載されている。このシステ
ムでは、入力パターンのベクトルと参照ベクトルとの間
のユークリッド距離を計算し、予め定められたしきい値
と比較して文字認識を行っている。また、特開平4-2860
87号公報には、入力された文字パターンから特徴ベクト
ルを抽出し、特徴辞書に格納されている参照ベクトルと
のユークリッド距離を求めて文字認識を行うシステムに
おいて、特徴辞書を類似文字カテゴリごとにクラスタに
分け、入力パターンの特徴ベクトルとそれぞれのクラス
タを代表する参照ベクトルとの距離を調べ、距離が最も
近いクラスタに属する類似文字の参照ベクトルについて
詳細な識別処理を行うことが記載されている。

【０００３】一般に、日本語、中国語、韓国語など文字
数の多い言語においては、識別能力を高めるために、数
百、数千といった非常に多くの特徴が用いられる。各候
補文字に対する参照ベクトルとの距離に基づく文字認識
システムにおいては、一般に、候補文字数と特徴数に比
例した計算時間が必要となり、認識速度の低下が問題と
なる。具体的には、距離としてユークリッド距離、重み
付きユークリッド距離、シティブロック距離などがある
が、ユークリッド距離 Σ_i=1 ^m(x_i-r_i)² 重み付きユークリッド距離 Σ_i=1 ^mw_i(x_i-r_i)² シティブロック距離 Σ_i=1 ^m|x_i-r_i| ただし、 X=(x₁,...,x_m) :入力パターンの特徴ベクトル R_j=(r_j ₁,...,r_jm) :候補文字ｊの参照ベクトル W=(w₁,...,w_m) :特徴の重みベクトルｍ :特徴の数ｎ :対象文字数いずれも、各特徴に関する距離成分(x_i-r_i)², |x_i-r_i|
の計算が n × m 回、つまり、（候補文字数）×（特徴
数分）だけ必要になる。上述の特開平4-286087号公報の
ものは、ユークリッド距離の計算対象を類似文字クラス
タに限定することにより、処理速度を向上させている。
しかしながら、類似文字クラスタを選択する基準となる
代表ベクトルを適正に設定することには困難が予測さ
れ、代表ベクトルの品質によっては認識精度が低下する
ことが予測される。

【０００４】

【発明が解決しようとする課題】この発明は、候補文字
数の多い言語において、利用する特徴の数が多い場合に
も認識精度の低下をもたらすことなく文字認識の速度を
向上させることを目的とする。

【０００５】

【課題を解決するための手段】この発明は一面において
次の構成の文字認識システムを提供する。すなわち、入
力パターンから得られる特徴ベクトルと、予め格納され
ている既知の文字の参照ベクトルとの距離を比較して文
字認識を行う文字認識システムであって、前記既知の文
字の出現頻度に基づいてすべての文字を複数のクラスに
分類し、該クラスごとに前記参照ベクトルを格納する辞
書記憶装置およびコンピュータを備え、前記コンピュー
タは、前記特徴ベクトルと前記複数のクラスのうち最も
文字の出現頻度の高いクラスに属する複数の文字の前記
参照ベクトルとの距離を算出し、該クラスに対して定め
られたクラスしきい値よりも小さい距離が存在すると
き、該距離に対応する参照ベクトルの文字を文字候補と
して選択するようプログラムされている。参照ベクトル
との距離としてユークリッド距離、重み付きユークリッ
ド距離、シティブロック距離などが用いられるが、ここ
では一般に距離と呼ぶ。

【０００６】また、既知の文字の出現頻度は、過去のニ
ュース記事などの大量のテキスト形式の文書集合（これ
をテキストコーパスと呼ぶ）から統計情報として抽出さ
れるものであり、発明者らは各言語ごとに約２０００万
文字程度からなるテキストコーパスからこの出現頻度の
統計値を求め利用している。この発明によると、既知の
文字の出現頻度に基づいてすべての文字を複数のクラス
に分類し、該クラスごとに参照ベクトルを辞書に格納し
ておき、前記複数のクラスのうち最も文字の出現頻度の
高いクラスに属する複数の文字の参照ベクトルと入力文
字パターンから抽出された特徴ベクトルとの距離計算を
行い、基準を満たす値の距離値が得られるときは、その
文字を文字候補として選択する。発明者が求めた統計に
よると、たとえば日本語の場合、出現頻度の最上位に属
する３８２文字がテキストコーパスの約８０％を占め
る。従って、対象文書中においても約８０％の文字が、
この出現頻度最上位３８２文字に含まれていることが期
待できる。本発明はこのような統計的な文字出現頻度の
偏りを利用するものであり、まず出現頻度最上位クラス
に属する文字集合のみを候補文字集合とし、良好な認識
結果が得られた場合に残りの低頻度文字集合の認識処理
を省くことで文字認識処理の速度の向上を図る。実際に
は、候補文字集合は複数の候補文字集合に分割され、頻
度順に認識処理が行われ、良好な結果が得られた集合よ
り低頻度の集合の認識処理を省略するようにプログラム
されている。

【０００７】この発明は、さらに他の面において、前記
クラスしきい値より小さい距離が存在しないとき、２番
目に文字の出現頻度が高いクラスに属する複数の文字の
参照ベクトルに対する該特徴ベクトルの距離を算出し、
該クラスに対して定められた第２のクラスしきい値より
も小さい距離が存在するとき、該距離に対応する参照ベ
クトルの文字を文字候補として選択する。また、もう一
つの面によると、この発明のシステムは、前記参照ベク
トルのうちの１つについての距離計算においても速度を
向上させるために、全ての特徴に関する距離成分を累積
して距離値を求める過程を、ｎ個の特徴成分を累積して
累積距離値を計算するものとし、（１）該累積距離値を
文字候補選択閾値と比較し、（２）該しきい値より大き
くなければ次のｎ個の特徴成分の距離成分を累積計算
し、（１）および（２）の手順を繰り返して累積距離値
が前記文字候補選択閾値を超えると、当該参照ベクトル
は候補外であると判断して次の参照ベクトルとの比較に
移ることにより処理時間の短縮を図る。さらにこの発明
によると、累積する距離成分の順番を変えることで、前
記累積距離値に基づく距離計算過程の省略を効率よく行
う。具体的には、全文字カテゴリの全訓練パターンを用
いて、各特徴に関する距離成分の分布を求め、その平均
値の高い順に距離成分の累積を行う。このような距離成
分の並べ替えとしては、全候補文字の参照ベクトルに対
して共通の並べ替えを行う方法と、各参照ベクトルごと
に、距離成分の分布平均の大きい順に並べ替えを行う方
法などがある。

【０００８】参照ベクトルは、認識対象の全ての文字に
ついての訓練パターンから特徴ベクトルを抽出して、例
えば日本語については数百次元のベクトルとして作成さ
れる。全ての文字について各次元ごとに（つまり各特徴
ごとに）距離成分の分布を見ると、この距離成分の平均
が大きいことは、その次元の特徴は全体の距離値を大き
くするように寄与することを意味する。正解文字である
場合、距離値は小さくなることが期待されるので、この
ような次元の特徴は候補外であることを早期に判断する
のに有効な特徴であると言うことができる。したがっ
て、参照ベクトルを構成する全ての文字について次元ご
との距離成分の平均を予め訓練データから求め、この平
均値の大きい順に各参照ベクトルの特徴値を並べ替えた
ベクトルを作成する。そして入力パターンから抽出され
る特徴ベクトルも、この順に並べ替えたベクトルを作成
し、１つの参照ベクトルと特徴ベクトルとの距離計算に
おいて、距離成分の累積をこの順に行う。例えばまず、
５０次元までの距離成分を累積した累積距離値を求め、
これでしきい値に達すれば、この参照ベクトルは候補外
文字であると判定して次の参照ベクトルとの比較に移
る。こうすることにより、数百次元全てについて距離成
分を計算することなく、認識処理を進めることができる
ので、認識処理の時間を短縮することができる。

【０００９】さらにこの発明の一面によると、前記コン
ピュータは、ｍ番目（ｍは、選択される文字候補の数）
に距離値の小さい文字候補の距離値を文字候補選択しき
い値として動的に設定するようプログラムされている。
また、この発明は、他の面によると、さらに任意の文字
について類似関係にある文字を規定する類似文字辞書を
備え、前記コンピュータは、複数の前記文字候補が選択
されることに応答して、前記類似文字辞書からそれぞれ
の文字候補に類似する文字を取り出し、認識すべき前記
特徴ベクトルと前記類似する文字の参照ベクトルとの距
離を計算し、前記複数の文字候補の距離値および前記類
似する文字の距離値をソートし、距離値が小さい方から
予め定めた数の文字を認識文字候補として選択するよう
プログラムされている。これにより、省略された低頻度
文字候補クラスに正解が存在する場合にも、類似文字と
して候補に含めなおすことが可能となり、認識精度の低
下を抑えることが可能となる。

【００１０】

【発明の実施の形態】次に図面を参照して、この発明の
実施形態を説明する。図１は、この発明を利用する日本
語文字認識システムの１例の全体的構成を示す機能ブロ
ック図である。このシステムは、汎用のパーソナルコン
ピュータまたはワークステーションの上で走るプログラ
ムで実現される。一般にこのようなプログラムは、ＯＣ
Ｒ（Optical Character Recognition）プログラムと呼
ばれる。システムへの代表的な入力パターンは、文書を
光学的スキャナで走査して得られるイメージデータであ
る。入力パターンを受け取ると、ＯＣＲプログラムの文
字切り出し部11がビットマップ形式のデータから文字を
切り出す。文字の切り出し自体は、従来のＯＣＲプログ
ラムに組み込まれている機能である。文字単位に切り出
されたイメージデータが特徴抽出部１２に送られ、文字
線の傾き、幅、曲率、面積、その他の特徴(features)が
抽出される。この実施例では、日本語については一つの
文字あたり200の特徴を抽出する。したがって、入力パ
ターンは、次の式のような200次元のベクトルｘで表さ
れ、特徴ベクトル(feature vector)と呼ばれる。

【００１１】

【数１】x=(x₁,x₂,・・・,x₂₀₀) こうして得られた特徴ベクトルが特徴の並べ替え部13に
送られて、後に説明する距離成分平均順リストにしたが
って特徴の並べ替えを行って新たなベクトルを生成し、
文字候補選択部14に送られ、参照文字辞書15に格納され
ている複数の既知の文字の参照ベクトルのそれぞれに対
する重み付ユークリッド距離が計算される。ここで図２
を参照して参照文字辞書15について説明する。ある一つ
の文字に対する参照ベクトルは、その文字の様々な書体
や大きさのイメージパターンについて特徴ベクトルを抽
出し、平均をとることによって得られる。このとき、特
徴値ごとの分散を算出し、その逆数を重み係数とする重
み付きユークリッド距離計算に使用する。

【００１２】この手法自体は従来から使われている。認
識対象となるすべての文字について参照ベクトルおよび
重みベクトルを辞書23に格納する。こうして格納された
辞書２３のすべての参照ベクトルにわたって、全ての訓
練パターンを用いて各特徴成分ごとに距離成分の平均を
求め、その大きい順に特徴の次元を並べ替えた距離成分
平均順特長リスト２４を作る。辞書２３に格納されたそ
れぞれの参照ベクトル、重みベクトルの各特徴成分は、
このリストに従って距離成分平均の大きい順に並べ替え
られる。距離成分平均が大きいことは、候補文字におい
てその特徴成分における距離成分値が大きくなることが
期待されるので、後に説明する距離計算においてこの距
離成分平均の大きい順に距離計算を実行する。この目的
のため、入力パターンから抽出された特徴ベクトルは、
特徴の並べ替え部１３においてこの距離成分平均順特徴
リストに従ってその特徴成分が並べ替えられる。

【００１３】図２のテキスト・コーパスは、社会一般で
使われる文書のテキスト形式化された集合であり、たと
えばオンラインニュースなどの情報源から文書を蓄積し
たものである。この文書の集合からそれぞれの文字の出
現頻度を算出し、出現頻度に応じて文字を３つのクラス
に分類する。発明者の観測によると、中国語、日本語お
よび韓国語は、各言語約２０００万文字からなるテキス
トコーパスを利用して次の表のように分類することがで
きる。

【００１４】

【表１】すなわち、日本語について述べると、クラス１に分類さ
れる最も出現頻度の高い382の文字がテキスト・コーパ
スの80.01%を占め、これに次に出現頻度の高いクラス２
の1126文字を加えると、テキスト・コーパスの99.00%を
占める。さらにこれにクラス３に分類される出現頻度の
低い1459の文字を加えると、テキストコーパスを９９．
９６％カバーすることができる。これはＪＩＳ第２水準
まで入れると約６０００文字程度存在する日本語の文字
認識システムを構築する上で、そのうちの２９６７文字
のみを対象としても高々０．０４％の候補外文字が存在
するだけで実害が少ないことを意味する。また、対象と
する２９６７文字においてもかなりの統計的頻度の偏り
があることが分かる。これは中国語、韓国語についても
同様の観測が見られる。

【００１５】この発明は、一実施形態において、このよ
うな観測に基づいて、参照ベクトルの辞書15に含まれる
参照ベクトルを表１に従って３つのクラスに分ける。入
力パターンの特徴ベクトルとの距離計算にあたっては、
まずクラス１の参照文字のそれぞれとの距離を求め、十
分距離の小さい、すなわち近似度が十分高い参照ベクト
ルが存在するときは、クラス１の参照ベクトルに対する
距離計算で認識処理を終了し、クラス２およびクラス３
の参照ベクトルに対する距離計算は行わない。この場
合、382の参照ベクトルとの距離計算で距離計算を終了
し、クラス２の1126の参照ベクトルおよびクラス３の14
59の参照ベクトルに対する距離計算を省略するので、そ
の特徴ベクトルについて実行する距離計算の時間を大幅
に短縮することができる。入力パターンの特徴ベクトル
とクラス１の382個の参照ベクトルとの距離計算の結
果、十分小さい距離値の参照ベクトルが存在しないとき
は、クラス２の1508個の参照ベクトルとの距離計算を実
行し、十分小さい距離値の参照ベクトルがあるときに
は、クラス２の参照ベクトルに対する距離計算で計算を
終了し、クラス３の参照ベクトルに対する距離計算は、
行わない。これによって、距離計算の時間を短縮するこ
とができる。

【００１６】クラス２の文字まででテキスト・コーパス
の99%を占めるから、クラス１およびクラス２の参照ベ
クトルとの距離計算で適切な文字候補を見つけることが
できない文字は、所与のテキストに約１%存在すると期
待される。この約1%の入力パターンの特徴ベクトルにつ
いては、クラス１およびクラス２の参照ベクトルとの距
離計算を経てクラス３の参照ベクトルとの距離計算に入
る。こうしてクラス３の参照ベクトルのうち距離が小さ
いものが文字候補として選択される。このようにして文
字候補選択部14で文字候補が選択されると、プロセス
は、類似文字処理部16に移る。類似文字処理部16は、類
似文字辞書17を参照して文字認識の精度を向上させる。
類似文字辞書には、それぞれの文字について、文字認識
上混同しやすい文字のリストが用意されている。類似文
字処理部16は、文字候補選択部14から１つまたは複数の
文字候補を受け取ると、それぞれの文字候補について類
似文字辞書を参照して類似文字を読み出し、この類似文
字の参照ベクトルを参照ベクトル辞書15から読み出す。

【００１７】入力パターンから抽出された特徴ベクトル
と複数の類似文字の参照ベクトルとの距離計算を実行
し、文字候補および類似文字を含めた集合の中で最も距
離値が小さい所定数の文字を最終的な文字候補として出
力する。ここで、最終的というのは、距離計算による文
字認識段階を終了することを意味する。実際の文字認識
プログラムでは、この後、一般に後処理と呼ばれるプロ
セスが実行される。後処理は、文脈の分析、連接関係の
分析、文字相互間の出現確立などに基づいて文字候補の
優先順位を決める処理である。後処理自体は、従来から
使われている技術なので、詳細な説明は省略する。

【００１８】クラス１文字候補選択プロセス次に図３を参照して、この発明の一実施例の文字認識シ
ステムのプロセスの流れを説明する。これはクラス１の
候補文字集合から１０個の候補文字を選択するプロセス
である。スキャナによって文書を走査して得られる入力
パターンがこの発明の一実施例の文字認識プログラムに
渡されると（301）、文字切り出し部11（図１）におい
て、イメージデータから個々の文字領域が切り出され、
個々の文字領域について特徴抽出部12（図１）で前述し
たように特徴抽出が行われる（302）。こうして得られ
た特徴ベクトルは、特徴の並べ替え部13に送られ、図２
に関連して説明した距離成分平均順特徴リストにしたが
って特徴が並べ替えられる（303）。次に最初の１０個
の参照ベクトルのそれぞれについて全次元にわたる１０
個の距離値が算出され（304）、しきい値Thがこうして
得られた１０個の距離値のうち最も大きい距離値にセッ
トされる（314）。距離値は、重み付ユークリッド距離
値を用い、下に示す数２において、j=1〜200として計算
される。ついで参照ベクトル辞書15から読み出すクラス
１参照ベクトルの番号ｉを11と、変数の初期値をｋ＝
０、ｍ＝０に設定し（305）、距離計算に含める特徴ベ
クトルおよび参照ベクトルの次元ｊ＝ｍ＋５０×ｋ、と
して、ｍを１〜５０まで変化させる（306）。こうして
参照ベクトルと特徴ベクトルとの次元１から50までの距
離Ｄ_iが次の式によって計算される（307）。

【００１９】

【数２】Ｄ_i=Σｗ_j（x_j-ｒ_j）² （j=1〜50）ここで、ｗ_jは、図２の参照ベクトル辞書２３に関連し
て説明したそれぞれの参照ベクトルにおける重みベクト
ルの各成分である。x_jが入力パターンから得られる特徴
ベクトルの各成分を表し、ｒ_jが参照ベクトルの各成分
を表す。数２で得られる値の平方根をとった値が重み付
きユークリッド距離と呼ばれる距離値である。ここで
は、簡単のために平方根をとる前の値を重み付ユークリ
ッド距離の目安として使用し、距離と呼んでいる。参照
ベクトルとの距離Ｄ_iがしきい値Thを超えるときは(32
1)、この参照ベクトルはこの特徴ベクトルに対する文字
候補として不合格と判定する。そのとき、ステップ312
でクラス１の382個のすべての参照ベクトルについて距
離の比較が終わったかどうか判定し、終わっていなけれ
ばｉをインクリメントして次の参照ベクトルとの距離Ｄ
_iの計算を行う（307）。参照ベクトルとの距離Ｄ_iがし
きい値(Th)以下であると(321)、次元ｊが200に達したか
どうか点検し（308）、達していなければ、ｋをインク
リメントして（309）、jを次の5１〜100次元の距離を求
める。こうして、j=51〜100について距離を計算して、
先にj=1〜50について計算した距離に加算し、j=1〜100
についての距離Ｄ_iを算出する（307）。

【００２０】この結果、Ｄ_iがThを超えると、ステップ3
12を経てiをインクリメントし、次の参照ベクトルとの
比較に移る。Ｄ_iがTh以下であれば、ステップ309を経て
さらに、ｋをインクリメントして、距離Ｄ_i、すなわちj
=100〜150についての距離Ｄ_iを算出する（307）。この
処理を繰り返してＤ_iがTh以下の状態でj=200に達する
と、すなわちすべての次元を含めた距離Ｄ_iがしきい値
以下であると、そのときの参照ベクトルに対応する文字
をシステムの出力の候補となる文字候補としてメモリに
記憶する（310）。このメモリには、プロセスの最初に
参照された１０個の参照ベクトルの文字コードおよびそ
の距離値が記憶されている。新しい文字候補をこのメモ
リに入れるとともに先に記憶されている文字コードのう
ち最も距離値の大きい文字をメモリから削除する。こう
して、メモリには最も距離値が小さい順に10個の文字候
補が記憶されるようにする。そして、10個の文字候補の
距離値のうち、最も大きい値を新たなしきい値Thとして
設定する（311）。後続の参照ベクトルとの比較の結
果、新たな文字候補がメモリに渡されると、それまでに
メモリに記憶されていた10個の文字候補のうち最も距離
値の大きい文字候補がメモリから削除され、新たな文字
候補がメモリに追加される。そして新たな１０個の文字
候補のうちの最大の距離値がしきい値Thとしてセットさ
れる。

【００２１】このように文字候補の数が１０個に達した
後は、ブロック307で判定に使われるしきい値は動的に
変更される。ブロック312においてi=382が満足され、す
なわちクラス１の参照ベクトルすべてについての距離計
算が終了すると、メモリに記憶された10個の文字候補の
距離値のうち最も小さい距離値D_bestがクラス１の文字
候補選択用に予め設定されたクラスしきい値Th_stage1よ
りも小さいかどうか判定する（318）。Th_stage1は、こ
の実施例ではたとえば120,000に設定する。この条件を
満足する文字候補があることは、クラス１における文字
候補選択処理において十分近似度の高い文字候補が得ら
れたことを意味する。したがって、この場合、メモリに
記憶された10個の文字候補を類似文字処理部16に渡し、
この入力パターンの特徴ベクトルについての文字候補選
択処理(14)を終了する。

【００２２】クラス２文字候補選択プロセスブロック318の条件が満足されないときは、クラス２の
参照ベクトルから文字候補を選択するプロセスに入る
（320）。図４を参照してクラス２の文字候補選択プロ
セスを説明する。いま日本語の文字認識を行っているの
で、参照ベクトル辞書15には、クラス２の参照ベクトル
として1126個の既知の文字に対する参照ベクトルおよび
重みベクトルが格納されている。クラス２の文字候補選
択プロセスに入ると、iを１、ｋ＝０、ｍ＝０に初期設
定し（502）、距離計算の対象となる特徴ベクトルおよ
び参照ベクトルの次元ｊをｊ＝ｍ＋５０×ｋ、として、
ｍを1から50まで変化させ(503)、第ｉ参照ベクトルと入
力パターンから抽出された特徴ベクトルとの距離値Ｄ_i
の計算を実行する（504）。距離値Ｄ_iがしきい値Thより
大きく(515)、かつｉ＝1126に達していない時には(51
0)、iをインクリメントして（511）、次の参照ベクトル
に対する距離値の計算に移る。

【００２３】距離値Ｄ_iがしきい値Th以下であるとき
は、ｋをインクリメントして次の50次元、すなわちj=51
〜100として距離値を計算し、その値を先に求めたj=1〜
50についての距離値に加算してj=1〜100についての距離
値Ｄ_iを求める（504）。距離値Ｄ _iがThを超え、かつｉ
＝1126に達していない時には（510）、ｉをインクリメ
ントして次の参照ベクトルとの距離値計算に移る（51
1）。Ｄ_iがThを超えていないときは、ｋをインクリメン
トして、ｊを次の50次元にインクリメントし、前述した
のと同様のプロセスによりj=1〜150についての距離値Ｄ
_iを求める（504）。このプロセスを繰り返し、Ｄ_iがTh
を超えない状態でj=200に達すると（505）、この参照ベ
クトルに対応する文字コードをメモリに入れる（50
8）。メモリには先のクラス１の文字候補選択プロセス
で選ばれた文字候補が記憶されている。文字候補の数が
１０個に達していれば、距離値が最も大きい文字候補を
メモリから削除し、新たな文字候補を加えて、文字候補
の数を１０個に維持する。そして、１０個の文字候補の
距離値のうち最も大きい距離値を新たなしきい値Thとす
る（509）。

【００２４】その後は、参照ベクトルがブロック515の
テストを通り、メモリに入れられると（508）、上述し
たのと同様の文字候補の入れ替えが行われ、しきい値Th
が動的に変更される。ブロック510でi=1126が満足され
るとき、すなわちクラス２の1126個すべての参照ベクト
ルについて文字候補選択プロセスが実行されると、メモ
リに記憶された10個の文字候補の距離値のうち最小のも
のがクラス２のクラスしきい値Th_stage2より小さいかど
うか判定され（512）、小さければ文字候補選択プロセ
ス(14)を終了して、この10個の文字候補を類似文字処理
部16（図１）に渡す。Th _stage2は、この実施例ではた
とえばTh_stage1よりも大きい150,000に設定する。すな
わちクラス２のクラスしきい値は、クラス１のクラスし
きい値よりも緩いものにする。ブロック512の条件が満
足されないときは、クラス３の参照ベクトルに対する文
字候補選択プロセスに移る。

【００２５】クラス３文字候補選択プロセス図５は、クラス３の1459個の参照ベクトルに対する文字
候補選択プロセスを示す。ブロック602から610は、ブロ
ック610での判定がクラス３の参照ベクトルの数1459で
あることを除いて図４のブロック502から510と同じであ
る。したがって、これらのブロックの機能についての説
明は省略する。ブロックで610でi=1459が満足され、ク
ラス３の1459個すべての参照ベクトルについて文字候補
選択プロセスが終了すると、文字候補選択処理を終わ
り、メモリに記憶された10個の文字候補を類似文字処理
部16に渡す。このとき、メモリに蓄積された文字候補の
数が１０個に満たないときは、そのすべての文字候補を
類似文字処理部16に渡す。

【００２６】類似文字処理次に図６を参照して類似文字処理のプロセスを説明す
る。図１の類似文字処理部16は、文字候補選択部14から
10個の文字候補を受け取ると、それぞれの文字候補につ
いて類似文字辞書を参照し、類似文字を読み出す（4
1）。この類似文字の参照ベクトルおよび重みベクトル
を参照ベクトル辞書15から読み出して、入力パターンか
ら抽出された特徴ベクトルとの距離値を算出する（4
2）。読み出したすべての類似文字について重み付ユー
クリッド距離値を算出した後、10個の文字候補およびこ
れらの類似文字の距離値をソートして距離値が小さい順
に10個の文字を選ぶ（43）。

【００２７】こうして得られた10個の最終候補のうち距
離値が最小のものを認識文字として出力し、残りの9個
の文字を代替候補として出力する。ここでは、文字候補
の選択を既知の文字についての参照ベクトルとの比較だ
けに基づいて行っているが、文字候補選択の途中の段
階、あるいは文字候補の選択が完了した段階で、テキス
トの文法的解析、単語の連接関係、文字相互間の依存関
係などに基づいて文字候補の優先度を変更する、いわゆ
る後処理と呼ばれる処理を実行することが好ましい。Ｏ
ＣＲプログラムの出力としてユーザにはこうして得られ
た最高位の優先度の文字の集合としてテキストが提示さ
れる。ユーザは、テキストの文脈からＯＣＲ出力に認識
誤りを見つけることがある。この場合、ユーザがエラー
文字をクリックすると、プルダウンの形態で９個の代替
文字が表示され、ユーザがそのうちの一つをクリックす
ると、その文字がエラー文字を置き換える。以上にこの
発明を特定の実施例について説明したが、この発明は、
このような実施例に限定されるものではない。

【図面の簡単な説明】

【図１】この発明の一実施例の文字認識システムの全体
的な構成を示す機能ブロック図である。

【図２】この発明の一実施例で使用する辞書の概念を説
明するためのブロック図である。

【図３】クラス１の参照ベクトルから文字候補を選択す
るプロセスを示すフローチャートである。

【図４】クラス２の参照ベクトルから文字候補を選択す
るプロセスを示すフローチャートである。

【図５】クラス３の参照ベクトルから文字候補を選択す
るプロセスを示すフローチャートである。

【図６】類似文字処理のプロセスを示すフローチャート
である。

【符号の説明】

１０文字切り出し部１２特徴抽出部１３特徴の並べ替え部１４文字候補選択部１５参照ベクトル辞書１６類似文字処理部１７類似文字辞書

Claims

【特許請求の範囲】

【請求項１】入力パターンから得られる特徴ベクトル
と、予め格納されている既知の文字の参照ベクトルとの
距離を比較して文字認識を行う文字認識システムであっ
て、前記既知の文字の出現頻度に基づいてすべての文字を複
数のクラスに分類し、該クラスごとに前記参照ベクトル
を格納する辞書記憶装置およびコンピュータを備え、前
記コンピュータは、前記特徴ベクトルと前記複数のクラ
スのうち最も文字の出現頻度の高いクラスに属する複数
の文字の前記参照ベクトルとの距離を算出し、該クラス
に対して定められたクラスしきい値よりも小さい距離が
存在するとき、該距離に対応する参照ベクトルの文字を
文字候補として選択するようプログラムされている、文
字認識システム。
【請求項２】請求項１に記載のシステムであって、前記
コンピュータは、前記クラスしきい値より小さい距離が
存在しないとき、２番目に文字の出現頻度が高いクラス
に属する複数の文字の参照ベクトルに対する該特徴ベク
トルの距離を算出し、該クラスに対して定められた第２
のクラスしきい値よりも小さい距離が存在するとき、該
距離に対応する参照ベクトルの文字を文字候補として選
択するようプログラムされている、前記システム。
【請求項３】請求項１に記載のシステムであって、多数
の参照ベクトルの特徴の距離平均値の大きさ順を示すリ
ストを備え、前記コンピュータは、前記入力パターンか
ら得られる特徴ベクトルの特徴を前記リストに従って距
離平均値の大きい順に並べ替えた後、まずｎ番目の特徴
までについて前記参照ベクトルのうちの１つについてそ
の対応する特徴との距離を計算し、(1)該距離を文字候
補選択しきい値と比較し、(2)該しきい値より大きくな
ければ次のｎ個の特徴を含めた距離を計算し、(1)およ
び(2)の手順を繰り返して距離が前記文字候補選択しき
い値を超えると、次の参照ベクトルとの比較に移るよう
プログラムされている、前記システム。
【請求項４】請求項３に記載のシステムであって、前記
コンピュータは、全特徴に基づく距離値が前記文字候補
選択しきい値を超えないとき、比較対象となった参照ベ
クトルに対応する文字を文字候補としてメモリに記憶す
るようプログラムされている、前記システム。
【請求項５】請求項４に記載のシステムであって、前記
コンピュータは、ｍ番目に小さい距離値の文字候補の距
離値を文字候補選択しきい値として動的に設定するよう
プログラムされており、ｍは、選択される文字候補の数
である、前記システム。
【請求項６】請求項５に記載のシステムであって、前記
コンピュータは、前記最も文字の出現頻度の高いクラス
に属するすべての参照ベクトルに対する前記特徴ベクト
ルの距離の計算が完了したとき、これらの距離の１つま
たは複数が該クラスに対して定められたしきい値より小
さいとき、小さい方から前記ｍ番目までの距離の参照ベ
クトルに対応するｍ個の文字を文字候補として選択する
ようプログラムされている、前記システム。
【請求項７】請求項１に記載されるシステムであって、
さらに任意の文字について類似関係にある文字を規定す
る類似文字辞書を備え、前記コンピュータは、複数の前
記文字候補が選択されることに応答して、前記類似文字
辞書からそれぞれの文字候補に類似する文字を取り出
し、認識すべき前記特徴ベクトルと前記類似する文字の
参照ベクトルとの距離を計算し、前記複数の文字候補の
距離値および前記類似する文字の距離値をソートし、距
離値が最も小さい予め定めた数の文字を認識文字候補と
して選択するようプログラムされている、前記システ
ム。
【請求項８】請求項２に記載のシステムであって、前記
コンピュータは、前記２番目に文字の出現頻度が高いク
ラスに対するクラスしきい値より小さい距離が存在しな
いとき、３番目に文字の出現頻度が高いクラスに属する
複数の文字の参照ベクトルに対する該特徴ベクトルの距
離を算出し、該クラスに対して定められたクラスしきい
値よりも小さい距離が存在するとき、該距離に対応する
参照ベクトルの文字を文字候補として選択するようプロ
グラムされている、前記システム。
【請求項９】請求項２に記載されるシステムであって、
さらに任意の文字について類似関係にある文字を規定す
る類似文字辞書を備え、前記コンピュータは、複数の前
記文字候補が選択されることに応答して、前記類似文字
辞書からそれぞれの文字候補に類似する文字を取り出
し、認識すべき前記特徴ベクトルと前記類似する文字の
参照ベクトルとの距離を計算し、前記複数の文字候補の
距離値および前記類似する文字の距離値をソートし、距
離値が最も小さい予め定めた数の文字を認識文字候補と
して出力するようプログラムされている、前記システ
ム。
【請求項１０】入力文字のパターンから得られる特徴ベ
クトルと、予め格納されている既知の文字のパターンの
参照ベクトルとの距離を比較して文字認識を行う文字認
識システムであって、前記既知の文字の参照ベクトルの
特徴の距離平均値を実質的にすべての文字にわたって求
めて作成された距離平均値の大きい順を表す情報ととも
に前記参照ベクトルを格納する辞書記憶装置およびコン
ピュータを備え、前記コンピュータは、入力文字の前記特徴ベクトルと複
数の前記参照ベクトルのそれぞれとの距離を算出し、算
出された距離値のうち比較的小さい距離値をしきい値と
して設定し、次の参照ベクトルと前記特徴ベクトルとの
距離を予め決められた途中の次元まで計算し、その次元
における距離値が前記しきい値を超えるときは、該参照
ベクトルに対する距離計算を停止し、次の参照ベクトル
に対する距離計算に移るようプログラムされている、文
字認識システム。
【請求項１１】請求項１０に記載のシステムであって、
前記コンピュータは、前記途中の次元における距離値が
前記しきい値を超えないときは、第２の途中の次元まで
距離値を計算し、該第２の途中の次元における距離値が
前記しきい値を超えるときは、該参照ベクトルに対する
距離計算を停止し、次の参照ベクトルに対する距離計算
に移る前記システム。
【請求項１２】入力文字のパターンから得られる特徴ベ
クトルと、予め格納されている既知の文字のパターンの
参照ベクトルとの距離を比較して文字認識を行う文字認
識システムであって、前記既知の文字の出現頻度に基づいてすべての文字を複
数のクラスに分類し、この分類情報とともに前記参照ベ
クトルを格納する辞書記憶装置と、入力文字の前記特徴ベクトルと前記複数のクラスのうち
最も文字の出現頻度の高いクラスに属する複数の文字の
前記参照ベクトルとの距離を算出する距離算出手段と、前記最も文字の出現頻度の高いクラスに属する１つまた
は複数の文字について前記距離算出手段により算出され
る距離が所定のしきい値よりも小さいとき、該最も文字
出現頻度の高いクラスに属する文字の参照ベクトルとの
距離計算に基づいて文字候補を選択する選択手段と、を備える文字認識システム。
【請求項１３】既知の文字の出現頻度に基づいてすべて
の文字を複数のクラスに分類し、該クラスごとに前記参
照ベクトルを格納する辞書記憶装置を備えるコンピュー
タを使用して、入力パターンから得られる特徴ベクトル
と、予め格納されている既知の文字のパターンの参照ベ
クトルとの距離を比較して文字認識を行う文字認識方法
であって、次の（ａ）および（ｂ）のステップを含む方
法：（ａ）前記特徴ベクトルと前記複数のクラスのうち最も
文字の出現頻度の高いクラスに属する複数の文字の前記
参照ベクトルとの距離を算出する、（ｂ）該クラスに対
して定められたクラスしきい値よりも小さい距離が存在
するとき、該距離に対応する参照ベクトルの文字を文字
候補として選択する。
【請求項１４】請求項１３に記載の方法であって、次の
（ａ）および（ｂ）のステップを含む方法：（ａ）前記クラスしきい値より小さい距離が存在しない
とき、２番目に文字の出現頻度が高いクラスに属する複
数の文字の参照ベクトルに対する該特徴ベクトルの距離
を算出するステップ、（ｂ）該クラスに対して定められ
た第２のクラスしきい値よりも小さい距離が存在すると
き、該距離に対応する参照ベクトルの文字を文字候補と
して選択するステップ。
【請求項１５】請求項１３に記載の方法であって、多数
の参照ベクトルの特徴の距離平均値の大きさ順を示すリ
ストを利用し、次の（ａ）および（ｂ）のステップを含
む方法：（ａ）前記入力パターンから得られる特徴ベクトルの特
徴を前記リストに従って距離平均値の大きい順に並べ替
えた後、まずｎ番目の特徴までについて前記参照ベクト
ルのうちの１つについてその対応する特徴との距離を計
算するステップ、（ｂ）次の(ｂ−1)および(ｂ−2)の手
順を繰り返して距離が前記文字候補選択しきい値を超え
ると、次の参照ベクトルとの比較に移るステップ； (ｂ−1)該距離を文字候補選択しきい値と比較する、(ｂ
−2)該しきい値より大きくなければ次のｎ個の特徴を含
めた距離を計算する。
【請求項１６】請求項１５に記載の方法であって、すべ
ての特徴を含めた距離が前記文字候補選択しきい値を超
えないとき、比較対象となった前記参照ベクトルに対応
する文字を文字候補としてメモリに記憶する。
【請求項１７】請求項１６に記載の方法であって、ｍ番
目に距離値の小さい文字候補の距離値を文字候補選択し
きい値として動的に設定するステップを含み、ｍは出力
される文字候補の数である。
【請求項１８】請求項１７に記載の方法において：前記
最も文字の出現頻度の高いクラスに属するすべての参照
ベクトルに対する前記特徴ベクトルの距離の計算が完了
したとき、これらの距離の１つまたは複数が該クラスに
対して定められたしきい値より小さいとき、小さい方か
ら前記ｍ番目までの距離の参照ベクトルに対応するｍ個
の文字を文字候補として選択する。
【請求項１９】請求項１３に記載される方法であって、
さらに任意の文字について類似関係にある文字を規定す
る類似文字辞書を利用し、次の（ａ）から（ｄ）のステ
ップを含む：（ａ）複数の前記文字候補が選択されることに応答し
て、前記類似文字辞書からそれぞれの文字候補に類似す
る文字を取り出すステップ、（ｂ）認識すべき前記特徴
ベクトルと前記類似する文字の参照ベクトルとの距離を
計算するステップ、（ｃ）前記複数の文字候補の距離値
および前記類似する文字の距離値をソートするステッ
プ、（ｄ）距離値が最も小さい予め定めた数の文字を認
識文字候補として出力するステップ。
【請求項２０】請求項１４に記載の方法であって、次の
ステップを含む：（ａ）前記２番目に文字の出現頻度が高いクラスに対す
るクラスしきい値より小さい距離が存在しないとき、３
番目に文字の出現頻度が高いクラスに属する複数の文字
の参照ベクトルに対する該特徴ベクトルの距離を算出す
る、（ｂ）該クラスに対して定められたクラスしきい値
よりも小さい距離が存在するとき、該距離に対応する参
照ベクトルの文字を文字候補として選択する。
【請求項２１】請求項１４に記載される方法であって、
さらに任意の文字について類似関係にある文字を規定す
る類似文字辞書を利用し、次のステップを含む：（ａ）複数の前記文字候補が選択されることに応答し
て、前記類似文字辞書からそれぞれの文字候補に類似す
る文字を取り出し、認識すべき前記特徴ベクトルと前記
類似する文字の参照ベクトルとの距離を計算する、
（ｂ）前記複数の文字候補の距離値および前記類似する
文字の距離値をソートし、距離値が最も小さい予め定め
た数の文字を認識文字候補として出力する。
【請求項２２】既知の文字の出現頻度に基づいてすべて
の文字を複数のクラスに分類し、該クラスごとに前記参
照ベクトルを格納する辞書、および次のステップを実行
するコンピュータ・プログラムを格納するコンピュータ
読み取り可能な記憶媒体：（ａ）入力パターンから抽出される特徴ベクトルと前記
複数のクラスのうち最も文字の出現頻度の高いクラスに
属する複数の文字の前記参照ベクトルとの距離値を算出
するステップ；および（ｂ）前記最も文字の出現頻度
の高いクラスに対して定められたクラスしきい値よりも
小さい距離値が存在するとき、該距離値をもつ参照ベク
トルの文字を文字候補として選択するステップ。
【請求項２３】請求項２２に記載される媒体であって、
前記プログラムは、次のステップを含む：（ａ）前記クラスしきい値より小さい距離が存在しない
とき、２番目に文字の出現頻度が高いクラスに属する複
数の文字の参照ベクトルに対する該特徴ベクトルの距離
を算出するステップ；および（ｂ）該クラスに対して定
められた第２のクラスしきい値よりも小さい距離が存在
するとき、該距離に対応する参照ベクトルの文字を文字
候補として選択するステップ。
【請求項２４】請求項２２に記載される媒体であって、
多数の参照ベクトルの特徴の距離平均値の大きさ順を示
すリストを含み、前記プログラムは、次のステップを含
む：（ａ）前記入力パターンから得られる特徴ベクトルの特
徴を前記リストに従って距離平均値の大きい順に並べ替
えた後、まずｎ番目の特徴までについて前記参照ベクト
ルのうちの１つについてその対応する特徴との距離を計
算するステップ、（ｂ）次の(ｂ−1)および(ｂ−2)の手
順を繰り返して距離が前記文字候補選択しきい値を超え
ると、次の参照ベクトルとの比較に移るステップ； (ｂ−1)該距離を文字候補選択しきい値と比較する、(ｂ
−2)該しきい値より大きくなければ次のｎ個の特徴を含
めた距離を計算する。