JPH08137997A

JPH08137997A - 文字認識方法および文字認識装置

Info

Publication number: JPH08137997A
Application number: JP6275388A
Authority: JP
Inventors: Yoshiteru Uchiyama; 喜照内山; Takashi Nitta; 隆志新田
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1994-11-09
Filing date: 1994-11-09
Publication date: 1996-05-31

Abstract

(57)【要約】【目的】本発明は、学習データの特徴量の各次元の値
の分布形状を考慮した文字認識を高速にしかも高精度に
行うことを可能とする。【構成】特徴量抽出手段１０からの未知入力値Uiは、
評価値計算手段２０内の差分計算部２１に与えられる。
一方、辞書ベクトル格納手段３２からの各次元ごとの辞
書値Siは差分計算部２１に入力され、差分値( Si−Ui）
が計算され、その差分値( Si−Ui）は大小比較手段２２
に与えられる。この大小比較手段２２では、前記差分値
( Si−Ui）と標準偏差ベクトル格納手段３３からの標準
偏差値の定数倍αδｉとを大小比較する。この大小比較
の結果から、差分値の絶対値が定数倍値より大きい次元
数をカウントし、そのカウント値を基に評価値を算出す
る。そして、この評価値を文字認識手段４０が受けて、
未知入力Ｘが何の文字であるかの認識を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はスキャナなどの画像入力
装置により読み取られた文字画像から文字の切り出しを
行ったのち文字認識を行う文字認識方法および文字認識
装置に関する。

【０００２】

【従来の技術】文字画像から文字の切り出しを行ったの
ち、切り出された文字（これを未知入力という）を辞書
と比較して文字認識を行う場合、一般的には、未知入
力、辞書ともに、それぞれ特徴量としての多次元ベクト
ルで表し、両者の多次元ベクトルを比較することにより
文字認識を行っている。

【０００３】たとえば、未知入力として「あ」という文
字画像が切り出されて、これを文字認識する場合、この
「あ」の多次元ベクトルを、U1,U2,・・・,UN とし、ま
た、「あ」に対する辞書の多次元ベクトルを、S1,S2,・
・・,SN とすると、これらの多次元ベクトルを構成する
各次元の値（この例では、たとえばU1あるいはS1を指
す）を比較して文字認識する。なお、ここで辞書とは、
一つ一つのカテゴリ（このカテゴリについては後述す
る）に対して、その文字を認識するために必要な様々な
サンプルパターン（これを学習データという）の多次元
ベクトルを構成する各次元の値を各次元ごとに平均をと
ったものである。つまり、文字として「あ」を例にとる
と、この「あ」という文字を認識するために必要な学習
データがＭ個あるとすると、その学習データのベクトル
は、(1) S11,S12,・・・,S1N、(2) S21,S22,・・・,S2
N、(3) S31,S32,・・・,S3N、・・・,(M) SM1,SM2, ・
・・,SMNというようなＭ個の多次元ベクトルを持ってい
る。そして、これらのＭ個の多次元ベクトルの各次元ご
との値を各次元毎に平均して求めたものが、「あ」の辞
書ベクトルであり、これをS1,S2,・・・,SN で表す。

【０００４】なお、前記カテゴリとは、たとえば、アル
ファベットの小文字の「オー」を例に取ると、この文字
は「ｏ」もあればまた「ο」もある。このように、ある
文字を表すための文字の種類をここではカテゴリとい
い、１文字で２つのカテゴリ、１文字で３つのカテゴリ
というように一つの文字で複数のカテゴリを持つ場合も
ある。したがって、実際には、学習データは各カテゴリ
に対応して設けられており、辞書も各カテゴリに対応し
て求められる。

【０００５】そして、上記未知入力のベクトル（これを
未知入力ベクトルという）の各次元ごとの未知入力値と
辞書ベクトルの各次元ごとの辞書値との距離を計算し
て、この距離値をもとに未知入力画像が何の文字である
かを認識する。

【０００６】具体的には、図１４に示すように、たとえ
ば「あ」という文字は、その学習ベクトル（図中、小さ
な黒丸で示す）がほぼ円を描くように分布し、その中心
に辞書ベクトルＳ（図中、大きな黒丸で示す）が有るも
のとし、また、「い」という文字は、その学習ベクトル
（図中、小さな白丸で示す）がほぼ円を描くように分布
し、その中心に辞書ベクトルＳ（図中、大きな白丸で示
す）が有るものとする。今、ここで、未知入力ベクトル
Ｕが図示のような位置であるとすると、この未知入力ベ
クトルＵと「あ」または「い」の辞書ベクトルＳとの間
の距離を計算し、その距離が短い方にその未知入力が属
するものと判断する。したがって、この場合は、未知入
力画像は「あ」の文字であるとの認識を行う。なお、上
記未知入力ベクトルＵと各辞書ベクトルＳとの間の距離
は、次式により計算される。

【０００７】

【数１】

【０００８】ただし、上記（１）式において、Ｄ：未知入力ベクトルＵと各辞書ベクトルＳとの間の距
離 Si：辞書ベクトルＳの各次元の値 Ui :未知入力ベクトルＵの各次元の値Ｎ：ベクトルの全次元数であり、この（１）式はユークリッド距離計算式と呼ば
れている。

【０００９】

【発明が解決しようとする課題】しかしながら、学習ベ
クトルの分布は、平面的な分布状態を考えた場合、図１
４のような真円形を描くような分布とならない場合もあ
る。

【００１０】たとえば、図１５のように、ある文字にお
いては、学習ベクトル（図中、小さな黒丸で示す）が横
方向に長い楕円形状に分布したり、あるいは他の文字に
おいては、学習ベクトル（図中、小さな黒丸で示す）が
縦方向に長い楕円形状に分布したりする場合もある。

【００１１】このような分布状態において、未知入力ベ
クトルＵがたとえば図示の位置であった場合は、未知入
力は、本来、黒丸で示す辞書の文字として認識されなけ
ればならないにも係わらず、前記（１）式による距離計
算では、白丸で示す辞書の文字であると認識されること
になる。

【００１２】このように、学習ベクトルが真円形（また
は球形）を描く分布状態とならない場合に対処するた
め、各文字のカテゴリごとに学習ベクトルの各次元ごと
における標準偏差値( この標準偏差値の集合を標準偏差
ベクトルδといい、これを、δ1 , δ2,・・・, δN で
表す）を求め、この標準偏差ベクトルを距離計算時の重
み付け値として用いた距離計算式がある。これを以下に
示す。

【００１３】

【数２】

【００１４】ただし、上記（２）式において、Ｄ：未知入力ベクトルＵと各辞書ベクトルＳとの間の距
離 Si：辞書ベクトルＳの各次元の値 Ui :未知入力ベクトルＵの各次元の値Ｎ：ベクトルの全次元数ｗii：重み付け値 δｉ：標準偏差ベクトルδの各次元の値である。

【００１５】また、重み付け値ｗiiは、

【００１６】

【数３】

【００１７】で求められる。

【００１８】ところで上記標準偏差値は同一カテゴリ内
の分散を表し、この値からその学習データは各次元ごと
にどの方向への広がりを持っているかを判断することが
できる。

【００１９】上記した（２）式は、空間分布の広がりを
考慮した重み付け値ｗiiを用いて、この重み付け値ｗii
を（１）式の（Si−ui）に掛けることにより、分布形状
を考慮した距離計算を行うものであり、この計算式によ
れば、未知入力ベクトルＵがたとえば図１５の位置であ
った場合でも、この未知入力ベクトルＵは、黒丸側の分
布空間内に属する文字として認識されるような距離計算
値が得られ、誤認識を防止することができる。

【００２０】しかし、上記した（２）式は、（１）式に
比べると重み付け値ｗiiを掛けるための掛け算を含むた
め（１）式に比べて２倍近くの演算時間を要し、これに
より、文字認識処理装置全体の処理時間に大きな影響を
与えるという問題があった。

【００２１】そこで本発明は、学習ベクトルの分布形状
を考慮した文字認識を高速にかつ正確に行える文字認識
方法および文字認識装置を提供することを目的とする。

【００２２】

【課題を解決するための手段】本発明の文字認識方法
は、入力画像から文字画像の切り出しを行ったのち、こ
の切り出された文字の特徴量として未知入力ベクトルを
出力し、この未知入力ベクトルの各次元ごとの未知入力
値と各文字のカテゴリ対応に設けられたそれぞれの辞書
ベクトルの各次元ごとの辞書値との差分をとって求めた
各次元ごとの差分値の絶対値と、各文字の全カテゴリ対
応に設けられたそれぞれの標準偏差ベクトルの各次元ご
との標準偏差値を定数倍して求めた各次元ごとの定数倍
値とを、前記各次元ごとに、すべての次元に渡って大小
を比較し、その結果を評価値として求め、この評価値に
基づいて未知入力の文字認識を行うようにしている。

【００２３】この文字認識方法において、前記未知入力
ベクトルの全次元数のうち所定の次元数をランダムに抽
出して構成した未知入力部分ベクトルを出力し、この未
知入力部分ベクトルの各次元ごとの未知入力値と、この
未知入力値に対応した次元の辞書値との差分をとって求
めた各次元ごとの差分値と、前記未知入力値に対応した
次元ごとの標準偏差値の定数倍値とを、前記それぞれ対
応する次元ごとに大小を比較し、その結果を評価値とし
て求めるようにしてもよい。

【００２４】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００２５】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００２６】また、本発明の文字認識方法は、入力画像
から文字画像の切り出しを行ったのち、この切り出され
た文字の特徴量として未知入力ベクトルを出力し、この
未知入力ベクトルの各次元ごとの未知入力値と各文字の
全カテゴリ対応に設けられたそれぞれの辞書ベクトルの
各次元ごとの辞書値との差分をとって求めた各次元ごと
の差分値の絶対値と、各文字の全カテゴリ対応に設けら
れたそれぞれの標準偏差ベクトルの各次元ごとの標準偏
差値を定数倍して求めた各次元ごとの定数倍値とを、前
記各次元ごとに、すべての次元に渡って大小を比較し、
その結果を評価値として求める。そして、全カテゴリの
評価値に基づいて、認識、再切り出し、棄却のいずれか
を判断し、認識の場合は未知入力の文字認識を行い、再
切り出しの場合は再度文字の切り出しを行い、棄却の場
合は認識対象外として棄却するようにしている。

【００２７】この文字認識方法において、前記未知入力
ベクトルの全次元数のうち所定の次元数をランダムに抽
出して構成した未知入力部分ベクトルを出力し、この未
知入力部分ベクトルの各次元ごとの未知入力値と、この
未知入力値に対応した次元ごとの辞書値との差分をとっ
て求めた各次元ごとの差分値と、前記未知入力値に対応
した次元ごとの標準偏差値の定数倍値とを、前記それぞ
れ対応する次元ごとに大小を比較し、その結果を評価値
として求めるようにしてもよい。

【００２８】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００２９】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００３０】また、本発明の文字認識方法は、入力画像
から文字画像の切り出しを行ったのち、この切り出され
た文字の特徴量として未知入力ベクトルを出力し、この
未知入力ベクトルの各次元ごとの未知入力値と各文字の
全カテゴリ対応に設けられたそれぞれの辞書ベクトルの
各次元ごとの辞書値との差分をとって求めた各次元ごと
の差分値の絶対値と、各文字の全カテゴリ対応に設けら
れたそれぞれの標準偏差ベクトルの各次元ごとの標準偏
差値を定数倍して求めた各次元ごとの定数倍値とを、前
記各次元ごとに、すべての次元に渡って大小を比較し、
その結果を評価値として求めるとともに、前記未知入力
ベクトルの各次元ごとの未知入力値と前記辞書ベクトル
の各次元ごとの辞書値との間の空間上の距離を計算す
る。そして、前記求められた評価値と距離値とから総合
評価を行い総合評価値を出力して、この総合評価値によ
り未知入力の文字認識を行うようにしている。

【００３１】この文字認識方法において、前記未知入力
ベクトルの全次元数のうち所定の次元数をランダムに抽
出して構成した未知入力部分ベクトルを出力し、この未
知入力部分ベクトルの各次元ごとの未知入力値と、この
未知入力値に対応した次元ごとの辞書値との差分をとっ
て求めた各次元ごとの差分値と、前記未知入力値に対応
した次元ごとの標準偏差値の定数倍値とを、前記それぞ
れ対応する次元ごとに大小を比較し、その結果を評価値
として求めるようにしてもよい。

【００３２】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００３３】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００３４】また、本発明の文字認識方法は、入力画像
から文字画像の切り出しを行ったのち、この切り出され
た文字の特徴量として未知入力ベクトルを出力し、前記
未知入力ベクトルの各次元ごとの未知入力値と各文字の
全カテゴリ対応に設けられたそれぞれの辞書ベクトルの
各次元ごとの辞書値との間の空間上の距離を計算し、こ
れによって求められた距離値から全カテゴリのうち所定
数の上位認識候補を選び出したのち、この選びだされた
所定数の上位認識候補に対応する辞書ベクトルのみの各
次元ごとの辞書値との差分をとって求めた各次元ごとの
差分値の絶対値と、選びだされた所定数の上位認識候補
に対応する標準偏差ベクトルのみの各次元ごとの標準偏
差値を定数倍して求めた各次元ごとの定数倍値とを、前
記各次元ごとに大小を比較し、その結果を評価値として
求める。そして、この評価値と、未知入力と前記選び出
された所定数の上位認識候補との間の距離値とから総合
評価を行い総合評価値を出力して、この総合評価値によ
り未知入力の文字認識を行うようにしている。

【００３５】この文字認識方法において、前記未知入力
ベクトルの全次元数のうち所定の次元数をランダムに抽
出して構成される未知入力部分ベクトルを出力し、この
未知入力部分ベクトルの各次元ごとの未知入力値と、こ
の未知入力値に対応した次元ごとの辞書値との差分をと
って求めた各次元ごとの差分値と、前記未知入力値に対
応した次元ごとの標準偏差値の定数倍値とを、前記それ
ぞれ対応する次元ごとに大小を比較し、その結果を評価
値として求めるようにしてもよい。

【００３６】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００３７】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００３８】また、本発明の文字認識装置は、入力画像
から文字の切り出しを行う文字切り出し手段と、この文
字切り出し手段により切り出された文字の特徴量として
未知入力ベクトルを出力する特徴量抽出手段と、各文字
の全カテゴリ対応の辞書ベクトルを格納した辞書ベクト
ル格納手段、各文字の全カテゴリ対応の標準偏差ベクト
ルを格納した標準偏差ベクトル格納手段、これら辞書ベ
クトル格納手段および標準偏差ベクトル格納手段に対し
て各カテゴリに対応した辞書ベクトルおよび標準偏差ベ
クトルを読み出すための読出指定信号を出力する候補文
字指定手段を有する認識候補データ出力手段と、前記特
徴量抽出手段からの未知入力ベクトルの各次元ごとの未
知入力値と前記辞書ベクトルの各次元ごとの辞書値との
差分をとる差分値計算手段、この差分値と前記標準偏差
ベクトルの各次元ごとの標準偏差値を定数倍して求めた
各次元ごとの定数倍値とを各次元ごとにすべての次元に
渡って大小を比較する大小比較手段、この大小比較手段
からの比較結果をもとに評価値として出力する評価値出
力手段を有する評価値計算手段と、この評価値計算手段
で求められた評価値に基づいて未知入力の文字認識を行
う文字認識手段とを備えている。

【００３９】この文字認識装置において、前記特徴量抽
出手段からの未知入力ベクトルの全次元数のうち所定の
次元数をランダムに抽出して構成される未知入力部分ベ
クトルを出力する次元抽出手段を設け、この次元抽出手
段から出力される未知入力部分ベクトルの各次元ごとの
未知入力値と、この未知入力値に対応した次元ごとの辞
書値との差分をとって求めた各次元ごとの差分値と、前
記未知入力値に対応した次元ごとの標準偏差値の定数倍
値とを、前記それぞれ対応する次元ごとに大小を比較
し、その結果を評価値として求めるようにしてもよい。

【００４０】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００４１】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００４２】また、本発明の文字認識装置は、入力画像
から文字の切り出しを行う文字切り出し手段と、この文
字切り出し手段により切り出された文字の特徴量として
未知入力ベクトルを出力する特徴量抽出手段と、各文字
の全カテゴリ対応の辞書ベクトルを格納した辞書ベクト
ル格納手段、各文字の全カテゴリ対応の標準偏差ベクト
ルを格納した標準偏差ベクトル格納手段、これら辞書ベ
クトル格納手段および標準偏差ベクトル格納手段に対し
て各カテゴリに対応した辞書ベクトルおよび標準偏差ベ
クトルを読み出すための読出指定信号を出力する候補文
字指定手段を有する認識候補データ出力手段と、前記特
徴量抽出手段からの未知入力ベクトルの各次元ごとの未
知入力値と前記辞書ベクトルの各次元ごとの辞書値との
差分をとる差分値計算手段、この差分値と前記標準偏差
ベクトルの各次元ごとの標準偏差値を定数倍して求めた
各次元ごとの定数倍値とを各次元ごとにすべての次元に
渡って大小を比較する大小比較手段、この大小比較手段
からの比較結果をもとに評価値として出力する評価値出
力手段を有する評価値計算手段と、この評価値計算手段
で求められた全カテゴリの評価値に基づいて、文字とし
て認識、再切り出し、認識対象外として棄却のいずれか
の判断を行う棄却判断処理手段と、この棄却判断処理手
段からの文字認識要求により未知入力の文字認識を行う
文字認識手段とを備えている。

【００４３】この文字認識装置において、前記特徴量抽
出手段からの未知入力ベクトルの全次元数のうち所定の
次元数をランダムに抽出して構成される未知入力部分ベ
クトルを出力する次元抽出手段を設け、この次元抽出手
段から出力される未知入力部分ベクトルを構成する各次
元ごとの未知入力値と、この未知入力値に対応した次元
ごとの辞書値との差分をとって求めた各次元ごとの差分
値と、前記未知入力値に対応した次元ごとの標準偏差値
の定数倍値とを、前記それぞれ対応する次元ごとに大小
を比較し、その結果を評価値として求めるようにしても
よい。

【００４４】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００４５】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００４６】また、本発明の文字認識装置は、入力画像
から文字の切り出しを行う文字切り出し手段と、この文
字切り出し手段により切り出された文字の特徴量として
未知入力ベクトルを出力する特徴量抽出手段と、各文字
の全カテゴリ対応の辞書ベクトルを格納した辞書ベクト
ル格納手段、各文字の全カテゴリ対応の標準偏差ベクト
ルを格納した標準偏差ベクトル格納手段、これら辞書ベ
クトル格納手段および標準偏差ベクトル格納手段に対し
て各カテゴリに対応した辞書ベクトルおよび標準偏差ベ
クトルを読み出すための読出指定信号を出力する候補文
字指定手段を有する認識候補データ出力手段と、前記特
徴量抽出手段からの未知入力ベクトルの各次元ごとの未
知入力値と前記辞書ベクトルの各次元ごとの辞書値との
差分をとる差分値計算手段、この差分値と前記標準偏差
ベクトルの各次元ごとの標準偏差値を定数倍して求めた
各次元ごとの定数倍値とを各次元ごとにすべての次元に
渡って大小を比較する大小比較手段、この大小比較手段
からの比較結果をもとに評価値として出力する評価値出
力手段を有する評価値計算手段と、前記特徴量抽出手段
からの未知入力ベクトルの各次元ごとの未知入力値と前
記辞書ベクトルの各次元ごとの辞書値との間の空間上の
距離を計算する距離計算手段と、この距離計算手段によ
って求められた距離値と前記評価値計算手段によって求
められた評価値とから総合評価を行い総合評価値を出力
する総合評価手段と、この総合評価手段からの総合評価
値により未知入力の文字認識を行う文字認識手段とを備
えている。

【００４７】この文字認識装置において、前記特徴量抽
出手段からの未知入力ベクトルの全次元数のうち所定の
次元数をランダムに抽出して構成される未知入力部分ベ
クトルを出力する次元抽出手段を設け、この次元抽出手
段から出力される未知入力部分ベクトルを構成する各次
元ごとの未知入力値と、この未知入力値に対応した次元
ごとの辞書値との差分をとって求めた各次元ごとの差分
値と、前記未知入力値に対応した次元ごとの標準偏差値
の定数倍値とを、前記それぞれ対応する次元ごとに大小
を比較し、その結果を評価値として求めるようにしても
よい。

【００４８】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００４９】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００５０】また、本発明の文字認識装置は、入力画像
から文字の切り出しを行う文字切り出し手段と、この文
字切り出し手段により切り出された文字の特徴量として
未知入力ベクトルを出力する特徴量抽出手段と、各文字
の全カテゴリ対応の辞書ベクトルを格納した辞書ベクト
ル格納手段、各文字の全カテゴリ対応の標準偏差ベクト
ルを格納した標準偏差ベクトル格納手段、これら辞書ベ
クトル格納手段および標準偏差ベクトル格納手段に対し
て各カテゴリに対応した辞書ベクトルおよび標準偏差ベ
クトルを読み出すための読出指定信号を出力する候補文
字指定手段を有する認識候補データ出力手段と、前記特
徴量抽出手段からの未知入力ベクトルの各次元ごとの未
知入力値と前記辞書ベクトルの各次元ごとの辞書値との
差分をとる差分値計算手段、この差分値と前記標準偏差
ベクトルの各次元ごとの標準偏差値を定数倍して求めた
各次元ごとの定数倍値とを各次元ごとにすべての次元に
渡って大小を比較する大小比較手段、この大小比較手段
からの比較結果をもとに評価値として出力する評価値出
力手段を有する評価値計算手段と、前記特徴量抽出手段
からの未知入力ベクトルの各次元ごとの未知入力値と前
記辞書ベクトルの各次元ごとの辞書値との間の空間上の
距離を計算する距離計算手段と、この距離計算手段によ
って求められた距離値から全カテゴリのうち所定数の上
位認識候補を選び出し、前記距離計算手段にて計算され
た所定数の上位認識候補との間の距離値を出力するとと
もに、前記認識候補データ出力手段に対して上位認識候
補指定信号を出力する評価値計算制御手段と、この評価
値計算制御手段から出力される所定数の上位認識候補と
の間の距離値と前記評価値計算手段によって求められた
評価値とから総合評価を行い総合評価値を出力する総合
評価手段と、この総合評価手段からの総合評価値により
未知入力の文字認識を行う文字認識手段とを備えてい
る。そして、前記認識候補データ出力手段は、前記評価
値計算制御手段からの上位認識候補指定信号を受けてそ
れに対応する辞書ベクトルおよび標準偏差ベクトルを前
記評価値計算手段に出力し、評価値計算手段は前記所定
数の上位認識候補と未知入力との間の評価値を計算する
ようにしている。

【００５１】この文字認識装置において、前記特徴量抽
出手段からの未知入力ベクトルの全次元数のうち所定の
次元数をランダムに抽出して構成された未知入力部分ベ
クトルを出力する次元抽出手段を設け、この次元抽出手
段から出力される未知入力部分ベクトルを構成する各次
元ごとの未知入力値と、この未知入力値に対応した次元
ごとの辞書値との差分をとって求めた各次元ごとの差分
値と、前記未知入力値に対応した次元ごとの標準偏差値
の定数倍値とを、前記それぞれ対応する次元ごとに大小
を比較し、その結果を評価値として求めるようにしても
よい。

【００５２】また、前記標準偏差値を定数倍するための
定数を複数用意して複数の定数倍値を設定し、この複数
の定数倍値と前記差分値とを大小比較するようにしても
よい。

【００５３】そして、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得る。

【００５４】

【作用】このように本発明は、切り出された文字の特徴
量としての未知入力ベクトルの各次元ごとの未知入力値
と各文字の全カテゴリ対応に求められたそれぞれの辞書
ベクトルの各次元ごとの辞書値との差分をとって得られ
た各次元ごとの差分値の絶対値と、各文字の全カテゴリ
対応に求められたそれぞれの標準偏差ベクトルの各次元
ごとの標準偏差値を定数倍して求めた各次元ごとの定数
倍値とを、前記各次元ごとに、すべての次元に渡って大
小を比較し、その結果をもとにして評価値を求め、この
評価値に基づいて未知入力の文字認識を行うようにして
いる。

【００５５】前記評価値は、前記差分値の絶対値と定数
倍値との各次元ごとの大小比較の結果、差分値の絶対値
が定数倍値より大きい次元数をカウントし、そのカウン
ト値を基に得る。そして、この評価値を文字認識の指標
として用いる。この評価値を求めるに必要な演算は、差
分値を取る演算と比較演算が主であるので、計算量が少
なく高速な処理が可能となり、これによって得られた評
価値を用いることにより、空間分布の広がりをも考慮し
た高精度な認識が可能となる。

【００５６】また、切り出された未知入力を文字として
認識するか、再切り出しを要するか、認識対象外として
棄却するかのいずれかの判断を行う棄却判断処理を行う
際、この評価値を用いて行う。この評価値は定量的な値
であるので、相対的な距離比較によって棄却判断処理を
行う場合に比べ、より正確な棄却判断処理が可能とな
る。

【００５７】さらに、前記評価値と距離値（この場合の
距離値は空間分布を考慮しない距離計算式によって得ら
れる値）との両方を用いて、これらの値から総合的な評
価値を得て、これにより文字認識を行うことにより、ノ
イズ等にも影響されにくく、しかも高速な認識が可能と
なる。

【００５８】また、前記距離値を併用する際、まず、未
知入力値と辞書値との距離を計算し、その計算結果から
類似度の上位から所定数までを認識候補辞書値として選
び出し、その上位から所定数までの認識候補辞書値と未
知入力値との間で評価値を求めるようすることにより、
ノイズ等に影響されにくいという効果の他、処理を大幅
に高速化することができる。

【００５９】

【実施例】以下、本発明の実施例を図面を参照して説明
する。

【００６０】（実施例１）図１は本発明の実施例による
文字認識装置の構成図である。この文字認識装置は、概
略的には、文字切り出し手段１、特徴量抽出手段１０、
評価値計算手段２０、認識候補データ出力手段３０、文
字認識手段４０から構成されている。

【００６１】前記評価値計算手段２０は差分計算手段２
１、大小比較手段２２、評価値出力手段２３から構成さ
れている。また、前記認識候補データ出力手段３０は、
候補文字指定手段３１、辞書ベクトル値格納手段３２、
標準偏差ベクトル値格納手段３３から構成されている。
これら評価値計算手段２０および認識候補データ出力手
段３０のそれぞれの構成要素における機能などについて
は後述する。

【００６２】このような構成において、前記文字切り出
し手段１によって切り出された文字（これを未知入力Ｘ
という）の矩形画像は、特徴量抽出手段１０に送られ、
特徴量ベクトル（前記した未知入力ベクトルU1,U2,・・
・,UN ）として出力されたのち、各次元ごとの未知入力
値Uiが順次、評価値計算手段２０内の差分計算部２１に
与えられる。

【００６３】一方、認識候補データ出力手段３０におけ
る辞書ベクトル格納手段３２には、全てのカテゴリに対
応した辞書ベクトルがそれぞれ所定のアドレスに格納さ
れている。また、標準偏差ベクトル格納手段３３には、
全てのカテゴリに対応した標準偏差ベクトルがそれぞれ
所定のアドレスに格納されている。

【００６４】そして、候補文字指定手段３１により、ア
ドレスを指定するコード信号が出されると、指定された
アドレスから辞書ベクトルの各次元ごとの辞書値および
標準偏差ベクトルの各次元ごとの標準偏差値がそれぞれ
対応する次元ごとに順次出力される。すなわち、前記候
補文字指定手段３１からは全てのカテゴリに対応してそ
のカテゴリの辞書ベクトルおよび標準偏差ベクトルを指
定するコードが順次出力され、これにより指定された辞
書ベクトルおよび標準偏差ベクトルのそれぞれの値が各
次元（同じ次元）ごとに順次出力される。たとえば、あ
るカテゴリの辞書ベクトルとしてS1,S2,・・・,SN が指
定され、また標準偏差ベクトルとしてδ1 , δ2,・・
・, δN が指定されたとすると、辞書ベクトル格納手段
３２からは辞書値S1が、標準偏差ベクトル格納手段３３
からは標準偏差値δ1 が出力される．つまり、ある次元
をｉとすれば、辞書ベクトル格納手段３２からは辞書値
Siが、標準偏差ベクトル格納手段３３からは標準偏差値
δｉが出力される。ただし、この場合、標準偏差ベクト
ル格納手段３３からは、標準偏差値δｉに定数αを掛け
た値αδｉが出力される。なお、この定数αについての
説明は後述する。

【００６５】そして、辞書ベクトル格納手段３２からの
各次元ごとの辞書値Siは差分計算手段２１に入力され、
前記特徴量抽出手段１０からの未知入力ベクトルU1,U2,
・・・,UN の各次元ごとの未知入力値Uiとの間で差分値
( Si−Ui）が計算され、その差分値( Si−Ui）は大小比
較手段２２に与えられる。この大小比較手段２２では、
前記差分値( Si−Ui）と前記標準偏差ベクトル格納手段
３３からの標準偏差値δ1 , δ2,・・・, δN のうちの
対応する次元の標準偏差値の定数倍（定数をαとし、α
δｉ）とを大小比較する。なお、ここで、ｉは１からＮ
までの値（正の整数）を取るものとする。したがって、
１からＮの各次元にわたって辞書値と未知入力値の差分
値と、標準偏差値の定数倍との大小比較、つまり、｜Si
−Ui｜≧αδｉの判断が行われる。この大小比較の結果
は、評価値出力手段２３に与えられ、その大小比較の結
果に基づいて評価値を算出する。なお、この評価値につ
いては後で説明する。

【００６６】そして、この評価値を文字認識手段４０が
受けて、前記未知入力Ｘが何の文字であるかの認識を行
い、その文字に対応する文字コードを出力する。なお、
以上の処理動作において、評価値計算手段２０における
評価値算出処理については、以下で詳細に説明する。

【００６７】次に前記した評価値算出処理について説明
する。

【００６８】まず、前述したように、ある文字を認識す
るために必要な学習データがＭ個あるとすると、その学
習データは、(1) S11,S12,・・・,S1N、(2) S21,S22,・
・・,S2N、(3) S31,S32,・・・,S3N、・・・,(M) SM1,S
M2, ・・・,SMNというような、Ｍ個の多次元ベクトルを
持っている。そして、これらのＭ個の多次元ベクトルを
各次元毎に平均値を求めたものが、辞書ベクトルS1,S2,
・・・,SN である。

【００６９】そして、カテゴリごとに前記学習データの
各次元ごとに分散を求め、その分散から各次元ごとの標
準偏差値を求める。この標準偏差値から空間がどの方向
への広がりを持っているかをおおよそ判断することがで
きる。この各次元ごとの標準偏差値の集合が標準偏差ベ
クトルδ1,δ2,・・・, δN である。

【００７０】ここで、学習データにより平均値と標準偏
差値があらかじめ分かっているとき、未知入力値は統計
的に図２で示す正規分布曲線にしたがって現れる。

【００７１】この正規分布曲線から分かるように、当然
のことながら、未知入力値は分布の中心付近にたくさん
出現し、中心から遠ざかるに連れて出現数は減少する。

【００７２】このような正規分布曲線はあらかじめ知る
ことができる。この図２に示す正規分布曲線において、
横軸は、辞書値Siと未知入力値Uiとの差分値( Si−Ui）
を標準偏差値δｉで正規化した値であり、( Si−Ui）が
標準偏差値δｉに対してどの程度（何倍）の値を持つか
という数値である。換言すれば、たとえば、「１」とい
うのは「１δi 」、「２」というのは「２δi 」、「−
１」というのは「−１δi 」、「−２」というのは「−
２δi 」という意味をもつ。また、縦軸は生起確率
（％）を表している。この生起確率は、未知入力値と辞
書値の差分値が図２の横軸上の或る位置に出現する確率
を示している。たとえば、１δi ，２δi に対応する確
率は、図２の正規分布曲線からそれぞれ約３０％，５％
と求められる。すなわち、辞書値Siと未知入力値Uiの差
分値( Si−Ui）が、たとえば、１δiとなる確率は約３
０％であり、２δi となる確率は約５％であるというこ
とになる。

【００７３】さらに、差分値( Si−Ui）が、２δi より
大きくなる確率は、図２の中の斜線を施した部分の面積
と、図２の横軸と曲線全体で囲まれる面積との比率によ
り求めることができる。ここでの差分値( Si−Ui）が、
２δi より大きくなる確率は6.6%となる。

【００７４】以上のことをふまえて、このような正規分
布曲線において、辞書値Siと未知入力値Uiとの差分値(
Si−Ui）の絶対値が、標準偏差値δｉの定数倍（前記し
たように、αδｉ）より大きくなる確率ｐを求める。こ
こで、αを2.5 とすれば、 2.5δi の確率ｐ、つまり、
差分値｜Si−Ui｜≧ 2.5δi の位置における未知入力値
の出現確率ｐは、前記した面積の比率から、ｐは約1.2%
となる。換言すれば、差分値( Si−Ui）が 2.5δi を越
える位置においては、未知入力値Uiは約1.2%の確率でし
か出現しないということである。

【００７５】そして、１からＮまでの各次元において、
前記差分値｜Si−Ui｜≧ 2.5δi を判断して、これを満
たす次元が１からＮまでのＮ次元のうち幾つあるかをカ
ウントして、そのカウント数ｎを評価値（以下これを評
価値ｎという）とする。このときの評価値ｎの生起確率
ｑは二項分布に従って計算できる。

【００７６】

【数３】

【００７７】たとえば今、Ｎを６４とし、αを2.5 とし
たとき、ｎ＝０となる確率は約４５％、ｎ＝１となる確
率は３５％、ｎ＝２となる確率は１５％、ｎ＝３となる
確率は約５％であり、さらにｎ＝４となる確率は殆ど０
％となる。このときの二項分布曲線を図３に示す。とこ
ろで、｜Si−Ui｜≧ 2.5δi を満たす出現確率ｐは約1.
2%であることから、次元数Ｎが６４である場合でも、そ
の出現数の期待値は、64×0.012 ＝0.77となり、せいぜ
い１個以下である。したがって、ｎが４個以上もある場
合は、その未知入力Ｘはその認識対象として読み出され
た辞書の文字である確率は殆ど０％であることを示し、
また、ｎが２個の場合も、その未知入力Ｘはその認識対
象として読み出された辞書の文字である確率は高々１５
％程度であることを示している。

【００７８】具体的には、次元数Ｎが６４の場合、今、
ｉ＝２，ｉ＝１０，ｉ＝４１、ｉ＝６４のときに、差分
値｜Si−Ui｜≧ 2.5δi であったとすると、そのカウン
ト数ｎは「４」である。このカウント数ｎ＝４が評価値
であるので、この評価値に基づいて、未知入力Ｘがその
ときの認識候補文字として出力された文字であるか否か
の判断を行う。この場合は、前記したように、ｎが４個
もある場合は、確率は殆ど０％であるため、その未知入
力Ｘはその認識対象として読み出された辞書の文字でな
いとの評価を行う。

【００７９】このように、本発明では前記評価値を文字
認識の指標として用いている。したがって、この評価値
が幾つまでであれば、未知入力Ｘが認識対象となる辞書
の文字であるかという判断を行うことができる。

【００８０】ところで、この評価値算出を行うに際して
の計算量としては、まず、δｉにαを掛ける掛け算と、
差分値( Si−Ui）を求める引き算と、大小の比較演算が
有るが、δｉにαを掛ける掛け算は、αはあらかじめ設
定された値（この実施例ではα＝2.5 としている）であ
るため、α×δｉの計算はその都度行う必要はなくあら
かじめ計算しておくことができる。したがって、この実
施例での評価値算出は、引き算と比較演算だけで済むた
め、前記（２）式のように、その都度、２乗計算や掛け
算を行う計算に比べて処理を高速化できる。これによ
り、横方向あるいは縦方向など空間分布の特定方向への
広がりをも考慮した文字認識を高速に行うことが可能と
なる。

【００８１】なお、この実施例１では未知入力ベクトル
U1,U2,・・・,UN の１からＮの全ての次元について、前
記差分値｜Si−Ui｜≧2.5 δi を判断して、これを満た
す次元が１からＮまでのＮ次元のうち幾つあるかをカウ
ントして、そのカウント数ｎを評価値を求めたが、この
方法に限らず、１からＮの次元のうち幾つかを抽出し
て、この抽出した次元について差分値｜Si−Ui｜≧2.5
δi を判断して、これを満たす次元が１からＮまでのＮ
次元のうち幾つあるかをカウントして、そのカウント数
ｎを評価値を求めるようにしてもよい。これを図４を参
照して以下に説明する。

【００８２】図４に示す構成は、図１で示した評価値計
算手段２０に次元抽出手段２４を設けた構成となってい
る他は、図１と同じであるため、同一部分には同一符号
を付してそれらの説明はここでは省略する。

【００８３】前記次元抽出手段２４は、特徴量抽出手段
１０から出力される未知入力ベクトルU1,U2,・・・,UN
のうち、幾つかの値をランダムに抽出して未知入力ベク
トルを構成して（これをここでは未知入力部分ベクトル
と呼ぶ）、その未知入力部分ベクトルの各次元の未知入
力値を差分計算手段２１に出力するものである。

【００８４】すなわち、特徴量抽出手段１０から出力さ
れる未知入力ベクトルU1,U2,・・・,UN の１からＮの次
元数のうち、たとえば半数を偏りのないようにランダム
に取り出す。このようにサンプル数の十分有る母集団か
ら偏りのないようにランダムに幾つかのサンプルを抽出
した場合、この抽出したサンプルにより得るデータは、
統計的には、母集団で得られる結果に近づくものとされ
ている。

【００８５】このように未知入力ベクトルU1,U2,・・
・,UN のうち、幾つかを抽出する例として、たとえば、
U1,U2,U4,U7,U8,U10, ・・・,UN というように半数を
抽出することも考えられる。このように抽出された未知
入力ベクトルは、差分計算手段２１で抽出された各次元
ごとに辞書ベクトルの対応する次元の辞書値との差が取
られたのち、その差分値と対応する標準偏差値δｉの定
数倍（前記したように、αδｉ）より大きくなる確率ｐ
を求める。ここで、αを2.5 とすれば、2.5 δiの確率
ｐ、つまり、差分値｜Si−Ui｜≧2.5 δi の位置におけ
る未知入力の出現確率ｐは、前記した面積の比率から、
ｐは約1.2%となる。換言すれば、差分値（Si−Ui）が2.
5 δi を越える位置においては、未知入力値は約1.2%の
確率でしか出現しないということである。

【００８６】そして、前記ｉを１，２，４，７，８，１
０，・・・，Ｎというようにランダムに変化させた各次
元において、差分値｜Si−Ui｜≧2.5 δi を判断して、
これを満たす次元が幾つあるかをカウントして評価値ｎ
を得る。そして、前記同様、文字認識手段４０が、評価
値ｎに基づいて、未知入力Ｘが何の文字であるかの認識
を行う。

【００８７】前記実施例では、Ｎを６４としたが、これ
は場合によっては、Ｎ＝１０００以上という場合も考え
られるので、このように次元数の多い場合には、次元を
ランダムに抽出して処理を行う方法は、処理量を大幅に
減らすことができ、処理の高速化が図れることからきわ
めて有効な方法となる。

【００８８】また、この実施例１において、標準偏差ベ
クトル値δi の定数倍としてのαは、ある一つの値（こ
こではα＝2.5 とした）を設定した場合について説明し
たが、αをα１，α２，・・・，αk というように複数
用意し、複数の評価値を得るようにしてこの複数の評価
値から総合的に評価を行うようにしてもよい。これにつ
いてを図５を参照しながら以下に説明する。

【００８９】図５に示す構成は、図１で示した構成に対
して、標準偏差ベクトル値格納手段３３の出力側にベク
トル定数倍手段３４を設けた点が異なるだけで、他は図
１と同じであるため、同一部分には同一符号を付してそ
れらの説明はここでは省略する。

【００９０】前記ベクトル定数倍手段３４は、標準偏差
ベクトル値格納手段３３から出力される標準偏差ベクト
ルδ1 , δ2,・・・, δN に対して、各次元ごとに、複
数の定数α（ここでは、このαはα１，α２の２種類と
する）を掛けた値、つまりα１・δi とα２・δi を、
大小比較手段２２に出力する。

【００９１】そして、大小比較手段２２では、前記差分
値( Si−Ui）と前記標準偏差ベクトル格納部３３からの
標準偏差ベクトルδ1 , δ2,・・・, δN のうちの対応
する次元の標準偏差値の定数倍（α１・δi およびα２
・δi ）とをそれぞれ大小比較する。なお、ここで、ｉ
は１からＮまでの値（正の整数）を取るものとする。

【００９２】すなわち、未知入力ベクトルU1,U2,・・
・,UN の１からＮの全ての次元について、辞書値S1,S2,
・・・,SN との差分値( Si−Ui）をとり、この差分値(
Si−Ui）と前記α１・δi の大小関係、および差分値(
Si−Ui）と前記α２・δi の大小関係を判断して、差分
値｜Si−Ui｜≧α１・δi を満たす次元が１からＮまで
のＮ次元のうち幾つあるかをカウントするとともに、差
分値｜Si−Ui｜≧α２・δi を満たす次元が１からＮま
でのＮ次元のうち幾つあるかをカウントして、それぞれ
のカウント数ｎ１，ｎ２を評価値ｎ１，ｎ２として求め
る。たとえば、α１＝2.5 、α２＝3.0 とした場合、差
分値｜Si−Ui｜≧2.5 δi を満たす次元が１からＮまで
のＮ次元のうち４個（評価値ｎ１）、差分値｜Si−Ui｜
≧3.0 δiを満たす次元が１からＮまでのＮ次元のうち
２個（評価値ｎ２）というような値が得られたとする
と、評価値出力手段２３によりこれら２つの評価値が出
力され、文字認識手段４０にて、そのときの未知入力Ｘ
が、認識対象として読み出された辞書の文字であるか否
かの評価を行う。

【００９３】このように、標準偏差値δi の定数倍とし
てのαを複数用意し、複数の評価値を得るようにして、
この複数の評価値から総合的に評価を行うようにするこ
とにより、認識精度をより高いものとすることができ
る。特に、ベクトルの次元数が少ない場合、あるいは学
習データのサンプル数が少なく標準偏差値など統計的に
求められるデータの信頼性が低い場合に大きな効果が得
られる。

【００９４】（実施例２）次に本発明の実施例２につい
て説明する。この実施例２は、前記実施例１で得られた
評価値を用いて、たとえば、文字の切り出しをを誤った
場合などにおいて、それをリジェクト（棄却）する処理
を行うものである。

【００９５】図６は実施例２を説明する構成図である。
同図において、文字切り出し手段１、特徴量抽出手段１
０、評価値計算手段２０、認識候補データ出力手段３
０、文字認識手段４０は図１で示したものと同じであ
る。この実施例では、棄却判断処理手段５０を設け、前
記評価値計算手段２０で計算された評価値を棄却判断処
理手段５０に与える構成となっている。

【００９６】このような構成において、前記特徴量抽出
部１０からは特徴量として未知入力ベクトルU1,U2,・・
・,UN を出力し、その未知入力ベクトルU1,U2,・・・,U
N を評価値計算部２０に与える。この評価値計算部２０
では、未知入力ベクトルU1,U2,・・・,UN の各次元ごと
の値および認識候補データ出力手段３０からの辞書ベク
トルと標準偏差ベクトルの各次元ごとのそれぞれの値を
得て、前記実施例１で説明したような評価値ｎを出力す
る。なお、この評価値ｎの計算処理については前記実施
例１にて説明済みであるので、ここではその説明は省略
する。

【００９７】そして、前記評価値計算部２０で求められ
た評価値ｎは、棄却判断手段５０に与えられる。この棄
却判断処理手段５０は、評価値ｎにもとづいてそのとき
の未知入力Ｘの矩形画像が文字であるか否かを判断し
て、文字でないと判断した場合には、文字切り出し手段
１に対して再切り出し要求５０ａを出力し、文字である
と判断した場合には、文字認識手段４０に対して文字で
あることを示す文字確定信号５０ｂを出力する。

【００９８】この動作を具体例を用いて説明する。たと
えば、未知入力Ｘとして「い」という文字が入力され、
文字切り出し手段１によって、この「い」が真ん中から
左右に分けて切り出されてしまった場合を考える。今、
この「い」の左側の部分だけが特徴量抽出手段１０に入
力されたとすると、特徴量抽出手段１０からは、それに
対応した未知入力ベクトルが出力され、評価値計算部２
０に入力される。

【００９９】この評価値計算部２０には、その未知入力
ベクトルに対応して全てのカテゴリの辞書ベクトルの各
次元ごとの値が入力されるとともに、それに対応する標
準偏差ベクトルの各次元ごとの値の定数倍（α・δi ）
が入力される。そして、図６では図示されていないが差
分計算手段で未知入力値と辞書ベクトル値の差が各次元
ごとに計算されるとともに、この差分値とα・δi の大
小比較が行われる。これらの処理は、全てのカテゴリに
対して行われる。そして、その大小比較により評価値が
棄却判断処理手段５０に出力される。

【０１００】そして、棄却判断処理手段５０では入力さ
れた評価値のうち最も小さい評価値から、再切り出し要
求か、文字確定かを判断する。つまり、入力された評価
値のうち最も小さい評価値がたとえば「８」であった場
合には、どのカテゴリにも属さない（各評価値の値から
みて文字である可能性は低い）と判定し、さらに未知入
力が文字の一部か否かの判断も行い、この場合は、文字
の一部であるので、再切り出し要求信号７０ａを出力す
る。

【０１０１】図７は実施例２における全体の処理手順を
説明するフローチャートである。同図において、まず、
文字の切り出し（ステップＳ１）を行ったのち、特徴量
抽出（未知入力ベクトル出力）を行い（ステップＳ
２）、前記したような評価値計算を行う（ステップＳ
３）。次に、この評価値計算がすべてのカテゴリに対し
て終了したか否かを判断し（ステップＳ４）、終了して
いなければ終了していないカテゴリに対する評価値計算
を行い、終了していれば棄却判断を行う（ステップＳ
５）。この棄却判断において文字であるか否かの判断を
行い（ステップＳ６）、文字であれば文字認識を行って
認識結果を出力する（ステップＳ７）。一方、ステップ
Ｓ６の判断において文字でないと判断された場合は、そ
れが文字の一部であるか否かを判断し（ステップＳ
８）、文字の一部でない場合にはノイズなど認識対象外
の画像であるとみなして棄却する。一方、ステップＳ８
における判断において文字の一部であると判断された場
合には、再切り出しの要求を出す（ステップＳ９）。そ
して、再びステップＳ１からの処理を行う。

【０１０２】図８は、切り出された画像に対する未知入
力ベクトルが、認識対象として読みだされた全てのカテ
ゴリに属さないという状態を示したものである。同図に
おいて、Ｃ１〜Ｃ４は４つのカテゴリにおける平面的な
分布空間を示すもので、黒丸印がそれぞれのカテゴリの
辞書ベクトルを示している。そして、未知入力ベクトル
Ｕが図示の如く位置した場合の評価値は前記したように
どのカテゴリにおいても大きな値となり、どのカテゴリ
にも属さないと判定される。

【０１０３】ところで、切り出された画像に対する未知
入力ベクトルが、全てのカテゴリのいずれかに属するか
否かを判断する場合、従来では、分布形状を考慮しない
真円形状の分布空間（平面で考えた場合）であるため、
それぞれの円形分布外の空間（どのカテゴリにも属さな
い部分）は大きくなり、そのどのカテゴリにも属さない
部分の空間に存在する未知入力ベクトルが前記したよう
に棄却すべき画像であるか否かの判断を高精度に行うこ
とができない。また、従来では、未知入力がどの分布空
間に属するかという判断を距離計算で行い、たとえば、
その距離値と他の候補文字の距離値との比を比較して棄
却すべきか否かを判断している。つまり、従来の方法は
相対的な評価で棄却すべきか否かを判断しているため、
正確な判断が行えなかった。

【０１０４】これに対して本発明では、図８で示すよう
に真円形空間ではなく特定方向への広がりを持つ分布形
状を考慮して、未知入力がどの分布空間に属するか否か
を前記したような評価値を用いて判断している。しか
も、その評価値は相対的な評価ではなく定量的な評価で
ある。つまり、本発明では１文字１文字に対して評価値
が計算される。この評価値は、未知入力が或る文字であ
るとの確率を示す値に近いものとなる。このように、本
発明では、未知入力を分布空間内の文字に対して定量的
な評価を行うことによって棄却すべきか否かの判断を行
うことにより、より正確な判断を行うことができる。

【０１０５】なお、この実施例２においても、前記図４
を用いて説明したように、特徴量抽出手段１０から出力
される未知入力ベクトルを、ランダムに抽出して差分値
を計算するようにしてもよい。また、図５で説明したよ
うに、定数αを複数用意し、たとえば前述したように、
差分値( Si−Ui）と前記α１・δi の大小関係、および
差分値( Si−Ui）と前記α２・δi の大小関係を判断し
て、差分値｜Si−Ui｜≧α１・δi を満たす次元が１か
らＮまでのＮ次元のうち幾つあるかをカウントするとと
もに、差分値｜Si−Ui｜≧α２・δi を満たす次元が１
からＮまでのＮ次元のうち幾つあるかをカウントして、
それぞれのカウント数ｎ１，ｎ２を評価値ｎ１，ｎ２と
して求めるようにしてもよい。

【０１０６】（実施例３）次に、本発明の実施例３につ
いて説明する。この実施例３は、これまで説明してきた
本発明の評価値に距離値を併用して、これらから総合的
に評価値を求めるようにした例である。

【０１０７】図９は実施例３を説明する構成図である。
同図において、文字切り出し手段１、特徴量計算手段１
０、評価値計算手段２０、認識候補データ出力手段３
０、文字認識手段４０はこれまで説明したものと同じで
ある。ここでは、さらに距離値計算手段６０と総合評価
手段７０が新たに設けられている。

【０１０８】前記距離値計算手段６０は、たとえば前述
した（１）式の計算を行う距離値計算手段である。そし
て、この距離値計算手段６０で計算された距離値は総合
評価手段７０に与えられ、この距離値と評価値計算手段
２０で計算された評価値とによって総合評価が行われ、
その総合評価によって文字認識手段４０が何の文字であ
るかの文字認識を行い、その文字に対応する文字コード
が出力される。

【０１０９】なお、前記評価値計算手段２０による評価
値計算処理は、前記実施例１で説明したのでここではそ
の説明は省略する。また、距離値計算手段６０による距
離計算は、この場合、分布空間が真円形の場合の距離計
算式、つまり、（１）式で示したユークリッド距離計算
を用いた場合であり、これについては公知の技術である
のでここでは説明を省略する。

【０１１０】図１０はこの実施例３の処理手順を示すフ
ローチャートであり、以下、同図を参照して説明する。
まず、切り出された文字画像が入力されると（ステップ
Ｓ１１）、特徴量抽出手段１０にて特徴量としての未知
入力ベクトルが抽出され（ステップＳ１２）たのち、こ
の抽出された未知入力ベクトルから評価値計算手段２０
によって、前記した方法により或るカテゴリに対する評
価値が計算される（ステップＳ１３）とともに、距離値
計算手段６０によって、或るカテゴリに対する辞書値と
の間の距離値が計算される（ステップＳ１４）。

【０１１１】次に、このようにして求められた評価値と
距離値をもとに総合評価手段７０にて総合評価値を計算
する（ステップＳ１５）。そして、この総合評価値の計
算が全カテゴリについて終了したか否かを判断して（ス
テップＳ１６）、終了していなければ、再び、ステップ
Ｓ１３とステップＳ１４に戻る。全カテゴリについて終
了した場合は、その総合評価値の値をもとに、文字認識
手段４０により文字認識を行う（ステップＳ１７）。

【０１１２】以上のようにして、評価値と距離値の両方
の値から総合的に評価値を求める。これによって、より
正確な認識を行うことができる。

【０１１３】すなわち、本発明の評価値による認識処理
は、未知入力の様々なパターンに対しては、様々な学習
データをもとに得られた標準偏差によって対応すること
ができるが、未知入力に学習データからは予測できない
ような変動が生じている場合、たとえば図１１に示すよ
うに入力画像にノイズＮｓが存在しているような場合
は、標準偏差によってもそれに対応できない場合もあり
得る。

【０１１４】これに対して、距離値による認識はこのよ
うなノイズには比較的影響されにくいという面を持って
いる。

【０１１５】したっがて、本発明の評価値に距離値を併
用して、これらの値から総合的に評価値を求めることに
よって、より正確な認識を行うことができる。

【０１１６】なお、この実施例３においても、前記図４
を用いて説明したように、特徴量抽出手段１０から出力
される未知入力ベクトルを、ランダムに抽出して差分値
を計算するようにしてもよい。また、図５で説明したよ
うに、定数αを複数用意し、たとえば前述したように、
差分値( Si−Ui）と前記α１・δi の大小関係、および
差分値( Si−Ui）と前記α２・δi の大小関係を判断し
て、差分値｜Si−Ui｜≧α１・δi を満たす次元が１か
らＮまでのＮ次元のうち幾つあるかをカウントするとと
もに、差分値｜Si−Ui｜≧α２・δi を満たす次元が１
からＮまでのＮ次元のうち幾つあるかをカウントして、
それぞれのカウント数ｎ１，ｎ２を評価値ｎ１，ｎ２と
して求めるようにしてもよい。

【０１１７】（実施例４）前記実施例３では、評価値に
距離値を併用するに際して、全てのカテゴリにおいて評
価値と距離値を計算して総合評価を行う例を示したが、
全てのカテゴリにおいて評価値と距離値を計算するの
は、処理としては無駄な部分もあるので、まず、距離値
により上位候補を幾つか選び出し、その上位候補に対し
てのみ評価値を計算するようにしてもよい。これについ
て、図１２の構成図を参照して説明する。

【０１１８】図１２は図９に対して構成的には、距離値
データ処理手段８０を設けた点が異なっている。この距
離値データ処理手段８０は、距離値計算手段６０にて計
算された全カテゴリに対する距離値を一旦、蓄積したの
ち、この蓄積された距離値をもとに類似度の上位候補
（ここでは認識候補の類似度上位１位から３０位までの
候補とする）選択コード信号を認識候補データ出力手段
３０に対して出力し、さらにその上位３０位までの候補
に対するそれぞれの距離値を総合評価手段７０に対して
出力する。

【０１１９】認識候補データ出力手段３０は、認識候補
データ出力手段３０からの上位３０位までの上位候補選
択コード信号を受けると、ここでは図示されていない辞
書ベクトル格納手段３２と標準偏差ベクトル格納手段３
３から、３０位までの上位候補選択信号に対応した辞書
ベクトルと標準偏差ベクトルのそれぞれの値を各次元ご
とに評価値計算手段２０に対して順次出力する。これに
より、未知入力値Uiは、この上位３０位までの認識候補
との間で、前記したような評価値計算が行われる（この
計算については実施例１参照）。そして、この上位３０
位までの認識候補との間で計算された評価値を総合評価
手段７０に出力する。

【０１２０】この総合評価手段７０は、評価値計算手段
２０からの類似度上位３０位までの評価値と距離値デー
タ処理手段８０からの類似度上位３０位までの距離値と
によって総合評価を行い、その総合評価値を文字認識手
段４０に出力し、この文字認識手段４０から総合評価値
に基づいた文字認識が行われる。

【０１２１】図１３は以上の処理手順を示すフローチャ
ートである。以下、同図を参照して説明する。まず、切
り出された文字画像が入力されると（ステップＳ２
１）、特徴量抽出手段１０にて特徴量としての未知入力
値が抽出され（ステップＳ２２）たのち、距離値計算手
段６０によって、あるカテゴリにおける辞書ベクトルと
の間の距離値が計算される（ステップＳ２３）。次に、
全カテゴリについて距離値計算処理が終了したか否かを
判断し（ステップＳ２４）、終了していなければ、ステ
ップＳ２３に処理が戻り、終了していれば、上位候補
（ここでは上位３０位まで）に対する評価値計算が行わ
れる（ステップＳ２５）。

【０１２２】そして、この上位候補に対する各評価値
と、前記ステップＳ２３で計算された距離値のうち上位
候補に対する各距離値とからそれぞれに対して総合評価
値を計算し（ステップＳ２６）する。この総合評価値の
計算が上位３０位までの候補に対して終了したか否かを
判断して（ステップＳ２７）、終了していなければステ
ップＳ２３に処理が戻り、終了していれば、その総合評
価値に基づいて文字認識結果を出力する（ステップＳ２
８）。

【０１２３】以上のように、評価値と距離値の両方の値
から総合的に評価値を求めるに際して、まず、距離値に
より類似度の上位候補を抽出し、この抽出された候補に
対してのみ評価値を計算するようにしているので、図９
で示した方法と同様の効果が得られる他、この場合、高
速な処理が可能となるという効果が得られる。たとえ
ば、JIS 第１水準の文字は約３０００あるが、これを３
０程度に絞り込んだのち評価値計算を行うようにしてい
るので、その計算量を大幅に減らすことができ処理の高
速化を図ることができる。

【０１２４】なお、前記実施例３およびこの実施例４に
おいて用いる距離計算手段は、前記した（１）式（ユー
クリッド距離計算方法）に限られることなく、たとえ
ば、

【０１２５】

【数４】

【０１２６】のシティブロック距離計算方法を用いても
よい。このシティブロック距離計算方法によれば、より
高速化が可能となる。

【０１２７】また、この実施例４においても、前記図４
を用いて説明したように、特徴量抽出手段１０から出力
される未知入力ベクトルを、ランダムに抽出して差分値
を計算するようにしてもよい。また、図５で説明したよ
うに、定数αを複数用意し、たとえば前述したように、
差分値( Si−Ui）と前記α１・δi の大小関係、および
差分値( Si−Ui）と前記α２・δi の大小関係を判断し
て、差分値｜Si−Ui｜≧α１・δi を満たす次元が１か
らＮまでのＮ次元のうち幾つあるかをカウントするとと
もに、差分値｜Si−Ui｜≧α２・δi を満たす次元が１
からＮまでのＮ次元のうち幾つあるかをカウントして、
それぞれのカウント数ｎ１，ｎ２を評価値ｎ１，ｎ２と
して求めるようにしてもよい。

【０１２８】

【発明の効果】以上説明したように本発明による文字認
識方法は、まず請求項１によれば、未知入力ベクトルの
各次元ごとの未知入力値と各文字の全カテゴリ対応に設
けられたそれぞれの辞書ベクトルの各次元ごとの辞書値
との差分をとって求めた各次元ごとの差分値の絶対値
と、各文字の全カテゴリ対応に設けられたそれぞれの標
準偏差ベクトルの各次元ごとの標準偏差値を定数倍して
求めた各次元ごとの定数倍値とを、前記各次元ごとに、
すべての次元に渡って大小を比較し、その結果を評価値
として求め、この評価値に基づいて未知入力の文字認識
を行うようにしたので、空間分布の形状を考慮した文字
の定量的な評価値を、少ない計算量で高速に求めること
ができる。

【０１２９】また、請求項２によれば請求項１におい
て、前記未知入力ベクトルの全次元数のうち所定の次元
数をランダムに抽出して構成した未知入力部分ベクトル
を用いて、評価値をもとめるようにしたので、さらに計
算量を少なくすることができ、より高速な認識処理が可
能となる。

【０１３０】また、請求項３によれば請求項１におい
て、前記標準偏差値を定数倍するための定数を複数用意
して複数の定数倍値を設定し、この複数の定数倍値と前
記差分値とを大小比較するようにしたので、ベクトルの
次元数の少ないとき、あるいはサンプル数が少なく統計
的な判断が困難な場合に、より正確な評価値を計算する
ことができ、信頼性の高い文字認識が可能となる。

【０１３１】また、請求項４によれば請求項１から請求
項３において、前記評価値は、前記差分値の絶対値と定
数倍値との各次元ごとの大小比較の結果、差分値の絶対
値が定数倍値より大きい次元数をカウントし、そのカウ
ント値を基に得るようにしている。このような評価値を
用いることにより空間分布の形状を考慮した文字認識を
高速、かつ、高精度に行うことができる。

【０１３２】また、請求項５によれば、前記評価値を用
いて、認識、再切り出し、棄却のいずれかを判断し、認
識の場合は未知入力の文字認識を行い、再切り出しの場
合は再度文字の切り出しを行い、棄却の場合は認識対象
外として棄却する処理を行うようにしている。本発明に
より求められる評価値は定量的な値でであり、この定量
的な評価値を用いることにより、従来のように、求めら
れた距離値と予め設定された距離値とを比較して棄却す
べきか否かを判断するというような相対的な評価で棄却
すべきか否かを判断する方法に比べて、より正確な棄却
判断をが行うことが可能となる。

【０１３３】また、請求項６によれば請求項５におい
て、前記未知入力ベクトルの全次元数のうち所定の次元
数をランダムに抽出して構成した未知入力部分ベクトル
を用いて、評価値をもとめるようにしたので、さらに計
算量を少なくすることができ、より高速な認識処理が可
能となる。

【０１３４】また、請求項７によれば請求項５におい
て、前記標準偏差値を定数倍するための定数を複数用意
して複数の定数倍値を設定し、この複数の定数倍値と前
記差分値とを大小比較するようにしたので、ベクトルの
次元数の少ないとき、あるいはサンプル数が少なく統計
的な判断が困難な場合に、より正確な評価値を計算する
ことができ、信頼性の高い文字認識が可能となる。

【０１３５】また、請求項８によれば請求項５から請求
項７において、前記評価値は、前記差分値の絶対値と定
数倍値との各次元ごとの大小比較の結果、差分値の絶対
値が定数倍値より大きい次元数をカウントし、そのカウ
ント値を基に得るようにしている。このような評価値を
用いることにより空間分布の形状を考慮した文字認識を
高速、かつ、高精度に行うことができる。

【０１３６】また、請求項９によれば、前記評価値と距
離値とから総合評価を行い総合評価値を出力して、この
総合評価値により未知入力の文字認識を行うようにした
ので、ノイズなどにも影響されにくく、しかも空間分布
の形状を考慮した文字認識を高速、かつ、高精度に行う
ことができる。

【０１３７】また、請求項１０によれば請求項９におい
て、前記未知入力ベクトルの全次元数のうち所定の次元
数をランダムに抽出して構成した未知入力部分ベクトル
を用いて、評価値をもとめるようにしたので、さらに計
算量を少なくすることができ、より高速な認識処理が可
能となる。

【０１３８】また、請求項１１によれば請求項９におい
て、前記標準偏差値を定数倍するための定数を複数用意
して複数の定数倍値を設定し、この複数の定数倍値と前
記差分値とを大小比較するようにしたので、ベクトルの
次元数の少ないとき、あるいはサンプル数が少なく統計
的な判断が困難な場合に、より正確な評価値を計算する
ことができ、信頼性の高い文字認識が可能となる。

【０１３９】また、請求項１２によれば請求項９から請
求項１１において、前記評価値は、前記差分値の絶対値
と定数倍値との各次元ごとの大小比較の結果、差分値の
絶対値が定数倍値より大きい次元数をカウントし、その
カウント値を基に得るようにしている。このような評価
値を用いることにより空間分布の形状を考慮した文字認
識を高速、かつ、高精度に行うことができる。

【０１４０】また、請求項１３によれば、まず、辞書ベ
クトルの各次元ごとの辞書値との間の空間上の距離を計
算し、これによって求められた距離値から全カテゴリの
うち所定数の上位認識候補を選び出したのち、この選び
出された所定数の上位認識候補との間で評価値を求める
ようにしたので、評価値は全カテゴリについて求める必
要がなくなり、ノイズなどにも影響されにくいという効
果のほかに、処理工程を大幅に減らすことができさらに
高速化が図れる。

【０１４１】また、請求項１４によれば請求項１３にお
いて、前記未知入力ベクトルの全次元数のうち所定の次
元数をランダムに抽出して構成した未知入力部分ベクト
ルを用いて、評価値をもとめるようにしたので、さらに
計算量を少なくすることができ、より高速な認識処理が
可能となる。

【０１４２】また、請求項１５によれば請求項１３にお
いて、前記標準偏差値を定数倍するための定数を複数用
意して複数の定数倍値を設定し、この複数の定数倍値と
前記差分値とを大小比較するようにしたので、ベクトル
の次元数の少ないとき、あるいはサンプル数が少なく統
計的な判断が困難な場合に、より正確な評価値を計算す
ることができ、信頼性の高い文字認識が可能となる。

【０１４３】また、請求項１６によれば請求項１３から
請求項１５において、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得るようにしている。このような評
価値を用いることにより空間分布の形状を考慮した文字
認識を高速、かつ、高精度に行うことができる。

【０１４４】また、本発明の文字認識装置は、まず、請
求項１７によれば、未知入力ベクトルの各次元ごとの未
知入力値と各文字の全カテゴリ対応に設けられたそれぞ
れの辞書ベクトルの各次元ごとの辞書値との差分をとっ
て求めた各次元ごとの差分値の絶対値と、各文字の全カ
テゴリ対応に設けられたそれぞれの標準偏差ベクトルの
各次元ごとの標準偏差値を定数倍して求めた各次元ごと
の定数倍値とを、前記各次元ごとに、すべての次元に渡
って大小を比較し、その結果を評価値として求め、この
評価値に基づいて未知入力の文字認識を行うようにした
ので、空間分布の形状を考慮した文字の定量的な評価値
を、少ない計算量で高速に求めることができる。

【０１４５】また、請求求項１８によれば請求項１７に
おいて、前記未知入力ベクトルの全次元数のうち所定の
次元数をランダムに抽出して構成した未知入力部分ベク
トルを用いて、評価値をもとめるようにしたので、さら
に計算量を少なくすることができ、より高速な認識処理
が可能となる。

【０１４６】また、請求項１９によれば請求項１７にお
いて、前記標準偏差値を定数倍するための定数を複数用
意して複数の定数倍値を設定し、この複数の定数倍値と
前記差分値とを大小比較するようにしたので、ベクトル
の次元数の少ないとき、あるいはサンプル数が少なく統
計的な判断が困難な場合に、より正確な評価値を計算す
ることができ、信頼性の高い文字認識が可能となる。

【０１４７】また、請求項２０によれば請求項１７から
請求項１９において、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得るようにしている。このような評
価値を用いることにより空間分布の形状を考慮した文字
認識を高速、かつ、高精度に行うことができる。

【０１４８】また、請求項２１によれば、前記評価値を
用いて、認識、再切り出し、棄却のいずれかを判断し、
認識の場合は未知入力の文字認識を行い、再切り出しの
場合は再度文字の切り出しを行い、棄却の場合は認識対
象外として棄却する処理を行うようにしている。本発明
により求められる評価値は定量的な値でであり、この定
量的な評価値を用いることにより、従来のように、求め
られた距離値と予め設定された距離値とを比較して棄却
すべきか否かを判断するというような相対的な評価で棄
却すべきか否かを判断する方法に比べて、より正確な棄
却判断をが行うことが可能となる。

【０１４９】また、請求項２２によれば請求項２１にお
いて、前記未知入力ベクトルの全次元数のうち所定の次
元数をランダムに抽出して構成した未知入力部分ベクト
ルを用いて、評価値をもとめるようにしたので、さらに
計算量を少なくすることができ、より高速な認識処理が
可能となる。

【０１５０】また、請求項２３によれば請求項２１にお
いて、前記標準偏差値を定数倍するための定数を複数用
意して複数の定数倍値を設定し、この複数の定数倍値と
前記差分値とを大小比較するようにしたので、ベクトル
の次元数の少ないとき、あるいはサンプル数が少なく統
計的な判断が困難な場合に、より正確な評価値を計算す
ることができ、信頼性の高い文字認識が可能となる。

【０１５１】また、請求項２４によれば請求項２１から
請求項２３において、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得るようにしている。このような評
価値を用いることにより空間分布の形状を考慮した文字
認識を高速、かつ、高精度に行うことができる。

【０１５２】また、請求項２５によれば、前記評価値と
距離値とから総合評価を行い総合評価値を出力して、こ
の総合評価値により未知入力の文字認識を行うようにし
たので、ノイズなどにも影響されにくく、しかも空間分
布の形状を考慮した文字認識を高速、かつ、高精度に行
うことができる。

【０１５３】また、請求項２６によれば請求項２５にお
いて、前記未知入力ベクトルの全次元数のうち所定の次
元数をランダムに抽出して構成した未知入力部分ベクト
ルを用いて、評価値をもとめるようにしたので、さらに
計算量を少なくすることができ、より高速な認識処理が
可能となる。

【０１５４】また、請求項２７によれば請求項２５にお
いて、前記標準偏差値を定数倍するための定数を複数用
意して複数の定数倍値を設定し、この複数の定数倍値と
前記差分値とを大小比較するようにしたので、ベクトル
の次元数の少ないとき、あるいはサンプル数が少なく統
計的な判断が困難な場合に、より正確な評価値を計算す
ることができ、信頼性の高い文字認識が可能となる。

【０１５５】また、請求項２８によれば請求項２５から
請求項２７において、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得るようにしている。このような評
価値を用いることにより空間分布の形状を考慮した文字
認識を高速、かつ、高精度に行うことができる。

【０１５６】また、請求項２９によれば、まず、辞書ベ
クトルの各次元ごとの辞書ベクトル値との間の空間上の
距離を計算し、これによって求められた距離値から全カ
テゴリのうち所定数の上位認識候補を選び出したのち、
この選びだされた所定数の上位認識候補との間で評価値
を求めるようにしたので、評価値は全カテゴリについて
求める必要がなくなり、ノイズなどにも影響されにくい
という効果のほかに、処理工程を大幅に減らすことがで
きさらに高速化が図れる。

【０１５７】また、請求項３０によれば請求項２９にお
いて、前記未知入力ベクトルの全次元数のうち所定の次
元数をランダムに抽出して構成した未知入力部分ベクト
ルを用いて、評価値をもとめるようにしたので、さらに
計算量を少なくすることができ、より高速な認識処理が
可能となる。

【０１５８】また、請求項３１によれば請求項２９にお
いて、前記標準偏差値を定数倍するための定数を複数用
意して複数の定数倍値を設定し、この複数の定数倍値と
前記差分値とを大小比較するようにしたので、ベクトル
の次元数の少ないとき、あるいはサンプル数が少なく統
計的な判断が困難な場合に、より正確な評価値を計算す
ることができ、信頼性の高い文字認識が可能となる。

【０１５９】また、請求項３２によれば請求項２９から
請求項３１において、前記評価値は、前記差分値の絶対
値と定数倍値との各次元ごとの大小比較の結果、差分値
の絶対値が定数倍値より大きい次元数をカウントし、そ
のカウント値を基に得るようにしている。このような評
価値を用いることにより空間分布の形状を考慮した文字
認識を高速、かつ、高精度に行うことができる。

【図面の簡単な説明】

【図１】本発明の実施例１を説明する構成図。

【図２】本発明の実施例を説明するための正規分布曲線
を示す図。

【図３】本発明の実施例を説明するための二項分布曲線
を示す図。

【図４】実施例１の変形例（その１）を説明する構成
図。

【図５】実施例１の変形例（その２）を説明する構成
図。

【図６】本発明の実施例２を説明する構成図。

【図７】実施例２の処理手順を説明するフローチャー
ト。

【図８】実施例２の棄却処理の具体例を説明する図。

【図９】本発明の実施例３を説明する構成図。

【図１０】実施例３の処理手順を説明するフローチャー
ト。

【図１１】実施例３においてノイズを有する画像の一例
を示す図。

【図１２】本発明の実施例４を説明する構成図。

【図１３】実施例４の処理手順を説明するフローチャー
ト。

【図１４】従来の円形分布における距離値計算方法を説
明する図。

【図１５】従来の分布形状を考慮した距離値計算方法を
説明する図。

【符号の説明】

１・・・文字切り出し手段１０・・・特徴量抽出手段２０・・・評価値計算手段２１・・・差分値計算手段２２・・・大小比較手段２３・・・評価値出力手段２４・・・次元抽出手段３０・・・認識候補データ出力手段３１・・・候補文字指定手段３２・・・辞書ベクトル格納手段３３・・・標準偏差ベクトル格納手段３４・・・ベクトル定数倍手段４０・・・文字認識手段５０・・・棄却判断処理手段６０・・・距離値計算手段７０・・・総合評価手段８０・・・距離値データ処理手段

Claims

【特許請求の範囲】

【請求項１】入力画像から文字画像の切り出しを行っ
たのち、この切り出された文字の特徴量として未知入力
ベクトルを出力し、この未知入力ベクトルの各次元ごとの未知入力値と各文
字のカテゴリ対応に求められた辞書ベクトルの各次元ご
との辞書値との差分をとって求めた各次元ごとの差分値
の絶対値と、各文字のカテゴリ対応に求められた標準偏
差ベクトルの各次元ごとの標準偏差値を定数倍した各次
元ごとの定数倍値とを、前記各次元ごとに、すべての次
元に渡って大小を比較し、その結果を評価値として求
め、この評価値に基づいて未知入力の文字認識を行うこ
とを特徴とする文字認識方法。
【請求項２】前記未知入力ベクトルの全次元数のうち
所定の次元数をランダムに抽出して構成した未知入力部
分ベクトルを出力し、この未知入力部分ベクトルを構成する各次元ごとの未知
入力値と、この未知入力値に対応した次元の辞書値との
差分をとって求めた各次元ごとの差分値の絶対値と、前
記未知入力値に対応した次元ごとの標準偏差値の定数倍
値とを、前記それぞれ対応する次元ごとに大小比較し、
その結果を評価値として求めることを特徴とする請求項
１記載の文字認識方法。
【請求項３】前記標準偏差値を定数倍するための定数
を複数用意して複数の定数倍値を設定し、この複数の定
数倍値と前記差分値とを大小比較するようにしたことを
特徴とする請求項１記載の文字認識方法。
【請求項４】前記評価値は、前記差分値の絶対値と定
数倍値との各次元ごとの大小比較の結果、差分値の絶対
値が定数倍値より大きい次元数をカウントし、そのカウ
ント値を基に得ることを特徴とする請求項１、請求項２
または請求項３記載の文字認識方法。
【請求項５】入力画像から文字画像の切り出しを行っ
たのち、この切り出された文字の特徴量として未知入力
ベクトルを出力し、この未知入力ベクトルの各次元ごとの未知入力値と各文
字のカテゴリ対応に求められた辞書ベクトルの各次元ご
との辞書値との差分をとって求めた各次元ごとの差分値
の絶対値と、各文字のカテゴリ対応に求められた標準偏
差ベクトルの各次元ごとの標準偏差値を定数倍して求め
た各次元ごとの定数倍値とを、前記各次元ごとに、すべ
ての次元に渡って大小比較し、その結果を評価値として
求め、全カテゴリの評価値に基づいて、認識、再切り出
し、棄却のいずれかを判断し、認識の場合は未知入力の
文字認識を行い、再切り出しの場合は再度文字の切り出
しを行い、棄却の場合は認識対象外として棄却すること
を特徴とする文字認識方法。
【請求項６】前記未知入力ベクトルの全次元数のうち
所定の次元数をランダムに抽出して構成した未知入力部
分ベクトルを出力し、この未知入力部分ベクトルを構成する各次元ごとの未知
入力値と、この未知入力値に対応した次元の辞書値との
差分をとって求めた各次元ごとの差分値の絶対値と、前
記未知入力値に対応した次元の標準偏差値の定数倍値と
を、前記それぞれ対応する次元ごとに大小比較し、その
結果を評価値として求めることを特徴とする請求項５記
載の文字認識方法。
【請求項７】前記標準偏差値を定数倍するための定数
を複数用意して複数の定数倍値を設定し、この複数の定
数倍値と前記差分値とを大小比較するようにしたことを
特徴とする請求項５記載の文字認識方法。
【請求項８】前記評価値は、前記差分値の絶対値と定
数倍値との各次元ごとの大小比較の結果、差分値の絶対
値が定数倍値より大きい次元数をカウントし、そのカウ
ント値を基に得ることを特徴とする請求項５、請求項６
または請求項７記載の文字認識方法。
【請求項９】入力画像から文字画像の切り出しを行っ
たのち、この切り出された文字の特徴量として未知入力
ベクトルを出力し、この未知入力ベクトルの各次元ごとの未知入力値と各文
字のカテゴリ対応に求められた辞書ベクトルの各次元ご
との辞書値との差分をとって求めた各次元ごとの差分値
の絶対値と、各文字のカテゴリ対応に求められた標準偏
差ベクトルの各次元ごとの標準偏差値を定数倍して求め
た各次元ごとの定数倍値とを、前記各次元ごとに、すべ
ての次元に渡って大小比較し、その結果を評価値として
求めるとともに、前記未知入力ベクトルの各次元ごとの
未知入力値と前記辞書ベクトルの各次元ごとの辞書値と
の間の空間上の距離値を計算し、前記求められた評価値と距離値とから総合評価を行い総
合評価値を出力して、この総合評価値により未知入力の
文字認識を行うことを特徴とする文字認識方法。
【請求項１０】前記未知入力ベクトルの全次元数のう
ち所定の次元数をランダムに抽出して構成した未知入力
部分ベクトルを出力し、この未知入力部分ベクトルを構成する各次元ごとの未知
入力値と、この未知入力値に対応した次元の辞書値との
差分をとって求めた各次元ごとの差分値の絶対値と、前
記未知入力値に対応した次元の標準偏差値の定数倍値と
を、前記それぞれ対応する次元ごとに大小比較し、その
結果を評価値として求めることを特徴とする請求項９記
載の文字認識方法。
【請求項１１】前記標準偏差値を定数倍するための定
数を複数用意し、複数の定数倍値を設定し、この複数の
定数倍値と前記差分値とを大小比較するようにしたこと
を特徴とする請求項９記載の文字認識方法。
【請求項１２】前記評価値は、前記差分値の絶対値と
定数倍値との各次元ごとの大小比較の結果、差分値の絶
対値が定数倍値より大きい次元数をカウントしてそのカ
ウント値を基に得ることを特徴とする請求項９、請求項
１０または請求項１１記載の文字認識方法。
【請求項１３】入力画像から文字画像の切り出しを行
ったのち、この切り出された文字の特徴量として未知入
力ベクトルを出力し、前記未知入力ベクトルの各次元ごとの未知入力値と各文
字の全カテゴリ対応に求められた辞書ベクトルの各次元
ごとの辞書値との間の空間上の距離値を計算し、これに
よって求められた距離値から全カテゴリのうち所定数の
上位認識候補を選び出したのち、この選びだされた所定
数の上位認識候補に対応する辞書ベクトルの各次元ごと
の辞書値との差分をとって求めた各次元ごとの差分値の
絶対値と、選びだされた所定数の上位認識候補に対応す
る標準偏差ベクトルの各次元ごとの標準偏差値を定数倍
して求めた各次元ごとの定数倍値とを、前記対応する次
元ごとに大小を比較し、その結果を評価値として求め、この評価値と、未知入力と前記選び出された所定数の上
位認識候補との間の距離値とから総合評価を行い総合評
価値を出力して、この総合評価値により未知入力の文字
認識を行うことを特徴とする文字認識方法。
【請求項１４】前記未知入力ベクトルの全次元数のう
ち所定の次元数をランダムに抽出して構成される未知入
力部分ベクトルを出力し、この未知入力部分ベクトルを構成する各次元ごとの未知
入力値と、この未知入力値に対応した次元の辞書値との
差分をとって求めた各次元ごとの差分値の絶対値と、前
記未知入力値に対応した次元の標準偏差値の定数倍値と
を、前記それぞれ対応する次元ごとに大小比較し、その
結果を評価値として求めることを特徴とする請求項１３
記載の文字認識方法。
【請求項１５】前記標準偏差値を定数倍するための定
数を複数用意して複数の定数倍値を設定し、この複数の
定数倍値と前記差分値とを大小比較するようにしたこと
を特徴とする請求項１３記載の文字認識方法。
【請求項１６】前記評価値は、前記差分値の絶対値と
定数倍値との各次元ごとの大小比較の結果、差分値の絶
対値が定数倍値より大きい次元数をカウントし、そのカ
ウント値を基に得ることを特徴とする請求項１３、請求
項１４または請求項１５記載の文字認識方法。
【請求項１７】入力画像から文字の切り出しを行う文
字切り出し手段と、この文字切り出し手段により切り出された文字の特徴量
として未知入力ベクトルを出力する特徴量抽出手段と、各文字のカテゴリ対応の辞書ベクトルを格納した辞書ベ
クトル格納手段、各文字のカテゴリ対応の標準偏差ベク
トルを格納した標準偏差ベクトル格納手段、これら辞書
ベクトル格納手段および標準偏差ベクトル格納手段に対
して各カテゴリに対応した辞書ベクトルおよび標準偏差
ベクトルを読み出すための読出指定信号を出力する候補
文字指定手段を有する認識候補データ出力手段と、前記特徴量抽出手段からの未知入力ベクトルの各次元ご
との未知入力値と前記辞書ベクトルの各次元ごとの辞書
値との差分をとる差分値計算手段、この差分値と前記標
準偏差ベクトルの各次元ごとの標準偏差値を定数倍して
求めた各次元ごとの定数倍値とを各次元ごとにすべての
次元に渡って大小を比較する大小比較手段、この大小比
較手段からの比較結果をもとに評価値として出力する評
価値出力手段を有する評価値計算手段と、この評価値計算手段で求められた評価値に基づいて未知
入力の文字認識を行う文字認識手段と、を備えたことを特徴とする文字認識装置。
【請求項１８】前記特徴量抽出手段からの未知入力ベ
クトルの全次元数のうち所定の次元数をランダムに抽出
して構成される未知入力部分ベクトルを出力する次元抽
出手段を設け、この次元抽出手段から出力される未知入力部分ベクトル
の各次元ごとの未知入力値と、この未知入力値に対応し
た次元ごとの辞書値との差分をとって求めた各次元ごと
の差分値と、前記未知入力値に対応した次元ごとの標準
偏差値の定数倍値とを、前記それぞれ対応する次元ごと
に大小を比較し、その結果を評価値として求めることを
特徴とする請求項１７記載の文字認識装置。
【請求項１９】前記標準偏差値を定数倍するための定
数を複数用意して複数の定数倍値を設定し、この複数の
定数倍値と前記差分値とを大小比較するようにしたこと
を特徴とする請求項１７記載の文字認識装置。
【請求項２０】前記評価値は、前記差分値の絶対値と
定数倍値との各次元ごとの大小比較の結果、差分値の絶
対値が定数倍値より大きい次元数をカウントし、そのカ
ウント値を基に得ることを特徴とする請求項１７、請求
項１８または請求項１９記載の文字認識装置。
【請求項２１】入力画像から文字の切り出しを行う文
字切り出し手段と、この文字切り出し手段により切り出された文字の特徴量
として未知入力ベクトルを出力する特徴量抽出手段と、各文字のカテゴリ対応の辞書ベクトルを格納した辞書ベ
クトル格納手段、各文字のカテゴリ対応の標準偏差ベク
トルを格納した標準偏差ベクトル格納手段、これら辞書
ベクトル格納手段および標準偏差ベクトル格納手段に対
して各カテゴリに対応した辞書ベクトルおよび標準偏差
ベクトルを読み出すための読出指定信号を出力する候補
文字指定手段を有する認識候補データ出力手段と、前記特徴量抽出手段からの未知入力ベクトルの各次元ご
との未知入力値と前記辞書ベクトルの各次元ごとの辞書
値との差分をとる差分値計算手段、この差分値と前記標
準偏差ベクトルの各次元ごとの標準偏差値を定数倍して
求めた各次元ごとの定数倍値とを各次元ごとにすべての
次元に渡って大小を比較する大小比較手段、この大小比
較手段からの比較結果をもとに評価値として出力する評
価値出力手段を有する評価値計算手段と、この評価値計算手段で求められた全カテゴリの評価値に
基づいて、文字として認識、再切り出し、認識対象外と
して棄却のいずれかの判断を行う棄却判断処理手段と、この棄却判断処理手段からの文字認識要求により未知入
力の文字認識を行う文字認識手段と、を備えたことを特徴とする文字認識装置。
【請求項２２】前記特徴量抽出手段からの未知入力ベ
クトルの全次元数のうち所定の次元数をランダムに抽出
して構成される未知入力部分ベクトルを出力する次元抽
出手段を設け、この次元抽出手段から出力される未知入力部分ベクトル
を構成する各次元ごとの未知入力値と、この未知入力値
に対応した次元ごとの辞書値との差分をとって求めた各
次元ごとの差分値と、前記未知入力値に対応した次元ご
との標準偏差値の定数倍値とを、前記それぞれ対応する
次元ごとに大小を比較し、その結果を評価値として求め
ることを特徴とする請求項２１記載の文字認識装置。
【請求項２３】前記標準偏差値を定数倍するための定
数を複数用意して複数の定数倍値を設定し、この複数の
定数倍値と前記差分値とを大小比較するようにしたこと
を特徴とする請求項２１記載の文字認識装置。
【請求項２４】前記評価値は、前記差分値の絶対値と定
数倍値との各次元ごとの大小比較の結果、差分値の絶対
値が定数倍値より大きい次元数をカウントし、そのカウ
ント値を基に得ることを特徴とする請求項２１、請求項
２２または請求項２３記載の文字認識装置。
【請求項２５】入力画像から文字の切り出しを行う文
字切り出し手段と、この文字切り出し手段により切り出された文字の特徴量
として未知入力ベクトルを出力する特徴量抽出手段と、各文字のカテゴリ対応の辞書ベクトルを格納した辞書ベ
クトル格納手段、各文字のカテゴリ対応の標準偏差ベク
トルを格納した標準偏差ベクトル格納手段、これら辞書
ベクトル格納手段および標準偏差ベクトル格納手段に対
して各カテゴリに対応した辞書ベクトルおよび標準偏差
ベクトルを読み出すための読出指定信号を出力する候補
文字指定手段を有する認識候補データ出力手段と、前記特徴量抽出手段からの未知入力ベクトルの各次元ご
との未知入力値と前記辞書ベクトルの各次元ごとの辞書
値との差分をとる差分値計算手段、この差分値と前記標
準偏差ベクトルの各次元ごとの標準偏差値を定数倍して
求めた各次元ごとの定数倍値とを各次元ごとにすべての
次元に渡って大小を比較する大小比較手段、この大小比
較手段からの比較結果をもとに評価値として出力する評
価値出力手段を有する評価値計算手段と、前記特徴量抽出手段からの未知入力ベクトルの各次元ご
との未知入力値と前記辞書ベクトルの各次元ごとの辞書
値との間の空間上の距離を計算する距離計算手段と、この距離計算手段によって求められた距離値と前記評価
値計算手段によって求められた評価値とから総合評価を
行い総合評価値を出力する総合評価手段と、この総合評価手段からの総合評価値により未知入力の文
字認識を行う文字認識手段と、を備えたことを特徴とする文字認識装置。
【請求項２６】前記特徴量抽出手段からの未知入力ベ
クトルの全次元数のうち所定の次元数をランダムに抽出
して構成される未知入力部分ベクトルを出力する次元抽
出手段を設け、この次元抽出手段から出力される未知入力部分ベクトル
を構成する各次元ごとの未知入力値と、この未知入力値
に対応した次元ごとの辞書値との差分をとって求めた各
次元ごとの差分値と、前記未知入力値に対応した次元ご
との標準偏差値の定数倍値とを、前記それぞれ対応する
次元ごとに大小を比較し、その結果を評価値として求め
ることを特徴とする請求項２５記載の文字認識装置。
【請求項２７】前記標準偏差値を定数倍するための定
数を複数用意して複数の定数倍値を設定し、この複数の
定数倍値と前記差分値とを大小比較するようにしたこと
を特徴とする請求項２５記載の文字認識装置。
【請求項２８】前記評価値は、前記差分値の絶対値と
定数倍値との各次元ごとの大小比較の結果、差分値の絶
対値が定数倍値より大きい次元数をカウントし、そのカ
ウント値を基に得ることを特徴とする請求項２５、請求
項２６または請求項２７記載の文字認識装置。
【請求項２９】入力画像から文字の切り出しを行う文
字切り出し手段と、この文字切り出し手段により切り出された文字の特徴量
として未知入力ベクトルを出力する特徴量抽出手段と、各文字のカテゴリ対応の辞書ベクトルを格納した辞書ベ
クトル格納手段、各文字のカテゴリ対応の標準偏差ベク
トルを格納した標準偏差ベクトル格納手段、これら辞書
ベクトル格納手段および標準偏差ベクトル格納手段に対
して各カテゴリに対応した辞書ベクトルおよび標準偏差
ベクトルを読み出すための読出指定信号を出力する候補
文字指定手段を有する認識候補データ出力手段と、前記特徴量抽出手段からの未知入力ベクトルの各次元ご
との未知入力値と前記辞書ベクトルの各次元ごとの辞書
値との差分をとる差分値計算手段、この差分値と前記標
準偏差ベクトルの各次元ごとの標準偏差値を定数倍して
求めた各次元ごとの定数倍値とを各次元ごとにすべての
次元に渡って大小を比較する大小比較手段、この大小比
較手段からの比較結果をもとに評価値として出力する評
価値出力手段を有する評価値計算手段と、前記特徴量抽出手段からの未知入力ベクトルの各次元ご
との未知入力値と前記辞書ベクトルの各次元ごとの辞書
値との間の空間上の距離を計算する距離計算手段と、この距離計算手段によって求められた距離値から全カテ
ゴリのうち所定数の上位認識候補を選び出し、前記距離
計算手段にて計算された所定数の上位認識候補との間の
距離値を出力するとともに、前記認識候補データ出力手
段に対して上位認識候補指定信号を出力する評価値デー
タ処理手段と、この評価値データ処理手段から出力される所定数の上位
認識候補との間の距離値と前記評価値計算手段によって
求められた評価値とから総合評価を行い総合評価値を出
力する総合評価手段と、この総合評価手段からの総合評価値により未知入力の文
字認識を行う文字認識手段と、を備え、前記認識候補データ出力手段は、前記評価値デ
ータ処理手段からの上位認識候補指定信号を受けてそれ
に対応する辞書ベクトルおよび標準偏差ベクトルを前記
評価値計算手段に出力し、評価値計算手段は前記所定数
の上位認識候補と未知入力との間の評価値を計算するよ
うにしたことを特徴とする文字認識装置。
【請求項３０】前記特徴量抽出手段からの未知入力ベ
クトルの全次元数のうち所定の次元数をランダムに抽出
して構成された未知入力部分ベクトルを出力する次元抽
出手段を設け、この次元抽出手段から出力される未知入力部分ベクトル
を構成する各次元ごとの未知入力値と、この未知入力値
に対応した次元ごとの辞書値との差分をとって求めた各
次元ごとの差分値と、前記未知入力値に対応した次元ご
との標準偏差値の定数倍値とを、前記それぞれ対応する
次元ごとに大小を比較し、その結果を評価値として求め
ることを特徴とする請求項２９記載の文字認識装置。
【請求項３１】前記標準偏差値を定数倍するための定
数を複数用意して複数の定数倍値を設定し、この複数の
定数倍値と前記差分値とを大小比較するようにしたこと
を特徴とする請求項２９記載の文字認識装置。
【請求項３２】前記評価値は、前記差分値の絶対値と
定数倍値との各次元ごとの大小比較の結果、差分値の絶
対値が定数倍値より大きい次元数をカウントし、そのカ
ウント値を基に得ることを特徴とする請求項２９、請求
項３０または請求項３１記載の文字認識装置。