JP2766205B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP2766205B2
JP2766205B2 JP6324582A JP32458294A JP2766205B2 JP 2766205 B2 JP2766205 B2 JP 2766205B2 JP 6324582 A JP6324582 A JP 6324582A JP 32458294 A JP32458294 A JP 32458294A JP 2766205 B2 JP2766205 B2 JP 2766205B2
Authority
JP
Japan
Prior art keywords
character
difference
characters
representative
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6324582A
Other languages
English (en)
Other versions
JPH08180138A (ja
Inventor
守 山田
秀利 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NAGANO NIPPON DENKI SOFUTOEA KK
NEC Corp
Original Assignee
NAGANO NIPPON DENKI SOFUTOEA KK
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NAGANO NIPPON DENKI SOFUTOEA KK, Nippon Electric Co Ltd filed Critical NAGANO NIPPON DENKI SOFUTOEA KK
Priority to JP6324582A priority Critical patent/JP2766205B2/ja
Publication of JPH08180138A publication Critical patent/JPH08180138A/ja
Application granted granted Critical
Publication of JP2766205B2 publication Critical patent/JP2766205B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字認識装置に関し、特
に分割された小領域ごとに複数の特徴要素成分を有する
特徴ベクトルを用い日本語文字の認識を行う文字認識装
置に関する。
【0002】
【従来の技術】日本語文章を対象とする文字認識におい
ては、漢字,平がな,片カナ,英数字および記号が含ま
れ使用される文字種が多い上に、複雑な漢字が多く含ま
れているため、文字領域を重複部分を有する多数の小領
域に分割して小領域ごとに複数の特徴要素を成分とする
ベクトルを設定し、この結果得られる「特徴要素数×小
領域数」の成分を有する多次元の特徴ベクトルを比較す
る方法が用いられる。
【0003】複数の特徴要素を成分とする特徴ベクトル
の代表的なものには、文字画像を細線化した線画パター
ンから定義するものと、文字画像の輪郭線パターンから
定義するものとがあり、特徴ベクトルの総次元数を増加
させずに認識率を向上させるために、それぞれ小領域の
分割法や特徴要素の選定法の異なる種々のものが提案さ
れている。以下に、それぞれの代表的な例について説明
する。
【0004】前者の一例として方向線素特徴量と呼ばれ
るものがある。これは、64×64ドットの文字領域に
表示された文字パターンに細線化を施し、文字を構成す
る骨格線を表す線画パターンを求め、骨格線を構成する
各線素(一画素相当)の向きを縦(|),横(―)及び
±45度(/,\)の4方向に量子化し、それを特徴要
素の成分とした196次元の特徴ベクトルである。ま
ず、64×64ドットの文字領域を8×8ドット単位の
区画に分割し、隣接する4区画をまとめた16×16ド
ットを小領域とし、各小領域を縦と横の両方向にそれぞ
れ半分ずつ重複させた49個の小領域を構成する。この
ようにして構成した小領域ごとに中心部に重く周辺部で
軽いガウスフィルタ的な重みを持つ回廊状のフィルタを
対応させて方向ごとにヒストグラムを作成することによ
り、49小領域×4方向=196次元の特徴ベクトルが
得られる。詳細については、「方向線素特徴量を用いた
高精度文字認識」(電子通信学会論文誌D−II,vo
l.J74−D―II,No3,pp330〜339,1
991年3月)を参照されたい。
【0005】一方、後者の一例である加重方向指数ヒス
トグラムでは、正規化後の2値化文字パターンの文字輪
郭を8連結で追跡し、各輪郭点での輪郭線の方向を45
度おきの4方向に量子化する。まず、この方向量子化さ
れたパターンを縦11個×横11個=121個の小区画
に分け、小区画ごとにヒストグラムを作成することによ
り縦11×横11×4方向=484次元の方向指数ヒス
トグラムを得る。この方向指数ヒストグラムに重なりの
ある2次元ガウスフィルタ(5×5)を対応させて次元
圧縮することにより、縦6×横6×4方向=144次元
の加重方向指数ヒストグラムが得られる。なお、詳細に
ついては、「加重方向指数ヒストグラム法のつぶれ文字
への対応」(信学技報,PRU90−128,pp21
〜26)を参照されたい。
【0006】特徴ベクトルを使用する文字認識装置にお
いては、認識しようとする文字画像(入力パターン)の
特徴ベクトルを抽出して文字認識辞書に格納されている
標準パターンの特徴ベクトルの対応した次元同士の相違
度あるいは類似度を計算し、各次元の相違度の総和が最
も小さくなる又は類似度の総和が最も大きくなる標準パ
ターンの文字種を認識結果として選択する。日本語の文
章を認識しようとすると、JIS第1水準漢字に限って
みてもそれだけで三千字種近い文字種との相違度あるい
は類似度の計算を行わねばならず、高い精度の認識結果
を得ようとすると、どうしても特徴ベクトルの次元数が
増大するので、使用文字種数および次元数の増大に伴っ
て処理時間が増加し膨大なものになるという問題があっ
た。
【0007】この対策として次元数の少ない特徴ベクト
ル(例えば4×4×4=64次元)を用いて予備的な粗
選別を行い、選別された限定数の文字種に対してのみ次
元数の大きい特徴ベクトルを用いて最終選別を行う2段
階認識法が考えられるが、2種類の文字認識辞書と2種
類の特徴ベクトルの抽出を必要とする難点がある。
【0008】これに対し、1種類の文字認識辞書のみを
使用して、次元数の増加に伴う処理時間の増加を抑制す
る一方法が、特開昭63―780号公報に提案されてい
る。この方法は、文字認識辞書に格納される特徴ベクト
ルの配列順序を、辞書に登録されている全文字種に関す
る標準偏差または分散の大きい次元順に並べ替えて登録
しておき、未知パターンの認識を行う場合には、未知パ
ターンの特徴ベクトルを抽出した後に同じ順序に並べ替
えを行い、上位次元の成分から一定次元数を用いて全文
字種との比較を行って粗選別を行い、選別された文字種
に対してのみ下位次元の成分比較を行うことにより、演
算対象となる文字種および次元数を抑制しようとするも
のである。すなわち、粗選別は上位から限定された一定
数の特徴ベクトル成分のみを用いて全文字種と比較し、
相違度または類似度が一定の限界を超えるものは候補か
ら外し、粗選別で残った候補に対してのみ全次元数の特
徴ベクトルを用いて最終候補を選択するものである。な
お、粗選別を何段階かに分けて繰り返し、その後で最終
選別を行ってもよい。
【0009】
【発明が解決しようとする課題】しかしながら、上述し
た特開昭63―780号公報記載の方法は、粗選別を限
定された一定数の特徴ベクトル成分のみを用いて行うた
め、文字認識辞書に特徴ベクトルの配列順序を標準偏差
または分散の大きい次元順に並べ替えて登録し、未知パ
ターンの特徴ベクトルもこれと同じ順序に並べ替えを行
う必要がある。すなわち、多次元の特徴ベクトルのすべ
てについて、標準偏差または分散を計算して配列順序を
決定しなければならないため、対象字種数が多くなると
大きな処理工数を要するほか、対象字種数を変更すると
文字認識辞書全体を更新しなければならないという欠点
がある。
【0010】本発明の目的は、文字認識辞書の特徴ベク
トルの配列を変更することなく、1種類の文字認識辞書
のみで相違度の演算数を削減でき日本語文章の認識を高
速化できる文字認識装置を提供することにある。
【0011】
【課題を解決するための手段】請求項1の文字認識装置
は、分割された小領域ごとに複数の特徴要素成分を有す
る多次元の特徴ベクトルを用い日本語文字の認識を行う
文字認識装置であり、各文字種の標準パターンの特徴ベ
クトルと共に特徴ベクトルの相違度が小さい複数の文字
種で構成される複数の文字群のいずれに属するかを示す
文字群識別情報と各文字群の中心となる代表文字である
か否かを示す代表文字識別情報とが格納されている文字
認識辞書と、認識すべき未知入力文字の文字パターンを
取り込む文字パターン入力部と、取り込まれた文字パタ
ーンの大きさや線幅を一意に取り扱えるように正規化す
る文字パターン正規化部と、正規化された文字パターン
から特徴ベクトルを抽出する特徴ベクトル抽出部と、抽
出された特徴ベクトルと前記文字認識辞書の代表文字の
特徴ベクトルとを比較して相違度の小さい順にあらかじ
め定められた条件で初期候補となる代表文字を選択する
初期候補選択部と、選択された代表文字から相違度の小
さい順に候補文字を初期設定した後に選択された代表文
字が属する文字群の全文字種を対象として決められた特
徴要素成分の順番で各文字種について特徴要素成分ごと
に相違度の中間集計を行いながらその都度判定を加えて
随時候補文字を入れ替えていく最終候補選択部と、少な
くとも最終的に候補文字の最上位ランクに位置する文字
を認識結果として出力する認識結果出力部とを備えて構
成されている。
【0012】請求項2の文字認識装置は、請求項1記載
の文字認識装置において、前記初期候補選択部が、あら
かじめ定めた限度値よりも相違度が小さいすべての代表
文字を初期候補として選択することを特徴としている。
【0013】請求項3の文字認識装置は、請求項1又は
請求項2記載の文字認識装置において、前記初期候補選
択部が、抽出された特徴ベクトルと前記文字認識辞書の
代表文字の特徴ベクトルとを決められた特徴要素成分の
順番で比較し各代表文字について特徴要素成分ごとに相
違度の中間集計を行いながらその都度判定を加えて初期
候補となる代表文字を選択することを特徴としている。
【0014】請求項4の文字認識装置は、請求項1,2
又は請求項3記載の文字認識装置において、前記最終候
補選択部が、前記初期候補選択部で選択された代表文字
の中から相違度の小さい順に一定数のみを候補文字とし
て初期設定することを特徴としている。
【0015】請求項5の文字認識装置は、請求項1から
請求項4までの各項記載の文字認識装置において、前記
最終候補選択部が、特徴要素成分ごとの相違度の中間集
計値を候補文字の最下位ランク文字の相違度と比較し、
残りの特徴要素成分についての相違度の計算を継続する
かどうかを逐次判定していくことを特徴としている。
【0016】請求項6の文字認識装置は、請求項1から
請求項5までの各項記載の文字認識装置において、特徴
ベクトルを構成する複数の特徴要素成分が文字画像を細
線化した骨格パターン(又は文字画像の輪郭線パター
ン)の線素の方向を示す4方向要素であり、特徴要素成
分ごとに相違度の中間集計を行う際の順序を縦および横
方向の処理が斜め方向よりも先になるよう定めたことを
特徴としている。
【0017】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0018】図1は本発明の一実施例の構成を示すブロ
ック図である。
【0019】本実施例の文字認識装置は、図1に示すよ
うに、各文字種の標準パターンの特徴ベクトルと共に、
相違度が小さい類似文字で構成した複数の文字群のいず
れに属するかを示す識別情報および各文字群の中心とな
る代表文字を示す識別情報が格納されている文字認識辞
書1と、文字パターンを取り込むための文字パターン入
力部2と、取り込まれた文字パターンを一意に取り扱え
るように大きさや線幅を正規化するための文字パターン
正規化部3と、正規化された文字パターンから多次元の
特徴ベクトルを抽出する特徴ベクトル抽出部4と、抽出
された特徴ベクトルのすべての成分について前記文字認
識辞書1の代表文字と比較し、相違度があらかじめ定め
られた限度値より小さい代表文字を初期候補として選択
する初期候補選択部5と、選択された代表文字のすべて
を候補文字に初期設定した後に代表文字が属する全文字
群の全文字種を対象として、決められた特徴要素成分の
順番で特徴要素成分ごとに相違度の中間集計を逐次行
い、その都度処理継続の判定を入れながら随時候補文字
を入れ替えていく最終候補選択部6と、最終的に最上位
ランクに位置する文字を認識結果として出力する認識結
果出力部7とを備えて構成されている。
【0020】以下、日本語を対象とし、文字の骨格また
は輪郭の線素に4方向の特徴要素を割り当て、縦X×横
Y×4方向=4XY次元(XY小領域につき各4要素)
の特徴ベクトルを抽出して相違度による文字認識を行う
ものとして説明する。
【0021】文字認識辞書1には、認識対象となる全文
字種の標準パターンの特徴ベクトル成分が、各文字コー
ドに対して、決められた小領域順(例えば左上から右下
への順)で決められた要素順(例えば縦「|」,横
「―」,+45度「/」,−45度「\」の順)に登録
されている。ここで、文字認識辞書1に登録されている
特徴ベクトルの成分をGmik で表現し、添え字のmは辞
書に登録された文字種の順番を、iは小領域の順番を、
kは特徴要素の方向の順番を示すものとする。小領域お
よび特徴要素の順番を上に例示した順序で数字で表す
と、i,kはそれぞれi=1〜M(M=XY),k=1
〜4となり、文字種ごとに特徴ベクトルの各成分は、G
m11,Gm12,Gm13,Gm14,Gm21,Gm22,Gm23,Gm24,……
…GmM1,GmM2,GmM3,GmM4 のように配列されている。
【0022】文字認識辞書1には、これに加え、各文字
コードに対して、相違度が小さい類似文字で構成した複
数の文字群中のいずれに属するかを示す文字群識別情報
と、各文字群の中心となる代表文字であるか否かを示す
代表文字識別情報とが格納されている。すなわち、文字
認識辞書1に登録されている文字種は幾つかの文字群に
分類されており、各文字群は相違度の小さい複数の類似
文字から構成され、各文字群には一つの代表文字が指定
されている。JIS第1水準漢字までを含む日本語文章
を対象とすると、認識対象の文字種数は約3300であ
り文字群の数を200とすると一文字群の平均字種数は
165となる。文字群の編成法としては種々の方法が考
えられ特に限定されるものではないが、代表文字とその
文字群内の文字種との相違度が一定の値を超えないこと
が必要である。なお、各文字群の範囲に多少の重複があ
っても差し支えない。
【0023】文字パターン入力部2は、イメージスキャ
ナで読み込んだ文書イメージ中の1文字分の矩形領域を
文字パターンとして取り出すものであり、ここで取り込
まれた文字パターンは、大きさの正規化や線幅の正規化
を行うために文字パターン正規化部3に渡される。
【0024】正規化を行った文字パターンは、特徴ベク
トル抽出部4において複数の特徴要素に分解され特徴ベ
クトルが抽出される。すなわち、特徴ベクトルの性質に
応じて骨格線画パターン又は輪郭線パターンが抽出さ
れ、分割単位ごとに各線素が方向(特徴要素)別に集計
され、重み付け及び併合処理が行われて各小領域の特徴
ベクトル成分が計算される。
【0025】抽出された特徴ベクトルは初期候補選択部
5に渡され、文字認識辞書1に登録されている各文字群
の代表文字の標準パターンとの相違度が計算され、粗選
別により詳細比較を行う対象文字数が限定される。すな
わち、文字認識辞書1の代表文字識別情報を参照して各
文字群の代表文字を順次選択し、特徴ベクトルの同じ次
元同士を比較して相違度の総和を算出し、相違度の総和
があらかじめ定めた選別基準を超える文字群を除外して
いき、相違度の総和が選別基準以内の代表文字のみを初
期候補として最終候補選択部6に渡す。初期候補選択部
5における相違度の計算は、対象が代表文字のみである
ため全次元を対象とした通常の方法でもよいが、後述す
る最終候補選択部6の方法を適用すれば更に計算数を低
減し高速化することができる。なお、選別基準は文字群
数や文字群の大きさ等を考慮して設定され、後続処理を
簡単にするためには小さい値の方が有利であるが、代表
文字とその文字群内文字との相違度の最大値よりも大き
いことが必要である。
【0026】最終候補選択部6は、最初に初期候補選択
部5から渡されたすべての代表文字を相違度の小さい順
にソートして候補文字として初期設定する。初期設定が
終わると、渡された代表文字が属する文字群の全文字種
を対象とし、決められた特徴要素の順番で特徴要素ごと
に特徴ベクトルの相違度の中間集計を逐次行い、その都
度候補文字の最下位ランクの文字の相違度と比較して処
理継続の判定をする。相違度の中間集計値が最下位ラン
ク文字の相違度を超えていれば当該文字種に関する計算
を打ち切り次の文字に移る。全特徴要素の相違度の総和
が候補文字の最下位ランク文字の相違度より小さけれ
ば、当該文字種で候補文字を入れ替えていく。以上の処
理を繰り返すことにより、初期設定された候補文字は、
対象とした文字群中の相違度の総和が小さい文字で順次
入れ替えられ、相違度の総和が小さい順に配列されるこ
とになる。
【0027】認識結果出力部7は、最終候補文字の最上
位ランクに位置する文字を認識結果として出力し表示す
ればよい。なお、最上位ランクと次位ランク以下との相
違度の差が無いか僅少の場合には、これらの文字を記憶
すると共に認識結果の表示文字にマークを付し、必要な
場合に指示によって第2,第3ランクの候補文字を代替
候補として提示するように構成することもできる。
【0028】図2は最終候補選択部6の処理の詳細を示
す流れ図である。以下、図2を参照して最終候補選択部
6の動作を再度説明する。
【0029】初期候補選択部5から渡された代表文字を
候補文字として相違度の小さい順にソートして初期設定
を行い処理を開始する。ここで、候補文字数(文字群
数)をJとし、対応する文字群に含まれる総文字数をN
とすると、N文字の中で代表文字のJ文字については既
に初期候補選択部5で相違度が計算済みであるから、残
りのN−J文字について順次相違度計算を行い、相違度
の小さい文字種があれば初期設定した候補文字を入れ替
え、相違度の小さい順にJ文字種を最終候補文字として
残す処理を図2に示す手順に従って行う。まず、相違度
計算の対象となるN個の文字種に順番を付け、代表文字
を#1〜#Jとして、ステップS1で対象文字種の順序
を示すカウンタnの値をn=J+1に設定する。
【0030】次に、ステップS2で特徴要素(方向)を
示すカウンタkと相違度の集計値を入れるレジスタ△k-
1 及び△k の初期設定を行う。続いて、ステップS3で
入力パターンの特徴ベクトル成分Fikと標準パターンの
特徴ベクトル成分Gnik の差分の二乗を相違度として特
徴要素ごとに全小領域分の集計を行う。M(=XY)は
特徴ベクトルの1特徴要素(方向成分)当たりの次元数
であり、相違度の集計は特徴要素ごとに行われ、レジス
タ△k に計算結果が累積加算されていく。
【0031】ステップS4は1方向成分ごとの相違度が
計算されるたびに候補文字の最下位ランクの文字の相違
度△cJ(添え字cは候補文字をJはランクを示す)と現
在のレジスタ△k の相違度とを比較する。ここで、レジ
スタ△k の相違度が既に相違度△cJよりも大きければ、
ステップS8に進んで文字種位置を一つ進め、ステップ
S9の判定でカウンタnが対象とする総文字数Nを超え
ていなければステップS2に戻り次の文字種との比較に
移る。カウンタnが総文字数Nを超えていればそこで処
理を終了する。
【0032】レジスタ△k の相違度が相違度△cJより小
さければ、ステップS5に進みカウンタkを一つ進めて
対象方向を変更する。このとき、ステップS6における
比較で既に4方向についての相違度計算が終了していれ
ば、ステップS7で候補文字の入れ替えを行い、その後
に他の文字種との相違度計算へ移る。ステップS6の判
定でまだ別の方向成分の相違度計算が未処理であれば、
ステップS3に戻りその方向成分の相違度を計算して加
算し、ステップS4以降の処理を繰り返す。
【0033】図3は図2中のステップS7の候補文字の
入れ替え処理の流れ図である。図3を参照して入れ替え
処理を詳細に説明する。
【0034】最初に、ステップS71でカウンタjに候
補文字数Jを設定し、候補文字の最下位ランクから順次
上位ランクへと入れ替えを行っていく。まず、最下位ラ
ンクの候補文字を候補外へ移して新しい候補文字を最下
位に挿入する。すなわち、ステップS72において、相
違度△cJと新しい候補文字の相違度△4 (k=4とした
△k )との入れ替えが行われる。ここで、△cj+1は候補
外の相違度を表す。
【0035】続いて、ステップS73において一つ上の
ランクの候補文字との相違度の比較が行われ、一つ上の
ランクの候補文字よりも相違度が大きければ入れ替え処
理は終了する。一つ上のランクの候補文字よりも相違度
が小さければステップS74の処理に移る。ステップS
74においては、相違度の退避用変数△o に一つ上のラ
ンクの候補文字の相違度を退避し、候補ランクを入れ替
えるという処理が行われる。
【0036】候補ランクの入れ替えが終わるとステップ
S75においてカウンタjの値が一つ戻される。このと
き、ステップS76でカウンタjが最上位ランク(j=
1)を指していればそこで処理を終了させる。そうでは
なく、カウンタjがまだ最上位ランクに達していなけれ
ばステップS73以降の処理を繰り返す。
【0037】以上のようにして、初期候補選択部5で選
択された代表文字に対応する文字群のすべての文字種の
標準パターンとの比較および候補文字の入れ替えが終了
した時点で最終候補選択部6の処理は終了し、認識結果
出力部7から最終的に候補文字の最上位ランクに位置し
た文字が出力され、文字認識が終了する。
【0038】上述したように、本実施例においては、特
徴ベクトルの相違度の計算を先頭の成分から順に行って
一度に総和を求めるのではなく、決められた特徴要素の
順番で特徴要素ごとに中間集計を行いながら実行し、そ
の都度打ち切りか処理継続かの判定をするものである。
前述したように、文字認識辞書1には、各文字種の特徴
ベクトル成分が、決められた小領域順で決められた特徴
要素順に登録されている。従って、特徴ベクトルの相違
度を特徴要素ごとに中間集計することは、特徴ベクトル
成分の並び替えを行うことなく容易に行うことができ
る。すなわち、特徴要素が線素の4方向であれば、4個
ごとの成分を取り出してそれぞれ対応する成分の差分を
計算し集計を行えばよい。なお、文字認識辞書1に各文
字種の特徴ベクトル成分が、特徴要素順,小領域順で登
録されている場合には、小領域数ずつの連続した成分の
集計を行うことになる。
【0039】日本語文章には、漢字,平がな,片カナ,
英数字,記号が混在しており、使用文字の3〜4割は漢
字であると考えられる。文字を構成する線素の方向とい
う特徴要素に着目すると、平がな等は斜めあるいは曲線
といった成分が多いが、漢字ではそのほとんどが縦また
は横の直線成分であるといえる。このような日本語文章
の性質と第1水準の文字種の三千字種近くが漢字である
ことを考慮すると、縦また横の成分を先にし、斜め(4
方向で考えた場合±45度)の成分を後に集計するのが
効果的である。
【0040】上述した実施例の説明においては、初期候
補選択部5は、相違度が選別基準以下の代表文字のすべ
てを初期候補として最終候補選択部6に渡すものとした
が、最終候補選択部6における処理対象文字数を制限す
る観点から、代表文字のすべてではなく、相違度の小さ
いものから一定数の代表文字のみを渡すようにしてもよ
い。ただし、代表文字のすべてを渡す上述の実施例の方
式には、文字認識辞書1にJIS第2水準漢字などの認
識対象文字を追加登録する場合に、既登録の文字群の編
成を変更することなく、追加文字の文字群を範囲の重複
を考慮することなく独立に設定できる利点がある。これ
に対して、一定数のみを渡す方式の場合は、文字群の編
成を変更するか、渡す代表文字の数を変更するか、何ら
かの対応が必要となる。
【0041】又、最終候補選択部6は、初期候補選択部
5から渡されたすべての代表文字を相違度の小さい順に
ソートして候補文字として初期設定するものとした。し
かしながら、最終候補選択部6において順次入れ替えの
対象となる候補文字数は、代表文字の全数でなく限定さ
れた一定数(一つでもよいが複数が望ましい)でもよ
い。この場合、候補文字数と対象文字群の数とは一致し
なくなり、図2のステップS1における“J”と、ステ
ップS4における△cJの“J”は同一でなく、後者は図
3の“J”と共に“Jo ”(J>Jo )に置き替えられ
る。
【0042】更に、上述の実施例においては、最終候補
選択部6における相違度の中間集計ごとの継続処理の判
定基準として、候補文字の最下位ランクの総合相違度を
使用している。従って、判定基準値が処理の進行と共に
変化するが、この判定基準値を固定値としてもよい。こ
の場合、固定値は小さい方がよく、少なくとも初期候補
選択部5における選別基準よりも小さい値が適当であ
る。
【0043】
【発明の効果】以上説明したように、本発明の文字認識
装置においては、認識対象文字を相違度の小さい文字か
ら成る複数の文字群に分け、文字認識辞書に特徴ベクト
ルと共に文字群および代表文字の識別情報を登録し、代
表文字による粗選別を行うと共に、粗選別後の最終選別
における相違度の計算を特徴要素成分ごとに分割して行
い、一つの特徴要素成分についての相違度の計算を終え
るたびに判定を入れて必要のない特徴要素成分の計算を
打ち切るよう構成したので、余分な計算を省くことがで
きると共に候補文字の入れ替え処理も削減され、1種類
の特徴ベクトルのみを使用し、文字認識辞書の特徴ベク
トル成分の配列順序を特に変更することなく、文字認識
の認識速度を大幅に向上できるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】図1中の最終候補選択部における相違度計算の
処理を示す流れ図である。
【図3】図2中の候補文字の入れ替え処理の詳細を示す
流れ図である。
【符号の説明】
1 文字認識辞書 2 文字パターン入力部 3 文字パターン正規化部 4 特徴ベクトル抽出部 5 初期候補選択部 6 最終候補選択部 7 認識結果出力部
フロントページの続き (56)参考文献 特開 平6−22098(JP,A) 特開 平3−220685(JP,A) 特開 平1−161592(JP,A) 特開 平4−10090(JP,A) 特開 平6−348903(JP,A) 特開 昭63−126082(JP,A) 特開 昭63−780(JP,A) 「方向線素特徴量を用いた高精度文字 認識」,電子通信学会論文誌D−II, NO.3,PP.330−339,1991年3月 「加重方向指数ヒストグラム法のつぶ れ文字への対応」,信学技法,PRU90 −128,PP.21−26 (58)調査した分野(Int.Cl.6,DB名) G06K 9/62 620 G06K 9/62 630 G06K 9/68 特許ファイル(PATOLIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 分割された小領域ごとに複数の特徴要素
    成分を有する多次元の特徴ベクトルを用い日本語文字の
    認識を行う文字認識装置であり、各文字種の標準パター
    ンの特徴ベクトルと共に特徴ベクトルの相違度が小さい
    複数の文字種で構成される複数の文字群のいずれに属す
    るかを示す文字群識別情報と各文字群の中心となる代表
    文字であるか否かを示す代表文字識別情報とが格納され
    ている文字認識辞書と、認識すべき未知入力文字の文字
    パターンを取り込む文字パターン入力部と、取り込まれ
    た文字パターンの大きさや線幅を一意に取り扱えるよう
    に正規化する文字パターン正規化部と、正規化された文
    字パターンから特徴ベクトルを抽出する特徴ベクトル抽
    出部と、抽出された特徴ベクトルと前記文字認識辞書の
    代表文字の特徴ベクトルとを比較して相違度の小さい順
    にあらかじめ定められた条件で初期候補となる代表文字
    を選択する初期候補選択部と、選択された代表文字から
    相違度の小さい順に候補文字を初期設定した後に選択さ
    れた代表文字が属する文字群の全文字種を対象として決
    められた特徴要素成分の順番で各文字種について特徴要
    素成分ごとに相違度の中間集計を行いながらその都度判
    定を加えて随時候補文字を入れ替えていく最終候補選択
    部と、少なくとも最終的に候補文字の最上位ランクに位
    置する文字を認識結果として出力する認識結果出力部と
    を備えたことを特徴とする文字認識装置。
  2. 【請求項2】 前記初期候補選択部が、あらかじめ定め
    た限度値よりも相違度が小さいすべての代表文字を初期
    候補として選択することを特徴とする請求項1記載の文
    字認識装置。
  3. 【請求項3】 前記初期候補選択部が、抽出された特徴
    ベクトルと前記文字認識辞書の代表文字の特徴ベクトル
    とを決められた特徴要素成分の順番で比較し各代表文字
    について特徴要素成分ごとに相違度の中間集計を行いな
    がらその都度判定を加えて初期候補となる代表文字を選
    択することを特徴とする請求項1又は請求項2記載の文
    字認識装置。
  4. 【請求項4】 前記最終候補選択部が、前記初期候補選
    択部で選択された代表文字の中から相違度の小さい順に
    一定数のみを候補文字として初期設定することを特徴と
    する請求項1,2又は請求項3記載の文字認識装置。
  5. 【請求項5】 前記最終候補選択部が、特徴要素成分ご
    との相違度の中間集計値を候補文字の最下位ランク文字
    の相違度と比較し、残りの特徴要素成分についての相違
    度の計算を継続するかどうかを逐次判定していくことを
    特徴とする請求項1から請求項4までの各項記載の文字
    認識装置。
  6. 【請求項6】 特徴ベクトルを構成する複数の特徴要素
    成分が文字画像を細線化した骨格パターン(又は文字画
    像の輪郭線パターン)の線素の方向を示す4方向要素で
    あり、特徴要素成分ごとに相違度の中間集計を行う際の
    順序を縦および横方向の処理が斜め方向よりも先になる
    よう定めたことを特徴とする請求項1から請求項5まで
    の各項記載の文字認識装置。
JP6324582A 1994-12-27 1994-12-27 文字認識装置 Expired - Lifetime JP2766205B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6324582A JP2766205B2 (ja) 1994-12-27 1994-12-27 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6324582A JP2766205B2 (ja) 1994-12-27 1994-12-27 文字認識装置

Publications (2)

Publication Number Publication Date
JPH08180138A JPH08180138A (ja) 1996-07-12
JP2766205B2 true JP2766205B2 (ja) 1998-06-18

Family

ID=18167433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6324582A Expired - Lifetime JP2766205B2 (ja) 1994-12-27 1994-12-27 文字認識装置

Country Status (1)

Country Link
JP (1) JP2766205B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4594765B2 (ja) * 2005-03-08 2010-12-08 日本電信電話株式会社 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP6677019B2 (ja) 2016-03-02 2020-04-08 富士通株式会社 情報処理装置、情報処理プログラムおよび情報処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2832928B2 (ja) * 1986-11-14 1998-12-09 株式会社リコー 文字認識方法
JPH01161592A (ja) * 1987-12-18 1989-06-26 Fujitsu Ltd 文字認識装置
JP2940974B2 (ja) * 1990-01-26 1999-08-25 株式会社リコー マッチング方法
JPH0410090A (ja) * 1990-04-27 1992-01-14 Mitsubishi Electric Corp 文字認識方式
JPH0622098A (ja) * 1992-06-30 1994-01-28 Ricoh Co Ltd 画像処理装置
JPH06348903A (ja) * 1993-06-14 1994-12-22 Fuji Facom Corp 文字認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
「加重方向指数ヒストグラム法のつぶれ文字への対応」,信学技法,PRU90−128,PP.21−26
「方向線素特徴量を用いた高精度文字認識」,電子通信学会論文誌D−II,NO.3,PP.330−339,1991年3月

Also Published As

Publication number Publication date
JPH08180138A (ja) 1996-07-12

Similar Documents

Publication Publication Date Title
US7519226B2 (en) Form search apparatus and method
KR100249055B1 (ko) 문자인식장치및방법
EP0355748B1 (en) A pattern recognition apparatus and method for doing the same
US5579408A (en) Character recognition method and apparatus
US5005205A (en) Handwriting recognition employing pairwise discriminant measures
US5689584A (en) Method of and apparatus for pattern recognition and method of creating pattern recognition dictionary
JP2766205B2 (ja) 文字認識装置
JP2853168B2 (ja) パターン認識装置
JP3442223B2 (ja) 文字認識方法
JP3706646B2 (ja) Ocrの制御方法並びに分類方法及び装置
Bhardwaj et al. An OCR based approach for word spotting in Devanagari documents
KR950011065B1 (ko) 문자 인식방법
JP2803709B2 (ja) 文字認識装置及び文字認識方法
JPH06215197A (ja) 文字認識方法および装置
JPH0562021A (ja) 標準フオント及び利用者指定カスタムフオントを認識するための光学式文字認識(ocr)システム
JP2728117B2 (ja) 文字認識装置
JP2851865B2 (ja) 文字認識装置
JP3281530B2 (ja) 文字認識装置
JPH0557633B2 (ja)
JPH0769940B2 (ja) 連想整合認識方式
Lu et al. A background-thinning based algorithm for separating connected handwritten digit strings
JPH06251193A (ja) 文字列抽出装置
JPH02293990A (ja) 文字認識装置
JPH06231310A (ja) 文字認識装置における文字認識方法
JPH0567239A (ja) 活字文字認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980303