JP3623992B2

JP3623992B2 - 文字認識装置及び方法

Info

Publication number: JP3623992B2
Application number: JP26544294A
Authority: JP
Inventors: 正己久貝
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-10-28
Filing date: 1994-10-28
Publication date: 2005-02-23
Anticipated expiration: 2020-02-23
Also published as: JPH08123905A

Description

【０００１】
【産業上の利用分野】
本発明は入力された画像データ中の文字を認識する文字認識装置及び方法に関する。
【０００２】
【従来の技術】
一般に、文字認識装置のほとんどは、認識して得た文字コードを出力するのみである。文字フォントまで認識しようとする場合、文字の字形の微妙な差異を識別するために特徴ベクトルの次元数を大きくしたり、識別計算をいっそう複雑にしなければならない。
【０００３】
文字認識の場合、認識対象を英語に限ると、対象文字カテゴリは５２文字とそれに若干の記号が加わり、そのカテゴリ数はせいぜい１００程度である。それに対してよく使われる文字フォントの種類は、一般にはＣｏｕｒｉｅ，ＴｉｍｅｓＲｏｍａｎ，Ｈｅｌｖｅｔｉｃａ，及びイタリックなど４種類ぐらいである。フォント認識を行おうとする場合、まず最初に考え付く方法は、認識辞書を各フォントごとフォントの個数分（例えば４個）もち、各認識辞書は一つのフォントの学習文字から学習された標準パターンから造られる。そして、文字切り出しによって切り出された一個の文字画像から特徴ベクトルを抽出し、所定の識別計算法で各辞書の標準パターンとの類似度（または距離）を求める。類似度は、フォントの個数分つまり４個求まり、最大の類似度を与える認識辞書のフォントを解とする。ここで求まる４個の類似度は一般的に極めて近い値になる。なぜならば、フォントの違いはそれほど特徴を捉えにくいものだからである。そこで、特徴ベクトルの次元数を大きくしたり、識別計算を高度（複雑）なものにすれば、フォントの差異をとらえることができるかもしれないが、そうすると今度はそのため識別計算が多くなる。また、その計算量が認識辞書の個数倍（フォントの種類数）の計算量に達する。上記の例の場合、一つの標準パターンとの類似度計算負荷をρとすれば総計算量ρ×１００×４＝４００ρである。日本語を認識対象とすると、文字数が３，５００ぐらいであるから、総計算量＝ρ×３，５００×４＝１４，０００ρなる。これは、もともとフォントの差異を捉えるための類似度計算負荷ρは非常に大きいため実質的にフォント認識を実現的な処理時間で行えないことを意味する。
【０００４】
【発明が解決しようとする課題】
本発明は、現実的なフォント認識の処理時間を達成するため、処理時間の短縮と、フォント認識の精度を高める装置及び方法を提供する。
また、文書を入力したまま同じように出力することはそれなりに意義の有ることである。しかし、近年カラー印刷器が普及してきたことによりモノクロの文書をカラーで印刷し直したいという要求が当然のことながら出てくる。とくに従来モノクロ印刷器で印刷されて蓄積された文書をカラー化したいという欲求は増大してくる。同様にカラーディスプレイに表示したいという欲求も増大する。本発明は、フォント認識の応用としてこれらの欲求に応えるものでもある。
【０００５】
【課題を解決するための手段】
上記課題を解決するため、例えば本発明の文字認識装置は以下の構成を備える。すなわち、
文字画像を文字認識する文字認識装置であって、
認識対象の文字画像から特徴ベクトルを抽出する特徴抽出手段と、
文字カテゴリを決定するための標準パターン情報を記憶する第１の認識辞書と、
各文字カテゴリについて、特徴変換行列および文字フォントを決定するための標準フォントパターン情報を記憶する第２の認識辞書と、
前記特徴抽出手段で抽出された特徴ベクトルのベクトル成分の所定部分で構成される部分ベクトルを取得する特徴分解手段と、
前記特徴分解手段で取得した部分ベクトルと前記第１の認識辞書の標準パターン情報とに基づいて、最も類似する文字カテゴリを識別する第１の識別手段と、
前記第１の識別手段で識別された文字カテゴリについての特徴変換行列を用いて、前記特徴抽出手段で抽出された特徴ベクトルを新特徴ベクトルに変換し、当該変換された新特徴ベクトルと前記第２の認識辞書の標準フォントパターン情報とに基づいて、最も類似する文字フォントを識別する第２の識別手段とを備える。
【０００６】
また、本発明な好適な実施態様に従えば、前記第１の認識辞書に含まれる標準パターンの統計情報は、疑似ベイズ識別式の計算に必要な、平均ベクトル，固有値，固有ベクトル，高次固有値置き換えパラメータを含むことが望ましい。また、前記第２の認識辞書の標準フォントパターンは、疑似ペイズ識別式の計算に必要な、新特徴ベクトルの平均ベクトル，固有値，固有ベクトル，高次固有値置き換えパラメータを含むことが望ましい。
【０００７】
また、更には、文字カテゴリと文字フォントが決定された後、文字コードにフォント種別を対応させて出力する文字情報出力千段を有し、文字情報に違って、フォントごとに異なる色で表示および／または印刷することが望ましい。
【０００８】
【実施例】
以下、添付図面に従って本発明にかかる実施例を詳細に説明する。図１は実施例における文字認識装置のブロック構成図である。図中、１は装置全体の制御を司るＣＰＵであり、各種の演算等の処理を行う処理部としても機能する。２はバス、３はイメージスキャナ、４はＲＡＭ、５は特徴抽出部、６は表示部、７はポインティングデバイス、８は処理手順（プログラム等）を格納するＲＯＭ、９は認識辞書、１０は外部記憶部、１１はキーボード、１２はカラープリンタである。
【０００９】
図２は動作を説明するフローチャートである。以下、図２に従って上記構成における処理内容を説明する。
ステップＳ２１０でスキャナ３で原稿となる文書を読取り、それをイメージデータとしてＲＡＭ４に記憶する。ステップＳ２２０では、イメージデータを表示部８に表示する。ステップＳ２３０でポインティングデバイス（以下ＰＤという）で文字部分を枠で囲んで領域を指定する。ステップＳ２４０では、横方向と縦方向に黒画素の射影をとることにより文字の切り出し位置を探し、１文字ごとに切り出す。
【００１０】
ステップＳ２５０では以下のようにして特徴ベクトルを求める。
図３にステップＳ２４０で取り出された一個の文字画像を示す。ステップＳ２５０では、まず大きさを一定化（大きさの正規化）するため、図３の文字画像３０（Ｌ×Ｌ画素）を６２画素×６２画素の大きさの文字画像３１に変換する。変換は、正規化画像の座標（ｘ，ｙ）の画素値を次式で計算される座標（ｘ_０，ｙ_０）の文字画像３０の対応する画素値にすることで行う。
【００１１】
【数１】

【００１２】
【数２】

【００１３】
但し、Ｎ＝６２である。これで作られた６２画素×６２画素の画像のさらに外側に１ドット幅の白画素（画素値：０）の外枠を付加し、６４画素×６４画素の画像を最終的な正規化文字画像として得る。
次に０≦ｘ≦Ｎ，０≦ｙ≦Ｎの６３×６３画素領域を、９×９画素サイズの小領域で分割する。従って、小領域は全部で７×７＝４９個になる。図４の画像３１の升目は、この小領域を示している。
【００１４】
以下では、ｘ方向にｉ番目（ｉ＝０〜６），ｙ方向にｊ番目（ｊ＝０〜６）の小領域を現すのに（ｉ，ｊ）で指定することにする。ここで、ｉ＝６の行にある小領域と、ｊ＝６の列にある小領域は白画素の１ドット幅外枠を含むことに注意されたい。
前準備として、２×２の画素領域の取り得る状態は１６種類である。このうち、すべて白画素、或いはすべて黒画素の場合を除き、残りの１４個の画像を図５のように分類し、図示のように方向指数ｋ（ｋ＝０，１，２，３）を対応させておく。図６に各方向指数が現す４方向を示す。
【００１５】
さて、実施例では、次のようにして、小領域（ｉ，ｊ）の中の２×２の画素領域を設定し、それぞれの方向指数の頻度Ｈ_ｉｊ（ｋ）を求める。
図４は図３の正規化画像３１の小領域（０，０）を現している。この小領域においては、最左上に接して２×２のマスク領域４０を右方向へ１画素ずつずらしながら走査する。そして、１画素ずつ下方向にずらした位置を走査開始位置として順次走査していく。途中、マスク領域４１、４２、４３のように、隣の小領域にまたがる部分も発生する。
【００１６】
この走査中、マスクされた２×２画像領域が図５のどの方向指数かをみていく。そして、該当する方向指数ｋがあるごとにＨ_ｉｊ（ｋ）（この場合はＨ_００（ｋ）となる）をカウントアップしていく。この際、すべて白画素または黒画素の２×２画像は無視する。これを小領域内の９×９＝８１個に対して行う。
以上のことを各小領域について行って方向指数ヒストグラムＨ_ｉｊ（ｋ）（ｉ，ｊ＝０，１，…，６；ｋ＝０，１，２，３）が得られる。
【００１７】
尚、ｘ座標が６、又は、ｙ座標が６となっている小領域については、その外枠として１ドットの空白部分を持っているので、それぞれに対しても８１個の２×２画像領域の方向指数が求められる。
次に、４９個の小領域のうちｉおよびｊが偶数のものを代表小領域として選択する。ｉ，ｊは共に０〜６の値を取り得るので、全部で４×４＝１６個の代表小領域が特定できることになる。ここで、代表小領域の位置を解りやすくするために（ｉ′，ｊ′）（ｉ′，ｊ′＝０，１，２，３）で表わす。以下のように、代表小領域およびその近辺の小領域のヒストグラムを重み付け加算して、新しい変数ｈ_ｉ’ｊ’（ｋ）（ｉ′，ｊ′＝０，１，２，３；ｋ＝０，１，２，３）を求める。
【００１８】
【数３】

【００１９】
ここで、集合Ｇ（ｉ′，ｊ′）は、代表小領域およびその近辺の小領域を含むが、近辺の小領域とは代表小領域の上下左右斜めの８個の小領域である。重みファクターｇ_ｉｊは、注目小領域が代表小領域（ｉ，ｊ）のときは４、その上下左右の小領域（ｉ，ｊ）は２、斜めの小領域（ｉ，ｊ）は１であり、２次元ガウス分布関数に近いものである。ただし、（ｉ，ｊ）が未定義の小領域となってしまう場合はｇ_ｉｊ＝０とする。３次元配列ｈ_ｉ’ｊ’（ｋ）を、適当に一次元に並べ換えて特徴ベクトルｘ_ｉ（ｉ＝１，２，…，ｎ）を得る。実施例の場合、ｎは
ｎ＝４×４×４×＝６４
である（１つのｋにつき１６個あり、ｋは０〜３の値を取り得から、６４個になる）。
【００２０】
さて、さらにこの特徴ベクトルを拡張することを考える。各小領域毎にラスター走査を行なって黒画素の個数を求め小領域（ｉ，ｊ）の黒画素数をＨ_ij（４）（つまり、ｋが取り得る範囲を０〜４にする）で表し、上記式（Ａ−３）を適用して同様にｈ_i'j'（４）を得る。このようにして再度３次元配列ｈ_i'j'（ｋ）を、適当に一次元に並べ替えて特徴ベクトルｘ_i（ｉ＝１，２，…，ｎ’）を得る。今度の場合、ｎ’＝４×４×５＝８０となる。
【００２１】
ここで、改めて特徴ベクトルｘ_i（ｉ＝１，２，…，ｎ’）を方向指数の部分と黒画素数の部分とに分解して、方向指数の第一の部分ベクトルをｘ_i（ｉ＝１，２，…，ｎ）、黒画素数の第二の部分ベクトルをｘ_'i（ｉ＝１，２，…，ｎ”）で表す。ここで、ｎ＝４×４×４＝６４、ｎ”＝４×４×１＝１６であることは自明である。
【００２２】
以下に疑似ベイズ関数法における一般的な認識辞書の作成方法を述べる。認識辞書は、文字コードと文字属性及び標準パターンの対応テーブルであり、認識の対象となる全ての文字カテゴリについてそれらの情報を含んでいる。ここで文字属性とは、▲１▼文字種（英字・数字・漢字・ひらがな・かたかな・記号・その他の分類を示すコード）、▲２▼フォント種別、▲３▼文字サイズ（大文字か小文字かの区別、例えばアルファベットのｏ［オー］などのように２つのレターサイズで字形が同じ文字の区別）、▲４▼その他の文字の性質を表す情報のことである。文字コードは、対象文字種が英数字・記号だけならば１バイトのアスキーコードで良いし、対象文字種が日本語であれば２バイトのＪＩＳコードである。日本語の文字コードには、これ以外にもシフトＪＩＳやそのたのコード体系があるので、これに限るものではない。
【００２３】
さて、標準パターンは各文字カテゴリについて次の様に作成される。いま文字カテゴリをν［ニュー］で表すこととする（ν＝１，２，…，Ｌ）。文字カテゴリνをｎｓ回観測（イメージスキャナで読み込み一文字の画像として取り出す処理をいう）し、前記の方法で特徴ベクトルを求める。α回目の観測で得られた特徴ベクトルを_ｖｘα（次の式の左辺）で表す。ｎ_ｓ回の観測の平均ベクトル_ｖｘ_ａｖｅは、
【００２４】
【数４】

【００２５】
で求められる。任意のベクトルａを
【００２６】
【数５】

【００２７】
で表すとａの転置ベクトルａ^ｔは、ａ^ｔ＝（ａ_１ａ_２ …ａ_ｎ）である。ここで、
【００２８】
【数６】

【００２９】
を定義すれば_ｖＶは、いわゆるｎ×ｎの共分散行列である。各行列_ｖＶに対して、固有値と固有ベクトルを求め、固有値を_ｖλ_ｉ（ｉ＝１，２，…，ｎ）、_ｖλ_ｉに属する固有ベクトルを_ｖψ_ｉ（ｉ＝１，２，…，ｎ）で表す。但し、固有値_ｖλ_ｉはｉの順に値の降順に並べられている。
未知入力文字βの特徴ベクトルｘが得られたら、この未知入力文字βが文字カテゴリνである確率Ｐ（ｘ｜ν）は、
【００３０】
【数７】

【００３１】
で与えられる。但し、未知入力ベクトルはｎ変数正規分布に従うという合理的な仮定がなされている。さて、vｄ（ｘ）＝−２logＰ（ｘ｜ｖ）とおけば、
【００３２】
【数８】

【００３３】
となる。ここで、（ａ，ｂ）はベクトル内積を意味する。この値_ｖｄ（ｘ）が小さいほど未知入力文字はカテゴリ文字νに属する確率が大きいことになるので、_ｖｄ（ｘ）は相違度関数である。これは疑似ベイズ識別関数と呼ばれる。
ところで、固有値_ｖλ_ｉ（ｉ＝１，２，…，ｎ）、_ｖλ_ｉに属する固有ベクトル_ｖψ_ｉ（数８では上に矢印がある）（ｉ＝１，２，…，ｎ）を求めるためにｎ_ｓ個の学習文字を必要とするが、ｎ_ｓは有限の数であるから、固有値_ｖλ_ｉや固有ベクトル_ｖψ_ｉには誤差が含まれる。特に固有値の高次の項は、絶対値が小さいために精度が悪い。そこでｉ＝ｋ＋１次以降の固有値を全て一定の値_ｖΛで置き換えることにする。パラメータ_ｖΛは、例えば_ｖλ_ｋの固有値に等しくする方法や、或いはｉ＝ｋ＋１次以降の固有値全ての平均値にする方法、他の任意の値にする方法がある。また、一定値に置き換えない最高次の固有値の次数ｋ（１≦ｋ≦６４）は、例えば１０にする。この置き換えをすれば、上の相違度関数は、以下の様になる。
【００３４】
【数９】

【００３５】
ここで、文字カテゴリνの標準パターンとは、平均ベクトル_ｖｘ_ａｖｅ、固有値_ｖλ_ｉ（ｉ＝１，２，…，ｋ）、固有ベクトル_ｖψ_ｉ（数９では上に矢印がついている）（ｉ＝１，２，…，ｋ）、及びパラメータ_ｖΛの一式のデータのことと定義する。
さて、文字カテゴリν（ν＝１，２，…，Ｌ）に対して十分多くの学習文字（例えばｎ_ｓ＝５００個）から上記の方法によって、標準パターンをあらかじめ求めておき、文字カテゴリνの文字コードと文字属性とを組にして（文字コード、文字属性、標準パターン）の一セットを文字コード順に並べたテーブルを作り、認識辞書とする。認識辞書には、Ｌ個の文字カテゴリについての標準パターンが含まれている。
【００３６】
本実施例では認識辞書９の中に第一の認識辞書と第二の認識辞書の二つの認識辞書が記憶されている。今の場合、これらは一つのメモリ内に入っているが、別々のメモリに別れて入っていても構わない。
第一の認識辞書は、文字カテゴリを決定するためのもので、各カテゴリについて文字カテゴリνの文字コードと文字属性とを組にして（文字コード、文字属性、標準パターン）の１セットを文字コード順に並べたテーブルであり、標準パターンを作製する学習文字は全ての認識対象フォントのサンプル文字を十分な個数分含める。また標準パターンは計算量を少なくするため前記第一の部分ベクトル（６４次元）を特徴ベクトルとしたものとする。
【００３７】
こうして、ステップＳ２５０で得られた未知文字の特徴ベクトル（第一の部分ベクトル）と第一の認識辞書内の各文字カテゴリの標準パターンとの相違度を式（Ｂ−６）によって計算する（ステップＳ２６０）。文字カテゴリ数Ｌ個の相違度が求まったら、相違度の昇順に文字カテゴリをソートする。最小の相違度を与える文字カテゴリが認識結果である。
【００３８】
次にステップＳ２７０ではフォントを認識する。フォント認識には多クラス（クラス＝フォント）の判別分析の手法を用いる。未知文字の文字カテゴリ（すなわち文字コード）が確定したとして、次にそのフォントを認識する必要がある。ここでは、認識対象のフォントの個数をＦ個とする。未知フォント文字（文字カテゴリは確定されたがフォントが未知の文字）がどのフォント（以下クラスと呼ぶ）であるかを判別するために、ここでは、Ｆクラスの判別分析の手法を使用する。以下にその説明をする。以下において特徴ベクトルｘとは第一の部分ベクトルに第二の部分ベクトルをあわせた８０次元の特徴ベクトルを表す。
【００３９】
未知フォント文字の特徴ベクトルｘから判別に有効な新特徴ベクトルｙ（ｍ次元：ｍ≦ｎ）に変更する行列をＡ（ｍ×ｎ）とすると、
【００４０】
【数１０】

【００４１】
各クラスｃ_ｉ（ｉ＝１…Ｆ）の特徴ベクトルｘの平均ベクトルｘ_ｉａｖｅ、クラスｃ_ｉの共分散行列Σ_ｉは、次式で与えられる。
【００４２】
【数１１】

【００４３】
【数１２】

【００４４】
Ｅｃ_ｉ［…］は、クラスｃ_ｉでの算術平均を表す。平均ベクトルｘｉ_ａｖｅ、クラスｃ_ｉの共分散行列Σ_ｉは、クラスｃ_ｉの充分な個数（例えば５０個）から求めることができる。各クラスの事前発生確率（あるフォントがどれくらいの頻度で発生するかを表す確率）をω_ｉとしてクラス内共分散行列Σ_Ｗが次の様に定義できる。
【００４５】
【数１３】

【００４６】
ここで各クラスの事前発生確率ω_ｉは、各クラス（フォント）が使われる頻度を事前に統計的に調査して求めておくことができる。
そして、クラス間共分散行列Σ_Ｂを次の様に定義する。
【００４７】
【数１４】

【００４８】
ここで、ｘ_Ｔａｖｅは、クラス全体Ｃにわたる特徴ベクトルの平均ベクトルである。また、（Ｃ−４），（Ｃ−３），（Ｃ−５）においてｘをｙに置き換えて、新特徴ベクトルｙについてのクラス内共分散行列Θ_Ｗと、クラス間共分散行列Θ_Ｂを同様に定義できる。そうすると、次の関係が容易に分かる。
【００４９】
【数１５】

【００５０】
そこで、
【００５１】
【数１６】

【００５２】
とおけば、Ｊ（Ａ）が最大になるような変換行列Ａを求めれば新特徴ベクトルｙによって精度のいい識別が可能となるというのが多クラスにおける判別分析の示すところである。（Ｃ−６）、（Ｃ−７）により、これは次の固有値問題を解けばよい。
【００５３】
【数１７】

【００５４】
ここで、Λは、対角要素のみが０でない固有値（λ_１ ≧λ_２ …≧λ_ｍ）を持っているｍ×ｍの行列である。λｉに属する正規化された固有ベクトルをφ_ｉとすれば、Ａ＝（φ_１ φ_２ …φ_ｍ）である。固有ベクトルの正規化条件は、
【００５５】
【数１８】

【００５６】
である。ｘ→ｙの変換行列Ａは、式（Ｃ−４）と（Ｃ−５）により各クラスの学習データから固有値問題（Ｃ−８）を解いて求まる。
次に第二の準備として、各クラスの学習エラーから新特徴ベクトルｙ_ｉについての平均ベクトルｙ_ｉａｖｅと共分散行列（Ｂ−３でｘ→ｙとしたもの）の固有値・固有ベクトル及びパラメータ_ｉΛを求めておく。
【００５７】
こうしてあらかじめ変換行列Ａ及び新特徴ベクトルｙ_ｉについての平均ベクトルｙ_ｉａｖｅと共分散行列の固有値・固有ベクトル及びパラメータ_ｉΛを求めておけば、文字カテゴリが確定したあとのフォント認識を文字カテゴリを決定したのと同様に、フォントの決定を入力未知フォント文字と疑似ベイズ識別式で行なうことができる。ここで、フォント決定のための疑似ベイズ識別式を書けば、
【００５８】
【数１９】

【００５９】
但し、νはクラスを指定するインデックスである。
第二の認識辞書には、すべての文字カテゴリについて変換行列Ａ及び文字コード各フォントについての標準フォントパターン（Ｆ個）が対応して記憶されている。ここで標準フォントパターンとは、新特徴ベクトルｙ_ｉについての平均ベクトルｙ_ｉａｖｅと共分散行列の固有値・固有ベクトル及びパラメータ_ｉΛのことである。これらの統計量は、対応する文字カテゴリ・文字フォントの文字サンプルで学習して求めておくことは当然のことである。
【００６０】
未知文字の特徴ベクトルから特徴変換行列Ａによって新特徴ベクトルを求め、各フォントの標準フォントパターンとの相違度を式（Ｃ−１０）によって計算し、最小の相違度を与えるフォントを認識結果とする。ここで、特徴変換行列Ａは文字カテゴリ毎に違っていることに注意しておく。
ステップＳ２８０では文字コードとフォントコードをＲＡＭ４に出力し、色制御コード（アスキー制御文字のＥＳＣコード等を用いる）とフォントコードに対応する色コードをＲＡＭ４に出力し、ステップＳ２５０へ戻る。ステップＳ２５０で既に認識する文字がなくなったらステップＳ２９０へいく。ステップＳ２９０では、ＲＡＭ４の文字コードと色制御コードを入力し、色コードに対応する色で文字を印字する。印字はカラープリンタ１２で行なう。
【００６１】
【第２の実施例】
上記実施例では、文字カテゴリの決定に疑似ベイズ識別関数を使い、また文字フォントの決定にも疑似ベイズ識別関数を使った。しかしながら、第二の識別（文字フォントの決定）では、既に判別分析によって特徴を有効な新特徴ベクトルに変換しているので、必ずしも疑似ベイズ識別関数による必要はなく、もっと簡単なユークリッド距離関数或いは単純類似度、シティブロック距離関数等で識別しても、大きな精度減少は見られないで、若干処理の高速化が期待できる。
【００６２】
【第３の実施例】
ところで、第一の認識辞書は認識対象のすべてのフォントについて学習して造るものであるが、フォントの形状が特別他のフォントと大きく異なる場合がある。例えば、英語においてはイタリック体がそうである。このようなときは、第一の認識辞書だけですべてのフォントを学習することは困難である。そこで、特殊フォント（イタリック体）だけを別に学習してそのフォントだけからなる第三の認識辞書を造っておく。そして第一の識別手段では、未知入力文字と第一認識辞書及び第三認識辞書それぞれと前記の識別を行ない、第一認識辞書との相違度１と第三認識辞書との相違度２と求める。そして相違度１と相違度２の小さい方に対応する文字カテゴリを認識結果として、第二の識別手段に進み文字フォントを決定する方法がある。ここで第二の認識辞書は、特殊フォントを別にする必要はないことは明かである。
【００６３】
以上説明したように本実施例によれば、文字のフォントを高速かつ精度よく認識できる。従って、
既存のモノクロの文書をフォント毎に予め設定された色を対応させることでカラー化することができる。今後カラー複写機やカラープリンタが普及するにつれて、カラー文書による分かりやすい文書を作成することが要求される様になってくるが、既存の文書はモノクロである。そこで、本発明によれば容易にカラー文書を作成できるので、情報の表現をカラー化することに大きな効果がある。
【００６４】
尚、本発明を複写機に適応させた場合には、各フォント毎の出力色を操作パネル等で予め設定しておく。そして、キャラクタコードに基づいて文字パターンを発生する手段を備える。そして、上記処理で得られたキャラクタコード及びフォント種別情報に基づき、対応する文字パターンを発生し、それを操作パネル等で設定された色で印刷することになる。
【００６５】
また、複写機に限らず、プリンタ装置に印刷データを出力するホストコンピュータに適応することも可能である。つまり、上記処理で得られたキャラクタコード及びフォントの種別に基づいて、印刷データを形成（各フォント毎の出力色は予め設定されているものとする）し、それをプリンタに出力する。
また、上記実施例では、原稿画像を光学的に読み取る装置からの画像データを認識対象としたが、これに限るものではなく、例えばファクシミリ受信機を備え、それでもって受信した画像を認識し、出力する装置に適応しても良い。尚、この場合、認識対象の文字画像のサイズから、印刷するときの文字サイズ情報を印刷データの一部に組み込んで出力するようにしても良い。
【００６６】
尚、英語認識の例で処理時間についていえば、第一の認識辞書の標準パターンとの識別計算量は、ρ×１００＝１００ρで、第二の認識辞書との識別計算量は４ρ（フォント数＝４の場合）であるから、全体で１０４ρとなり、処理時間は大幅に減る。また、フォント認識の精度についていえば、第二の識別手段では特徴変換行列によってフォント識別に適した特徴を抽出するので精度が向上することは当然である。
【００６７】
また、本発明は複数の機器から構成されるシステムに適用しても１つの機器から成る装置に適用しても良く、また、システム或は装置にプログラムを供給することによって達成される場合にも適用できることは上記実施例の説明からすれば容易に想到できよう。
【００６８】
【発明の効果】
以上説明したように本発明によれば、文字のフォントを高速かつ精度よく認識できる。
【図面の簡単な説明】
【図１】実施例における文字認識装置のブロック構成図である。
【図２】実施例における文字認識処理内容を示すフローチャートである。
【図３】実施例における未知入力文字イメージと正規化文字イメージを示す図である。
【図４】正規化文字イメージの小領域と特徴抽出の概要を示す図である。
【図５】実施例における方向指数の種類を示す図である。
【図６】図６の方向指数の方向とその値の関係を示す図である。
【符号の説明】
１ＣＰＵ
２バス
３イメージスキャナ
４ＲＡＭ
５特徴抽出部、
６表示部
７ポインティングデバイス
８処理手順を格納するＲＯＭ
９認識辞書
１０外部記憶部
１１キーボード
１２カラープリンタ

Claims

文字画像を文字認識する文字認識装置であって、
認識対象の文字画像から特徴ベクトルを抽出する特徴抽出手段と、
文字カテゴリを決定するための標準パターン情報を記憶する第１の認識辞書と、
各文字カテゴリについて、特徴変換行列および文字フォントを決定するための標準フォントパターン情報を記憶する第２の認識辞書と、
前記特徴抽出手段で抽出された特徴ベクトルのベクトル成分の所定部分で構成される部分ベクトルを取得する特徴分解手段と、
前記特徴分解手段で取得した部分ベクトルと前記第１の認識辞書の標準パターン情報とに基づいて、最も類似する文字カテゴリを識別する第１の識別手段と、
前記第１の識別手段で識別された文字カテゴリについての特徴変換行列を用いて、前記特徴抽出手段で抽出された特徴ベクトルを新特徴ベクトルに変換し、当該変換された新特徴ベクトルと前記第２の認識辞書の標準フォントパターン情報とに基づいて、最も類似する文字フォントを識別する第２の識別手段と
を備えることを特徴とする文字認識装置。
前記第１の認識辞書に含まれる標準パターン情報は、疑似ベイズ識別式の計算に必要な、平均ベクトル，固有値，固有ベクトル，高次固有値置き換えパラメータを含むことを特徴とする請求項第１項に記載の文字認識装置。
前記第２の認識辞書の標準フォントパターン情報は、疑似ベイズ識別式の計算に必要な、新特徴ベクトルの平均ベクトル，固有値，固有ベクトル，高次固有値置き換えパラメータを含むことを特徴とする請求項第１項に記載の文字認識装置。
前記第１の識別手段で識別された文字カテゴリの文字コードと、前記第２の識別手段で識別された文字フォントのフォント種別とを対応させて出力する文字情報出力手段を更に有し、前記文字情報出力手段は、フォントごとに異なる色で表示および／または印刷することを特徴とする請求項第１項に記載の文字認識装置。
前記第１の識別手段で識別される最も類似する文字カテゴリとは、前記部分ベクトルと前記第１の認識辞書の標準パターン情報との相違度を計算して、最少の相違度となる標準パターン情報に対応する文字カテゴリであることを特徴とする請求項第１項に記載の文字認識装置。
前記第２の識別手段で識別される最も類似する文字フォントとは、前記新特徴ベクトルと前記第２の認識辞書の標準フォントパターン情報との相違度を計算して、最少の相違度となる標準フォントパターン情報に対応する文字フォントであることを特徴とする請求項第１項に記載の文字認識装置。
前記相違度の計算は、距離関数を用いた計算であることを特徴とする請求項第５項または第６項に記載の文字認識装置。
文字画像を文字認識する文字認識方法であって、
認識対象の文字画像から特徴ベクトルを抽出する特徴抽出工程と、
前記特徴抽出手段で抽出された特徴ベクトルのベクトル成分の所定部分で構成される部分ベクトルを取得する特徴分解工程と、
前記特徴分解工程で取得した部分ベクトルと、第１の認識辞書に記憶されている文字カテゴリを決定するための標準パターン情報とに基づいて、最も類似する文字カテゴリを識別する第１の識別工程と、
前記第１の識別工程で識別された文字カテゴリについての特徴変換行列を用いて、前記特徴抽出工程で抽出された特徴ベクトルを新特徴ベクトルに変換し、当該変換された新特徴ベクトルと、第２の認識辞書に記憶されている文字フォントを決定するための標準フォントパターン情報とに基づいて、最も類似する文字フォントを識別する第２の識別工程と
を備えることを特徴とする文字認識方法。
前記第１の認識辞書に含まれる標準パターン情報は、疑似ベイズ識別式の計算に必要な、平均ベクトル，固有値，固有ベクトル，高次固有値置き換えパラメータを含むことを特徴とする請求項第８項に記載の文字認識方法。
前記第２の認識辞書の標準フォントパターン情報は、疑似ベイズ識別式の計算に必要な、新特徴ベクトルの平均ベクトル，固有値，固有ベクトル，高次固有値置き換えパラメータを含むことを特徴とする請求項第８項に記載の文字認識方法。
前記第１の識別工程で識別された文字カテゴリの文字コードと、前記第２の識別工程で識別された文字フォントのフォント種別とを対応させて出力する文字情報出力工程を更に有し、前記文字情報出力工程では、フォントごとに異なる色で表示および／または印刷することを特徴とする請求項第８項に記載の文字認識方法。
前記第１の識別工程で識別される最も類似する文字カテゴリとは、前記部分ベクトルと前記第１の認識辞書の標準パターン情報との相違度を計算して、最少の相違度となる標準パターン情報に対応する文字カテゴリであることを特徴とする請求項第８項に記載の文字認識方法。
前記第２の識別工程で識別される最も類似する文字フォントとは、前記新特徴ベクトルと前記第２の認識辞書の標準フォントパターン情報との相違度を計算して、最少の相違度となる標準フォントパターン情報に対応する文字フォントであることを特徴とする請求項第８項に記載の文字認識方法。
前記相違度の計算は、距離関数を用いた計算であることを特徴とする請求項第１２項または第１３項に記載の文字認識方法。