JP3623992B2 - 文字認識装置及び方法 - Google Patents
文字認識装置及び方法 Download PDFInfo
- Publication number
- JP3623992B2 JP3623992B2 JP26544294A JP26544294A JP3623992B2 JP 3623992 B2 JP3623992 B2 JP 3623992B2 JP 26544294 A JP26544294 A JP 26544294A JP 26544294 A JP26544294 A JP 26544294A JP 3623992 B2 JP3623992 B2 JP 3623992B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- font
- vector
- pattern information
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
【産業上の利用分野】
本発明は入力された画像データ中の文字を認識する文字認識装置及び方法に関する。
【0002】
【従来の技術】
一般に、文字認識装置のほとんどは、認識して得た文字コードを出力するのみである。文字フォントまで認識しようとする場合、文字の字形の微妙な差異を識別するために特徴ベクトルの次元数を大きくしたり、識別計算をいっそう複雑にしなければならない。
【0003】
文字認識の場合、認識対象を英語に限ると、対象文字カテゴリは52文字とそれに若干の記号が加わり、そのカテゴリ数はせいぜい100程度である。それに対してよく使われる文字フォントの種類は、一般にはCourie,Times Roman,Helvetica, 及びイタリックなど4種類ぐらいである。フォント認識を行おうとする場合、まず最初に考え付く方法は、認識辞書を各フォントごとフォントの個数分(例えば4個)もち、各認識辞書は一つのフォントの学習文字から学習された標準パターンから造られる。そして、文字切り出しによって切り出された一個の文字画像から特徴ベクトルを抽出し、所定の識別計算法で各辞書の標準パターンとの類似度(または距離)を求める。類似度は、フォントの個数分つまり4個求まり、最大の類似度を与える認識辞書のフォントを解とする。ここで求まる4個の類似度は一般的に極めて近い値になる。なぜならば、フォントの違いはそれほど特徴を捉えにくいものだからである。そこで、特徴ベクトルの次元数を大きくしたり、識別計算を高度(複雑)なものにすれば、フォントの差異をとらえることができるかもしれないが、そうすると今度はそのため識別計算が多くなる。また、その計算量が認識辞書の個数倍(フォントの種類数)の計算量に達する。上記の例の場合、一つの標準パターンとの類似度計算負荷をρとすれば総計算量ρ×100×4=400ρである。日本語を認識対象とすると、文字数が3,500ぐらいであるから、総計算量=ρ×3,500×4=14,000ρなる。これは、もともとフォントの差異を捉えるための類似度計算負荷ρは非常に大きいため実質的にフォント認識を実現的な処理時間で行えないことを意味する。
【0004】
【発明が解決しようとする課題】
本発明は、現実的なフォント認識の処理時間を達成するため、処理時間の短縮と、フォント認識の精度を高める装置及び方法を提供する。
また、文書を入力したまま同じように出力することはそれなりに意義の有ることである。しかし、近年カラー印刷器が普及してきたことによりモノクロの文書をカラーで印刷し直したいという要求が当然のことながら出てくる。とくに従来モノクロ印刷器で印刷されて蓄積された文書をカラー化したいという欲求は増大してくる。同様にカラーディスプレイに表示したいという欲求も増大する。本発明は、フォント認識の応用としてこれらの欲求に応えるものでもある。
【0005】
【課題を解決するための手段】
上記課題を解決するため、例えば本発明の文字認識装置は以下の構成を備える。すなわち、
文字画像を文字認識する文字認識装置であって、
認識対象の文字画像から特徴ベクトルを抽出する特徴抽出手段と、
文字カテゴリを決定するための標準パターン情報を記憶する第1の認識辞書と、
各文字カテゴリについて、特徴変換行列および文字フォントを決定するための標準フォントパターン情報を記憶する第2の認識辞書と、
前記特徴抽出手段で抽出された特徴ベクトルのベクトル成分の所定部分で構成される部分ベクトルを取得する特徴分解手段と、
前記特徴分解手段で取得した部分ベクトルと前記第1の認識辞書の標準パターン情報とに基づいて、最も類似する文字カテゴリを識別する第1の識別手段と、
前記第1の識別手段で識別された文字カテゴリについての特徴変換行列を用いて、前記特徴抽出手段で抽出された特徴ベクトルを新特徴ベクトルに変換し、当該変換された新特徴ベクトルと前記第2の認識辞書の標準フォントパターン情報とに基づいて、最も類似する文字フォントを識別する第2の識別手段とを備える。
【0006】
また、本発明な好適な実施態様に従えば、前記第1の認識辞書に含まれる標準パターンの統計情報は、疑似ベイズ識別式の計算に必要な、平均ベクトル,固有値,固有ベクトル,高次固有値置き換えパラメータを含むことが望ましい。また、前記第2の認識辞書の標準フォントパターンは、疑似ペイズ識別式の計算に必要な、新特徴ベクトルの平均ベクトル,固有値,固有ベクトル,高次固有値置き換えパラメータを含むことが望ましい。
【0007】
また、更には、文字カテゴリと文字フォントが決定された後、文字コードにフォント種別を対応させて出力する文字情報出力千段を有し、文字情報に違って、フォントごとに異なる色で表示および/または印刷することが望ましい。
【0008】
【実施例】
以下、添付図面に従って本発明にかかる実施例を詳細に説明する。図1は実施例における文字認識装置のブロック構成図である。図中、1は装置全体の制御を司るCPUであり、各種の演算等の処理を行う処理部としても機能する。2はバス、3はイメージスキャナ、4はRAM、5は特徴抽出部、6は表示部、7はポインティングデバイス、8は処理手順(プログラム等)を格納するROM、9は認識辞書、10は外部記憶部、11はキーボード、12はカラープリンタである。
【0009】
図2は動作を説明するフローチャートである。以下、図2に従って上記構成における処理内容を説明する。
ステップS210でスキャナ3で原稿となる文書を読取り、それをイメージデータとしてRAM4に記憶する。ステップS220では、イメージデータを表示部8に表示する。ステップS230でポインティングデバイス(以下PDという)で文字部分を枠で囲んで領域を指定する。ステップS240では、横方向と縦方向に黒画素の射影をとることにより文字の切り出し位置を探し、1文字ごとに切り出す。
【0010】
ステップS250では以下のようにして特徴ベクトルを求める。
図3にステップS240で取り出された一個の文字画像を示す。ステップS250では、まず大きさを一定化(大きさの正規化)するため、図3の文字画像30(L×L画素)を62画素×62画素の大きさの文字画像31に変換する。変換は、正規化画像の座標(x,y)の画素値を次式で計算される座標(x0,y0)の文字画像30の対応する画素値にすることで行う。
【0011】
【数1】
【0012】
【数2】
【0013】
但し、N=62である。これで作られた62画素×62画素の画像のさらに外側に1ドット幅の白画素(画素値:0)の外枠を付加し、64画素×64画素の画像を最終的な正規化文字画像として得る。
次に0≦x≦N,0≦y≦Nの63×63画素領域を、9×9画素サイズの小領域で分割する。従って、小領域は全部で7×7=49個になる。図4の画像31の升目は、この小領域を示している。
【0014】
以下では、x方向にi番目(i=0〜6),y方向にj番目(j=0〜6)の小領域を現すのに(i,j)で指定することにする。ここで、i=6の行にある小領域と、j=6の列にある小領域は白画素の1ドット幅外枠を含むことに注意されたい。
前準備として、2×2の画素領域の取り得る状態は16種類である。このうち、すべて白画素、或いはすべて黒画素の場合を除き、残りの14個の画像を図5のように分類し、図示のように方向指数k(k=0,1,2,3)を対応させておく。図6に各方向指数が現す4方向を示す。
【0015】
さて、実施例では、次のようにして、小領域(i,j)の中の2×2の画素領域を設定し、それぞれの方向指数の頻度Hij(k)を求める。
図4は図3の正規化画像31の小領域(0,0)を現している。この小領域においては、最左上に接して2×2のマスク領域40を右方向へ1画素ずつずらしながら走査する。そして、1画素ずつ下方向にずらした位置を走査開始位置として順次走査していく。途中、マスク領域41、42、43のように、隣の小領域にまたがる部分も発生する。
【0016】
この走査中、マスクされた2×2画像領域が図5のどの方向指数かをみていく。そして、該当する方向指数kがあるごとにHij(k)(この場合はH00(k)となる)をカウントアップしていく。この際、すべて白画素または黒画素の2×2画像は無視する。これを小領域内の9×9=81個に対して行う。
以上のことを各小領域について行って方向指数ヒストグラムHij(k)(i,j=0,1,…,6;k=0,1,2,3)が得られる。
【0017】
尚、x座標が6、又は、y座標が6となっている小領域については、その外枠として1ドットの空白部分を持っているので、それぞれに対しても81個の2×2画像領域の方向指数が求められる。
次に、49個の小領域のうちiおよびjが偶数のものを代表小領域として選択する。i,jは共に0〜6の値を取り得るので、全部で4×4=16個の代表小領域が特定できることになる。ここで、代表小領域の位置を解りやすくするために(i′,j′)(i′,j′=0,1,2,3)で表わす。以下のように、代表小領域およびその近辺の小領域のヒストグラムを重み付け加算して、新しい変数hi’j’(k)(i′,j′=0,1,2,3;k=0,1,2,3)を求める。
【0018】
【数3】
【0019】
ここで、集合G(i′,j′)は、代表小領域およびその近辺の小領域を含むが、近辺の小領域とは代表小領域の上下左右斜めの8個の小領域である。重みファクターgijは、注目小領域が代表小領域(i,j)のときは4、その上下左右の小領域(i,j)は2、斜めの小領域(i,j)は1であり、2次元ガウス分布関数に近いものである。ただし、(i,j)が未定義の小領域となってしまう場合はgij=0とする。3次元配列hi’j’(k)を、適当に一次元に並べ換えて特徴ベクトルxi(i=1,2,…,n)を得る。実施例の場合、nは
n=4×4×4×=64
である(1つのkにつき16個あり、kは0〜3の値を取り得から、64個になる)。
【0020】
さて、さらにこの特徴ベクトルを拡張することを考える。各小領域毎にラスター走査を行なって黒画素の個数を求め小領域(i,j)の黒画素数をHij(4)(つまり、kが取り得る範囲を0〜4にする)で表し、上記式(A−3)を適用して同様にhi'j'(4)を得る。このようにして再度3次元配列hi'j'(k)を、適当に一次元に並べ替えて特徴ベクトルxi(i=1,2,…,n’)を得る。今度の場合、n’=4×4×5=80となる。
【0021】
ここで、改めて特徴ベクトルxi(i=1,2,…,n’)を方向指数の部分と黒画素数の部分とに分解して、方向指数の第一の部分ベクトルをxi(i=1,2,…,n)、黒画素数の第二の部分ベクトルをx'i(i=1,2,…,n”)で表す。ここで、n=4×4×4=64、n”=4×4×1=16であることは自明である。
【0022】
以下に疑似ベイズ関数法における一般的な認識辞書の作成方法を述べる。認識辞書は、文字コードと文字属性及び標準パターンの対応テーブルであり、認識の対象となる全ての文字カテゴリについてそれらの情報を含んでいる。ここで文字属性とは、▲1▼文字種(英字・数字・漢字・ひらがな・かたかな・記号・その他の分類を示すコード)、▲2▼フォント種別、▲3▼文字サイズ(大文字か小文字かの区別、例えばアルファベットのo[オー]などのように2つのレターサイズで字形が同じ文字の区別)、▲4▼その他の文字の性質を表す情報のことである。文字コードは、対象文字種が英数字・記号だけならば1バイトのアスキーコードで良いし、対象文字種が日本語であれば2バイトのJISコードである。日本語の文字コードには、これ以外にもシフトJISやそのたのコード体系があるので、これに限るものではない。
【0023】
さて、標準パターンは各文字カテゴリについて次の様に作成される。いま文字カテゴリをν[ニュー]で表すこととする(ν=1,2,…,L)。文字カテゴリνをns回観測(イメージスキャナで読み込み一文字の画像として取り出す処理をいう)し、前記の方法で特徴ベクトルを求める。α回目の観測で得られた特徴ベクトルをvxα(次の式の左辺)で表す。ns回の観測の平均ベクトルvxaveは、
【0024】
【数4】
【0025】
で求められる。任意のベクトルaを
【0026】
【数5】
【0027】
で表すとaの転置ベクトルatは、at=(a1 a2 …an )である。ここで、
【0028】
【数6】
【0029】
を定義すればvVは、いわゆるn×nの共分散行列である。各行列vVに対して、固有値と固有ベクトルを求め、固有値をvλi (i=1,2,…,n)、vλiに属する固有ベクトルをvψi(i=1,2,…,n)で表す。但し、固有値vλiはiの順に値の降順に並べられている。
未知入力文字βの特徴ベクトルxが得られたら、この未知入力文字βが文字カテゴリνである確率P(x|ν)は、
【0030】
【数7】
【0031】
で与えられる。但し、未知入力ベクトルはn変数正規分布に従うという合理的な仮定がなされている。さて、vd(x)=−2logP(x|v)とおけば、
【0032】
【数8】
【0033】
となる。ここで、(a,b)はベクトル内積を意味する。この値vd(x)が小さいほど未知入力文字はカテゴリ文字νに属する確率が大きいことになるので、vd(x)は相違度関数である。これは疑似ベイズ識別関数と呼ばれる。
ところで、固有値vλi(i=1,2,…,n)、vλiに属する固有ベクトルvψi(数8では上に矢印がある)(i=1,2,…,n)を求めるためにns個の学習文字を必要とするが、nsは有限の数であるから、固有値vλiや固有ベクトルvψiには誤差が含まれる。特に固有値の高次の項は、絶対値が小さいために精度が悪い。そこでi=k+1次以降の固有値を全て一定の値vΛで置き換えることにする。パラメータvΛは、例えばvλk の固有値に等しくする方法や、或いはi=k+1次以降の固有値全ての平均値にする方法、他の任意の値にする方法がある。また、一定値に置き換えない最高次の固有値の次数k(1≦k≦64)は、例えば10にする。この置き換えをすれば、上の相違度関数は、以下の様になる。
【0034】
【数9】
【0035】
ここで、文字カテゴリνの標準パターンとは、平均ベクトルvxave、固有値vλi(i=1,2,…,k)、固有ベクトルvψi(数9では上に矢印がついている)(i=1,2,…,k)、及びパラメータvΛの一式のデータのことと定義する。
さて、文字カテゴリν(ν=1,2,…,L)に対して十分多くの学習文字(例えばns=500個)から上記の方法によって、標準パターンをあらかじめ求めておき、文字カテゴリνの文字コードと文字属性とを組にして(文字コード、文字属性、標準パターン)の一セットを文字コード順に並べたテーブルを作り、認識辞書とする。認識辞書には、L個の文字カテゴリについての標準パターンが含まれている。
【0036】
本実施例では認識辞書9の中に第一の認識辞書と第二の認識辞書の二つの認識辞書が記憶されている。今の場合、これらは一つのメモリ内に入っているが、別々のメモリに別れて入っていても構わない。
第一の認識辞書は、文字カテゴリを決定するためのもので、各カテゴリについて文字カテゴリνの文字コードと文字属性とを組にして(文字コード、文字属性、標準パターン)の1セットを文字コード順に並べたテーブルであり、標準パターンを作製する学習文字は全ての認識対象フォントのサンプル文字を十分な個数分含める。また標準パターンは計算量を少なくするため前記第一の部分ベクトル(64次元)を特徴ベクトルとしたものとする。
【0037】
こうして、ステップS250で得られた未知文字の特徴ベクトル(第一の部分ベクトル)と第一の認識辞書内の各文字カテゴリの標準パターンとの相違度を式(B−6)によって計算する(ステップS260)。文字カテゴリ数L個の相違度が求まったら、相違度の昇順に文字カテゴリをソートする。最小の相違度を与える文字カテゴリが認識結果である。
【0038】
次にステップS270ではフォントを認識する。フォント認識には多クラス(クラス=フォント)の判別分析の手法を用いる。未知文字の文字カテゴリ(すなわち文字コード)が確定したとして、次にそのフォントを認識する必要がある。ここでは、認識対象のフォントの個数をF個とする。未知フォント文字(文字カテゴリは確定されたがフォントが未知の文字)がどのフォント(以下クラスと呼ぶ)であるかを判別するために、ここでは、Fクラスの判別分析の手法を使用する。以下にその説明をする。以下において特徴ベクトルxとは第一の部分ベクトルに第二の部分ベクトルをあわせた80次元の特徴ベクトルを表す。
【0039】
未知フォント文字の特徴ベクトルxから判別に有効な新特徴ベクトルy(m次元:m≦n)に変更する行列をA(m×n)とすると、
【0040】
【数10】
【0041】
各クラスci(i=1…F)の特徴ベクトルxの平均ベクトルxiave 、クラスciの共分散行列Σi は、次式で与えられる。
【0042】
【数11】
【0043】
【数12】
【0044】
Eci[…]は、クラスciでの算術平均を表す。平均ベクトルxiave 、クラスciの共分散行列Σiは、クラスciの充分な個数(例えば50個)から求めることができる。各クラスの事前発生確率(あるフォントがどれくらいの頻度で発生するかを表す確率)をωiとしてクラス内共分散行列ΣWが次の様に定義できる。
【0045】
【数13】
【0046】
ここで各クラスの事前発生確率ωiは、各クラス(フォント)が使われる頻度を事前に統計的に調査して求めておくことができる。
そして、クラス間共分散行列ΣBを次の様に定義する。
【0047】
【数14】
【0048】
ここで、xTaveは、クラス全体Cにわたる特徴ベクトルの平均ベクトルである。また、(C−4),(C−3),(C−5)においてxをyに置き換えて、新特徴ベクトルyについてのクラス内共分散行列ΘWと、クラス間共分散行列ΘBを同様に定義できる。そうすると、次の関係が容易に分かる。
【0049】
【数15】
【0050】
そこで、
【0051】
【数16】
【0052】
とおけば、J(A)が最大になるような変換行列Aを求めれば新特徴ベクトルyによって精度のいい識別が可能となるというのが多クラスにおける判別分析の示すところである。(C−6)、(C−7)により、これは次の固有値問題を解けばよい。
【0053】
【数17】
【0054】
ここで、Λは、対角要素のみが0でない固有値(λ1 ≧λ2 …≧λm )を持っているm×mの行列である。λiに属する正規化された固有ベクトルをφiとすれば、A=(φ1 φ2 …φm)である。固有ベクトルの正規化条件は、
【0055】
【数18】
【0056】
である。x→yの変換行列Aは、式(C−4)と(C−5)により各クラスの学習データから固有値問題(C−8)を解いて求まる。
次に第二の準備として、各クラスの学習エラーから新特徴ベクトルyiについての平均ベクトルyiaveと共分散行列(B−3でx→yとしたもの)の固有値・固有ベクトル及びパラメータiΛを求めておく。
【0057】
こうしてあらかじめ変換行列A及び新特徴ベクトルyiについての平均ベクトルyiaveと共分散行列の固有値・固有ベクトル及びパラメータiΛを求めておけば、文字カテゴリが確定したあとのフォント認識を文字カテゴリを決定したのと同様に、フォントの決定を入力未知フォント文字と疑似ベイズ識別式で行なうことができる。ここで、フォント決定のための疑似ベイズ識別式を書けば、
【0058】
【数19】
【0059】
但し、νはクラスを指定するインデックスである。
第二の認識辞書には、すべての文字カテゴリについて変換行列A及び文字コード各フォントについての標準フォントパターン(F個)が対応して記憶されている。ここで標準フォントパターンとは、新特徴ベクトルyiについての平均ベクトルyiaveと共分散行列の固有値・固有ベクトル及びパラメータiΛのことである。これらの統計量は、対応する文字カテゴリ・文字フォントの文字サンプルで学習して求めておくことは当然のことである。
【0060】
未知文字の特徴ベクトルから特徴変換行列Aによって新特徴ベクトルを求め、各フォントの標準フォントパターンとの相違度を式(C−10)によって計算し、最小の相違度を与えるフォントを認識結果とする。ここで、特徴変換行列Aは文字カテゴリ毎に違っていることに注意しておく。
ステップS280では文字コードとフォントコードをRAM4に出力し、色制御コード(アスキー制御文字のESCコード等を用いる)とフォントコードに対応する色コードをRAM4に出力し、ステップS250へ戻る。ステップS250で既に認識する文字がなくなったらステップS290へいく。ステップS290では、RAM4の文字コードと色制御コードを入力し、色コードに対応する色で文字を印字する。印字はカラープリンタ12で行なう。
【0061】
【第2の実施例】
上記実施例では、文字カテゴリの決定に疑似ベイズ識別関数を使い、また文字フォントの決定にも疑似ベイズ識別関数を使った。しかしながら、第二の識別(文字フォントの決定)では、既に判別分析によって特徴を有効な新特徴ベクトルに変換しているので、必ずしも疑似ベイズ識別関数による必要はなく、もっと簡単なユークリッド距離関数或いは単純類似度、シティブロック距離関数等で識別しても、大きな精度減少は見られないで、若干処理の高速化が期待できる。
【0062】
【第3の実施例】
ところで、第一の認識辞書は認識対象のすべてのフォントについて学習して造るものであるが、フォントの形状が特別他のフォントと大きく異なる場合がある。例えば、英語においてはイタリック体がそうである。このようなときは、第一の認識辞書だけですべてのフォントを学習することは困難である。そこで、特殊フォント(イタリック体)だけを別に学習してそのフォントだけからなる第三の認識辞書を造っておく。そして第一の識別手段では、未知入力文字と第一認識辞書及び第三認識辞書それぞれと前記の識別を行ない、第一認識辞書との相違度1と第三認識辞書との相違度2と求める。そして相違度1と相違度2の小さい方に対応する文字カテゴリを認識結果として、第二の識別手段に進み文字フォントを決定する方法がある。ここで第二の認識辞書は、特殊フォントを別にする必要はないことは明かである。
【0063】
以上説明したように本実施例によれば、文字のフォントを高速かつ精度よく認識できる。従って、
既存のモノクロの文書をフォント毎に予め設定された色を対応させることでカラー化することができる。今後カラー複写機やカラープリンタが普及するにつれて、カラー文書による分かりやすい文書を作成することが要求される様になってくるが、既存の文書はモノクロである。そこで、本発明によれば容易にカラー文書を作成できるので、情報の表現をカラー化することに大きな効果がある。
【0064】
尚、本発明を複写機に適応させた場合には、各フォント毎の出力色を操作パネル等で予め設定しておく。そして、キャラクタコードに基づいて文字パターンを発生する手段を備える。そして、上記処理で得られたキャラクタコード及びフォント種別情報に基づき、対応する文字パターンを発生し、それを操作パネル等で設定された色で印刷することになる。
【0065】
また、複写機に限らず、プリンタ装置に印刷データを出力するホストコンピュータに適応することも可能である。つまり、上記処理で得られたキャラクタコード及びフォントの種別に基づいて、印刷データを形成(各フォント毎の出力色は予め設定されているものとする)し、それをプリンタに出力する。
また、上記実施例では、原稿画像を光学的に読み取る装置からの画像データを認識対象としたが、これに限るものではなく、例えばファクシミリ受信機を備え、それでもって受信した画像を認識し、出力する装置に適応しても良い。尚、この場合、認識対象の文字画像のサイズから、印刷するときの文字サイズ情報を印刷データの一部に組み込んで出力するようにしても良い。
【0066】
尚、英語認識の例で処理時間についていえば、第一の認識辞書の標準パターンとの識別計算量は、ρ×100=100ρで、第二の認識辞書との識別計算量は4ρ(フォント数=4の場合)であるから、全体で104ρとなり、処理時間は大幅に減る。また、フォント認識の精度についていえば、第二の識別手段では特徴変換行列によってフォント識別に適した特徴を抽出するので精度が向上することは当然である。
【0067】
また、本発明は複数の機器から構成されるシステムに適用しても1つの機器から成る装置に適用しても良く、また、システム或は装置にプログラムを供給することによって達成される場合にも適用できることは上記実施例の説明からすれば容易に想到できよう。
【0068】
【発明の効果】
以上説明したように本発明によれば、文字のフォントを高速かつ精度よく認識できる。
【図面の簡単な説明】
【図1】実施例における文字認識装置のブロック構成図である。
【図2】実施例における文字認識処理内容を示すフローチャートである。
【図3】実施例における未知入力文字イメージと正規化文字イメージを示す図である。
【図4】正規化文字イメージの小領域と特徴抽出の概要を示す図である。
【図5】実施例における方向指数の種類を示す図である。
【図6】図6の方向指数の方向とその値の関係を示す図である。
【符号の説明】
1 CPU
2 バス
3 イメージスキャナ
4 RAM
5 特徴抽出部、
6 表示部
7 ポインティングデバイス
8 処理手順を格納するROM
9 認識辞書
10 外部記憶部
11 キーボード
12 カラープリンタ
Claims (14)
- 文字画像を文字認識する文字認識装置であって、
認識対象の文字画像から特徴ベクトルを抽出する特徴抽出手段と、
文字カテゴリを決定するための標準パターン情報を記憶する第1の認識辞書と、
各文字カテゴリについて、特徴変換行列および文字フォントを決定するための標準フォントパターン情報を記憶する第2の認識辞書と、
前記特徴抽出手段で抽出された特徴ベクトルのベクトル成分の所定部分で構成される部分ベクトルを取得する特徴分解手段と、
前記特徴分解手段で取得した部分ベクトルと前記第1の認識辞書の標準パターン情報とに基づいて、最も類似する文字カテゴリを識別する第1の識別手段と、
前記第1の識別手段で識別された文字カテゴリについての特徴変換行列を用いて、前記特徴抽出手段で抽出された特徴ベクトルを新特徴ベクトルに変換し、当該変換された新特徴ベクトルと前記第2の認識辞書の標準フォントパターン情報とに基づいて、最も類似する文字フォントを識別する第2の識別手段と
を備えることを特徴とする文字認識装置。 - 前記第1の認識辞書に含まれる標準パターン情報は、疑似ベイズ識別式の計算に必要な、平均ベクトル,固有値,固有ベクトル,高次固有値置き換えパラメータを含むことを特徴とする請求項第1項に記載の文字認識装置。
- 前記第2の認識辞書の標準フォントパターン情報は、疑似ベイズ識別式の計算に必要な、新特徴ベクトルの平均ベクトル,固有値,固有ベクトル,高次固有値置き換えパラメータを含むことを特徴とする請求項第1項に記載の文字認識装置。
- 前記第1の識別手段で識別された文字カテゴリの文字コードと、前記第2の識別手段で識別された文字フォントのフォント種別とを対応させて出力する文字情報出力手段を更に有し、前記文字情報出力手段は、フォントごとに異なる色で表示および/または印刷することを特徴とする請求項第1項に記載の文字認識装置。
- 前記第1の識別手段で識別される最も類似する文字カテゴリとは、前記部分ベクトルと前記第1の認識辞書の標準パターン情報との相違度を計算して、最少の相違度となる標準パターン情報に対応する文字カテゴリであることを特徴とする請求項第1項に記載の文字認識装置。
- 前記第2の識別手段で識別される最も類似する文字フォントとは、前記新特徴ベクトルと前記第2の認識辞書の標準フォントパターン情報との相違度を計算して、最少の相違度となる標準フォントパターン情報に対応する文字フォントであることを特徴とする請求項第1項に記載の文字認識装置。
- 前記相違度の計算は、距離関数を用いた計算であることを特徴とする請求項第5項または第6項に記載の文字認識装置。
- 文字画像を文字認識する文字認識方法であって、
認識対象の文字画像から特徴ベクトルを抽出する特徴抽出工程と、
前記特徴抽出手段で抽出された特徴ベクトルのベクトル成分の所定部分で構成される部分ベクトルを取得する特徴分解工程と、
前記特徴分解工程で取得した部分ベクトルと、第1の認識辞書に記憶されている文字カテゴリを決定するための標準パターン情報とに基づいて、最も類似する文字カテゴリを識別する第1の識別工程と、
前記第1の識別工程で識別された文字カテゴリについての特徴変換行列を用いて、前記特徴抽出工程で抽出された特徴ベクトルを新特徴ベクトルに変換し、当該変換された新特徴ベクトルと、第2の認識辞書に記憶されている文字フォントを決定するための標準フォントパターン情報とに基づいて、最も類似する文字フォントを識別する第2の識別工程と
を備えることを特徴とする文字認識方法。 - 前記第1の認識辞書に含まれる標準パターン情報は、疑似ベイズ識別式の計算に必要な、平均ベクトル,固有値,固有ベクトル,高次固有値置き換えパラメータを含むことを特徴とする請求項第8項に記載の文字認識方法。
- 前記第2の認識辞書の標準フォントパターン情報は、疑似ベイズ識別式の計算に必要な、新特徴ベクトルの平均ベクトル,固有値,固有ベクトル,高次固有値置き換えパラメータを含むことを特徴とする請求項第8項に記載の文字認識方法。
- 前記第1の識別工程で識別された文字カテゴリの文字コードと、前記第2の識別工程で識別された文字フォントのフォント種別とを対応させて出力する文字情報出力工程を更に有し、前記文字情報出力工程では、フォントごとに異なる色で表示および/または印刷することを特徴とする請求項第8項に記載の文字認識方法。
- 前記第1の識別工程で識別される最も類似する文字カテゴリとは、前記部分ベクトルと前記第1の認識辞書の標準パターン情報との相違度を計算して、最少の相違度となる標準パターン情報に対応する文字カテゴリであることを特徴とする請求項第8項に記載の文字認識方法。
- 前記第2の識別工程で識別される最も類似する文字フォントとは、前記新特徴ベクトルと前記第2の認識辞書の標準フォントパターン情報との相違度を計算して、最少の相違度となる標準フォントパターン情報に対応する文字フォントであることを特徴とする請求項第8項に記載の文字認識方法。
- 前記相違度の計算は、距離関数を用いた計算であることを特徴とする請求項第12項または第13項に記載の文字認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26544294A JP3623992B2 (ja) | 1994-10-28 | 1994-10-28 | 文字認識装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26544294A JP3623992B2 (ja) | 1994-10-28 | 1994-10-28 | 文字認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08123905A JPH08123905A (ja) | 1996-05-17 |
JP3623992B2 true JP3623992B2 (ja) | 2005-02-23 |
Family
ID=17417215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26544294A Expired - Fee Related JP3623992B2 (ja) | 1994-10-28 | 1994-10-28 | 文字認識装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3623992B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11238099A (ja) * | 1997-12-19 | 1999-08-31 | Matsushita Electric Ind Co Ltd | 文字認識装置及びその方法並びに文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7751087B2 (en) * | 2007-04-03 | 2010-07-06 | Xerox Corporation | Automatic colorization of monochromatic printed documents |
US8340430B2 (en) * | 2007-07-10 | 2012-12-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
JP7098351B2 (ja) * | 2018-02-28 | 2022-07-11 | キヤノン株式会社 | 画像処理装置および画像処理方法、およびプログラム |
CN113673544A (zh) * | 2020-05-13 | 2021-11-19 | 珠海金山办公软件有限公司 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
-
1994
- 1994-10-28 JP JP26544294A patent/JP3623992B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08123905A (ja) | 1996-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Font recognition based on global texture analysis | |
Spitz | Determination of the script and language content of document images | |
KR100658119B1 (ko) | 문자 인식 장치 및 방법 | |
US5373566A (en) | Neural network-based diacritical marker recognition system and method | |
US4933979A (en) | Data reading apparatus for reading data from form sheet | |
US5828771A (en) | Method and article of manufacture for determining whether a scanned image is an original image or fax image | |
JP3618796B2 (ja) | パターン認識方法および装置 | |
US20030113016A1 (en) | Pattern recognizing apparatus | |
US6885768B2 (en) | Image recognition apparatus, method and program product | |
US6272238B1 (en) | Character recognizing method and apparatus | |
US11170265B2 (en) | Image processing method and an image processing system | |
Khosravi et al. | Farsi font recognition based on Sobel–Roberts features | |
EP3540644B1 (en) | Image processing device, image processing method, and image processing program | |
JP2000315247A (ja) | 文字認識装置 | |
JP3623992B2 (ja) | 文字認識装置及び方法 | |
JPH11203415A (ja) | 類似パターンカテゴリ識別辞書作成装置および方法 | |
Nadeem et al. | Character recognition using template matching | |
Padma et al. | Script Identification from Trilingual Documents using Profile Based Features. | |
Spitz et al. | Palace: A multilingual document recognition system | |
Bui et al. | Font finder: Visual recognition of typeface in printed documents | |
JPH07152855A (ja) | 文字認識方法及び装置 | |
JP2020154449A (ja) | 画像処理装置及びプログラム | |
Kawtrakul et al. | Multifeature extraction for printed thai character recognition | |
JP2906758B2 (ja) | 文字読取装置 | |
Hong et al. | Visual similarity analysis of chinese characters and its uses in japanese OCR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041129 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081203 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091203 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091203 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101203 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111203 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |