JP2006195991A

JP2006195991A - 多値文字辞書生成装置

Info

Publication number: JP2006195991A
Application number: JP2006003557A
Authority: JP
Inventors: Shun Son; 俊孫; Yoshinobu Hotta; 悦伸堀田; Yutaka Katsuyama; 裕勝山; Satoshi Naoi; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-01-11
Filing date: 2006-01-11
Publication date: 2006-07-27
Anticipated expiration: 2026-01-11
Also published as: CN100369051C; JP4801998B2; CN1804869A; US20060171589A1; US7532756B2

Abstract

【課題】粗分類と細分類をする多値文字生成装置を提供する。
【解決手段】入力二値文字画像を用いて第１の合成多値劣化文字画像を生成する第１の合成多値劣化文字画像生成部１０８と、第１の合成多値劣化文字画像生成部により生成された第１の合成多値劣化文字画像の各カテゴリーを複数のクラスタに分割するクラスタ化部１０３と、合成多値劣化文字画像の各カテゴリーの複数のクラスタにおいて、前記各クラスタにつきテンプレートを生成するテンプレート計算部１０４と、前記各テンプレートに関し変換行列を生成する変換行列生成部１０５と、変換行列を用いてクラスタのそれぞれの多値劣化文字毎の文字の特徴を得、かつ合成多値劣化文字の各カテゴリーの固有空間を構築する第２の合成多値劣化文字辞書生成部１０６を備える。固有空間は第２の合成多値文字辞書１１０である。
【選択図】図１

Description

本発明は、多値文字辞書生成装置に関するものである。

自動文字認識の分野では劣化した機械印刷文字（文字のぼやけ、多くの原因、例えば低解像度文字画像、デジタルカメラのディザ（ｄｉｔｈｅｒｉｎｇ）、ファックスまたは繰り返しスキャンニング等によりひきおこされることがある）を認識することは古くから自動文字認識の分野における大きな目標であった。従来の方法は一般に辞書生成のための二値文字画像を使用する。これらの二値化手段では画像のピクセルの階級区分は０および２５５、または０および１のいずれかからしか選択することができない。しかしながら、劣化した文字画像については、二値化すると、一般に、分類のために有用な文字の情報が失われる。これらの多くの有用な情報を失うと、人間による場合ですら正確な認識が困難になる。これは、例えば、文字「日」が“１１”のように二値化されたりする。すなわち、たとえ、この“１１”が人間により認識されたとしても、二値化文字「日」の結果として認識されないからである。文字認識は人間を模倣する機構であるので、人間が認識し得ない場合は、コンピュータは正確な認識を行わないので、それにより以後の認識効果に重大な結果をもたらす。多値文字画像のピクセル値は０〜２５５であり、変化の範囲は０〜２５６であるが、二値化画像値は０〜１であることに鑑み、多値文字画像は文字の認識情報をよりよく保持し、画像をよりよい表現を有し、かつより詳細な情報を含むことが可能である。従って、劣化文字の認識においては多値画像を用いて多値文字辞書を生成することが重要である。多値辞書は多値文字画像により直接構築されるものである。多値文字画像生成の一つの問題は辞書を作成するためにどのようにして文字サンプルを収集するかということである。というのは、東洋の言語（中国語、日本語および韓国語）の文字カテゴリーの数は非常に大きいからである。例えば、一般的な日本語辞書は漢字、数字、片仮名、平仮名および記号を含めて４２９９カテゴリーを含む。従来の辞書はスキャナにより得た二値文字画像を使用している。多値画像の収集はスキャナによる多値スキャンニングによっても行われているが、多値文字辞書を作成するのに必要な多値文字画像は二値文字辞書を作成するのに必要な二値文字画像よりもはるかに多い。従って手動で収集することはほぼ不可能である。

劣化多値文字画像の認識のために多くの方法が提案されている。例えば、エックス．ダブリュ．ワング、エックス．キュー．ディング、およびシー．エス．リウ、「低解像度画像に対する多値画像に基づく文字認識アルゴリズム」、プロシーディングズ・オブ・エスピーアイイー、第４３０７巻第３１５−３２２頁（Ｘ．Ｗ．Ｗａｎｇ、Ｘ．Ｑ．ＤｉｎｇａｎｄＣ．Ｓ．Ｌｉｕ，“Ａｇｒａｙ−ｓｃａｌｅｉｍａｇｅｂａｓｅｄｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｔｏｌｏｗ−ｒｅｓｏｌｕｔｉｏｎｉｍａｇｅｓ，” ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＰＩＥＶｏｌ．４３０７，ｐｐ．３１５−３２２）およびヨシムラ・エイチ．、エトー・エム．、コンドウ・ケイ．他、「ガボール・ジェット投影による多値文字認識」プロシーディングズ・アイシーピーアール、２０００年第３３５−３３８頁（Ｙｏｓｈｉｍｕｒａ，Ｈ．，Ｅｔｏｈ，Ｍ．，Ｋｏｎｄｏ，Ｋ．，ｅｔａｌ．“Ｇｒａｙ−ｓｃａｌｅｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎｂｙｇａｂｏｒｊｅｔｓｐｒｏｊｅｃｔｉｏｎ，”Ｐｒｏｃ．ＩＣＰＲｐｐ．３３５−３３８，２０００）に記載の方法がある。

さらに、例えば米国特許第５、９１１、０１３号明細書（１９９９年８月発行、発明の名称「手書きを取り扱うことが可能な文字認識方法および装置」、発明者：谷石信之介）のような、特許に関連した、周波数に基づく特徴抽出方法もある。

米国特許第５、９１１、０１３号明細書エックス．ダブリュ．ワング、エックス．キュー．ディング、およびシー．エス．リウ、「低解像度画像に対する多値画像に基づく文字認識アルゴリズム」、プロシーディングズ・オブ・エスピーアイイー、第４３０７巻第３１５−３２２頁（Ｘ．Ｗ．Ｗａｎｇ、Ｘ．Ｑ．ＤｉｎｇａｎｄＣ．Ｓ．Ｌｉｕ，"Ａｇｒａｙ−ｓｃａｌｅｉｍａｇｅｂａｓｅｄｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｔｏｌｏｗ−ｒｅｓｏｌｕｔｉｏｎｉｍａｇｅｓ，" ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＰＩＥＶｏｌ．４３０７，ｐｐ．３１５−３２２）ヨシムラ・エイチ．、エトー・エム．、コンドウ・ケイ．他、「ガボール・ジェット投影による多値文字認識」プロシーディングズ・オブ・アイシーピーアール、２０００年第３３５−３３８頁（Ｙｏｓｈｉｍｕｒａ，Ｈ．，Ｅｔｏｈ，Ｍ．，Ｋｏｎｄｏ，Ｋ．，ｅｔａｌ．"Ｇｒａｙ−ｓｃａｌｅｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎｂｙｇａｂｏｒｊｅｔｓｐｒｏｊｅｃｔｉｏｎ，"Ｐｒｏｃ．ＩＣＰＲｐｐ．３３５−３３８，２０００）

しかしながら、劣化多値文字画像については、周波数に基づく方法だけではそれほど良い結果を得ることができない。その理由は、これらの方法は文字の詳細な特徴を有効に識別することができないため、類似する文字を認識することが不完全であるからである。

本発明は、上述の従来技術の欠点に鑑みてなされたものであり、本発明の目的は、認識の際に使用すべき２つの辞書を生成する多値文字辞書生成装置であって、第１の辞書は周波数分析に基づき、粗分類に使用され、第２の辞書は粗分類の結果の最適な再構築を行い、次いで、その細分類を実行する装置を提供することである。

上述した目的を達成するために、本発明は、多値文字辞書生成装置を提供する。この多値文字生成装置は、入力された二値文字画像を用いて第１の合成多値劣化文字画像を生成する第１の合成多値劣化文字画像生成部と、前記第１の合成多値劣化文字画像生成部により生成された前記第１の合成多値劣化文字画像の各カテゴリーを複数のクラスタに分割するクラスタ化部と、前記合成多値劣化文字画像の各カテゴリーの前記複数のクラスタにおいて、前記クラスタのそれぞれについてテンプレートを生成するテンプレート計算部と、前記テンプレートのそれぞれに関して変換行列を生成する変換行列生成部と、前記変換行列を用いて前記クラスタのそれぞれの多値劣化文字毎の文字の特徴を得、かつ前記合成多値劣化文字の各カテゴリーの固有空間を構築する第２の合成多値劣化文字辞書生成部を備え、前記固有空間は前記第２の合成多値文字辞書であることを特徴とする。

好ましくは、前記多値文字辞書生成装置は、さらに、前記クラスタ化部により生成された前記複数のクラスタの内の１つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値よりも少ないときに、前記１つ以上のクラスタにおける前記第１の合成多値劣化文字画像を用いて複数の第２の合成多値劣化文字画像を生成し、前記１つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値に等しいか、または大きいようにする、第２の合成多値劣化文字画像生成部を備えている。

好ましくは、前記クラスタ化部は階層化クラスタ化方法を用いて各カテゴリーを前記複数のクラスタに分割する。

前記多値文字辞書生成装置は、さらに、前記変換行列を用いて前記クラスタのそれぞれの前記テンプレートの線形変換をして第１の合成多値文字辞書を生成する第１の合成多値劣化文字辞書生成部を備えていてもよい。

前記多値文字辞書生成装置は、さらに、二値文字画像を前記第１の合成多値劣化文字画像生成部に入力する入力部を備えていてもよい。

前記第１の合成多値劣化文字画像生成部は、生成することが必要とされる前記合成文字の劣化レベルであって、異なる劣化レベルが異なる劣化程度に対応するものを推定する劣化レベル推定部と、前記入力された二値文字画像のそれぞれについて前記劣化レベルのそれぞれに対応する合成多値劣化文字画像を生成する劣化多値文字生成部を備えていてもよい。

好ましくは劣化レベルの数は３または４である。

好ましくは、前記変換行列生成部は主成分分析方法を用いて前記変換行列を生成する。

好ましくは、前記合成多値劣化文字辞書生成部は主成分主成分分析方法を用いて前記合成多値劣化文字の各カテゴリーの固有空間を構築する。

上述したように、サンプルが十分に収集されなかったならば、このようにして作成された辞書の効果は一般に認識力が弱く、しかもサンプルの収集は面倒であり込み入った作業であるため、通常は十分なサンプルを得ることは不可能である。これに対して、本発明は非常に多数の多値文字画像の自動生成が可能であり、さらに、本発明は、従来のアルゴリズムと比べて認識性能に優れている新しい辞書作成方法を使用している。

以下、添付の図面を参照して本発明をさらに詳細に説明する。図面は本発明の実施形態の説明を含み、これらの説明は本明細書の発明の詳細な説明に導入されその一部を構成し、本明細書の記載とともに本発明の原理を説明するものである。これらの実施の形態により本発明が限定されるものではない。

本発明は合成多値文字画像を用いて多値文字辞書を生成する。本発明において、第１の合成多値文字画像生成部をまず用いて外部から入力された二値文字画像のそれぞれに従って複数の合成多値劣化文字画像を生成し、次いでこれらの合成多値劣化文字画像における文字の各カテゴリーをクラスタ化し、各クラスタに関するテンプレートを計算し、そしてＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ；主成分分析）をすべてのテンプレートについて実行して変換行列を得る。この変換行列を用いて、各合成多値劣化文字に作用させることにより、各合成多値劣化文字の特徴を取得し、次いで、すべての合成多値劣化文字の各カテゴリーの特徴について主成分分析を実行して第２の多値劣化文字辞書を得る。各テンプレートに作用する変換行列により第１の多値劣化辞書を生成する工程を備えているのが好ましい。加えて、各クラスタのサンプルの数が所定の値よりも少ないときは、第２の合成多値文字画像生成部を用いて各カテゴリーのサンプルの数を増加させ、次いで第１の多値文字画像生成部および第２の多値文字画像生成部により生成された合成多値文字画像を用いて、各カテゴリーの文字に対応する第２の多値文字辞書を生成する。

以下に、添付の図面を参照して本発明の好適な実施形態を詳細に説明する。

図１は本発明の全体的フローチャートである。図１に示すように、Ｎカテゴリー文字により構成された二値文字画像１０１を入力部１０１により入力する。文字の分類は文字の形状と意味に従って行う。例えば、３７５５個の漢字と、従って３７５５カテゴリーが存在する。同時に、記号“−”は漢字の“一”に類似して見えるがこれら２つは異なる意味を示し、従って２つの異なるカテゴリーに属す。他の例を挙げると、英文字は（大文字および小文字を含めて）５２カテゴリーを有する。文字の各カテゴリーにおいて、異なるフォントがそれぞれ異なる二値画像に対応する。第１の合成多値文字画像生成部１０２を通過した後、各入力された二値文字画像に複数の合成多値劣化文字画像を生成する。認識すべき対象は実際の劣化文字画像、例えばぼやけた文字および小さい文字であるため、同様のぼやけた文字を用いて辞書を作成する必要がある。入力部１０１は、ここでは、二値画像を入力する、スキャナ、カムコーダーおよび／またはカメラであってもよく、あるいは二値文字画像を記憶するＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ネット上のリモート・コンピュータおよび／またはサーバー等であってもよい。入力部１０１はまた理想的な二値文字画像を自動的に出力するコンピュータ・モジュールであってもよい。これらの入力手段は当技術において既知である。合成多値劣化文字画像は第１の合成多値文字画像生成部１０２において生成される。第１の合成多値文字画像生成部１０２は図２を参照して詳細に説明する。多値劣化文字画像の生成後、クラスタ化部１０３が生成された第１の合成多値劣化文字画像の各カテゴリーをクラスタ化する。次いで、テンプレート計算部１０４が生成されたクラスタのそれぞれについてテンプレートを計算する。続いて、変換行列生成部１０５が主成分分析方法を用いて分析を実行し、変換行列を生成する。

加えて、クラスタ化部１０３により生成された１つ以上のクラスタの合成多値劣化文字の数（サンプルの数）が所定の値よりも少ないときは、第２の合成多値劣化文字生成部はこのクラスタについて第２の合成多値劣化文字を生成してこのクラスタのサンプルの数を所定の値以上に設定し、次いでテンプレート計算部がこのクラスタのためのテンプレートを計算する。

各部の動作を以下に詳細に説明する。

図２は第１の合成多値文字画像生成部１０２の動作のフローを示す。図２に示すように、劣化レベルが第１の合成多値文字画像生成部１０２の（図示しない）劣化レベル推定部により推定される（Ｓ２０１）。劣化レベル推定部の入力は認識されるべき文字画像の実際の文字のサイズであり、その出力は推定されるべき劣化レベルであり、これらを用いて合成多値劣化文字画像を生成する。実際の文字（認識されるべき実際の劣化文字画像、すなわち試験サンプル）のサイズが２０×２０ピクセルであるとすると、劣化レベルが３で与えられると、３つの劣化レベルは１２×１２および２８×２８に設定することができる。ここで、劣化レベルは実際の試験サンプルのサイズにより決定することができる。サイズが比較的小さいならば、４つのレベルが必要とされ、他の場合は３つのレベルで十分である。１２×１２は試験サンプルの実際のサイズに関係する。３つのレベルがあるとすると、第２のレベルの程度は文字の実際のサイズに設定され、第１のレベルの程度は第２のレベルの程度よりもｋだけ小さく、第３のレベルの程度は第２のレベルの程度よりもｋだけ大きく、ｋ＝８である。劣化レベルが４で与えられるならば、第２のレベルは１６×１６に設定され、第３のレベルは２４×２４に設定され、第４のレベルは３２×３２に設定され、第１のレベルは８×８に設定される、等々である。オリジナル二値文字画像（辞書を作成するのに用いられるサンプル、すなわちトレーニング・サンプル）のサイズが６４×６４ピクセルであると仮定すると、合成多値劣化文字画像の生成は６４×６４ピクセルの画像を１２×１２ピクセル、２０×２０ピクセルおよび２８×２８ピクセルにそれぞれ縮小し、次いで６４×６４ピクセルに戻し拡大することで実行することが可能である。画像のサイズは変形の前後で変わらないものの、３つの画像はそれぞれ異なる劣化レベルを表す。低解像度文字を認識するには、Ｎを３または４のいずれかにすることができる。解像度の高さが十分である（文字のサイズが十分に大きい）場合は、認識は従来の二値特徴により実行することが可能である。次に、劣化レベルのそれぞれにおいて、各二値文字画像にそれぞれ対応する合成多値劣化文字画像を生成する（Ｓ２０２〜Ｓ２０４）。合成多値劣化文字画像を生成するアルゴリズムは多数あるが、そのうち最も簡単なアルゴリズムはオリジナル二値画像を圧縮して非常に小さい多値画像とし、次いでこれを拡大して元のサイズとすることである。この方法は従来技術であり、下記文献を参照することができる。

ジェイ．サン、ワイ．ホッタ、ワイ．カツヤマ、エス．ナオイ、「二元固有区間および合成劣化パターンによる低解像像度文字認識」第１回ＡＣＭハードコピー文書処理ワークショップ会報、第１５〜２２頁、２００４年、ワシントン・ディー．シー．（Ｊ．Ｓｕｎ，Ｙ．Ｈｏｔｔａ，Ｙ．Ｋａｔｓｕｙａｍａ，Ｓ．Ｎａｏｉ，“Ｌｏｗｒｅｓｏｌｕｔｉｏｎｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎｂｙｄｕａｌｅｉｇｅｎｓｐａｃｅａｎｄｓｙｎｔｈｅｔｉｃｄｅｇｒａｄｅｄｐａｔｔｅｒｎｓ”，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１ｓｔＡＣＭＨａｒｄｃｏｐｙＤｏｃｕｍｅｎｔＰｒｏｃｅｓｓｉｎｇＷｏｒｋｓｈｏｐ，ｐｐ．１５−２２２００４，ｗａｓｈｉｎｇｔｏｎ，Ｄ．Ｃ．）

合成多値劣化文字画像２０５は、またオリジナル画像をガウス−フィルタリング等のような方法により生成することが可能である。

すなわち、オリジナル二値文字画像（辞書作成に用いられる既知の二値画像）のサイズが６４×６４ピクセルであり、Ｎ＝３であり、低解像度文字（すなわち、取り扱われるべき文字画像）に対する認識サイズが２０×２０ピクセルであると仮定すると、第１のレベ、第２のレベルおよび第３のレベルの圧縮サイズはそれぞれ１２、２０および２８である。第１の合成多値文字画像生成部１０２の出力は、Ｎ劣化レベルに対応する一連の合成多値劣化文字画像（Ｓ２０５）である。図５は入力された二値文字および劣化レベルに対応する出力された第１の合成多値劣化文字画像を示す例である。

図３はクラスタおよびテンプレート生成過程を示す例である。図３に示すように、クラスタ化部は合成多値劣化文字画像を分割してＮｃｌｕｓｔ個のクラスタにする。ｊ番目のカテゴリー（Ｎ文字カテゴリー、ｊｉ＝１，２，．．Ｎにおけるｊ番目を表す）文字（Ｓ４０１）について、画像クラスタ化アルゴリズムを用いて合成多値劣化文字画像をＮｃｌｕｓｔ個のクラスタにする（Ｓ４０２）。「パターン分類」第２版アール．オー．デューダ、ピー．イー．ハートおよびディー．ジー．ストーク著、ワイリー・インターサイエンス・パブリケーション、ジョン・ワイリー＆サンズ社、２００１年第５５０−５５７頁（“Ｐａｔｔｅｒｎｃｌａｓｓｉｆｉｃａｔｉｏｎ，” ｓｅｃｏｎｄｅｄｉｔｉｏｎｂｙＲ．Ｏ．Ｄｕｄａ，Ｐ．Ｅ．ＨａｒｔａｎｄＤ．Ｇ．Ｓｔｏｒｋ，ＡＷｉｌｅｙ−ＩｎｔｅｒｓｃｉｅｎｃｅＰｕｂｌｉｃａｔｉｏｎ，ＪｏｈｎＷｈｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．２００１，ｐｐ．５５０−５５７）にはクラスタ化アルゴリズムである階層化クラスタ化方法の例がリストされている。この方法では、まず、各サンプルはそれぞれクラスタを形成することが仮定される。その理由はサンプルの数が所定のクラスタの数よりも大きいので、当初のクラスタの結果を合体する必要があるからである。そして合体の各工程の間、相互に最も近い２つのカテゴリーが合体される。カテゴリーの合体の過程は合体後のカテゴリーの数がクラスタの所定の数に等しくなるまで繰り返される。

合成多値劣化文字画像のクラスタ化工程の後、全ての文字画像を分割してＮｃｌｕｓｔ個のクラスタにする。次いで、工程（Ｓ４０４）を実行してテンプレートを計算する。すなわち、テンプレート計算部１０４を用いて各クラスタのテンプレート４０９を得る。テンプレート４０９は各クラスタの全てのサンプルの平均値により得られる。このテンプレートは各クラスタに属する全ての文字画像の平均画像、すなわち、このクラスタの全ての文字画像の平均文字画像（４０９）である。このクラスタの文字インデックスは別の項として記録される。この項は別の出力４１０である。例えば、クラスタ化前に１０個の文字があり、文字インデックスは１〜１０である。これらがクラスタ化されて２つのカテゴリーになると、第１のカテゴリーの文字インデックスは１、３、７、８、９であり、第２のカテゴリーの文字インデックスが２、４、５、６、１０であってもよい。この過程を各文字カテゴリーの各クラスタに関して全てのテンプレートが生成されるまで繰り返す（Ｓ４０３〜Ｓ４０８）。

加えて、各オリジナル二値文字画像に対応してＮ個の劣化文字画像が第１の合成多値文字画像生成部により生成されるけれども、クラスタ化部１０３により生成されたクラスタの内のあるものは少数のサンプルしか含んでいないことがある。そのようなクラスタは一般にこの文字カテゴリーにおいて特殊なタイプであり、そのような文字カテゴリーのサンプルの数が十分でなければ、文字認識効果が低減する。従って、第２の合成多値文字画像生成部を設けて各文字カテゴリーの文字サンプルの数を増加させる。換言すると、工程Ｓ４０２において、生成されたクラスタのサンプルの数が所定の値よりも小さいならば、その場合は、第２の合成多値文字画像生成部を用いて各文字カテゴリーの文字サンプルの数を増加させる。図４は第２の合成多値文字画像生成部の特定のフロー手順を示す。

図４に示すように、ｊ番目のカテゴリーのｉ番目のクラスタの文字画像について、文字サンプルの数が所与の閾値Ｔｃｈａｒよりも小さいならば、工程Ｓ５０２を用いてそのクラスタのデータから合成多値劣化文字画像を生成する。合成多値文字画像生成工程の詳細は下記の通りである。

ｊ番目のカテゴリーのｉ番目のクラスタの文字の数がＮｃであると仮定し、
１．Ｎｃ≧Ｔｃｈａｒ（Ｔｃｈａｒは所定の値である）ならば、ｊ番目のカテゴリーのｉ番目のクラスタの文字画像を出力し、過程を終了する。そうでない場合は、下記の工程を実行する。
２．サンプルの数がＴｃｈａｒよりも小さいクラスタにおける全てのサンプルについて生成されたパターンの数Ｎｐを、下記の式

Ｎｐ＝（Ｔｃｈａｒ＋Ｎｃ−１）

に従って計算する。
３．クラスタの各文字に対応するＮｐ個の合成多値劣化文字画像を生成する。

Ｎｐ個の合成多値文字画像はオリジナル多値文字画像に縮小−拡大操作を実行することで実現することが可能である。例えば、オリジナル画像の劣化レベルの程度が６４×６４であるとすると、第１の合成多値文字画像はオリジナル画像を６３×６３に縮小し、次いでこれを６４×６４に拡大することで得ることができ、第２の合成多値文字画像はオリジナル画像を６２×６２に縮小し、次いでこれを６４×６４に戻し拡大することで得ることができ、．．．そして第Ｎｐの合成多値文字画像はオリジナル画像を（６４−Ｎｐ）×（６４−Ｎｐ）に縮小し、次いでこれを６４×６４に拡大することで得ることができる。Ｎｐが６４より大きいならば、オリジナル文字の程度を、まず、１２８×１２８に拡大し、次いで戻し縮小する。

４．Ｎｐ×Ｎｃ個の合成多値文字画像を最終出力として出力する。第２の合成多値文字画像生成工程の後は、全てのクラスタにおいてサンプルの数がＴｃｈａｒよりも大きい。上述の操作を全ての文字カテゴリーに対して実行する。図１に示すように、クラスタ−テンプレート計算が完了した後、変換行列を変換行列生成部１０５により生成する。これは、ＰＣＡ（主成分分析）を全てのカテゴリーの全てのテンプレートに実行することにより行うことができる。主成分分析を用いることにより、これらのテンプレートのより高次元の空間における分布を得ることが可能である。この分布は主成分分析により得られた変換行列：Ａ＝〔ａ₁，ａ₂，．．．，ａ_m〕により表すことが可能である。ＰＣＡ（主成分分析）の方法は、「パターン分類」第２版アール．オー．デューダ、ピー．イー．ハートおよびディー．ジー．ストーク著、ワイリー・インターサイエンス・パブリケーション、ジョン・ワイリー＆サンズ社、２００１年第１１５−１１７および５６８−５６９頁（“Ｐａｔｔｅｒｎｃｌａｓｓｉｆｉｃａｔｉｏｎ，” ｓｅｃｏｎｄｅｄｉｔｉｏｎｂｙＲ．Ｏ．Ｄｕｄａ，Ｐ．Ｅ．ＨａｒｔａｎｄＤ．Ｇ．Ｓｔｏｒｋ，ＡＷｉｌｅｙ−ＩｎｔｅｒｓｃｉｅｎｃｅＰｕｂｌｉｃａｔｉｏｎ，ＪｏｈｎＷｈｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．２００１，ｐｐ．１１５−１１７、５６８−５６９）を参照することができる。

変換行列が生成された後、第１の合成多値文字辞書および第２の合成多値文字辞書の生成を進行することが可能である。

第１の多値文字辞書の生成をまず紹介する。まず、変換行列を用いて各テンプレート（詳細については以下の段落で説明する）について線形変換を実行する。文字カテゴリー毎に生成されたテンプレートは、全ての文字画像の第１のレベルの固有空間、すなわち、第１のレベルの辞書を構築する。

第１のレベルの辞書を構築する工程を以下に詳細に説明する。

がｊ番目のカテゴリーの文字のｉ番目のテンプレートを表す（ただし、ｎはテンプレート画像のピクセルの数であり、Ａ＝〔ａ₁，ａ₂，．．．，ａ_m〕はＳ３０２で得られた主成分行列であり、ａ_iはｉ番目の主成分を表すｎ×１ベクトルである）と仮定する。ｊ番目のカテゴリーのｉ番目の特徴ベクトルは次式

Ｆ_ij＝Ａ^T（Ｘ_ij−μ）

により得られる。ここに、

は全てのテンプレートの平均ベクトルである。

（ここに、Ｔはベクトルの転置（ｔｒａｎｓｐｏｓｉｔｉｏｎ）を表し、ここでは

を表すのに用いられる。これは列ベクトルである。Ｎｃａｔｅはカテゴリーの数を表し、前述のＮである。Ｎｃｌｕｓｔは各カテゴリーのクラスタの数を表す。

各文字カテゴリーにはＮｃｌｕｓｔ個のテンプレートが存在するので、それに対応してＮｃｌｕｓｔ個の特徴ベクトルが各文字カテゴリーの第１の多値文字辞書に存在する。

このようにして生成された第１の多値文字辞書の目的は粗分類用である。そのカテゴリーを決定されるべき入力された文字画像について、まずＰＣＡにより得られた線形変換を用いてこの文字画像を変形してこの文字の特徴を取得し、次いでこの特徴を第１の多値文字辞書における全てのテンプレートの特徴と比較してＭ個の最も類似するカテゴリーを出力する。この工程では決定されるのは単一のカテゴリーだけではないので、粗分類と呼ばれる。続く第２のレベルの辞書が粗分類の結果に基づいて最終的カテゴリーを決定する。

より良好な認識効果を得るために、本発明は第２の多値文字辞書生成部１０７を用いて第２の多値文字辞書を各文字カテゴリーについて確立する。

具体的工程は以下の通りである。
１．文字特徴抽出工程：ｊ番目のカテゴリーのｉ番目の文字画像が

として定義されると仮定する。この文字の特徴は下記の式

ｆ_ji＝ＡT（Ｇ_ji−μ_j）

によって得られる。ここに、μ_jはｊ番目のカテゴリーの平均文字画像である。
２．固有空間構築工程：第１の合成多値文字画像生成部および第２の合成多値文字画像生成部において生成された全てのサンプルを含む、ｊ番目のカテゴリーの全ての文字画像の特徴ｆ_jiを用いて文字カテゴリーの固有空間を構築する。ＰＣＡを用いて（第１の合成多値文字画像生成部および第２の合成多値文字画像生成部により生成された多値劣化文字画像の特徴を含む）同じ文字カテゴリーに属する全ての文字画像の特徴を分析してこれらの特徴のより高次元空間における分布を取得し、そして線形変換行列を用いてこの分布を表す。各カテゴリーに対応する線形変換行列は第２の多値文字辞書である。

当技術における専門家は、本発明の原理および範囲から逸脱することなく、本発明に種々の改変および変更を成すことが可能であることは自明である。従って、本発明になされたこれらの改変および変更も添付の特許請求の範囲およびそれらの均等物の範囲内に入るものであれば、本発明の範囲に入るべきものである。

本発明の全体的フローチャートである。本発明の一実施形態による第１の合成文字生成を示すフローチャートである。本発明の一実施形態によるクラスタおよびテンプレート生成のフローチャートである。本発明の一実施形態による第２の合成文字生成のフローチャートである。本発明の一実施形態による劣化レベル推定部により推定された劣化レベルに対応する劣化多値文字画像を示す図である。

符号の説明

１０１入力部
１０２第１の合成多値文字画像生成部
１０３クラスタ化部
１０４テンプレート計算部
１０５変換行列生成部
１０６第２の合成多値劣化文字画像生成部
１０７第２の多値文字辞書生成部
１０８第１の多値文字辞書生成部
１０９第１の多値文字辞書
１１０第２の多値文字辞書
４０９テンプレート
４１０出力

Claims

入力された二値文字画像を用いて第１の合成多値劣化文字画像を生成する第１の合成多値劣化文字画像生成部と、
前記第１の合成多値劣化文字画像生成部により生成された前記第１の合成多値劣化文字画像の各カテゴリーを複数のクラスタに分割するクラスタ化部と、
前記合成多値劣化文字画像の各カテゴリーの前記複数のクラスタにおいて、前記クラスタのそれぞれについてテンプレートを生成するテンプレート計算部と、
前記テンプレートのそれぞれに関して変換行列を生成する変換行列生成部と、
前記変換行列を用いて前記クラスタのそれぞれの多値劣化文字毎の文字の特徴を得、かつ前記合成多値劣化文字の各カテゴリーの固有空間を構築する第２の合成多値劣化文字辞書生成部を備え、
前記固有空間は前記第２の合成多値文字辞書である
ことを特徴とする多値文字辞書生成装置。
さらに、
前記クラスタ化部により生成された前記複数のクラスタの内の１つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値よりも少ないときに、前記１つ以上のクラスタにおける前記第１の合成多値劣化文字画像を用いて複数の第２の合成多値劣化文字画像を生成し、前記１つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値に等しいか、または大きいようにする、第２の合成多値劣化文字画像生成部
を備えたことを特徴とする請求項１に記載の多値文字辞書生成装置。
前記クラスタ化部は階層化クラスタ化方法を用いて各カテゴリーを前記複数のクラスタに分割することを特徴とする請求項１に記載の多値文字辞書生成装置。
さらに、
前記変換行列を用いて前記クラスタのそれぞれの前記テンプレートの線形変換をして第１の合成多値文字辞書を生成する第１の合成多値劣化文字辞書生成部
を備えたことを特徴とする請求項１、２または３に記載の多値文字辞書生成装置。
さらに、二値文字画像を前記第１の合成多値劣化文字画像生成部に入力する入力部を備えたことを特徴とする請求項１、２または３に記載の多値文字辞書生成装置。
前記第１の合成多値劣化文字画像生成部は、
生成することが必要とされる前記合成文字の劣化レベルであって、異なる劣化レベルが異なる劣化程度に対応するものを推定する劣化レベル推定部と、
前記入力された二値文字画像のそれぞれについて前記劣化レベルのそれぞれに対応する合成多値劣化文字画像を生成する劣化多値文字生成部
を備えたことを特徴とする請求項１、２または３に記載の多値文字辞書生成装置。
前記劣化レベルの数は３または４であることを特徴とする請求項６に記載の多値文字辞書生成装置。
前記変換行列生成部は主成分分析方法を用いて前記変換行列を生成することを特徴とする請求項１、２または３に記載の多値文字辞書生成装置。
前記第２の合成多値劣化文字辞書生成部は主成分分析方法を用いて前記合成多値劣化文字の各カテゴリーの固有空間を構築することを特徴とする請求項１、２または３に記載の多値文字辞書生成装置。
前記第１の合成多値劣化文字画像生成部は、
生成することが必要とされる前記合成文字の劣化レベルであって、異なる劣化レベルが異なる劣化程度に対応するものを推定する劣化レベル推定部と、
前記入力された二値文字画像のそれぞれについて前記劣化レベルのそれぞれに対応する合成多値劣化文字画像を生成する劣化多値文字生成部を備え、
前記変換行列生成部は主成分分析方法を用いて前記変換行列を生成し、かつ
前記第２の合成多値劣化文字辞書生成部は主成分分析方法を用いて前記合成多値劣化文字の各カテゴリーの固有空間を構築する
ことを特徴とする請求項４に記載の多値文字辞書生成装置。