JP2006195991A - 多値文字辞書生成装置 - Google Patents

多値文字辞書生成装置 Download PDF

Info

Publication number
JP2006195991A
JP2006195991A JP2006003557A JP2006003557A JP2006195991A JP 2006195991 A JP2006195991 A JP 2006195991A JP 2006003557 A JP2006003557 A JP 2006003557A JP 2006003557 A JP2006003557 A JP 2006003557A JP 2006195991 A JP2006195991 A JP 2006195991A
Authority
JP
Japan
Prior art keywords
character
value
composite
character image
deteriorated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006003557A
Other languages
English (en)
Other versions
JP4801998B2 (ja
Inventor
Shun Son
俊 孫
Yoshinobu Hotta
悦伸 堀田
Yutaka Katsuyama
裕 勝山
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2006195991A publication Critical patent/JP2006195991A/ja
Application granted granted Critical
Publication of JP4801998B2 publication Critical patent/JP4801998B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1914Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)

Abstract

【課題】粗分類と細分類をする多値文字生成装置を提供する。
【解決手段】入力二値文字画像を用いて第1の合成多値劣化文字画像を生成する第1の合成多値劣化文字画像生成部108と、第1の合成多値劣化文字画像生成部により生成された第1の合成多値劣化文字画像の各カテゴリーを複数のクラスタに分割するクラスタ化部103と、合成多値劣化文字画像の各カテゴリーの複数のクラスタにおいて、前記各クラスタにつきテンプレートを生成するテンプレート計算部104と、前記各テンプレートに関し変換行列を生成する変換行列生成部105と、変換行列を用いてクラスタのそれぞれの多値劣化文字毎の文字の特徴を得、かつ合成多値劣化文字の各カテゴリーの固有空間を構築する第2の合成多値劣化文字辞書生成部106を備える。固有空間は第2の合成多値文字辞書110である。
【選択図】 図1

Description

本発明は、多値文字辞書生成装置に関するものである。
自動文字認識の分野では劣化した機械印刷文字(文字のぼやけ、多くの原因、例えば低解像度文字画像、デジタルカメラのディザ(dithering)、ファックスまたは繰り返しスキャンニング等によりひきおこされることがある)を認識することは古くから自動文字認識の分野における大きな目標であった。従来の方法は一般に辞書生成のための二値文字画像を使用する。これらの二値化手段では画像のピクセルの階級区分は0および255、または0および1のいずれかからしか選択することができない。しかしながら、劣化した文字画像については、二値化すると、一般に、分類のために有用な文字の情報が失われる。これらの多くの有用な情報を失うと、人間による場合ですら正確な認識が困難になる。これは、例えば、文字「日」が“11”のように二値化されたりする。すなわち、たとえ、この“11”が人間により認識されたとしても、二値化文字「日」の結果として認識されないからである。文字認識は人間を模倣する機構であるので、人間が認識し得ない場合は、コンピュータは正確な認識を行わないので、それにより以後の認識効果に重大な結果をもたらす。多値文字画像のピクセル値は0〜255であり、変化の範囲は0〜256であるが、二値化画像値は0〜1であることに鑑み、多値文字画像は文字の認識情報をよりよく保持し、画像をよりよい表現を有し、かつより詳細な情報を含むことが可能である。従って、劣化文字の認識においては多値画像を用いて多値文字辞書を生成することが重要である。多値辞書は多値文字画像により直接構築されるものである。多値文字画像生成の一つの問題は辞書を作成するためにどのようにして文字サンプルを収集するかということである。というのは、東洋の言語(中国語、日本語および韓国語)の文字カテゴリーの数は非常に大きいからである。例えば、一般的な日本語辞書は漢字、数字、片仮名、平仮名および記号を含めて4299カテゴリーを含む。従来の辞書はスキャナにより得た二値文字画像を使用している。多値画像の収集はスキャナによる多値スキャンニングによっても行われているが、多値文字辞書を作成するのに必要な多値文字画像は二値文字辞書を作成するのに必要な二値文字画像よりもはるかに多い。従って手動で収集することはほぼ不可能である。
劣化多値文字画像の認識のために多くの方法が提案されている。例えば、エックス.ダブリュ.ワング、エックス.キュー.ディング、およびシー.エス.リウ、「低解像度画像に対する多値画像に基づく文字認識アルゴリズム」、プロシーディングズ・オブ・エスピーアイイー、第4307巻第315−322頁(X.W.Wang、X.Q.Ding and C.S.Liu,“A gray−scale image based character recognition algorithm to low−resolution images,” Proceedings of SPIE Vol.4307, pp.315−322)およびヨシムラ・エイチ.、エトー・エム.、コンドウ・ケイ.他、「ガボール・ジェット投影による多値文字認識」プロシーディングズ・アイシーピーアール、2000年第335−338頁(Yoshimura,H.,Etoh,M.,Kondo,K.,et al.“Gray−scale character recognition by gabor jets projection,”Proc. ICPR pp.335−338,2000)に記載の方法がある。
さらに、例えば米国特許第5、911、013号明細書(1999年8月発行、発明の名称「手書きを取り扱うことが可能な文字認識方法および装置」、発明者:谷石信之介)のような、特許に関連した、周波数に基づく特徴抽出方法もある。
米国特許第5、911、013号明細書 エックス.ダブリュ.ワング、エックス.キュー.ディング、およびシー.エス.リウ、「低解像度画像に対する多値画像に基づく文字認識アルゴリズム」、プロシーディングズ・オブ・エスピーアイイー、第4307巻第315−322頁(X.W.Wang、X.Q.Ding and C.S.Liu,"A gray−scale image based character recognition algorithm to low−resolution images," Proceedings of SPIE Vol.4307, pp.315−322) ヨシムラ・エイチ.、エトー・エム.、コンドウ・ケイ.他、「ガボール・ジェット投影による多値文字認識」プロシーディングズ・オブ・アイシーピーアール、2000年第335−338頁(Yoshimura,H.,Etoh,M.,Kondo,K.,et al."Gray−scale character recognition by gabor jets projection,"Proc. ICPR pp.335−338,2000)
しかしながら、劣化多値文字画像については、周波数に基づく方法だけではそれほど良い結果を得ることができない。その理由は、これらの方法は文字の詳細な特徴を有効に識別することができないため、類似する文字を認識することが不完全であるからである。
本発明は、上述の従来技術の欠点に鑑みてなされたものであり、本発明の目的は、認識の際に使用すべき2つの辞書を生成する多値文字辞書生成装置であって、第1の辞書は周波数分析に基づき、粗分類に使用され、第2の辞書は粗分類の結果の最適な再構築を行い、次いで、その細分類を実行する装置を提供することである。
上述した目的を達成するために、本発明は、多値文字辞書生成装置を提供する。この多値文字生成装置は、入力された二値文字画像を用いて第1の合成多値劣化文字画像を生成する第1の合成多値劣化文字画像生成部と、前記第1の合成多値劣化文字画像生成部により生成された前記第1の合成多値劣化文字画像の各カテゴリーを複数のクラスタに分割するクラスタ化部と、前記合成多値劣化文字画像の各カテゴリーの前記複数のクラスタにおいて、前記クラスタのそれぞれについてテンプレートを生成するテンプレート計算部と、前記テンプレートのそれぞれに関して変換行列を生成する変換行列生成部と、前記変換行列を用いて前記クラスタのそれぞれの多値劣化文字毎の文字の特徴を得、かつ前記合成多値劣化文字の各カテゴリーの固有空間を構築する第2の合成多値劣化文字辞書生成部を備え、前記固有空間は前記第2の合成多値文字辞書であることを特徴とする。
好ましくは、前記多値文字辞書生成装置は、さらに、前記クラスタ化部により生成された前記複数のクラスタの内の1つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値よりも少ないときに、前記1つ以上のクラスタにおける前記第1の合成多値劣化文字画像を用いて複数の第2の合成多値劣化文字画像を生成し、前記1つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値に等しいか、または大きいようにする、第2の合成多値劣化文字画像生成部を備えている。
好ましくは、前記クラスタ化部は階層化クラスタ化方法を用いて各カテゴリーを前記複数のクラスタに分割する。
前記多値文字辞書生成装置は、さらに、前記変換行列を用いて前記クラスタのそれぞれの前記テンプレートの線形変換をして第1の合成多値文字辞書を生成する第1の合成多値劣化文字辞書生成部を備えていてもよい。
前記多値文字辞書生成装置は、さらに、二値文字画像を前記第1の合成多値劣化文字画像生成部に入力する入力部を備えていてもよい。
前記第1の合成多値劣化文字画像生成部は、生成することが必要とされる前記合成文字の劣化レベルであって、異なる劣化レベルが異なる劣化程度に対応するものを推定する劣化レベル推定部と、前記入力された二値文字画像のそれぞれについて前記劣化レベルのそれぞれに対応する合成多値劣化文字画像を生成する劣化多値文字生成部を備えていてもよい。
好ましくは劣化レベルの数は3または4である。
好ましくは、前記変換行列生成部は主成分分析方法を用いて前記変換行列を生成する。
好ましくは、前記合成多値劣化文字辞書生成部は主成分主成分分析方法を用いて前記合成多値劣化文字の各カテゴリーの固有空間を構築する。
上述したように、サンプルが十分に収集されなかったならば、このようにして作成された辞書の効果は一般に認識力が弱く、しかもサンプルの収集は面倒であり込み入った作業であるため、通常は十分なサンプルを得ることは不可能である。これに対して、本発明は非常に多数の多値文字画像の自動生成が可能であり、さらに、本発明は、従来のアルゴリズムと比べて認識性能に優れている新しい辞書作成方法を使用している。
以下、添付の図面を参照して本発明をさらに詳細に説明する。図面は本発明の実施形態の説明を含み、これらの説明は本明細書の発明の詳細な説明に導入されその一部を構成し、本明細書の記載とともに本発明の原理を説明するものである。これらの実施の形態により本発明が限定されるものではない。
本発明は合成多値文字画像を用いて多値文字辞書を生成する。本発明において、第1の合成多値文字画像生成部をまず用いて外部から入力された二値文字画像のそれぞれに従って複数の合成多値劣化文字画像を生成し、次いでこれらの合成多値劣化文字画像における文字の各カテゴリーをクラスタ化し、各クラスタに関するテンプレートを計算し、そしてPCA(Principal Component Analysis;主成分分析)をすべてのテンプレートについて実行して変換行列を得る。この変換行列を用いて、各合成多値劣化文字に作用させることにより、各合成多値劣化文字の特徴を取得し、次いで、すべての合成多値劣化文字の各カテゴリーの特徴について主成分分析を実行して第2の多値劣化文字辞書を得る。各テンプレートに作用する変換行列により第1の多値劣化辞書を生成する工程を備えているのが好ましい。加えて、各クラスタのサンプルの数が所定の値よりも少ないときは、第2の合成多値文字画像生成部を用いて各カテゴリーのサンプルの数を増加させ、次いで第1の多値文字画像生成部および第2の多値文字画像生成部により生成された合成多値文字画像を用いて、各カテゴリーの文字に対応する第2の多値文字辞書を生成する。
以下に、添付の図面を参照して本発明の好適な実施形態を詳細に説明する。
図1は本発明の全体的フローチャートである。図1に示すように、Nカテゴリー文字により構成された二値文字画像101を入力部101により入力する。文字の分類は文字の形状と意味に従って行う。例えば、3755個の漢字と、従って3755カテゴリーが存在する。同時に、記号“−”は漢字の“一”に類似して見えるがこれら2つは異なる意味を示し、従って2つの異なるカテゴリーに属す。他の例を挙げると、英文字は(大文字および小文字を含めて)52カテゴリーを有する。文字の各カテゴリーにおいて、異なるフォントがそれぞれ異なる二値画像に対応する。第1の合成多値文字画像生成部102を通過した後、各入力された二値文字画像に複数の合成多値劣化文字画像を生成する。認識すべき対象は実際の劣化文字画像、例えばぼやけた文字および小さい文字であるため、同様のぼやけた文字を用いて辞書を作成する必要がある。入力部101は、ここでは、二値画像を入力する、スキャナ、カムコーダーおよび/またはカメラであってもよく、あるいは二値文字画像を記憶するPDA(Personal Digital Assistant)、ネット上のリモート・コンピュータおよび/またはサーバー等であってもよい。入力部101はまた理想的な二値文字画像を自動的に出力するコンピュータ・モジュールであってもよい。これらの入力手段は当技術において既知である。合成多値劣化文字画像は第1の合成多値文字画像生成部102において生成される。第1の合成多値文字画像生成部102は図2を参照して詳細に説明する。多値劣化文字画像の生成後、クラスタ化部103が生成された第1の合成多値劣化文字画像の各カテゴリーをクラスタ化する。次いで、テンプレート計算部104が生成されたクラスタのそれぞれについてテンプレートを計算する。続いて、変換行列生成部105が主成分分析方法を用いて分析を実行し、変換行列を生成する。
加えて、クラスタ化部103により生成された1つ以上のクラスタの合成多値劣化文字の数(サンプルの数)が所定の値よりも少ないときは、第2の合成多値劣化文字生成部はこのクラスタについて第2の合成多値劣化文字を生成してこのクラスタのサンプルの数を所定の値以上に設定し、次いでテンプレート計算部がこのクラスタのためのテンプレートを計算する。
各部の動作を以下に詳細に説明する。
図2は第1の合成多値文字画像生成部102の動作のフローを示す。図2に示すように、劣化レベルが第1の合成多値文字画像生成部102の(図示しない)劣化レベル推定部により推定される(S201)。劣化レベル推定部の入力は認識されるべき文字画像の実際の文字のサイズであり、その出力は推定されるべき劣化レベルであり、これらを用いて合成多値劣化文字画像を生成する。実際の文字(認識されるべき実際の劣化文字画像、すなわち試験サンプル)のサイズが20×20ピクセルであるとすると、劣化レベルが3で与えられると、3つの劣化レベルは12×12および28×28に設定することができる。ここで、劣化レベルは実際の試験サンプルのサイズにより決定することができる。サイズが比較的小さいならば、4つのレベルが必要とされ、他の場合は3つのレベルで十分である。12×12は試験サンプルの実際のサイズに関係する。3つのレベルがあるとすると、第2のレベルの程度は文字の実際のサイズに設定され、第1のレベルの程度は第2のレベルの程度よりもkだけ小さく、第3のレベルの程度は第2のレベルの程度よりもkだけ大きく、k=8である。劣化レベルが4で与えられるならば、第2のレベルは16×16に設定され、第3のレベルは24×24に設定され、第4のレベルは32×32に設定され、第1のレベルは8×8に設定される、等々である。オリジナル二値文字画像(辞書を作成するのに用いられるサンプル、すなわちトレーニング・サンプル)のサイズが64×64ピクセルであると仮定すると、合成多値劣化文字画像の生成は64×64ピクセルの画像を12×12ピクセル、20×20ピクセルおよび28×28ピクセルにそれぞれ縮小し、次いで64×64ピクセルに戻し拡大することで実行することが可能である。画像のサイズは変形の前後で変わらないものの、3つの画像はそれぞれ異なる劣化レベルを表す。低解像度文字を認識するには、Nを3または4のいずれかにすることができる。解像度の高さが十分である(文字のサイズが十分に大きい)場合は、認識は従来の二値特徴により実行することが可能である。次に、劣化レベルのそれぞれにおいて、各二値文字画像にそれぞれ対応する合成多値劣化文字画像を生成する(S202〜S204)。合成多値劣化文字画像を生成するアルゴリズムは多数あるが、そのうち最も簡単なアルゴリズムはオリジナル二値画像を圧縮して非常に小さい多値画像とし、次いでこれを拡大して元のサイズとすることである。この方法は従来技術であり、下記文献を参照することができる。
ジェイ.サン、ワイ.ホッタ、ワイ.カツヤマ、エス.ナオイ、「二元固有区間および合成劣化パターンによる低解像像度文字認識」第1回ACMハードコピー文書処理ワークショップ会報、第15〜22頁、2004年、ワシントン・ディー.シー.(J.Sun,Y.Hotta,Y.Katsuyama,S.Naoi,“Low resolution character recognition by dual eigenspace and synthetic degraded patterns”, Proceedings of the 1st ACM Hardcopy Document Processing Workshop,pp. 15−22 2004,washington,D.C.)
合成多値劣化文字画像205は、またオリジナル画像をガウス−フィルタリング等のような方法により生成することが可能である。
すなわち、オリジナル二値文字画像(辞書作成に用いられる既知の二値画像)のサイズが64×64ピクセルであり、N=3であり、低解像度文字(すなわち、取り扱われるべき文字画像)に対する認識サイズが20×20ピクセルであると仮定すると、第1のレベ、第2のレベルおよび第3のレベルの圧縮サイズはそれぞれ12、20および28である。第1の合成多値文字画像生成部102の出力は、N劣化レベルに対応する一連の合成多値劣化文字画像(S205)である。図5は入力された二値文字および劣化レベルに対応する出力された第1の合成多値劣化文字画像を示す例である。
図3はクラスタおよびテンプレート生成過程を示す例である。図3に示すように、クラスタ化部は合成多値劣化文字画像を分割してNclust個のクラスタにする。j番目のカテゴリー(N文字カテゴリー、ji=1,2,..Nにおけるj番目を表す)文字(S401)について、画像クラスタ化アルゴリズムを用いて合成多値劣化文字画像をNclust個のクラスタにする(S402)。「パターン分類」第2版アール.オー.デューダ、ピー.イー.ハートおよびディー.ジー.ストーク著、ワイリー・インターサイエンス・パブリケーション、ジョン・ワイリー&サンズ社、2001年第550−557頁(“Pattern classification,” second edition by R.O.Duda,P.E.Hart and D.G.Stork,A Wiley−Interscience Publication, John Whiley & Sons,Inc.2001,pp.550−557)にはクラスタ化アルゴリズムである階層化クラスタ化方法の例がリストされている。この方法では、まず、各サンプルはそれぞれクラスタを形成することが仮定される。その理由はサンプルの数が所定のクラスタの数よりも大きいので、当初のクラスタの結果を合体する必要があるからである。そして合体の各工程の間、相互に最も近い2つのカテゴリーが合体される。カテゴリーの合体の過程は合体後のカテゴリーの数がクラスタの所定の数に等しくなるまで繰り返される。
合成多値劣化文字画像のクラスタ化工程の後、全ての文字画像を分割してNclust個のクラスタにする。次いで、工程(S404)を実行してテンプレートを計算する。すなわち、テンプレート計算部104を用いて各クラスタのテンプレート409を得る。テンプレート409は各クラスタの全てのサンプルの平均値により得られる。このテンプレートは各クラスタに属する全ての文字画像の平均画像、すなわち、このクラスタの全ての文字画像の平均文字画像(409)である。このクラスタの文字インデックスは別の項として記録される。この項は別の出力410である。例えば、クラスタ化前に10個の文字があり、文字インデックスは1〜10である。これらがクラスタ化されて2つのカテゴリーになると、第1のカテゴリーの文字インデックスは1、3、7、8、9であり、第2のカテゴリーの文字インデックスが2、4、5、6、10であってもよい。この過程を各文字カテゴリーの各クラスタに関して全てのテンプレートが生成されるまで繰り返す(S403〜S408)。
加えて、各オリジナル二値文字画像に対応してN個の劣化文字画像が第1の合成多値文字画像生成部により生成されるけれども、クラスタ化部103により生成されたクラスタの内のあるものは少数のサンプルしか含んでいないことがある。そのようなクラスタは一般にこの文字カテゴリーにおいて特殊なタイプであり、そのような文字カテゴリーのサンプルの数が十分でなければ、文字認識効果が低減する。従って、第2の合成多値文字画像生成部を設けて各文字カテゴリーの文字サンプルの数を増加させる。換言すると、工程S402において、生成されたクラスタのサンプルの数が所定の値よりも小さいならば、その場合は、第2の合成多値文字画像生成部を用いて各文字カテゴリーの文字サンプルの数を増加させる。図4は第2の合成多値文字画像生成部の特定のフロー手順を示す。
図4に示すように、j番目のカテゴリーのi番目のクラスタの文字画像について、文字サンプルの数が所与の閾値Tcharよりも小さいならば、工程S502を用いてそのクラスタのデータから合成多値劣化文字画像を生成する。合成多値文字画像生成工程の詳細は下記の通りである。
j番目のカテゴリーのi番目のクラスタの文字の数がNcであると仮定し、
1.Nc≧Tchar(Tcharは所定の値である)ならば、j番目のカテゴリーのi番目のクラスタの文字画像を出力し、過程を終了する。そうでない場合は、下記の工程を実行する。
2.サンプルの数がTcharよりも小さいクラスタにおける全てのサンプルについて生成されたパターンの数Npを、下記の式

Np=(Tchar + Nc−1)

に従って計算する。
3.クラスタの各文字に対応するNp個の合成多値劣化文字画像を生成する。
Np個の合成多値文字画像はオリジナル多値文字画像に縮小−拡大操作を実行することで実現することが可能である。例えば、オリジナル画像の劣化レベルの程度が64×64であるとすると、第1の合成多値文字画像はオリジナル画像を63×63に縮小し、次いでこれを64×64に拡大することで得ることができ、第2の合成多値文字画像はオリジナル画像を62×62に縮小し、次いでこれを64×64に戻し拡大することで得ることができ、...そして第Npの合成多値文字画像はオリジナル画像を(64−Np)×(64−Np)に縮小し、次いでこれを64×64に拡大することで得ることができる。Npが64より大きいならば、オリジナル文字の程度を、まず、128×128に拡大し、次いで戻し縮小する。
4.Np×Nc個の合成多値文字画像を最終出力として出力する。第2の合成多値文字画像生成工程の後は、全てのクラスタにおいてサンプルの数がTcharよりも大きい。上述の操作を全ての文字カテゴリーに対して実行する。図1に示すように、クラスタ−テンプレート計算が完了した後、変換行列を変換行列生成部105により生成する。これは、PCA(主成分分析)を全てのカテゴリーの全てのテンプレートに実行することにより行うことができる。主成分分析を用いることにより、これらのテンプレートのより高次元の空間における分布を得ることが可能である。この分布は主成分分析により得られた変換行列:A=〔a1,a2,...,am〕により表すことが可能である。PCA(主成分分析)の方法は、「パターン分類」第2版アール.オー.デューダ、ピー.イー.ハートおよびディー.ジー.ストーク著、ワイリー・インターサイエンス・パブリケーション、ジョン・ワイリー&サンズ社、2001年第115−117および568−569頁(“Pattern classification,” second edition by R.O.Duda,P.E.Hart and D.G.Stork,A Wiley−Interscience Publication, John Whiley & Sons,Inc.2001,pp.115−117、568−569)を参照することができる。
変換行列が生成された後、第1の合成多値文字辞書および第2の合成多値文字辞書の生成を進行することが可能である。
第1の多値文字辞書の生成をまず紹介する。まず、変換行列を用いて各テンプレート(詳細については以下の段落で説明する)について線形変換を実行する。文字カテゴリー毎に生成されたテンプレートは、全ての文字画像の第1のレベルの固有空間、すなわち、第1のレベルの辞書を構築する。
第1のレベルの辞書を構築する工程を以下に詳細に説明する。
Figure 2006195991
がj番目のカテゴリーの文字のi番目のテンプレートを表す(ただし、nはテンプレート画像のピクセルの数であり、A=〔a1,a2,...,am〕はS302で得られた主成分行列であり、ai はi番目の主成分を表すn×1ベクトルである)と仮定する。j番目のカテゴリーのi番目の特徴ベクトルは次式

ij=AT (Xij−μ)

により得られる。ここに、
Figure 2006195991
は全てのテンプレートの平均ベクトルである。
(ここに、Tはベクトルの転置(transposition)を表し、ここでは
Figure 2006195991
を表すのに用いられる。これは列ベクトルである。Ncateはカテゴリーの数を表し、前述のNである。Nclustは各カテゴリーのクラスタの数を表す。
各文字カテゴリーにはNclust個のテンプレートが存在するので、それに対応してNclust個の特徴ベクトルが各文字カテゴリーの第1の多値文字辞書に存在する。
このようにして生成された第1の多値文字辞書の目的は粗分類用である。そのカテゴリーを決定されるべき入力された文字画像について、まずPCAにより得られた線形変換を用いてこの文字画像を変形してこの文字の特徴を取得し、次いでこの特徴を第1の多値文字辞書における全てのテンプレートの特徴と比較してM個の最も類似するカテゴリーを出力する。この工程では決定されるのは単一のカテゴリーだけではないので、粗分類と呼ばれる。続く第2のレベルの辞書が粗分類の結果に基づいて最終的カテゴリーを決定する。
より良好な認識効果を得るために、本発明は第2の多値文字辞書生成部107を用いて第2の多値文字辞書を各文字カテゴリーについて確立する。
具体的工程は以下の通りである。
1.文字特徴抽出工程:j番目のカテゴリーのi番目の文字画像が
Figure 2006195991
として定義されると仮定する。この文字の特徴は下記の式

ji=AT(Gji−μj

によって得られる。ここに、μj はj番目のカテゴリーの平均文字画像である。
2.固有空間構築工程:第1の合成多値文字画像生成部および第2の合成多値文字画像生成部において生成された全てのサンプルを含む、j番目のカテゴリーの全ての文字画像の特徴fjiを用いて文字カテゴリーの固有空間を構築する。PCAを用いて(第1の合成多値文字画像生成部および第2の合成多値文字画像生成部により生成された多値劣化文字画像の特徴を含む)同じ文字カテゴリーに属する全ての文字画像の特徴を分析してこれらの特徴のより高次元空間における分布を取得し、そして線形変換行列を用いてこの分布を表す。各カテゴリーに対応する線形変換行列は第2の多値文字辞書である。
当技術における専門家は、本発明の原理および範囲から逸脱することなく、本発明に種々の改変および変更を成すことが可能であることは自明である。従って、本発明になされたこれらの改変および変更も添付の特許請求の範囲およびそれらの均等物の範囲内に入るものであれば、本発明の範囲に入るべきものである。
本発明の全体的フローチャートである。 本発明の一実施形態による第1の合成文字生成を示すフローチャートである。 本発明の一実施形態によるクラスタおよびテンプレート生成のフローチャートである。 本発明の一実施形態による第2の合成文字生成のフローチャートである。 本発明の一実施形態による劣化レベル推定部により推定された劣化レベルに対応する劣化多値文字画像を示す図である。
符号の説明
101 入力部
102 第1の合成多値文字画像生成部
103 クラスタ化部
104 テンプレート計算部
105 変換行列生成部
106 第2の合成多値劣化文字画像生成部
107 第2の多値文字辞書生成部
108 第1の多値文字辞書生成部
109 第1の多値文字辞書
110 第2の多値文字辞書
409 テンプレート
410 出力

Claims (10)

  1. 入力された二値文字画像を用いて第1の合成多値劣化文字画像を生成する第1の合成多値劣化文字画像生成部と、
    前記第1の合成多値劣化文字画像生成部により生成された前記第1の合成多値劣化文字画像の各カテゴリーを複数のクラスタに分割するクラスタ化部と、
    前記合成多値劣化文字画像の各カテゴリーの前記複数のクラスタにおいて、前記クラスタのそれぞれについてテンプレートを生成するテンプレート計算部と、
    前記テンプレートのそれぞれに関して変換行列を生成する変換行列生成部と、
    前記変換行列を用いて前記クラスタのそれぞれの多値劣化文字毎の文字の特徴を得、かつ前記合成多値劣化文字の各カテゴリーの固有空間を構築する第2の合成多値劣化文字辞書生成部を備え、
    前記固有空間は前記第2の合成多値文字辞書である
    ことを特徴とする多値文字辞書生成装置。
  2. さらに、
    前記クラスタ化部により生成された前記複数のクラスタの内の1つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値よりも少ないときに、前記1つ以上のクラスタにおける前記第1の合成多値劣化文字画像を用いて複数の第2の合成多値劣化文字画像を生成し、前記1つ以上のクラスタ中の前記合成多値劣化文字画像の数が所定の値に等しいか、または大きいようにする、第2の合成多値劣化文字画像生成部
    を備えたことを特徴とする請求項1に記載の多値文字辞書生成装置。
  3. 前記クラスタ化部は階層化クラスタ化方法を用いて各カテゴリーを前記複数のクラスタに分割することを特徴とする請求項1に記載の多値文字辞書生成装置。
  4. さらに、
    前記変換行列を用いて前記クラスタのそれぞれの前記テンプレートの線形変換をして第1の合成多値文字辞書を生成する第1の合成多値劣化文字辞書生成部
    を備えたことを特徴とする請求項1、2または3に記載の多値文字辞書生成装置。
  5. さらに、二値文字画像を前記第1の合成多値劣化文字画像生成部に入力する入力部を備えたことを特徴とする請求項1、2または3に記載の多値文字辞書生成装置。
  6. 前記第1の合成多値劣化文字画像生成部は、
    生成することが必要とされる前記合成文字の劣化レベルであって、異なる劣化レベルが異なる劣化程度に対応するものを推定する劣化レベル推定部と、
    前記入力された二値文字画像のそれぞれについて前記劣化レベルのそれぞれに対応する合成多値劣化文字画像を生成する劣化多値文字生成部
    を備えたことを特徴とする請求項1、2または3に記載の多値文字辞書生成装置。
  7. 前記劣化レベルの数は3または4であることを特徴とする請求項6に記載の多値文字辞書生成装置。
  8. 前記変換行列生成部は主成分分析方法を用いて前記変換行列を生成することを特徴とする請求項1、2または3に記載の多値文字辞書生成装置。
  9. 前記第2の合成多値劣化文字辞書生成部は主成分分析方法を用いて前記合成多値劣化文字の各カテゴリーの固有空間を構築することを特徴とする請求項1、2または3に記載の多値文字辞書生成装置。
  10. 前記第1の合成多値劣化文字画像生成部は、
    生成することが必要とされる前記合成文字の劣化レベルであって、異なる劣化レベルが異なる劣化程度に対応するものを推定する劣化レベル推定部と、
    前記入力された二値文字画像のそれぞれについて前記劣化レベルのそれぞれに対応する合成多値劣化文字画像を生成する劣化多値文字生成部を備え、
    前記変換行列生成部は主成分分析方法を用いて前記変換行列を生成し、かつ
    前記第2の合成多値劣化文字辞書生成部は主成分分析方法を用いて前記合成多値劣化文字の各カテゴリーの固有空間を構築する
    ことを特徴とする請求項4に記載の多値文字辞書生成装置。
JP2006003557A 2005-01-11 2006-01-11 多値文字辞書生成装置 Expired - Fee Related JP4801998B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNB2005100004395A CN100369051C (zh) 2005-01-11 2005-01-11 灰度字符词典的生成装置
CN200510000439.5 2005-01-11

Publications (2)

Publication Number Publication Date
JP2006195991A true JP2006195991A (ja) 2006-07-27
JP4801998B2 JP4801998B2 (ja) 2011-10-26

Family

ID=36756601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006003557A Expired - Fee Related JP4801998B2 (ja) 2005-01-11 2006-01-11 多値文字辞書生成装置

Country Status (3)

Country Link
US (1) US7532756B2 (ja)
JP (1) JP4801998B2 (ja)
CN (1) CN100369051C (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100369051C (zh) * 2005-01-11 2008-02-13 富士通株式会社 灰度字符词典的生成装置
JP5161845B2 (ja) * 2009-07-31 2013-03-13 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
US8854375B2 (en) * 2010-10-19 2014-10-07 Dynacomware Taiwan Inc. Method and system for generating gray dot-matrix font from binary dot-matrix font
CN108805148B (zh) * 2017-04-28 2022-01-11 富士通株式会社 处理图像的方法和用于处理图像的装置
CN115311375B (zh) * 2022-10-10 2023-04-07 南通安昇纺织品有限公司 用于格纹织物数据的压缩存储、传输方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161012A (ja) * 1995-12-06 1997-06-20 Hitachi Ltd 認識辞書自動生成方法
JPH1063785A (ja) * 1996-08-14 1998-03-06 Fujitsu Ltd 文字認識装置
JPH11175662A (ja) * 1997-12-12 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法および装置とパターン認識方法をコンピュータに実行させるためのプログラムを記録した記録媒体
JP2001184509A (ja) * 1999-12-24 2001-07-06 Nec Corp パターン認識装置及び方法並びに記録媒体
JP2001338264A (ja) * 2000-05-25 2001-12-07 Ricoh Co Ltd 文字認識パターン辞書作成装置、文字認識パターン辞書作成方法および記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4945351A (en) * 1988-05-23 1990-07-31 Hewlett-Packard Company Technique for optimizing grayscale character displays
JP3118725B2 (ja) * 1991-09-11 2000-12-18 株式会社日立製作所 自動分類方法
US5579407A (en) * 1992-04-21 1996-11-26 Murez; James D. Optical character classification
JPH0676117A (ja) 1992-08-25 1994-03-18 Canon Inc 情報処理方法及び装置
US6052481A (en) * 1994-09-02 2000-04-18 Apple Computers, Inc. Automatic method for scoring and clustering prototypes of handwritten stroke-based data
JPH08241378A (ja) * 1995-03-03 1996-09-17 Fuji Electric Co Ltd 低品質文字の認識方法
US6266445B1 (en) * 1998-03-13 2001-07-24 Canon Kabushiki Kaisha Classification-driven thresholding of a normalized grayscale image
US6678414B1 (en) * 2000-02-17 2004-01-13 Xerox Corporation Loose-gray-scale template matching
US7034963B2 (en) * 2001-07-11 2006-04-25 Applied Materials, Inc. Method for adjusting edges of grayscale pixel-map images
US7373008B2 (en) * 2002-03-28 2008-05-13 Hewlett-Packard Development Company, L.P. Grayscale and binary image data compression
CN1200387C (zh) * 2003-04-11 2005-05-04 清华大学 基于单个字符的统计笔迹鉴别和验证方法
CN100369051C (zh) * 2005-01-11 2008-02-13 富士通株式会社 灰度字符词典的生成装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161012A (ja) * 1995-12-06 1997-06-20 Hitachi Ltd 認識辞書自動生成方法
JPH1063785A (ja) * 1996-08-14 1998-03-06 Fujitsu Ltd 文字認識装置
JPH11175662A (ja) * 1997-12-12 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法および装置とパターン認識方法をコンピュータに実行させるためのプログラムを記録した記録媒体
JP2001184509A (ja) * 1999-12-24 2001-07-06 Nec Corp パターン認識装置及び方法並びに記録媒体
JP2001338264A (ja) * 2000-05-25 2001-12-07 Ricoh Co Ltd 文字認識パターン辞書作成装置、文字認識パターン辞書作成方法および記録媒体

Also Published As

Publication number Publication date
CN100369051C (zh) 2008-02-13
JP4801998B2 (ja) 2011-10-26
CN1804869A (zh) 2006-07-19
US20060171589A1 (en) 2006-08-03
US7532756B2 (en) 2009-05-12

Similar Documents

Publication Publication Date Title
Mowlaei et al. Feature extraction with wavelet transform for recognition of isolated handwritten Farsi/Arabic characters and numerals
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
US20020076088A1 (en) Method of multi-level facial image recognition and system using the same
Dai et al. Adaptive image sampling using deep learning and its application on X-ray fluorescence image reconstruction
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
JP4801998B2 (ja) 多値文字辞書生成装置
CN114663685B (zh) 一种行人重识别模型训练的方法、装置和设备
CN105956610B (zh) 一种基于多层编码结构的遥感图像地形分类方法
Dineshkumar et al. Sanskrit character recognition system using neural network
An et al. RBDN: Residual bottleneck dense network for image super-resolution
Herwanto et al. Zoning feature extraction for handwritten Javanese character recognition
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
Sharma et al. A deep cnn model for student learning pedagogy detection data collection using ocr
JPH06508463A (ja) 画素に対して電荷モデルを適用したビットマップ画像セグメンテーション
Jewsbury et al. A quadtree image representation for computational pathology
Bui et al. Automatic synthetic document image generation using generative adversarial networks: application in mobile-captured document analysis
CN111553202B (zh) 进行活体检测的神经网络的训练方法、检测方法及装置
Narasimhaiah et al. Recognition of compound characters in Kannada language
Hoque et al. Autonomous Deblurring Images and Information Extraction from Documents Using CycleGAN and Mask RCNN
Vaidya et al. Marathi Numeral Identification System in Devanagari Script Using 1D Discrete Cosine Transform.
Goel et al. Image denoising by hybridizing preprocessed discrete wavelet transformation and recurrent neural networks
Du et al. Handwriting Image Recognition Based on a GAN Model
CN115861663B (zh) 一种基于自监督学习模型的文档图像内容比对方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110808

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees