JP3228938B2 - 分布マップを用いる画像の分類方法及び装置 - Google Patents

分布マップを用いる画像の分類方法及び装置

Info

Publication number
JP3228938B2
JP3228938B2 JP51209495A JP51209495A JP3228938B2 JP 3228938 B2 JP3228938 B2 JP 3228938B2 JP 51209495 A JP51209495 A JP 51209495A JP 51209495 A JP51209495 A JP 51209495A JP 3228938 B2 JP3228938 B2 JP 3228938B2
Authority
JP
Japan
Prior art keywords
class
image
feature
features
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP51209495A
Other languages
English (en)
Other versions
JPH08508128A (ja
Inventor
ティン カム ホー
ヘンリー スパルディング バード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH08508128A publication Critical patent/JPH08508128A/ja
Application granted granted Critical
Publication of JP3228938B2 publication Critical patent/JP3228938B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は一般的に、画像の自動解釈に関する。更に詳
細には、本発明は機械印刷又は手書記号の画像の分類又
は認識に関する。
背景技術 画像解釈の重要な領域は光学文字認識(OCR)であ
る。光学文字認識では、記号の画像は記号を示す2進符
号に自動的に翻訳される。光学文字認識における主要な
問題は、画像がけばけばしい似たような形状の記号(す
なわち、縮退、歪み又は欠損を有する画像)を識別する
ことである。これらの画像欠損は、手書きスタイルの変
動、タイプフェース及びテキストのサイズ並びに空間サ
ンプリング速度、光学歪み及び印刷及びイメージングの
物性によるその他の作用等の特性などのような様々な理
由により生じる。
これらの作用の複雑性は、これらの作用を定量的に、
しかも徹底的に説明しようとする試みを最近まで拒み続
けてきた。従って、画像の本当のクラス分布は、理想的
な記号形状の完全な知識が与えられたとしても、詳細に
分析予測することはできない。実際、これらの分布は、
相当な費用で収集された画像の有限データセットの形で
経験的にのみ利用可能である。これらのデータセットが
たとえ無数にあろうとも、これらのデータセットは実際
に生じる様々な画像に比べたら疎らである。
従来技術の自動的に学習できる方法は、入力画像につ
いて評価された特徴群を所定のクラスに付随された特徴
値の分布群と比較することにより未知入力画像を大まか
に分類する。この方法では、“特徴”は、画像に作用す
ると、返す関数である。各画像クラスに付随する特徴値
の群又は分布は、この特徴を学習セット(すなわち、各
々その真正クラスのラベルを有する画像群)に適用する
ことにより構成される。
特徴は複雑に変化する。例えば、W.W.Bledose et a
l.,“Pattern Recognition and Reading by Machine,"1
959 Proceedings of the Eastern Joint Computer Conf
erence,Academic Press(1959)174−181には、ランダ
ムに選択された画素対に基づく特徴に関する研究が記載
されている。各画素の可能な数値は、これらの画素の可
能な論理状態に対応する、00,01,10,11の4種類の2進
値である。この方法は、実際の光学文字読取装置で使用
するには十分な精度を有しない。
一層複雑な特徴を使用する、つい最近の分類方法であ
っても、分離文字認識問題の極めて低い精度しか得られ
ない。このような場合、不正確性は分類方法における欠
陥(例えば、不完全に選択された特徴)によるか、又は
学習セットの低品質(例えば、非常に少ないサンプル)
によるのかあるいはその両方によるのか否か不明確であ
る。この不明確性と大きな典型的な学習セットを収集す
るコストに鑑み、最近の大抵のOCR研究は、特徴分布の
補間、平滑化及び解析的モデル化の様々な方法を用い
て、使用可能な疎らな学習セットを近似する発見的方法
に焦点が合わせられている。これを行うために、分布の
形式に関する多くの簡易化仮定(例えば、単峰、凸、解
析的又はパラメトリック(例えば、多次元ガウス)など
である)が必然的に呼出される。
しかし、有効性を証明した多くの機能は、これらの簡
単化仮定が為された場合に、非常に複雑であり、極めて
不完全にモデル化された分布を有する。その結果、これ
らの簡単化仮定は、画像分類器の信頼性を低下させる不
正確性を導入する。
別の方法(“最近接点”方法と呼ばれることがある)
では、クラス毎に少数のプロトタイプ画像のみを記憶
し、この疎らなセットから真正な分布を帰納するという
目的で、固定グローバル画像距離D(x,y)≧0(画像
xと画像yの任意の2個の対間の距離関数)が使用され
る。この方法は必ずしも望ましくない。なぜなら、単一
のグローバル距離関数が全てのクラス分布の複雑性を正
確にモデル化するとは思われないからである。
従って、当業者は今まで、特徴分布の実際的な表示か
ら生じる正確性を有する強力な特徴(すなわち、少なく
とも2つの異なるクラスから選択された画像について評
価された場合に、大幅に異なる値を高い確率で有する特
徴)を結合できる実際的な画像分類方法を提供すること
ができなかった。
発明の開示 本発明によれば、クラス距離dc(x)≧0の同族類を
構成する。各クラスcについて、それぞれ未知画像xか
ら特定のクラスcまでの距離を計算する。完全(又はほ
ぼ完全)距離の同族類とすると、最小距離に従って分類
することができる。dc(x)が最小のクラスcはxに関
する好ましいクラスとして戻される。全ての画像x及び
全てのクラスcについて、dc(x)=0の場合、xがク
ラスc内のものである場合のみ、クラス距離dc(x)≧
0は完全である。完全距離は、その分布内がゼロで、そ
の範囲外では厳密に正である、このクラスについて“理
想的インディケータ関数”の一種として機能する。言う
までもなく、実際には、このような距離は常に完全であ
るとは限らないが、距離は極めて接近させることができ
る。本発明の分類方法は、このような完全又はほぼ完全
な距離で使用できる。その結果、本発明の方法は、高い
正確度(少なくとも従来の最良の競合方法と同程度であ
る)、優れた拒否動作(幾つかのありきたりの競合方法
より性能が優れている)及び学習中の迅速な収束(これ
により実行中の再学習と自動特殊化を可能にする)を達
成できる。
本発明によれば、各クラスについて、特徴値の経験的
なクラス条件的分布の詳細な、しかし空間効率的な表現
(分布マップと呼ぶ)を作成する。実例的な分布マップ
では、各特徴の各値は、この特徴値がこのクラスに関す
る学習データ中に生じる場合にのみ、1に設定されるビ
ットにより示される。
使用する場合、本発明による画像分類器は、入力画像
について評価された特徴に基づくテストマップを学習画
像群に基づく複数のクラス分布マップと比較する。入力
画像は、テストマップに対して最小距離を有するクラス
分布マップのクラスに割り当てられる。或る代表的な実
施例では、テストマップに対して最小距離を有する分布
マップは、テストマップと同じような最大数の特徴値を
有する分布マップである。
従って、広い意味において、本発明は、入力画像を受
信し、この入力画像を学習画像の学習セットと比較する
ことにより、入力画像を複数の画像クラスのうちの一つ
に割り当てる画像分類器である。画像分類器は複数のク
ラス分布マップを有する。これらの各マップは学習画像
について評価された複数の特徴に基づく。また、各マッ
プは、対応するクラスに属する学習画像用の学習セット
に少なくとも1回は生じる特徴値を示す。
画像分類器は更に、入力画像について複数の特徴を評
価することによりテストマップを構成する手段と、クラ
ス分類マップのうちのどのマップがテストマップに対し
て最小の距離を有するか識別するために、テストマップ
とクラス分布マップを比較する手段を有する。
重要なことは、少なくとも一つの特徴が、少なくとも
一つの画像クラスの画像の形状に関するルールに従って
定義されることである。
図面の簡単な説明 第1図は本発明について有用な実例的な学習プロセス
の流れ図である。
第2図は本発明による実例的なテストプロセスの流れ
図である。
第3図は実例的なクラス分布マップである。
第4図はテストマップから第3図のクラス分布マップ
までの距離の実例的な計算を示す。
第5図及び第6図は新たな特徴フォーム(例えば、学
習画像の入力表示)を構成する或る可能な手順を説明す
る。簡単化のために、図5により示される空間は2次元
である。
第7図は印刷された漢字を示す単一サンプルの実例的
な分布マップである。
第8図は漢字の各クラスの3種類の分布マップの群で
ある。
発明を実施するための最良の形態 画像欠陥の実際的モデルの擬ランダムシミュレーショ
ンにより学習セットの質を高めるか又は生成することが
望ましいことが発見された。例えば、H.S.Baird,“Docu
ment Image Defect Models,"in H.S.Baird et al.,Ed
s.,Structured Document Image Analysis,Springer−Ve
rlag(1992)には、画像欠陥のパラメータ付きモデルが
開示されている。このモデルは、印刷及び画像取得の物
理的過程を近似する、高品質プロトタイプ画像で動作す
る、分布アルゴリズムを決定するパラメータの分布を特
定する。分布からの擬ランダムサンプリングにより、無
限サイズの学習及びテストセットを生成させることがで
きる。従って、学習セットのサイズに関する本発明の計
算環境によりインポーズされる制限以外の制限は存在し
ない。また、学習及びテストセットは両方とも同じ分布
からランダムに選択されるので、学習セットは学習セッ
トおよびテストセットを代表する。
適当な距離特徴の選択には大きな自由度が存在する。
しかし、光学文字認識(OCR)の分野で周知の多数の特
徴は、本発明の方法のような完全距離方法で申し分なく
行われることが発見された。(代表的な特徴は画像画素
値の低次多項式関数である。)更に、自動的に特徴を構
成するのアルゴリズムは高い精度の分類をサポートする
小さな特徴群を発見するのに有効であり得ることが発見
された。
前記のように、若干の識別はランダムに選択された画
素対と同じくらい簡単な特徴により与えられる(Bledso
eの前掲書参照)。しかし、少なくとも一つの画像クラ
スの画像の形状に関するルールに従って少なくとも一つ
の特徴が定義される場合、精度が更に改善されることが
発見された。すなわち、高度に有効な特徴は一般的に、
演繹的に選択される特徴である。なぜなら、(例えば、
学習セットで示されるような)少なくとも一対の画像ク
ラス間の若干の識別を与えることが公知だからである。
実例として、特徴は、学習セットに対する性能にしたが
って既知の特徴のリストから選択することができる。別
法として、特徴は学習セットに関して構成することもで
きる。(特徴の構成方法の一例は下記で説明する。)従
って、特徴は最初から手作業で特定することもできる
し、又は学習セットの試験中に自動的に構成することも
できるし、あるいはこれらを組み合わせることもでき
る。何れの場合も、幾つかの個数Mの特徴が最後に選択
される。各特徴の範囲は多くともV個の別個値からなる
ことが必要である。
M個の特徴値のベクトルとして、学習セット内か又は
(分類すべき)テストセット内であるか否か全ての画像
を示す。
各クラスについて分布マップを構成する。好ましい分
布マップでは、各特徴の各値は、この特徴の値がこのク
ラスの学習データに生じる場合及びこの場合のみ、1に
設定されるビットにより示される。各クラス分布マップ
はMN個のビットを有する。
認識中、入力画像は次のように実例的に分類される。
a)入力画像に関する特徴値のベクトルを計算する, b)入力値がクラスの分布マップに生じない各特徴のク
ラス−距離に1を加えることにより、各クラスに対する
負でない整数距離を計算する, c)この距離が最小であるクラスの入力画像を割り当て
る, d)1個以上の距離間にタイ(tie)が存在する画像を
場合により棄却するか又は“不明瞭”の印をつける, e)最小距離と次の最小距離との間のギャップが所定の
閾値未満である画像を場合により棄却するか又は“不明
瞭”の印をつける,及び f)最小距離が所定の閾値を越える画像を場合により棄
却する。
例えば、第1図の流れ図に図示された学習プロセス
は、入力として、所定のF個の異なるフォントとF個の
フォントの各々で示されるN個の記号(各々、個別クラ
スに対応する)の文字形状のアウトライン作図を取得す
る。この入力は所定の欠陥モデルを特定する一連のパラ
メータ値も包含する。このプロセスの出力は分布マップ
である。F及びNの他に、数値定数はM個の数値特徴、
(正規化された)特徴の最大整数値V及び各記号−フォ
ント対について生成されるべきD個の歪曲サンプルも包
含する。
各フォトにおける各記号について、アウトライン形状
作図を読み出し(ステップA)、所定の欠陥モデルに従
ってD個の歪曲サンプル画像を生成する(ステップ
B)。これらの各歪曲画像について、M個の数値特徴を
抽出し(ステップC)、これらの各特徴の値を1−Vの
範囲内に存在する値νに正規化する(ステップD)。そ
して、対応するビットを分布マップ内の論理1に設定す
る(ステップE)。
また、例えば、図2の流れ図に図示されたテストプロ
セスは、入力として、分布マップと未知クラスの画像を
取得する。このプロセスの出力は距離の昇順に記憶され
た、フォーム(クラスインデックス、距離)対のリスト
である。
M個の数値特徴が入力画像から抽出される(ステップ
F)。各特徴は前記のように正規化され(ステップ
G)、正規化特徴値νが得られる。各特徴について、現
行のクラス−特徴−値組合せに対応する入力分布マップ
におけるビットbが検索される(ステップH)。このビ
ットがOFFの場合、現行クラスに対応する距離アレイの
要素は1だけ増分される(ステップI)。距離アレイの
要素が全て評価された後、これらは昇順に記憶される
(ステップJ)。この記憶アレイは直接、テストプロセ
スの出力となる。
テストプロセスを第3図及び第4図を参照することに
より更に例証する。テスト画像から抽出された特徴は図
4の行10に列挙された値を有する。図3のクラス分布マ
ップの対応する列にも生じる各特徴値に関する同じ数字
の行20に“0"が挿入される。“1"は、クラス分布マップ
の対応列に生じない各特徴値について挿入される。図3
のマップにより示されるクラスについて、距離アレイの
対応する要素は図4の行20内のエントリを加算すること
により評価される。
高品質の学習データ、すなわち、正確に表示し、適正
なサイズよりも大きなデータを有することが望ましい。
このため、最小の学習セットは少なくともkV個のサ
ンプル/クラスを包含しなければならない。ここで、k
は1よりも大きな整数である。好ましくは、kは少なく
とも10である。なぜなら、クラス当たり10V個のサン
プルよりもかなり少ない学習セットは、かなりの出現率
を有する特徴値を含むことができないからである。
学習セットが真正な欠陥分布に対する極近似値からラ
ンダムに選択された場合、この最小サイズ基準は、真正
な分布中に生じることができる各特徴値が高い蓋然性で
学習セット中にも生じることを保証する。
実例的な認識プロセスでは、各特徴は、各クラス距離
により計算された最終“距離”に0又は1の寄与をする
ことができる。すなわち、たとえ幾つかの特徴の範囲
(異なる特徴値の数)が他のものよりも大きかったとし
ても、各特徴は不整合に対し同じペナルティを課す。
Vの選択は成功の必須要件である。Vが小さい(例え
ば、5未満)場合、特徴はうまく識別できないものと思
われる。Vが大きい(例えば、500超)場合、分布マッ
プは望ましくないほど大きく、必要な学習データの量は
過大である。従って、Vの好ましい範囲は5〜500であ
る。このような範囲を特徴値の“適度に粗い量子化”と
呼ぶ。
特徴の数は予め固定する必要はない。むしろ、学習セ
ットの統計量に応じて、学習中に成長することができ
る。
完全距離の特徴の構成 第5図及び第6図を参照しながら、関数の特定の同族
類から特徴を選択する方法を下記に説明する。この方法
により最大識別の達成が保証される。この方法は新たな
特徴を追加することにより学習セットの不明確性を徐々
に除去する。全てのクラスが識別されるか又は固有の不
明確性だけが残る場合に終了することが保証される。
この方法は各クラスcについて順番に繰返される。各
繰返しにおいて、全ての学習サンプルはグループS1とグ
ループS2の2つに分離される。ここで、S1はクラスcの
画像(図中、黒丸で示されている)を包含し、S2はその
他の全てのクラスの画像(図中、白丸で示されている)
を包含する。各グループのサンプル平均30,40を計算し
た。直線50はサンプル平均を通して引かれている。その
後、この直線上にサンプルをプロジェクション(投射)
した。(幾つかのプロジェクション例を第5図に点線で
示す。)次いで、プロジェクション範囲を、第6図に示
されるように、固定数のセグメントに均等に分割する。
或るクラスのサンプルのプロジェクションがこのセグメ
ント上に存在する場合、このセグメントはこのクラスに
ついて“on"とマークされる。直線50は、(前記のよう
な意味の)“特徴”と思料される。セグメントに対する
インデックスはこの特徴が取り得る値である。マークさ
れたセグメントはこの特徴の分布マップを形成する。S1
及びS2の双方についてマークされたセグメントが存在し
ない場合、S1における画像について識別特徴を得たこと
になり、この方法は(クラスcについて)終了する。さ
もなければ、S1は余分なものが取り除かれ、S2と重複す
るサンプルだけが残される。(例えば、第6図のセグメ
ント2はS1及びS2の双方についてマークされる。)その
後、余分なものが取り除かれたS1及びS2における全ての
画像を用いてこの方法が繰返される。S1内の全てのサン
プルがS2からのサンプルと重複する場合、S1は半分ずつ
に分割され、各半分についてこの方法を適用する。何れ
かのS1が空になるまで又はプロジェクションによってS1
及びS2を分離できなくなるまで(例えば、S1及びS2の両
方の全ての画像が同一である場合)、これを継続する。
実施例 印刷された漢字において最も普遍的に使用される4種
類のフォント(宋(Song),方宋(Fang Song),黒(H
ei)及び開(Kai))用の分類器を作製した。テキスト
サイズは7ポイント〜14ポイントの範囲内であり、空間
サンプリング速度は400画素/インチである。試験はGuo
Biao符号化GB2312−80,レベル1の全ての3755文字クラ
スを包含した。(Code of Chinese Graphic Character
for Information Interchange,Primary Set(GB2312−8
0),National Standards Bureau,Beijing,China(198
0)参照)印刷漢字認識システムで普遍的に使用される
幾つかの特徴を選択する。(S.Mori et al.,“Research
on Machine Recognition of Handprinted Character
s,"IEEE Trans.on Pattern Analysis and Machine Inte
lligence PAMI−6,4,(July 1984)386−405参照)入力
文字の2値画像は最初、簡単なスケーリング及びセンタ
リングにより48×48の2値画素マトリックスにサイズ正
規化された。すなわち、各画像は、多くとも22304≒10
694個の点を含有する、48×48=2304次元の2値ベクト
ル空間内の点にマップされる。
垂直及び水平プロジェクションプロファイル,外部輪
郭線から外接ボックスまでの距離及びストローク方向の
分布からなる、3種類の整数値セットを使用した。
プロジェクション特徴を次のように計算する。画像エ
リアを上下半分ずつに分割し、(各列内の黒画素の数を
計数する)垂直プロジェクションプロファイルをそれぞ
れについて計算する。同様に、2つの水平プロジェクシ
ョンプロファイルを左半分及び右半分について取得す
る。次いで、これら4個のプロファイルを連結し、48×
4=192次元のベクトルを生成する。各プロジェクショ
ン特徴の整数値は[0,24]の範囲内に存在する。
輪郭線特徴は外接ボックスの4つの端部の各々から文
字の外部輪郭線までの距離である。各列について、ボッ
クスの上端から列の最初の黒画素までの距離及び下端か
ら最後の黒画素までの距離を計算する。同様に、各行に
ついて、左端から最も左側の黒画素までの距離及び右端
から最も右側の黒画素までの距離を計算した。これらの
距離は48×4=192ディメンジョンのベクトルを生成す
る。各輪郭線特徴の整数値は[0,48]の範囲内に存在す
る。
ストローク方向特徴をラン・レングス分析により次の
ように計算する。各黒画素から、黒ランが4つの方向
(水平,NE−SW対角線,垂直及びNW−SE対角線)に拡張
されるに応じて、この画素を含有する黒ランの長さを計
算する。次いで、この画素に、ラン・レングスが最大で
ある方向を標識する。次いで、画像エリアを16個の(12
×12)平方領域に区分けし、各領域内の4種類のタイプ
の各々の画素の個数を計数する。これらの計数値を16×
4=64ディメンジョンのベクトルに記憶する。各ストロ
ーク方向特徴の整数値は[0,144]の範囲内に存在す
る。
従って、各文字画像は、多くとも25192×49192×145
64≒10731個の点を含有する、192+192+64=448ディメ
ンジョンの整数値ベクトル空間内のポイントにマップさ
れる。
輪郭線及びストローク方向特徴の両方の整数値範囲
を、プロジェクション特徴の範囲に整合する[0,24]内
に収まるように圧縮する。クラス当たり800個のサンプ
ルを有する学習セットを生成した。従って、各特徴につ
いて、今までの特徴値のサンプルよりも32倍も多いサン
プルを有する。
歪曲サンプルを生成するために、印刷、光学及びデジ
タル化による欠陥の明示的、定量的なパラメータ化モデ
ルと、このモデルを実現するための擬ランダム画像発生
器を使用する。モデルパラメータは、出力(ポイント単
位)の公称テキストサイズ、出力空間サンプリング速度
(画素/インチ単位のデジタル化解像度)、ポイントス
プレッド関数(出力画素単位の、ガウス汚点カーネルの
標準的エラー)、デジタル化閾値(強度単位、0.0は白
を示し、1.0は黒を示す)、画素センサ中の感度分布
(閾値に加えられるノイズターム)、画素中のジッタ分
布(すなわち、出力画素単位の、典型的平方格子からの
センサ中心の不一致)、回転(スキュー角度)、ストレ
ッチング係数(水平及び垂直の両方)及び画素格子に対
する翻訳オフセットを特定する。
学習セットデータの公称テキストサイズは7,9,11及び
13ポイントであり、テストセットの場合は8,10,12及び1
4ポイントである。擬ランダム発生器はこれらパラメー
タの分布仕様を受容する。各パラメータはそれぞれ独立
にランダム化される。これらの試験で使用される分布は
次の通りである。デジタル化解像度は400画素/インチ
に固定する。ガウス汚点カーネルの標準的エラーは画像
毎に変化し、通常、平均0.7、標準エラー0.3(出力画
素)で変化する。2進化閾値は画像毎に変化し、通常、
平均0.25、標準エラー0.04(強度)で変化する。画素セ
ンサ感度は画素毎に変化し、通常、平均0.125、標準エ
ラー0.04(強度)で変化する。ジッタは画素毎に変化
し、通常、平均0.2、標準エラー0.1(出力画素)で変化
する。スキューは画像毎に変化し、通常、平均0、標準
エラー0.7゜で変化する。幅に影響を及ぼす乗算係数は
[0.85,1.15]の間隔で一律に変化し、高さに影響を及
ぼす乗算係数は、通常、平均1.0、標準エラー0.02で変
化する。翻訳オフセットは[0,1](出力画素単位)で
一律に選択される。
フォント/サイズ/記号のトリプルの各々について、
各フォント/記号対の総数200個の学習/テストセット
について、また、各記号の総数800セットについて50個
のサンプルを生成する。
各学習サンプルについて特徴抽出機を適用する。結果
は、448ディメンジョンの整数値ベクトル又は同値的
に、448×25=11200ディメンジョンの2進値ベクトルの
何れかとして見做すことができる。これは“分布マッ
プ”と呼ばれる。単一のサンプルに関する分布マップで
は、各特徴は25ビットで示され、単一サンプルの場合、
単一ビットは、特徴の値を示す1に設定される。このよ
うな分布マップを第7図に示す。
各クラスについて、800個の学習サンプルに関する分
布マップを、これらのブール共用体を計算することによ
り、一つのマップに併合する。このようなクラス分布マ
ップでは、学習セット内で少なくとも一度は生じる各特
徴値は1に設定されたビットにより示される。また、0
値ビットは決して生じない特徴値を示す。この試験で使
用された最初の3つのクラスの分布マップを第8図に示
す。分類器は記憶域の全3755分布マップ群(総数3755×
11200≒42.1メガビット又は5.26メガバイト)により完
全に説明される。
テスト中、各文字画像の特徴を抽出し、そして、各ク
ラスについて、特徴をクラス分布マップに整合させる。
これは、448ビットベクトルを計算することにより行
う。この場合、この特徴がクラス分布マップ内で生じる
場合にのみ、各特徴に対応するビットは1に設定され
る。最後に、このクラスの“距離”は、全て1の値を有
する典型的ベクトルに対するこのベクトルのハミング距
離であると見做される。
完全GB2312−80レベル1における3755クラスについて
分類器の性能を評価した。分類器を3755クラスの各々の
800サンプルについて学習させた。総数800×3755=3004
000サンプルをテストした。表1に分類結果を示す。表
2は最適選択に関する様々なサイズの近傍におけるエラ
ー数及び正確率を示す。(すなわち、正解クラスが所定
の近傍内のどこにでも存在する場合、“正確”カウント
がされる。)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 バード ヘンリー スパルディング アメリカ合衆国、07040 ニュージャー ジー、メープルウッド、パーカー アベ ニュー 103 (56)参考文献 特開 昭58−169683(JP,A) 特開 平2−268388(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06T 7/00 - 7/60 G06K 9/62

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の画像クラスのうちの1つに割り当て
    られるべき入力画像を受け取るステップと、 前記入力画像の複数の特徴のそれぞれの特徴値を抽出す
    るステップと、 前記入力画像の特徴値を、前記複数の特徴のそれぞれに
    対するテストマップに記録するステップと、 各画像クラスごとに、該クラスに属することが既知であ
    る複数の学習画像を含む学習セットにおいて生じる入力
    画像の特徴値を、該クラスに関連づけて記憶するステッ
    プと、 前記入力画像の特徴値を、記憶された学習画像の特徴値
    のうちの少なくとも一部と比較するステップと、 前記比較するステップの結果に基づいて、前記入力画像
    を前記複数の画像クラスのうちの1つに割り当てるステ
    ップとを有する文字認識方法において、 少なくとも1つの特徴は、少なくとも1つの画像クラス
    の画像の形状に関係する規則に従って定義され、 前記記憶するステップは、各画像クラスのクラス分布マ
    ップを作成するステップを含み、 各クラス分布マップは、各特徴のそれぞれの可能な特徴
    値ごとに1つの記録を有する配列を含み、各記録は、対
    応する特徴値が、関連するクラスの少なくとも1つの学
    習画像によって示されたかどうかを示し、 前記比較するステップは、各クラス分布マップと、前記
    入力画像の特徴値から得られるテストマップとの間のク
    ラス距離を評価することを含み、 前記割り当てるステップにおいて、前記入力画像は、前
    記比較するステップで前記クラス距離に関して最も近い
    クラス分布マップであると判断されたクラスに割り当て
    られ、 各クラス距離は、一致しない特徴を計数することによっ
    て評価され、 特徴は、前記入力画像について評価された特徴値が、関
    連するクラス分布マップ内の特徴値のいずれとも一致し
    ない場合に限り、該特徴に対してテストマップに「1」
    を含めることによって、一致しないとして計数され、 一致しない特徴を計数する際に、いずれの特徴にも等し
    い重みが与えられることを特徴とする文字認識方法。
JP51209495A 1993-10-15 1994-10-13 分布マップを用いる画像の分類方法及び装置 Expired - Fee Related JP3228938B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US13857993A 1993-10-15 1993-10-15
US138,579 1993-10-15
US08/138,579 1993-10-15
PCT/US1994/011714 WO1995010820A1 (en) 1993-10-15 1994-10-13 Methods and apparatus for classification of images using distribution maps

Publications (2)

Publication Number Publication Date
JPH08508128A JPH08508128A (ja) 1996-08-27
JP3228938B2 true JP3228938B2 (ja) 2001-11-12

Family

ID=22482650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51209495A Expired - Fee Related JP3228938B2 (ja) 1993-10-15 1994-10-13 分布マップを用いる画像の分類方法及び装置

Country Status (7)

Country Link
US (1) US5825925A (ja)
EP (1) EP0674794B1 (ja)
JP (1) JP3228938B2 (ja)
KR (1) KR950704755A (ja)
CA (1) CA2150110C (ja)
DE (1) DE69423607T2 (ja)
WO (1) WO1995010820A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930393A (en) * 1997-08-11 1999-07-27 Lucent Technologies Inc. Method and apparatus for enhancing degraded document images
DE69734123T2 (de) * 1997-11-19 2006-06-22 Yamatake Corp. Verfahren zur erzeugung eines klassifikationsmodells
US6252988B1 (en) * 1998-07-09 2001-06-26 Lucent Technologies Inc. Method and apparatus for character recognition using stop words
US6406518B1 (en) 2000-08-21 2002-06-18 Praxair Technology, Inc. Gas separation process using ceramic membrane and regenerators
US6772152B2 (en) * 2001-03-22 2004-08-03 International Business Machines Corporation System and method for mining patterns from a dataset
CA2375355A1 (en) * 2002-03-11 2003-09-11 Neo Systems Inc. Character recognition system and method
US20030233619A1 (en) * 2002-05-30 2003-12-18 Fast Bruce Brian Process for locating data fields on electronic images of complex-structured forms or documents
GB0807411D0 (en) * 2008-04-23 2008-05-28 Mitsubishi Electric Inf Tech Scale robust feature-based indentfiers for image identification
US8660371B2 (en) 2010-05-06 2014-02-25 Abbyy Development Llc Accuracy of recognition by means of a combination of classifiers
CN101923653B (zh) * 2010-08-17 2013-03-06 北京大学 一种基于多层次内容描述的图像分类方法
CN102011432B (zh) * 2010-11-24 2012-01-25 同济大学 多边形组合式钢管
KR20140102038A (ko) * 2013-02-13 2014-08-21 삼성전자주식회사 영상 정합 장치 및 영상 정합 방법
CN104299008B (zh) * 2014-09-23 2017-10-31 同济大学 基于多特征融合的车型分类方法
US10089523B2 (en) * 2016-10-05 2018-10-02 Intuit Inc. Automating creation of accurate OCR training data using specialized UI application
EP3660750B1 (en) * 2018-11-30 2022-01-05 Secondmind Limited Method and system for classification of data
CN113469233B (zh) * 2021-06-23 2024-05-07 临沂大学 基于深度学习的烟叶自动定级方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3638188A (en) * 1969-10-17 1972-01-25 Westinghouse Electric Corp Classification method and apparatus for pattern recognition systems
US3651459A (en) * 1970-05-15 1972-03-21 Philco Ford Corp Character distance coding
US3930231A (en) * 1974-06-10 1975-12-30 Xicon Data Entry Corp Method and system for optical character recognition
GB1545117A (en) * 1976-05-25 1979-05-02 Nat Res Dev Comparison apparatus eg for use in character recognition
US4177448A (en) * 1978-06-26 1979-12-04 International Business Machines Corporation Character recognition system and method multi-bit curve vector processing
US5060277A (en) * 1985-10-10 1991-10-22 Palantir Corporation Pattern classification means using feature vector regions preconstructed from reference data
JPH02268388A (ja) * 1989-04-10 1990-11-02 Hitachi Ltd 文字認識方法
US5255354A (en) * 1990-06-08 1993-10-19 Xerox Corporation Comparison of image shapes based on near neighbor data
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods

Also Published As

Publication number Publication date
EP0674794B1 (en) 2000-03-22
DE69423607T2 (de) 2000-11-09
DE69423607D1 (de) 2000-04-27
CA2150110C (en) 2000-01-11
CA2150110A1 (en) 1995-04-20
JPH08508128A (ja) 1996-08-27
EP0674794A4 (en) 1996-02-14
WO1995010820A1 (en) 1995-04-20
EP0674794A1 (en) 1995-10-04
KR950704755A (ko) 1995-11-20
US5825925A (en) 1998-10-20

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
JP3228938B2 (ja) 分布マップを用いる画像の分類方法及び装置
CN109740606B (zh) 一种图像识别方法及装置
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
KR19990072314A (ko) 컬러화상처리장치및패턴추출장치
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN115457565A (zh) 一种ocr文字识别方法、电子设备及存储介质
CN112016481B (zh) 基于ocr的财务报表信息检测和识别方法
Azad et al. A novel and robust method for automatic license plate recognition system based on pattern recognition
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN116912865A (zh) 表格图像识别方法、装置、设备及介质
Wicht et al. Camera-based sudoku recognition with deep belief network
CN111612045B (zh) 一种获取目标检测数据集的通用方法
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN109726722B (zh) 一种字符分割方法及装置
CN115346206B (zh) 基于改进超分辨的深度卷积特征识别的车牌检测方法
CN112766082B (zh) 基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质
Sun Multi-linguistic optical font recognition using stroke templates
CN114708457A (zh) 用于抗紫边识别的高光谱深度学习识别方法
CN111626299A (zh) 一种基于轮廓的数字字符识别方法
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム
Godhandaraman et al. Automatic License Number Plate Recognition System (ALNPR)

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080907

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees