ディジタル画像のディジタル化後の分類は、大量の文書が変換されるため手動での分類が現実的に不可能なことから、問題となりやすい。現在、テンプレートマッチング、高レベル特徴抽出に基づく判別モデル、アドホックルールに基づくシステム、および言語形状認識等の方法が画像分類に利用されているが、これら方法にはそれぞれ欠点がある。例えばテンプレートマッチングは、変換スキュー、縮尺、外部マーク、用紙の折れ、または抜け箇所等の、ディジタル画像上で識別される入力特徴のわずかなばらつきのために失敗する場合がある。
同様に、高レベル特徴抽出法は、光学文字認識(「OCR」)またはレイアウト分析による内容分析を用いる。OCRは画像データをディジタル方式でテキストに変換し、これを意味論から分析して文書の分類に役立てる。OCR支援型テキスト分類は、文書が十分な種類、品質、および量のテキストを含む場合にもっとも効果的に機能する。さらに、テキストデータは、絵画データ、またはテキストデータの少ない所得税還付等の様式文書を適正に分類するには不十分な場合がある。最後に、OCRは当該文書の言語では利用不可な場合がある。
レイアウト分析は、ディジタル画像を対比させるカテゴリプロトタイプとして用いられる文書署名を利用する。プロトタイプは理想のカテゴリ例から抽出した特徴を含みうる。最も一致するプロトタイプに基づいて文書画像が分類される。レイアウト分析は、プロトタイプ作成に多大な努力を要するため用途が狭く、特徴配置の変化によって誤識別または拒絶を生じる場合がある。
アドホックルールに基づくシステムは、ユーザが指定した、異なるカテゴリの文書を特徴付ける特徴を検索する。かかるシステムはトライアルアンドエラー(試行錯誤)によって発展し、モデル固有の仮定外の特徴を含む文書画像に対してはすぐに失敗する。また、新たな文書カテゴリを加えるには、特徴を判別する境界を再定義しなければならない。
最後に、文字形状認識は、レイアウト分析システムによってセグメント化された文書画像のモデルに対して行われる。構文解析した文字形状を判別決定ツリーに適用して、適切なカテゴリを特定する。しかし文字形状認識には、広範な文字形状サンプルを用いた訓練が必要である。
従って、テンプレートマッチング、帰納的規則、またはOCR等の高レベル特徴分析に頼ることなく、特徴の変動性に対処するディジタル文書および画像の分類実行方法が必要とされている。
入力文書画像を特徴生成モデルによってカテゴリに分類するシステムおよび方法を提供する。強度変化を評価して画像を分類し、例えばハールフィルタ特徴等の低レベル特徴を含む各特徴を認識する。閾値を超えるフィルタ応答は「firing(発火)」となり、文書の特徴リストに加えられる。特徴リストの長さは入力画像の変動性によって可変であり、縮尺は画像またはフィルタサイズを調整して変更できる。特徴の発火は分散図中の点としてモデル化される。各文書カテゴリは確率分布として提示され、これを散布図と対比させて最尤カテゴリを特定する。
一実施形態では、画像中に生じる特徴の生成モデルによって分類を実行するシステムおよび方法を提供する。複数のトレーニング画像中に生じる特徴のカテゴリ条件付き確率分布を維持する。それぞれの分布を1つのカテゴリに割り当てる。未分類画像中に生じる特徴を特定し、各カテゴリのカテゴリ条件付き確率分布を用いて、特定した特徴のカテゴリ条件付き尤度を求める。カテゴリ条件付き尤度に基づいて、未分類画像を1つのカテゴリに割り当てる。
画像の分類は、大きくは文書画像分析の一環として行われ、後続の分析を支援するために、ディジタル文書画像を1つ以上の事前に定義されたカテゴリに分析および割り当てる工程を含みうる。図1は、本発明の一実施形態に従って、画像中に生じる特徴の生成モデルによって分類を実行するシステム10を示す。本明細書中、「ディジタル画像」、「文書画像」、「ディジタル化文書」、および「ディジタル化した複製」は互換可能に使用でき、例えばテキスト、絵画、グラフィックス等を任意に組み合わせたものを含む印刷文書のディジタル画像を指すものとする。
画像分析の一形式では、画像分類は分類器11によって実行され、分類器11はコンピュータシステム13上で作動して入力文書画像14を各カテゴリ12に割り当てる。画像分類はまた、画像分析を参照しない独立機能としても実行できる。文書画像14は、例えば所得税還付様式等の様式および事前印刷文書16、アメリカ合衆国大統領の肖像画等の絵画データ17、および絵画とテキスト両方のデータを含む郵便切手のディジタル表現等の混合データ18を含む。これら以外の種類の文書画像14も可能である。
分類器11は各文書画像14を分析し、文書画像14が属する尤度が最も高いカテゴリ12を決定する。他の実施形態では、分類器11は1つ以上のカテゴリ12を決定できる。カテゴリ群12はカテゴリラベルのセットを特定し、これは図2以降を参照して詳述する生成特徴モデリング法を用いて分類器11が認識するディジタル画像のタイプに関連付けられるものである。分類後、文書画像14に対して動作群15を実行できる。一例として、動作群15には、入力画像14から派生したテキストおよびその他のデータのインデックス付け19と検索20、ならびに派生データのソート21と統合22が含まれうる。さらに、タスク割り当て23によって、文書画像14をOCR、レイアウト分析、および文字形状コード分析を含む適切な分類後の処理へ進めることができる。他の動作群15も可能である。
好適には、コンピュータシステム13は、ソフトウェアプログラムを実行するパーソナルデスクトップまたはノートブックコンピュータ等の汎用計算ワークステーションである。コンピュータシステム13は、中央演算処理装置、記憶装置、ネットワークインターフェース、永続的記憶装置、およびネットワーク相互連結用の各構成要素等、従来の計算装置に見られる構成要素を含む。分類器13はまた、ハードウェア中でマイクロプログラムを組み込んだ装置または専用計算モジュールとして実現することもできる。その他のシステムおよび構成要素も可能である。
画像分類は、各画像で特定された特徴に基づいて入力ディジタル画像を1つ以上のカテゴリに割り当てる。図2は、本発明の一実施形態に従って、画像中に生じる特徴の生成モデルによって分類を実行する方法30を示す工程フロー図である。生成特徴モデルは、サンプル文書のセットに対するトレーニングによって生成して各カテゴリ12の特徴セットを特定するものでもよいし、または手動または自動化手段で構築される事前に定義されたモデルとして設けてもよい。
まず最初に各画像中の特徴を特定し、これは例えば、未分類画像の輝度チャネル表現の2つのレベル、すなわち黒白、グレースケール、またはカラー画像等の一方の強度変化に対する特徴フィルタの応答を評価して行う。所定の閾値に合致する各特徴フィルタ応答は特徴の「発火」となり、図3を参照して下記に詳述する画像の特徴リストの一要素として加えられる(動作31)。特徴リスト中の各特徴発火は、以下で図6を参照して詳述するように記録される。最後に、記録された特徴リストにカテゴリ12の各カテゴリの確率分布が適合され、図6を参照して詳述するようにカテゴリ条件付き特徴尤度関数を推定する(動作32)。その後、最良または最大カテゴリ条件付き尤度、相応な尤度、または尤度が信頼閾値を満足させるだけであるかに基づいて、カテゴリラベルを文書画像41に割り当てることができる。これ以外の場合、文書画像41は認識不可または未知のカテゴリとして分類できる。他の実施形態では、カテゴリ割り当ては、厳密ではなく近似のカテゴリ条件付き尤度に基づく。
特徴リストは、画像中で特定された特徴のリストであり、入力画像中の変動性のため可変長となりうる。特徴リストは、各カテゴリに特有の生成モデルに合致する。図3は、図2の方法で用いる特徴リスト生成ルーチンを示す工程フロー図である。一実施形態では、各文書画像41で特定される特徴はハール・フィルタの一形式であり、これは本願に引用して適用する「単純な特徴のブースト・カスケードを用いた高速対象検出(Rapid Object Detection Using a Boosted Cascade of Simple Features)」P.A.ビオラおよびM.J.ジョーンズ(P.A.Viola and M.Jones)著、CVPR議事録511〜518ページ(2001年)に記載されているビオラ・ジョーンズ矩形フィルタとしても公知である。ここでは特徴はビオラ・ジョーンズフィルタのサブセットとして実現されるが、他の種類の特徴、フィルタ、および視覚アーチファクトも可能であり、例えば他形式のハール・フィルタ、操縦可能(スティーラブル)フィルタ、ガボール・フィルタ、ウェーブレット・フィルタ、エッジ検出フィルタ、明暗強度転移カウント、テクスチャ特徴、相似形特徴、接続成分、および高レベル対象検出器を含む、他のタイプの特徴、フィルタ、および可視アーチファクト等が含まれる。
各文書画像41は、まずインテグラルイメージを作成して中間表現に変換され(動作42)、これは白黒画像では強度の強弱からなる。インテグラルイメージは、上記文献の512〜513ページに記載されているように、画素和43の累積によって1つの計算パスで高速特徴評価を可能にする。特定された特徴が評価され(動作44)、特徴リスト46が形成される。画素和43が所定の閾値規準を満たせば、特徴エントリは特徴の「発火(firing)」45として記録され、特徴リスト46に加えられる。
一実施形態では、各特徴発火は、一種類の特徴と1つのスケールについて画像中のある位置でとられた文書画像41のフィルタ応答測定値をあらわす。図4は、フィルタの一例としてビオラ・ジョーンズ矩形フィルタ(別名ハール・フィルタ)のブロック図を示す。評価される各種ビオラ・ジョーンズ矩形フィルタは、面積和51、水平ステップ52、垂直ステップ53、垂直バンド54、水平バンド55、および斜線バンド56を含む。各フィルタタイプごとに、フィルタの暗部の画素強度の和を明部の画素強度の和から減じて、フィルタ応答を評価する。
各特徴発火45は5字組の一要素として特徴リスト46に保存される。図5は、特徴リストのエントリを保存する5字組60用の構成例を示すデータ構造図である。5字組60はそれぞれ、特徴のタイプ61と、文書イメージ中のx軸62およびy軸63と、特徴の幅64および高さ65の対数とを含む。特徴の寸法は、5字組60の要素数、すなわち5に対応するが、ただし特徴リストNの長さは入力ディジタル画像41の差に応じて異なる。他のデータ構造および構成も可能である。
分類される各画像は、顕著な特徴[x1,x2,...,xN]の特徴リスト46で表される。各特徴リストの長さNは画像ごとに異なってもよい。各特徴リスト46に対応する文書画像41が、組S={1,2,...,C}の事前に特定したC個のカテゴリの1つに割り当てられる。一実施形態では、カテゴリは最尤法によって割り当てられる。観察される画像のカテゴリCMLは、以下の式で求められる。
式中、cはあるカテゴリを表す整数をさし0<c≦C、CMLは最尤度カテゴリをさす。
画像カテゴリは、カテゴリ条件付き特徴尤度関数p(xn|c)として識別される。各特徴xnは測定値または属性のD次元ベクトル[xn1,xn2,...,xnD]である。一実施形態では、カテゴリごとに、尤度関数p(xn|c)を潜在条件付き独立確率分布モデルを用いてK個の独立成分の混合としてモデリングする。これは以下の式で表わされる。
式中、kは0≦k≦Kの独立成分を示し、dは1≦d≦Dの次元を示す。従って、xndは特徴xnのd番目の次元の値を示し、pk(c)は特徴がk番目の混合成分から生成されるカテゴリ条件付き確率を示し、pk(xn|c)は、特徴xnのd番目の次元の値がxnDとなるカテゴリおよび潜在条件付き尤度を示す。尤度関数は、属性の値が連続している場合は、ガウシアン、指数、ベータ、ガンマ、およびラプラス分布等の密度から構成され、属性が有限個の値からなる離散的なものである場合は、多項確率関数として分布から構成される。
各特徴リスト46中の特徴発火45は、分散図等を用いてポイントとして図式的に表すことができるが、表示または視覚化が可能な他の形式も可能である。図6は、特徴リスト46の特徴発火ポイントを示す分散図70の一例である。x軸およびy軸はそれぞれ文書画像41のx座標およびy座標を示す。
2次元で見られるようにするため、分散図70はビジネスレターにおける等の文書画像41について、各特徴発火45のx座標点とy座標点のみを示す。本例では、各点は文書画像41でのグループ分けに基づいて6つのグループ0≦k≦5に分けられる。潜在条件付き独立モデルは以下の式で表される。
従って、5つの次元では潜在条件付き独立モデルは以下の式で表される。
式中、fは特徴の種類を示し、wは特徴の幅の対数を示し、hは特徴の高さの対数を示す。モデルを適用して、カテゴリcについての1つの潜在条件付き独立式を作ると、モデルは次のようになる。
各モデルをトレーニングするには期待最大化アルゴリズムを用いることができる。
11 分類器、12 カテゴリ、13 コンピュータシステム、14 ディジタル文書画像、15 動作、16 事前印刷文書、17 絵画データ、18 混合データ、19 インデックス付け、20 検索、21 保存、22 統合、23 タスク割り当て。