JP2008159056A

JP2008159056A - 画像中に生じる特徴の生成モデルによる分類

Info

Publication number: JP2008159056A
Application number: JP2007328481A
Authority: JP
Inventors: Prateek Sarkar; サーカープラティーク
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2006-12-22
Filing date: 2007-12-20
Publication date: 2008-07-10
Also published as: US20080152238A1; EP1936536B1; EP1936536A2; EP1936536A3; US8000538B2

Abstract

【課題】テンプレートマッチング、帰納的規則、またはＯＣＲ等の高レベル特徴分析に頼ることなく、特徴の変動性に対処するディジタル文書および画像の分類実行方法が必要とされている。
【解決手段】画像中に生じる特徴の生成モデルによって分類を行うシステムは、それぞれ１つのカテゴリに割り当てられた複数のトレーニング画像中に生じる特徴の、カテゴリ条件付き確率分布を記憶させたものと、分類器とを含み、分類器は、未分類の画像中に生じる特徴を特定する特徴識別部と、特定した特徴について、各カテゴリの前記カテゴリ条件付き確率分布を用いてカテゴリ条件付き尤度を決定する尤度評価部と、未分類の画像を、カテゴリ条件付き尤度に基づいて１つのカテゴリに割り当てるカテゴリ分類部とを含む。
【選択図】図１

Description

本出願は、一般には画像分類に関し、より特定的には画像中に生じる特徴を生成モデルによって分類するシステムおよび方法に関する。

現在、ディジタル画像は、業務用および個人用の幅広い用途向けに簡単に交換および操作できる。ディジタル画像は、ハードコピーの代わりにテキスト文書の絵画データおよびディジタル化した複製を含む。このディジタル文書を従来の印刷文書に幅広く取り入れることに対応して、オフィスおよび個人用生産性装置は、ディジタイザおよび印刷内容をディジタル画像に直接変換する同様の手段を組み入れ始めている。コピー機、スキャナ、およびディジタル可能なファクシミリ機等の装置は、紙の文書の等価物を電子的に迅速に生成できる。ただし一般には、変換された「生」のディジタルデータを言語処理またはデータ分析で必要とされるような利用可能な形式に変換させることが必要である。必要な処理形式は変換される文書の種類によって異なり、例えばインデックス付けと検索、ソートと統合、ならびに自動分析タスク等がある。このため、さらなる処理工程を行う前にディジタル画像を分類しなければならない場合が多い。

「単純な特徴のブースト・カスケードを用いた高速対象検出（ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＵｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ）」Ｐ．Ａ．ビオラおよびＭ．Ｊ．ジョーンズ（Ｐ．Ａ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ）著、ＣＶＰＲ議事録５１１〜５１８ページ（２００１年）

ディジタル画像のディジタル化後の分類は、大量の文書が変換されるため手動での分類が現実的に不可能なことから、問題となりやすい。現在、テンプレートマッチング、高レベル特徴抽出に基づく判別モデル、アドホックルールに基づくシステム、および言語形状認識等の方法が画像分類に利用されているが、これら方法にはそれぞれ欠点がある。例えばテンプレートマッチングは、変換スキュー、縮尺、外部マーク、用紙の折れ、または抜け箇所等の、ディジタル画像上で識別される入力特徴のわずかなばらつきのために失敗する場合がある。

同様に、高レベル特徴抽出法は、光学文字認識（「ＯＣＲ」）またはレイアウト分析による内容分析を用いる。ＯＣＲは画像データをディジタル方式でテキストに変換し、これを意味論から分析して文書の分類に役立てる。ＯＣＲ支援型テキスト分類は、文書が十分な種類、品質、および量のテキストを含む場合にもっとも効果的に機能する。さらに、テキストデータは、絵画データ、またはテキストデータの少ない所得税還付等の様式文書を適正に分類するには不十分な場合がある。最後に、ＯＣＲは当該文書の言語では利用不可な場合がある。

レイアウト分析は、ディジタル画像を対比させるカテゴリプロトタイプとして用いられる文書署名を利用する。プロトタイプは理想のカテゴリ例から抽出した特徴を含みうる。最も一致するプロトタイプに基づいて文書画像が分類される。レイアウト分析は、プロトタイプ作成に多大な努力を要するため用途が狭く、特徴配置の変化によって誤識別または拒絶を生じる場合がある。

アドホックルールに基づくシステムは、ユーザが指定した、異なるカテゴリの文書を特徴付ける特徴を検索する。かかるシステムはトライアルアンドエラー(試行錯誤)によって発展し、モデル固有の仮定外の特徴を含む文書画像に対してはすぐに失敗する。また、新たな文書カテゴリを加えるには、特徴を判別する境界を再定義しなければならない。

最後に、文字形状認識は、レイアウト分析システムによってセグメント化された文書画像のモデルに対して行われる。構文解析した文字形状を判別決定ツリーに適用して、適切なカテゴリを特定する。しかし文字形状認識には、広範な文字形状サンプルを用いた訓練が必要である。

従って、テンプレートマッチング、帰納的規則、またはＯＣＲ等の高レベル特徴分析に頼ることなく、特徴の変動性に対処するディジタル文書および画像の分類実行方法が必要とされている。

入力文書画像を特徴生成モデルによってカテゴリに分類するシステムおよび方法を提供する。強度変化を評価して画像を分類し、例えばハールフィルタ特徴等の低レベル特徴を含む各特徴を認識する。閾値を超えるフィルタ応答は「ｆｉｒｉｎｇ(発火)」となり、文書の特徴リストに加えられる。特徴リストの長さは入力画像の変動性によって可変であり、縮尺は画像またはフィルタサイズを調整して変更できる。特徴の発火は分散図中の点としてモデル化される。各文書カテゴリは確率分布として提示され、これを散布図と対比させて最尤カテゴリを特定する。

一実施形態では、画像中に生じる特徴の生成モデルによって分類を実行するシステムおよび方法を提供する。複数のトレーニング画像中に生じる特徴のカテゴリ条件付き確率分布を維持する。それぞれの分布を１つのカテゴリに割り当てる。未分類画像中に生じる特徴を特定し、各カテゴリのカテゴリ条件付き確率分布を用いて、特定した特徴のカテゴリ条件付き尤度を求める。カテゴリ条件付き尤度に基づいて、未分類画像を１つのカテゴリに割り当てる。

画像の分類は、大きくは文書画像分析の一環として行われ、後続の分析を支援するために、ディジタル文書画像を１つ以上の事前に定義されたカテゴリに分析および割り当てる工程を含みうる。図１は、本発明の一実施形態に従って、画像中に生じる特徴の生成モデルによって分類を実行するシステム１０を示す。本明細書中、「ディジタル画像」、「文書画像」、「ディジタル化文書」、および「ディジタル化した複製」は互換可能に使用でき、例えばテキスト、絵画、グラフィックス等を任意に組み合わせたものを含む印刷文書のディジタル画像を指すものとする。

画像分析の一形式では、画像分類は分類器１１によって実行され、分類器１１はコンピュータシステム１３上で作動して入力文書画像１４を各カテゴリ１２に割り当てる。画像分類はまた、画像分析を参照しない独立機能としても実行できる。文書画像１４は、例えば所得税還付様式等の様式および事前印刷文書１６、アメリカ合衆国大統領の肖像画等の絵画データ１７、および絵画とテキスト両方のデータを含む郵便切手のディジタル表現等の混合データ１８を含む。これら以外の種類の文書画像１４も可能である。

分類器１１は各文書画像１４を分析し、文書画像１４が属する尤度が最も高いカテゴリ１２を決定する。他の実施形態では、分類器１１は１つ以上のカテゴリ１２を決定できる。カテゴリ群１２はカテゴリラベルのセットを特定し、これは図２以降を参照して詳述する生成特徴モデリング法を用いて分類器１１が認識するディジタル画像のタイプに関連付けられるものである。分類後、文書画像１４に対して動作群１５を実行できる。一例として、動作群１５には、入力画像１４から派生したテキストおよびその他のデータのインデックス付け１９と検索２０、ならびに派生データのソート２１と統合２２が含まれうる。さらに、タスク割り当て２３によって、文書画像１４をＯＣＲ、レイアウト分析、および文字形状コード分析を含む適切な分類後の処理へ進めることができる。他の動作群１５も可能である。

好適には、コンピュータシステム１３は、ソフトウェアプログラムを実行するパーソナルデスクトップまたはノートブックコンピュータ等の汎用計算ワークステーションである。コンピュータシステム１３は、中央演算処理装置、記憶装置、ネットワークインターフェース、永続的記憶装置、およびネットワーク相互連結用の各構成要素等、従来の計算装置に見られる構成要素を含む。分類器１３はまた、ハードウェア中でマイクロプログラムを組み込んだ装置または専用計算モジュールとして実現することもできる。その他のシステムおよび構成要素も可能である。

画像分類は、各画像で特定された特徴に基づいて入力ディジタル画像を１つ以上のカテゴリに割り当てる。図２は、本発明の一実施形態に従って、画像中に生じる特徴の生成モデルによって分類を実行する方法３０を示す工程フロー図である。生成特徴モデルは、サンプル文書のセットに対するトレーニングによって生成して各カテゴリ１２の特徴セットを特定するものでもよいし、または手動または自動化手段で構築される事前に定義されたモデルとして設けてもよい。

まず最初に各画像中の特徴を特定し、これは例えば、未分類画像の輝度チャネル表現の２つのレベル、すなわち黒白、グレースケール、またはカラー画像等の一方の強度変化に対する特徴フィルタの応答を評価して行う。所定の閾値に合致する各特徴フィルタ応答は特徴の「発火」となり、図３を参照して下記に詳述する画像の特徴リストの一要素として加えられる（動作３１）。特徴リスト中の各特徴発火は、以下で図６を参照して詳述するように記録される。最後に、記録された特徴リストにカテゴリ１２の各カテゴリの確率分布が適合され、図６を参照して詳述するようにカテゴリ条件付き特徴尤度関数を推定する（動作３２）。その後、最良または最大カテゴリ条件付き尤度、相応な尤度、または尤度が信頼閾値を満足させるだけであるかに基づいて、カテゴリラベルを文書画像４１に割り当てることができる。これ以外の場合、文書画像４１は認識不可または未知のカテゴリとして分類できる。他の実施形態では、カテゴリ割り当ては、厳密ではなく近似のカテゴリ条件付き尤度に基づく。

特徴リストは、画像中で特定された特徴のリストであり、入力画像中の変動性のため可変長となりうる。特徴リストは、各カテゴリに特有の生成モデルに合致する。図３は、図２の方法で用いる特徴リスト生成ルーチンを示す工程フロー図である。一実施形態では、各文書画像４１で特定される特徴はハール・フィルタの一形式であり、これは本願に引用して適用する「単純な特徴のブースト・カスケードを用いた高速対象検出（ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＵｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ）」Ｐ．Ａ．ビオラおよびＭ．Ｊ．ジョーンズ（Ｐ．Ａ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ）著、ＣＶＰＲ議事録５１１〜５１８ページ（２００１年）に記載されているビオラ・ジョーンズ矩形フィルタとしても公知である。ここでは特徴はビオラ・ジョーンズフィルタのサブセットとして実現されるが、他の種類の特徴、フィルタ、および視覚アーチファクトも可能であり、例えば他形式のハール・フィルタ、操縦可能（スティーラブル）フィルタ、ガボール・フィルタ、ウェーブレット・フィルタ、エッジ検出フィルタ、明暗強度転移カウント、テクスチャ特徴、相似形特徴、接続成分、および高レベル対象検出器を含む、他のタイプの特徴、フィルタ、および可視アーチファクト等が含まれる。

各文書画像４１は、まずインテグラルイメージを作成して中間表現に変換され（動作４２）、これは白黒画像では強度の強弱からなる。インテグラルイメージは、上記文献の５１２〜５１３ページに記載されているように、画素和４３の累積によって１つの計算パスで高速特徴評価を可能にする。特定された特徴が評価され（動作４４）、特徴リスト４６が形成される。画素和４３が所定の閾値規準を満たせば、特徴エントリは特徴の「発火（ｆｉｒｉｎｇ）」４５として記録され、特徴リスト４６に加えられる。

一実施形態では、各特徴発火は、一種類の特徴と１つのスケールについて画像中のある位置でとられた文書画像４１のフィルタ応答測定値をあらわす。図４は、フィルタの一例としてビオラ・ジョーンズ矩形フィルタ（別名ハール・フィルタ）のブロック図を示す。評価される各種ビオラ・ジョーンズ矩形フィルタは、面積和５１、水平ステップ５２、垂直ステップ５３、垂直バンド５４、水平バンド５５、および斜線バンド５６を含む。各フィルタタイプごとに、フィルタの暗部の画素強度の和を明部の画素強度の和から減じて、フィルタ応答を評価する。

各特徴発火４５は５字組の一要素として特徴リスト４６に保存される。図５は、特徴リストのエントリを保存する５字組６０用の構成例を示すデータ構造図である。５字組６０はそれぞれ、特徴のタイプ６１と、文書イメージ中のｘ軸６２およびｙ軸６３と、特徴の幅６４および高さ６５の対数とを含む。特徴の寸法は、５字組６０の要素数、すなわち５に対応するが、ただし特徴リストＮの長さは入力ディジタル画像４１の差に応じて異なる。他のデータ構造および構成も可能である。

分類される各画像は、顕著な特徴［ｘ_１，ｘ_２，．．．，ｘ_Ｎ］の特徴リスト４６で表される。各特徴リストの長さＮは画像ごとに異なってもよい。各特徴リスト４６に対応する文書画像４１が、組Ｓ＝｛１，２，．．．，Ｃ｝の事前に特定したＣ個のカテゴリの１つに割り当てられる。一実施形態では、カテゴリは最尤法によって割り当てられる。観察される画像のカテゴリＣ_ＭＬは、以下の式で求められる。
式中、ｃはあるカテゴリを表す整数をさし０＜ｃ≦Ｃ、Ｃ_ＭＬは最尤度カテゴリをさす。

画像カテゴリは、カテゴリ条件付き特徴尤度関数ｐ（ｘ_ｎ｜ｃ）として識別される。各特徴ｘ_ｎは測定値または属性のＤ次元ベクトル［ｘ_ｎ１，ｘ_ｎ２，．．．，ｘ_ｎＤ]である。一実施形態では、カテゴリごとに、尤度関数ｐ（ｘ_ｎ｜ｃ）を潜在条件付き独立確率分布モデルを用いてＫ個の独立成分の混合としてモデリングする。これは以下の式で表わされる。
式中、ｋは０≦ｋ≦Ｋの独立成分を示し、ｄは１≦ｄ≦Ｄの次元を示す。従って、ｘ_ｎｄは特徴ｘ_ｎのｄ番目の次元の値を示し、ｐ_ｋ（ｃ）は特徴がｋ番目の混合成分から生成されるカテゴリ条件付き確率を示し、ｐ_ｋ（ｘ_ｎ｜ｃ）は、特徴ｘ_ｎのｄ番目の次元の値がｘ_ｎＤとなるカテゴリおよび潜在条件付き尤度を示す。尤度関数は、属性の値が連続している場合は、ガウシアン、指数、ベータ、ガンマ、およびラプラス分布等の密度から構成され、属性が有限個の値からなる離散的なものである場合は、多項確率関数として分布から構成される。

各特徴リスト４６中の特徴発火４５は、分散図等を用いてポイントとして図式的に表すことができるが、表示または視覚化が可能な他の形式も可能である。図６は、特徴リスト４６の特徴発火ポイントを示す分散図７０の一例である。ｘ軸およびｙ軸はそれぞれ文書画像４１のｘ座標およびｙ座標を示す。

２次元で見られるようにするため、分散図７０はビジネスレターにおける等の文書画像４１について、各特徴発火４５のｘ座標点とｙ座標点のみを示す。本例では、各点は文書画像４１でのグループ分けに基づいて６つのグループ０≦ｋ≦５に分けられる。潜在条件付き独立モデルは以下の式で表される。
従って、５つの次元では潜在条件付き独立モデルは以下の式で表される。
式中、ｆは特徴の種類を示し、ｗは特徴の幅の対数を示し、ｈは特徴の高さの対数を示す。モデルを適用して、カテゴリｃについての１つの潜在条件付き独立式を作ると、モデルは次のようになる。
各モデルをトレーニングするには期待最大化アルゴリズムを用いることができる。

本発明の一実施形態に従い、画像中に生じる特徴の生成モデルによって分類を実行するシステムを示すブロック図である。本発明の一実施形態に従い、画像中に生じる特徴の生成モデルによって分類を実行する方法を示す工程フロー図である。図２の方法で使用する特徴リストを生成するルーチンを示す工程フロー図である。ハール（Ｈａａｒ）フィルタの例を示すブロック図である。特徴リストのエントリを保存するための５字組の構造構成の一例を示すデータ構造図である。特徴リスト用の特徴発火ポイントの一例を示す分散図である。

符号の説明

１１分類器、１２カテゴリ、１３コンピュータシステム、１４ディジタル文書画像、１５動作、１６事前印刷文書、１７絵画データ、１８混合データ、１９インデックス付け、２０検索、２１保存、２２統合、２３タスク割り当て。

Claims

画像中に生じる特徴の生成モデルによって分類を行うシステムであって、
それぞれ１つのカテゴリに割り当てられた複数のトレーニング画像中に生じる特徴の、カテゴリ条件付き確率分布を記憶させたものと、
分類器とを含み、前記分類器は、
未分類の画像中に生じる特徴を特定する特徴識別部と、
前記特定した特徴について、各カテゴリの前記カテゴリ条件付き確率分布を用いてカテゴリ条件付き尤度を決定する尤度評価部と、
前記未分類の画像を、前記カテゴリ条件付き尤度に基づいて１つのカテゴリに割り当てるカテゴリ分類部とを含む、システム。
請求項１に記載のシステムにおいて、前記特定された各特徴は可変長の特徴リストの一要素として表され、各要素は１つ以上の次元を含む選択された特徴空間の値を含み、前記各次元に沿った測定値は連続値または離散値であるシステム。
請求項２に記載のシステムにおいて、前記選択された特徴空間は５つの次元をもち、各特徴要素ｘ_ｎは以下の５字組
で表すことができ、式中、ｎは０＜ｎ≦Ｎ等の整数、Ｎは特徴の総数、ｆは特徴の種類、ｘおよびｙは未分類画像中の特徴の座標を含み、ｗおよびｈはそれぞれ特徴の幅および高さ、またはその対数を含むシステム。
請求項１に記載のシステムにおいて、前記カテゴリ条件付き尤度は、前記未分類画像の特定された各特徴のカテゴリ条件付き確率の積として求められ、前記システムはさらに、
発生の各条件付き尤度ｐ（ｘ_ｎ｜ｃ）を以下の式で表される潜在条件付き独立分布モデルとして評価する分析部を含み、
式中、ｋは独立成分に対する指標０≦ｋ≦Ｋ、ｄは次元のインデックス１＜ｄ＜Ｄ、ｘ_ｎｄは特徴ｘ_ｎのｄ番目の次元の値、ｐ_ｋ（ｃ）は特徴がｋ番目の独立成分から生成されるカテゴリ条件付き確率、ｐ_ｋ（ｘ_ｎ｜ｃ）は特徴ｘ_ｎがそのｄ番目の次元の値としてｘ_ｎｄをもつカテゴリおよび潜在条件付き尤度を示し、
前記次元は、各カテゴリおよび潜在条件付き尤度が連続次元ごとに一変量のガウス密度としてモデリングされる連続属性値、および各カテゴリおよび潜在条件付き尤度が離散次元ごとに多項確率関数としてモデリングされる離散有限属性値のいずれか一方であるシステム。
請求項４に記載のシステムであって、
各発生の確率ｐ（ｘ_ｎ｜ｃ）を以下の式で表される潜在条件付き独立分布モデルとして近似する推定部をさらに含み、
式中、ｋは独立成分に対するインデックス０≦ｋ≦Ｋ、ｄは次元のインデックス１≦ｄ≦Ｄ、ｘ_ｎｄは特徴ｘ_ｎのｄ番目の次元の値、ｐ_ｋ（ｃ）は特徴がｋ番目の独立成分から生成されるカテゴリ条件付き確率、ｐ_ｋ（ｘ_ｎ｜ｃ）は特徴ｘ_ｎがそのｄ番目の次元の値としてｘ_ｎｄをもつカテゴリおよび潜在条件付き確率を示すシステム。
請求項１に記載のシステムにおいて、カテゴリ条件付き尤度が信頼閾値を満たせば、前記未分類画像に１つのカテゴリラベルが割り当てられ、信頼閾値に達しない場合は、前記未分類画像には未承認または未知のカテゴリラベルが割り当てられるシステム。