JP5149259B2

JP5149259B2 - ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置

Info

Publication number: JP5149259B2
Application number: JP2009235288A
Authority: JP
Inventors: ペロニンフローラン; クラメダミアン; ラニェフランソワ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2008-10-15
Filing date: 2009-10-09
Publication date: 2013-02-20
Anticipated expiration: 2029-10-09
Also published as: US8249343B2; US20100092084A1; EP2178028A3; EP2178028A2; JP2010097609A

Description

この技術は、画像処理に関する。特に、ランレングスヒストグラムを用いて画像の表現を生成する装置及び方法との関連で応用可能である。このような装置や方法は、検索やカテゴリ分け、クラスタリングなどのアプリケーションに実装することができるが、そのような応用に限定されるものでないことは理解されるべきである。

データ処理における便利な処理として、自動又は半自動の画像のカテゴリ分け、自動又は半自動での類似画像検索や画像クラスタリングがある。例えば、組織化されていない文書のスキャン画像（スキャンにより得られる画像）のデータベースが与えられた場合、それら画像を文書の種類などのような分類ごとにソート又はカテゴリ分けすることが便利である。納税書類、医療記録などのように、現状、文書を人手により種類ごとにソートしている応用分野は多く、このような分野では、文書が特定のフォーム（定型書式）の種類に該当するか、又はあるフォームのページに該当するかを、特定の光学文字認識を用いることなく自動的に判定できれば便利であろう。その文書又はページについての後続の処理は、その判定に基づいて行うことができよう。ある関連の応用分野では、文書の画像が与えられると、画像のデータベースから類似の画像を識別し検索することが便利であろう。

そのような技術を自動又は半自動で実行できるように、画像の内容に基づき自動で画像特徴解析（特徴付け）を行う仕組みが望まれる。デジタル画像は本質的には、一般手に数百万もの多くの画素の各々についての画素値、すなわち色値(colorant values)、の集まりの形であるため、画像特徴解析技術は、一般に、パッチと呼ばれる画像の小さな部分に基づき、画像から特徴を抽出することに依拠している。1台又は1組の分類器を多数の訓練用画像から抽出された情報を用いて訓練することにより画像をカテゴリ分けする技術が発展してきた。訓練用の画像は、それぞれ、人、風景、動物、建物などのようなあらかじめ定められた被写体カテゴリの集合のなかの1以上のカテゴリに人手でラベル付けされる。分類器は、新たな画像をどのように特徴付けするかを、その画像から抽出された特徴（フィーチャー）とラベル付けされた各画像の抽出特徴とに基づき、学習する。しかしながら、このような技術は、訓練段階で多くの人での作業を要し、多数の画像に人手で各分類（これら分類を見分けられるよう分類器は訓練される）のラベルを付けることがしばしば要求される。さらには、そのような技術は、文書が上下逆さまに読み取られる場合もあるスキャン文書の場合には即座に適用することはできなかった。

米国特許出願公開第２００７／０００５３５６号明細書米国特許出願公開第２００７／０２５８６４８号明細書米国特許出願公開第２００８／００６９４５６号明細書米国特許第４９４９３９２号明細書米国特許第５０３８３８１号明細書米国特許第５３３５２９０号明細書米国特許第５８２２４５４号明細書米国特許第５８３２１１８号明細書米国特許第６１４１４６４号明細書米国特許第７１２４１４９号明細書

CSURKA, et al.,"Visual Categorization with Bags of Keypoints", ECCV Workshop on Statistical Learning in Computer Vision, 2004

スキャン画像のような画像の表現を生成する自動的な、容易に実装可能な方法が望まれる。

１つの側面では、画像表現を生成するための方法では、画像表現の生成対象の画像を受け取り、その画像の複数の領域の各々について、ランレングスヒストグラムを計算する。画像表現は、計算されたそれら各領域のランレングスヒストグラムに基づき生成され、出力される。

この方法は、画像を複数の領域に区分するステップを更に含んでいてもよい。

この方法では、複数のスケールで領域を区分してもよく、それら領域のいくつかは部分的に重なり合ってもよい。

この方法は、ランレングスヒストグラムを計算するのに先立ち、画像を正規化するステップを含んでいてもよい。

ランレングスヒストグラムの計算では、更に、画素色値の複数の量子化レベルの各々についてランレングスサブヒストグラムを計算し、それらランレングスサブヒストグラムを結合してもよい。

この方法では、ランレングスヒストグラムの計算の前に、画像の画素色値を複数の量子化レベルへと量子化してもよい。

ランレングスヒストグラムの計算では、領域ごとに、複数の方向のそれぞれについてランレングスサブヒストグラムを計算してもよい。

各ランレングスヒストグラムは、一組の量子化されたランレングス（ラン長）のそれぞれについて、画像色値レベルが同じ画素のランの数のヒストグラムを含んでいてもよい。

ランレングスの量子化は、例えば対数的でよい。

画像表現の生成では、複数のランレングスヒストグラムを連結してもよい。

この方法では、更に、ランレングスヒストグラム群、又はそれらランレングスヒストグラムを連結したものを正規化してもよい。

この方法では、前記画像は、テキスト文書をスキャンした画像を含んでいてもよい。

この方法では、文書には、フォーム（帳票）、ビジネス記録、ＩＤ（身分証）カード、名刺のうちの少なく１つが含まれてもよい。

この方法では、画像は例えばビットマップであってもよい。

この方法では、画像表現は、複数の値を含むベクトルであってもよい。

この方法では、更に、メモリ内で画像表現を画像と対応づけてもよい。

この方法では、更に、第２の画像の複数の領域の各々について第２のランレングスヒストグラムを計算し、第２の画像について計算されたランレングスヒストグラムに基づいて第２の画像の画像表現を生成し、先に計算した第１の画像の画像表現と今回計算した第２の画像の画像表現とに基づき、第１の画像と第２の画像との類似度を計算してもよい。

この方法は、画像を分類する方法に用いてもよい。画像を分類する方法では、複数の学習用画像についての画像表現を、上述した画像表現の生成方法を用いて生成し、生成した各学習用画像の画像表現と各学習用画像の分類（クラス）ラベルとに基づき分類器を学習させ、学習済みの分類器を用いて、新たな画像に対し、この画像の画像表現に基づいて分類（クラス）を割り当ててもよい。

コンピュータに上述の画像表現の生成方法を実行させるための命令群を表したプログラムを提供してもよい。

コンピュータに上述の画像表現の生成方法を実行させるための命令群を記憶したメモリと、メモリと接続されそれら命令群を実行するプロセッサと、を備えるコンピュータ装置を提供してもよい。

別の側面では、文書画像の画像表現を生成するためのコンピュータ装置を提供する。この装置は、受け取った文書画像を格納するメモリと、前記文書画像内の複数の領域を抽出する領域抽出コンポーネントと、前記文書画像の前記各領域についてランレングスヒストグラムを抽出し、それら異なる各領域に対応するランレングスヒストグラムを組み合わせるヒストグラム生成コンポーネントと、組み合わされたランレングスヒストグラムに基づく画像表現を出力する出力コンポーネントと、を備える。領域抽出コンポーネントは、２以上の異なるスケールで領域抽出を行ってもよい。

この装置は、文書画像を正規化する正規化コンポーネントを更に備えていてもよい。

この装置は、文書画像中の画素色値を複数の画素色値量子化レベルへと量子化する色値レベル量子化コンポーネントを備えていてもよく、前記ヒストグラム生成コンポーネントは、複数の画素色値量子化レベルの各々についてヒストグラムを生成してもよい。

別の側面では、画像表現を生成する方法では、文書をスキャンして文書画像を生成し、画素色値をＮレベルの色値量子化レベルへと量子化し、文書を複数の異なるスケールで複数の領域へと区分し、Ｎレベルの色値量子化レベルの各々について且つＬ個の方向の各々について、複数の値を有するランレングスヒストグラムを計算する。ここで、Ｎ，Ｌはそれぞれ少なくとも２である、文書画像の表現は、ランレングスヒストグラムに基づいて生成される。

デジタル画像の表現を生成するための装置の例を示す機能ブロック図である。一実施例における図1の装置の画像表現生成器の機能ブロック図である。図1の装置を用いて実行することができる、デジタル画像の表現を生成する方法の一例を示すフローチャートである。画像の例を異なるスケールで複数の領域へと分割する処理を説明するための図である。図1の装置に組み込まれるか又はこれに通信可能に接続され得る分類器の例を図式化して示す図である。

この例示的な実施の形態は、画像のカテゴリ分け、画像検索、画像のクラスタリングなどを含む様々な画像処理操作に適用可能な画像の表現（画像を表現する表現情報）を生成するための、装置、方法及びコンピュータプログラムに関する。この方法及び装置は、文書処理、特にフォーム（定型）処理に適しており、光学文字認識処理（ＯＣＲ）を必要としない。

様々な側面において、文書画像はランレングスヒストグラムを用いて全体として符号化される。文書画像内の複数の領域が1つ又は複数のスケールで抽出される（例えば、文書画像を１つの寸法の領域ごとに分けて抽出する、又は異なる寸法の各々について文書画像を当該寸法の領域ごとに分けて抽出するなど）。個々の領域ごとに、1つ又は複数のランレングスヒストグラムが生成される。すべての抽出されたヒストグラムは、後で連結されて文書画像表現を形成する。

この方法で特徴付けされる原画像は、ＪＰＥＧ，ＧＩＦ，ＪＢＩＧ，ＢＭＰ，ＴＩＦＦ又は画像に用いられるその他の一般的なファイルフォーマットのようなどのようなファイルフォーマットの形でこの装置に受信されてもよく、そのフォーマットは場合によっては処理の前に他の適切なフォーマットに変換されてもよい。画像は単独の画像であってもヴィデオ画像であってもよく、またスキャンされた画像、写真、グラフィックス、テキスト画像、又はそれらの組み合わせなどであり得る。大まかに言えば、入力されるデジタル画像は，当該画像を形成する画素の配列（アレイ）についての画像データを含み、例えばビットマップの形式となっている。画像データは、単一の色分版について（例えば白黒画像について）、又はＲＧＢなどの一組の色分版について、グレーレベルなどの色値を含んでいてもよく、また、異なった色を表現できる他の色空間で表現してもよい。一般的には、色値は、（ＲＧＢ，Ｌ*ａ*ｂ*，ＹＣｂＣｒ等々のように）どのように表現したとしても、単一の色チャネルの光学的濃度値であり得る。

1つの実装例では、画像は、ビットマップ形式のスキャンされた文書画像であり、例えば医療記録や納税書類、名刺、銀行小切手、請求書などをスキャンした画像のように全体がテキスト（文字）であるかテキストが支配的な文書の画像である。1つの側面では、スキャンされた文書は、ユーザが入力する様々な欄を有するテンプレートフォーム（例えばビジネスの書式）などのように、何らかの構造を少なくとも有している。それら文書の欄に（ユーザが記入すること）より、スキャンする前にテンプレートを個々のユーザに固有のものにすることができるとともに、この実装例では、それら文書の欄が少なくとも部分的にユーザに記入されることにより、そのテンプレートフォームの各コピーのスキャン結果は、互いに微妙に異なってはいるが依然として同じ全体構造を持ったものとなる。それら各欄の内容は、例えば手書き、タイプ打ち、オンライン入力により生成されたものであってよい。1つの文書がいくつかのページを含んでもよく、この場合スキャンにより各ページがそれぞれ1つの文書画像を形成する。

ランレングスヒストグラムは、ランレングスの発生頻度のヒストグラムである。ランレングスは、スキャン画像において、指定された方向に沿って連続する、同じ量子化間隔に属する（すなわち、量子化により同じ値を持つ）画素の数である。一つの例では、１からその方向についての最大画素数までの生じ得るランレングスの各々についてそれぞれ1つのヒストグラム・ビンを用意してもよいが、後述するように、範囲を限られた数のインターバルへと量子化すればもっと便利である。

図１には、画像表現を生成するための装置の一例が例示されている。この装置は、図示したコンピュータ１０のような１以上の電子処理装置に実装することができる。このコンピュータは、表示又はその他の人間が知覚可能な出力を生成するためのディスプレイ１２その他の出力装置と、ユーザからの入力を受け取るキーボード１４その他の入力装置とを備える。電子処理装置１０は、画像表現生成器１６を実装するように構成されている。電子処理装置１０は、図示したコンピュータであってもよいし、文書スキャンシステム（例えばＸｅｒｏｘＸＰＩＭプラットフォーム）のプロダクション・イメージング・マネージャやネットワークサーバ、インターネットベースのサーバ、ＰＤＡ（Personal Data Assistant）、携帯電話などのような他の電子処理装置であってもよい。

コンピュータ１０は、表現を生成すべき原画像１８を受信してデータメモリ２０などのメモリにその画像を格納するとともに、画像表現生成器１６で生成されたその画像の表現２２の格納及び／又は出力又を行うように構成されている。なお、「Ａ及び／又はＢ」という記載は、Ａのみの場合と、Ｂのみの場合と、Ａ及びＢの場合と、のいずれであってもよいことを示す。画像１８は、ワークステーション、データベース、スキャナ、ファックス装置、又はディスクやカメラメモリなどのメモリストレージ装置、などのような適切な画像ソース２４であればどのようなものからでも入力され得る。

例示する実施形態では、画像ソース２４は、ケーブル、電話線、ローカルエリアネットワーク、又はインターネットなどのワイドエリアネットワークなどの有線又は無線のリンク２６により、モデム、ＵＳＢポートなどの適切な入出力（Ｉ／Ｏ）コネクション２８を介してコンピュータ１０に対し通信可能に接続されたスキャナである。

この技術分野で知られているように、典型的なスキャナでは、文書のシートが照明され、その文書シートから反射された光がＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）アレイ（接触式画像センサ（ＣＩＳ：Contact Image Sensor）としても知られている）などの光検知デバイスにより記録され、デジタル画像データへと変換される。文書シートが文書取り扱い部を通って移動するにつれて、又は文書シートが置かれたプラテンに対して相対的に光検知デバイスが移動するにつれて、文書シートの細長い領域が次々に照明される。そして、文書画像のそれら細長い領域がソフトウエアにより組み立てられ、元の文書を表す完全な画像が形成される。

画像表現生成器１６は、ハードウエア又はソフトウエア又はそれらの組み合わせとして具現化することができる。図示の通り、表現生成器１６は、コンピュータの主メモリ３０内に記憶されたソフトウエアコンポーネントの形となっており、そのコンピュータの中央演算装置（ＣＰＵ）等のような関連のプロセッサ３２により実行される。コンピュータ１０のコンポーネント２０，３０，３２は例えばデータ制御バス３４を介して通信する。メモリ２０，３０は別々のものであっても一体となったものであってもよく、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、磁気ディスク又は磁気テープ、光ディスク、フラッシュメモリ、ホログラフィックメモリ、又はそれらの適切な組み合わせなどのような，どのような種類のコンピュータ読み取り可能な媒体の形態をとってもよい。

例示する画像表現生成器１６は、画像１８の表現を生成するための命令群を有している。図２に図式的に示すように、表現生成器１６は、画像を処理するための様々なコンポーネントを備えている。例えば、文書画像を正規化する正規化コンポーネット４０、文書画像中の画素の色値（例えばグレーレベル）を量子化する色値レベル量子化コンポーネント４２（二値画像には不必要）、文書画像中の複数（一般的には多数）の領域を、例えば２つ又はそれより多くの異なるスケールで抽出する領域抽出コンポーネント４４、各領域のランレングスヒストグラムを抽出し、それら異なる各領域に対応するヒストグラムを連結して１つのベクトルを生成するヒストグラム生成コンポーネント４６である。ただし、正規化コンポーネント４０及び色値レベル量子化コンポーネント４２は必須ではない。出力コンポーネント４８は，連結されたヒストグラム群に基づく画像の表現２２を出力する。表現２２は、したがって、連結されたヒストグラム（すなわち１つより多い数のヒストグラム）、又はその連結されたヒストグラムに正規化その他の修正を施して得られる派生値を含んでいてもよく、そのような情報は画像全体を表すものとなる。表現生成器１６のコンポーネント４０，４２，４４，４６，４８の機能は、後で更に詳しく説明される。これらのコンポーネントは、適切に組み合わせることができる複数のソフトウエアコンポーネントであってもよく、複数のサブコンポーネントに分割できるようなものであってもよい。

画像表現を生成する方法の一例が、図３に概略的に説明される。この方法はＳ１００で始まる。

Ｓ１０２で、特徴付けすべき文書のスキャン画像１８が受け取られる。この画像は、例えば、処理の間メモリ２０に格納される。その処理対象の文書は、ユーザにより、例えばキーボードを介して選択されてもよいし、例えばその文書の画像とともに送られてくる命令に応じて、自動的に処理されてもよい。

必須のことではないが、Ｓ１０４で、受け取られた文書画像を正規化してもよい。正規化は、例えばスキュー（傾き）の修正（deskew)、サイズ変更などを含んでもよい。

Ｓ１０６では、画像がまだ例えば二値画像の場合のように量子化されていなければ、文書画像中の画素の色値（例えばグレーレベル）をＮ個の離散的なレベルへと量しかしてもよい。ここで、Ｎは，例えば少なくとも２で、例えば約１００までの値でもよく、また例えば約３０以下の値であってもよい。

Ｓ１０８で、文書画像内の複数の領域が抽出される。

Ｓ１１０で、領域ごとに、ランレングスヒストグラムが抽出される。

Ｓ１１２で、それら異なる各領域に対応するヒストグラムが連結されて画像ヒストグラムを形成する。連結の前又は後のどちらかに、それらヒストグラムの正規化を行ってもよい。結果として得られる画像ヒストグラムは、したがって、値のベクトル（ｖ₁，ｖ₂，ｖ₃，ｖ₄．．．ｖ_n）の形で記憶され、文書画像１８全体（場合によってその正規化されたもの）を表す。

Ｓ１１４では、前述の抽出されたランレングスヒストグラムに基づき例えばメモリ２０に格納されている画像の表現２２が、例えば更なる処理のために、出力される。

Ｓ１１６で、そのようにして得られた画像表現２２を利用するコンピュータに実装された処理が実行されてもよい。例えば、クラスタリング処理、分類処理、又は類似性判定などが実行される。１つの画像についての画像表現は、クラスタリング又は類似性判定のために、同じ方法で求められた１以上の他の画像の画像表現と比較することができる。他の例では、ある画像についての画像表現を、文書タイプにより分類された人手でラベル付け済みの一組の訓練用画像の画像表現に基づき学習した分類器に入力することにより、その画像を分類してもよい。そして、その文書から，その文書のタイプに応じた特別のデータを抽出してもよい。

この方法は，Ｓ１１８で終了する。

この例示の方法は、１台又は複数の汎用コンピュータ、特定用途コンピュータ、プログラムされたマイクロプロセッサ又はマイクロコントローラ及び周辺集積回路要素、ＡＳＩＣその他の集積回路、デジタルシグナルプロセッサ、ディスクリート要素回路のようなハードワイヤードの電子又は論理回路、ＰＬＤ、ＰＬＡ、ＦＰＧＡ又はＰＡＬなどのようなプログラマブルロジックデバイスに対して実装してもよい。一般的には、図３に示したフローチャートを実装することが可能な有限状態機械を実装可能な装置であれば、どのような装置であっても、画像表現を生成するための上記方法を実装するのに用いることができる。

図３に例示された方法は、コンピュータで実行されるようなコンピュータプログラム製品の形で実施してもよい。コンピュータプログラム製品は、制御プログラムを記録したディスク、ハードドライブなどのような有形のコンピュータ読み取り可能な記録媒体であってもよいし、その制御プログラムをデータ信号として表す伝送可能な搬送波であってもよい。コンピュータ読み取り可能な媒体の一般的な形態には、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、その他の光学的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、その他のメモリチップ又はカートリッジ、音響波又は光波など、無線及び赤外線データ通信の際に生成される波などの送信媒体、又はその他のコンピュータが読み取って使用することが可能な媒体が含まれる。

例示する方法及び装置の更なる詳細について以下に説明する。

Ａ．画像の正規化（オプション）（Ｓ１０４）
オプションとして、入力された画像を、以下に示す正規化思慮のうちの１以上を実行することで正規化してもよい。

１．すべての画像についての、クロッピング（トリミング）及び／又は共通のサイズへと拡大又は縮小。文書のエッジ（縁）を探してそれらエッジを取り囲む最小サイズのバウンディングボックスを求め、画像をそのバウンディングボックスのサイズへと切り取る自動クロッピング技術が利用可能である。切り取られた画像は、その後、選ばれたサイズへと拡大又は縮小してもよい。クロッピング処理は、文書が大きすぎるときや文書が小さい場合に実行してもよい（後者の場合はパディングにより）。文書の集合中での最大の文書の実際のサイズ又はそれに近いサイズまで、文書をパディング（空白などで埋めること）する。

クロッピングは、異なる複数のフォームファクタ（形状や大きさを決める要因）の画像群が到来するような場合に便利であろう。特に、文書のサイズがそれぞれ異なっている場合がある。米国のレターサイズのフォームは、小切手又はＩＤカードとはサイズが異なる。このランレングス技術を有効なものとするために、このシステムは、同じサイズ及び同じ縦横比（長さ：幅）の要素を処理するときにもっとも効率的である。

自動クロッピングは、スキャナ２４で実行してもよい。しかし、ある種のスキャナの自動クロッピング機能は、その機能が作動するか否かによって全く異なる画像をもたらすことがある。例えば、ＩＤカード又は名刺などの小さな文書がスキャンのために白紙のシート上に装着又は配置されているような場合には便利とはいえない。このような場合、自動クロッピングツールはその小さな文書が装着されたページの境界を見つけるだけかもしれないからである。背景スキャンにおける他のノイズ源により、文書が正しく自動クロッピングされるのが妨げられる場合もある。

２．重心へのセンタリング。これはＩＤカードなどの小さなハードコピー文書の複製やファクシミリ出力を取り扱う場合に便利である。そのような場合、スキャンされた文書は画像中のほんの小さな部分を占めるに過ぎず、その位置がきわめて重要になるかもしれない。その画像の重心は、例えば、ある位置の両側で水平方向及び垂直方向についてアクティブ（すなわち白でない）画素の数が等しくなるような位置を識別することにより見つけてもよい。これは、自動クロッピングツールがクロッピングすべき文書に対応する画像の部分を信頼性をもって特定することができない場合などにも有益である。

３．スキューの修正。スキュー補正には、エッジ検出と回転によりスキャンされた文書のエッジ群が水平方向及び垂直方向により近い方向になるようにする方法、又はテキストの各行が水平方向に整列するように回転する方法、等の様々な方法が存在する。

元のハードコピー文書がすべて固定サイズであり、スキャナが文書を毎回ほぼ同じ位置に繰り返し置いてスキャン画像を生成するようの場合もあり得るが、そのような場合には正規化は不要であり、避けるべきである。

Ｂ．画素色値レベル量子化（Ｓ１０６）
白黒のハードコピー文書の場合ですら、スキャンすると、スキャナは画素についてのグレーレベルが毎回異なったものになり得る。８ビットシステムでは、２５６の離散的なグレーレベルが認識される。すなわち、デジタル画像のピクセル値は０から２５５にわたる。複数の色分版（例えばＲＧＢスキャナの場合は３）を持つカラー画像の場合、各色分版が２５６の離散的な画素値を有する。したがって、デジタル符号化画像はすでに量子化（グレーレベルについて２５６レベルの量子化、カラー画像については２５６³＝１６，７７７，２１６色）されているものの、ランレングス符号化は比較的レベル数が少ない場合に効率がよい。白黒文書の画像については、量子化レベルを２にすることが有益であり，これは画像を二値化することと等価である。カラー画像については、１つの実装では、色分版のうちの１つだけ（例えばＲだけ）を考慮し、画素値の範囲をＮレベルへと量子化する。ここで、Ｎは正の整数であり、例えば２〜１０の値である。画像中の各画素は、Ｎ個の量子化レベルのうちの１つにより表現されることとなる。量子化レベルのレベル数を多くするほど情報はより多くなるが、ノイズが増える結果を招く可能性があることを理解されたい。ＲＧＢのうちの１つのみを用いた初期の試験ではよい結果が得られた。別の例では、２又はそれ以上の色分版を量子化する。例えば、ＲＧＢ成分の各々に２つの色値量子レベルの１つを割り当てれば、Ｎ＝２×２×２＝８の量子化値を得られる。

Ｃ．領域抽出（Ｓ１０８）
図４に例示したように、次に画像中の領域５０の集合が抽出される。それら領域は画像を区分することにより得られる。画像を規則的に、例えば４×４の領域へと区分してもよい。またこの代わりに、例えばすべての領域が（ほぼ）同じ数の画素を有することを保証する区分処理など、不規則的な区分を行ってもよい。

画像を、異なるスケール（寸法）で、複数の異なる分け方で区分してもよい。この場合、画像中のいくつかの部分が複数の領域に含まれることとなる。図４は、異なるスケールで分割されたスキャン画像１８の例を示している。以下の区分が例示されている。すなわち、１×１（画像全体）、２×２、４×４であり、それらは順に符号５２，５４，５６が付されている。これは、１×１＋２×２＋４×４＝２１の領域に対応する。それら異なるスケールの領域は互いに重なり合っており、それぞれ、より大きい領域の部分領域となっている。他の例では、それら領域のうちの少なくともいくつかは、部分的に重なり合う。例えば、画像を３×３個の領域に区分することにより得られる領域は、２×２に区分したときに得られる領域に対して部分的に重複することになる。代わりに，同じサイズ又は異なるサイズの領域をオフセットし（ずらし）てもよい。大略的には、それら複数の領域が一緒になって（場合によっては正規化されている）文書画像全体を網羅する。例示した領域は矩形形状のブロックであるが、三角形、正方形、六角形、不整形(irregular shape)、それら形状の組み合わせなどの、他の様々な形状の領域を用いてもよいことを理解されたい。

画像１８の異なる各領域５０（場合によっては異なるスケールで区分されたもの）についてのヒストグラムをそれぞれ生成することにより、文書タイプ（種類）に関連する画像間の相違が符号化に反映される。構造化文書を取り扱う場合、文書はそれぞれ異なったレベルの構造を有してもよい。例えば、フォームの参照番号が左上の象限のどこかに現れ、タイトルが最上部の中央近傍に現れてもよい。しかし、スキャンの処理により文書の内容がいくぶんシフトすることになる可能性があり、スケールが小さい場合（例えば画像が多数の領域に分割された場合）、タイトルのような特徴が同じ領域に常に現れるとは限らないかもしれない。また、タイトルは、文書の１ページのみに現れるかもしれない。したがって、特徴が異なれば、スケールが異なる場合だけでなく位置が異なる場合にもヒストグラム群に対して異なる影響を及ぼす。ランレングスは文書を複数の領域に分割しなくても（すなわち画像全体を用いても）計算することができるものの、結果は、異なったスケールで区分された領域群を考慮することはフォームなどの構造化されたコンテンツ（内容）に対して特に有益であることを示唆している。

Ｄ．領域のランレングス符号化（Ｓ１１０）
各領域５０にて、ランレングスヒストグラムが抽出される。詳細には、ランレングスは、当該領域内の各画素ラインを選ばれた方向にスキャンして画素のランを識別することにより抽出される。ランは、選ばれた方向（例えば水平、垂直、対角線、反対角線）に連続する同じ色値を持つ画素の連鎖のことである。ランの長さ（ランレングス）は、その連鎖が含む画素の数である。二値画像の場合、各ランはそれぞれすべて黒画素（量子化値＝０）であるか、又はすべて白画素（量子化値＝１）である。より一般的には、２以上の色値レベルが用いられる場合、１つのラン内の画素はすべて同じ量子化値を持つ。ランレングスヒストグラムは、Ｍ個のランレングス（ラン長）の各々についてのランの数のヒストグラムである。一例では，ヒストグラム・ビンの数を減らすためにランの長さを量子化する。量子化は、例えば線形のものでよく、例えばあり得るランレングスの範囲を同サイズの複数の間隔へと分割するものでよい。あるいは、量子化は、対数的な分割その他不均一な分割により発生頻度の高いランレングスをより弁別できるようにするものでもよい。対数的な方法では、量子化は例えば以下のようになる。

これにより結果として１０の間隔（Ｍ＝１０）が得られる。了解されるように、ランは、選ばれた方向（例えば、画像の行方向、列方向、又は対角線方向）に沿った画素の総数より長くなることはできない。例示した１０レベルの量子化は、１００Ｋのオーダーの画素数を含む画像に適している。より解像度が高い画像には、画素の最大ラン（ラインの長さ）が大きいので、最高量子化レベルについての最大間隔セパレータ(最大間隔区切り）が２５６を超えるように選択されるようにしてもよい。

1つの実装例では、黒と白のラン（二値画像の場合）のヒストグラムが複数の方向、例えば水平、垂直、対角線、反対角線の方向、についてそれぞれ計算される。これにより，８個のサブヒストグラム（すなわち、水平の黒、水平の白、垂直の黒、垂直の白、対角線の黒、対角線の白、反対角線の黒、反対角線の白）が求められる。したがって、１つの領域がこれら８個のサブヒストグラムを連結（結合）したものにより記述される。したがって、画素量子化レベルが１０の場合の例では、得られる領域のヒストグラムは１０×８＝８０の値を含む。一般的な場合では、領域のヒストグラムに含まれる値の数は、Ｍ×Ｎ×Ｌである。ここで、Ｍは画素ランレングス量子化レベルの数であり、Ｎは色値量子化レベルの数であり、Ｌは方向の数である。Ｍ，Ｎ及びＬはすべて整数である。

領域のヒストグラムは正規化してもよい。正規化の方法には例えば以下の３つがある。
１）領域のヒストグラムを、Ｎ×Ｍ×Ｌの値（この例では８０）の総和が１となるように全体的に正規化する。
２）各方向及び各画素量子化値（例えば黒か白か）に対応するサブヒストグラム群を、それぞれ独立に正規化する。
３）各方向を個別に正規化する。すなわち、Ｎ×Ｍの値の総和が１（この例では、黒と白のサブヒストグラムに対応する２×１０の値の総和が１）になるように正規化する。

一般的にはそれら方法のうちのただ１つが用いられるが、複数の正規化方法を用いることも考慮される。正規化はいくつかの場合には便利であるが、必ずしも必要ではない。

Ｅ．グローバル（全体）画像表現（Ｓ１１２）
最終的な画像表現２２は、各領域に対応する領域ヒストグラムを単に連結（結合）したものでよい。あるいは、例えば主成分解析などを用いることで、固定の要素数まで次元を減らしてもよい。

Ｆ．アプリケーション（応用）
１．画像検索：２つの画像同士の距離は、それら画像のヒストグラム表現２２同士の距離として定義することができる。ヒストグラム同士の類似度／距離についての適切な尺度としては、内積(dot product)、バタチャリヤ(Bhattacharyya)距離、カルバック-ライブラー情報量(Kullback-Leibler divergence)（対称化したものであっても、そうでなくてもよい）、ジェンセン-シャノン情報量(Jensen-Shannon divergence)、カイ二乗距離等があり、これらは例えば類似度を計算するのに用いてよい。例えば、画像１８の大きな集合Ｓ、及びそれら画像に対応するヒストグラム表現２２の集まりが、メモリに格納される。ユーザは、新たな画像を入力するか、又は前述の集合の中から１つを選び、それをターゲット画像として用いる。ターゲット画像のヒストグラム表現に対する各画像のヒストグラム表現の類似度に基づき、その集合の中から類似画像を自動的に検索される。例えば、この装置は、閾値以上の類似度を持つヒストグラム表現を持つ画像を検索する。また別の例では、類似度値が最も高い１０個（又は他の選ばれた数の）画像を集合から検索してもよい。画像検索のためのコンポーネントは、画像表現生成器内に含まれていてもよいし、画像表現生成器の別のコンポーネントであってもよいし、別のコンピュータであってもよい。上述した方法の例は、このアプリケーションに有効であることがわかった。

２．画像分類：画像のヒストグラム表現は、図５に模式的に示したように、ほとんどどのような判別分類器６０に供給してもよい。例示する分類器は、スパースロジスティック回帰(sparse logistic regression)、線形判別分析(linear discriminant analysis)、ニューラルネットワーク、サポートベクターマシン(support vector machines)、ナイーブベイズ(naive Bayes)などのように、判別モデル(discriminative models)に基づくものであっても、生成モデル(generative models)に基づくものであってもよい。例えば、税務書類の場合のように、分類器は、クラスの集合の中の１つに手作業で割り当てられた画像群を用いて学習させてもよく、例えば、１０４０-ページ１、１０４０-ページ２、１０４０ａ-ページ１、１０４０ｂ-ページ２、スケジュールＡ、スケジュールＢなどに対応する約２０のクラスがある（「１０４０」等は、米国の納税フォームの名称）。分類器は、新たな画像のベクトル表現に基づき、その画像に分類（クラス）ラベル６２を割り当てる。分類された画像は、ユーザの閲覧のために、例えばディスプレイ１２に表示してもよい。分類器６０は、画像表現生成器１６に含まれていてもよいし、同じコンピュータ１０内の別のコンポーネントであってもよいし、通信可能に接続された別のコンピュータであってもよい。当該方法の分類への応用（アプリケーション）の例を以下に示す。

３．画像クラスタリング：画像表現２６は非負なので、
確率的潜在意味論解析(ＰＬＳＡ: Probability Latent Semantic Analysis)クラスタリングなどのような非負行列因子分解(non-negative matrix factorization)技術に適している。コンピュータ１０、又は通信可能に接続されたコンピュータは、画像クラスタリングのためのコンポーネントを有していてもよい。そのようなコンポーネントは、集合内の画像同士の距離の計算結果の行列を生成してもよい。この行列は、画像群をクラスタリングするために、例えばＰＬＳＡを用いて処理される。

生成的な視覚情報に基づいた分類（ＧＶＣ：Generic Visual Classification）などの既存の分類手法と比べたときの本方法の利点は、ランレングスヒストグラムの方がフィッシャーカーネル（Fisher Kernel)に基づくＧＶＣ表現よりも一般に４〜５倍程度高速に計算できるという点である。

以下に示す例は、ある分類の問題に対してこの方法を適用する例である。

［例］
納税フォーム、ＩＤカード、契約書及び医療フォームなどの文書画像を含んだデータベースについてこの方法をテストした。この方法が文書を分類する能力をシミュレートするために、データベース内の画像群のうちの一部のものを、それぞれ一組の分類（クラス）のうちの１つに人手によりカテゴリ分けした。これらラベル付けした画像は、（スパースロジスティック回帰により）分類器に学習させるのに用いた。そして、学習済みの分類器をラベル付けされていない文書画像を分類するのに用い、割り当てられた分類を人手で精査することによりこの方法の精度を評価した。以下の３つのデータベースについての結果を例として示す。

データベース１：このデータベースは、２０種類の所得税フォームの５５９０個の画像を含んでいた。１カテゴリあたり１０個の画像（合計２００個の学習用画像）をランダムに抽出して学習に用いた。残りの画像はテストに用いた。

データベース２：このデータベースは、ＩＤカード、契約書などのような、ある営利企業により通常処理される種類の様々な種類の１００００個以上の画像を含んでいた。

データベース３：このデータベースは、別の企業で典型的に処理される、本質的に種類が異なる複数のフォームについての様々な種類の文書の３０００個の画像を含んでいた。

それぞれの場合において、１０ｆｏｌｄの交差検定(cross-validation)をそのデータベースに対して用いた（実験は、１０の異なるサンプリングを用いて１０回繰り返した）。それら３つの方法を評価した。

方法１（比較）は、生成的視覚的分類（ＧＶＣ）に基づくものであり、「GENERIC VISUAL CLASSIFICATION WITH GRADIENT COMPONENTS-BASED DIMENSIONALITY ENHANCEMENT（勾配成分に基づく次元の強調を用いた生成的視覚的分類）」と題するFlorent Perronninによる米国特許出願公開２００７／０２５６４８号明細書に記載されている。この方法では、画像分類システムは、複数の画像分類（クラス）に対応する複数の生成モデル(generative model)を含んでいる。各生成モデルは、一般的な視覚的語彙(visual vocabulary)と画像分類に特有の視覚的語彙とのマージ（併合）を実現する。勾配に基づくクラス類似度モデラーは、各生成的モデルに対応する画像のモデルフィッティングデータを生成するモデルフィッティングデータ抽出器と、各生成的モデルについての、当該生成的モデルにより定義されるベクトル空間内でのモデルフィッティングデータの勾配に基づくベクトル表現を生成する次元強調器と、を有する。画像分類器は、勾配に基づくクラス類似度のベクトル表現に基づき画像を複数の画像クラスに分類する。

方法２：この方法では、この実施形態で説明した方法により得たランレングスヒストグラムを用いた。ただし、単一スケール（すなわち画像を複数の領域に分けない）で行った。

方法３：この方法では、図４に例示したような領域分割によりこの実施形態で説明した方法により得た複数スケールのランレングスヒストグラムを用いた。

表２は、上記３つの方法により得られた結果（誤り率。すなわち謝って分類された画像のパーセンテージ）を示す。

結果から分かるように、実施形態の方法によれば、複数スケールヒストグラムを用いた場合にＧＶＣに近い結果が得られた。データベース１については、単一スケールのランレングスでもよい結果が得られたが、データベース２及び３については、複数スケールランレングスヒストグラムの方が単一ランレングスヒストグラムよりも効果が顕著であった。

了解されるように、これらの方法では限られた数の画像のみを分類器の学習に用いた。実際の運用では、もっと多くの学習用画像を用いてもよく、これにより誤り率をより低くすることができるであろう。

実施形態の方法のいくつかの利点をＧＶＣとの比較により以下に説明する。

１．実施形態の画像表現では分類器がモデルを学習する必要がないが、ＧＶＣは「視覚的語彙」の学習が必要である。実施形態の方法において最適なランレングスインターバル（間隔）の学習を行うことも考えられる。しかし、表２に示したように、そのような付加的な処理を行わなくても良好な性能が得ることができる。

２．この実施形態の画像表現を計算するコストは、（フィッシャーカーネルに基づいて）ＧＶＣ表現を計算するコストと比して著しく低い。例えば、２．４ＧＨｚのＯｐｔｅｒｏｎコアＣＰＵのマシンでは、複数スケールランレングスの計算は１画像あたり約５０ｍｓを要するのに対し、ＧＶＣでは１７５ｍｓのオーダーの時間を要する。

３．画像の表現を一度計算すると、９０，１８０，２７０度回転させた同じ画像の表現を計算するのは容易である。単にヒストグラムのいくつかの順序を変えればよい。これによりスキャン方向が不明の場合でも非常に高速に処理できる。ＧＶＣの場合、スキャンした画像から４つの表現を別々に生成する必要があるだろうし、それら４つの表現が分類問題のために用いられるであろう。

１６画像表現コンポーネント、４０正規化コンポーネント、４２色値レベル量子化コンポーネント、４４領域抽出コンポーネント、４６ヒストグラム生成コンポーネント、４８出力コンポーネント、２２画像表現。

Claims

画像の表現を生成する方法であって、
表現を生成すべき画像を受け取るステップと、
前記画像を複数の領域に区分するステップと、
前記画像の前記複数の領域の各々についてランレングスヒストグラムを計算するステップと、
前記ランレングスヒストグラムに基づき画像表現を生成するステップであって、前記複数の領域の前記ランレングスヒストグラムを連結する処理を行うステップと、
前記画像表現を出力するステップと、
を有する方法。
請求項１に記載の方法であって、前記複数の領域は、複数の異なるスケールでのものであり、それら複数の領域のいくつかが少なくとも部分的に重なり合うように区分されている、ことを特徴とする方法。
請求項１又は２に記載の方法であって、前記ランレングスヒストグラムの計算では、複数の画素色値の量子化レベルの各々についてランレングスサブヒストグラムを計算し、それらサブヒストグラムを組み合わせる、ことを特徴とする方法。
文書画像の画像表現を生成するためのコンピュータ装置であって、
受け取った文書画像を格納するメモリと、
２以上の異なるスケールで、前記文書画像内の複数の領域を、それら複数の領域のいくつかが少なくとも部分的に重なり合うように抽出する領域抽出コンポーネントと、
前記文書画像の前記各領域についてランレングスヒストグラムを抽出し、それら異なる各領域に対応するランレングスヒストグラムを組み合わせるヒストグラム生成コンポーネントと、
組み合わされたランレングスヒストグラムに基づく画像表現を出力する出力コンポーネントと、
前記各コンポーネントを実行するプロセッサと、
を備えるコンピュータ装置。