JP5379085B2

JP5379085B2 - スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム

Info

Publication number: JP5379085B2
Application number: JP2010156620A
Authority: JP
Inventors: サーカープラティーク; サウンドエリック
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2009-07-10
Filing date: 2010-07-09
Publication date: 2013-12-25
Anticipated expiration: 2030-07-09
Also published as: JP2011018338A; EP2275974A3; US20110007366A1; US8442319B2; EP2275974A2

Description

本発明は、スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステムに関する。

文書画像解析の文献では、粒状のノイズ（ごま塩ノイズと呼ばれることもある）、線画、及び機械で印刷されたテキストを識別することにもっとも多くの注意が払われてきた。様々な主要なアプローチは、マーキングの各種類についてのある種の予測可能な特徴に依拠するものであった。例えば、あるサイズより小さい画素連結成分は、ノイズであると推定され、暗い画素群の大きな領域は影であると推定され、画素の長い真っ直ぐなランは線画に由来するものであると推定される。機械で印刷されたテキストの識別はよりいっそう困難な処理である。商業的なＯＣＲ（光学文字認識）パッケージでは、機械で印刷された領域の検出のためのシステムは、特にローマアルファベットのために、言語、書体、画像の解像度及びテキストのサイズについての既知のコンテキスト（状況）の元で機能するように、手作業で大幅に調整していた。

Zheng et al., "Machine Printed Text And Handwriting Identification In Noisy Document Images," IEEE Trans. Pattern anal. Mach. Intell., 26(3):337-353, 2004 Chen et al., "Image Objects And Multi-Scale Features For Annotation Detection", in Proceedings of International Conference on Pattern Recognition, Tampa Bay, FL, 2008 Koyama et al., "Local-Spectrum-Based Distinction Between Handwritten And Machine-Printed Characters", in Proceedings of the 2008 IEEE International Conference On Image Processing, San Diego, CA, October 2008

これらの処理は、きれいな画像に用いられる場合にはある程度の成功は収めたものの、クラッターを持つ画像を取り扱う場合には成功しなかった。

本発明に係る分類方法は、前記画像を含んだ前記文書を区分器に供給するステップと、前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップと、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものである分類器に対して前記複数の断片を供給するステップであって、前記分類器はそれら各断片についてのカテゴリスコアを求めるステップと、前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、を含む方法である。

この出願の概念（コンセプト）を適用可能なシステムの例を示す図である。区分器（セグメンター）の第１段階において実行される、長い横及び縦の線（ライン）の断片を抽出する処理の例を示すフローチャートである。区分器の第２段階において実行される、断片の再帰的分割の処理の例を示すフローチャートである。画素の長いランが偶然除去されてしまった画像を示す図である。十分な支持エッジ群（supporting edges）を持つ長いランのみを除去するための２段階処理に基づきそれら画素の線が画像内に示されている状態を示す図である。この出願の区分処理を受けている画像の様々な局面を示す図である。この出願の区分処理を受けている画像の様々な局面を示す図である。この出願の区分処理を受けている画像の様々な局面を示す図である。この出願の区分処理を受けている画像の様々な局面を示す図である。この出願の概念に従って構成された２段階分類器の概要を示す図である。この出願の概念に従って構成された２段階分類器の概要を示す図である。この出願の概念に従って構成された２段階分類器の概要を示す図である。この出願の概念に従って構成された２段階分類器の概要を示す図である。図６の２段階分類器を構成するのに利用可能な分類器の一実施例を示す図である。１つの例としての「一対全部」分類器の各々として使用される、AdaBoostアルゴリズムにより得られる重み付き加算分類器を模式的に示す図である。テストデータに関するエラーを分析するのに用いられる画素混同マトリックス例示する図である。機械印刷されたテキストと、署名付きのポートレイト（肖像画）とを含んだ文書の例を示すとともに、適切に識別された領域と不適切に識別された領域とをそれぞれ示す図である。物理的に押印されたスタンプを含んだ画像の一部を示す図である。

１つの実施例では、ハードコピー文書をデジタイズ（デジタル化）して、手書きテキスト、機械で印刷されたテキスト、機械で印刷されたグラフィックス（図形等の画像）、未識別マーキング（例えばノイズ）、及びフォーム（書式）の線即ち罫線、のうちの少なくとも１つを含む画像を生成する。画像は、区分器（セグメンター）モジュールにより複数の断片に区分される。各断片は、自動学習した多段階分類器により分類され、各断片に対して分類ラベルが付与される。これらのラベルは、例えば、色であってもよいし、異なるグレイ濃度であってもよいし、記号その他の識別子であってもよい。分類ラベルに到達するために、分類器は、当該断片自体の性質（プロパティ）のみならず、当該断片の近傍の性質も考慮する。分類分野での用語では、これら性質すなわち属性は、特徴（フィーチャー）と呼ばれる。複数の特徴測定値の中から、弁別に関する特徴が自動的に選別される。この分類器は、各画素が「グランドトゥルース(ground truth)」ラベル、つまり（分類の正解である）基準画像すなわちオリジナル画像上のラベル（すなわち「正解」を表すラベル）、を有するラベル付きのサンプル画像、により学習した２段階分類器である。提供されたグランドトゥルース（正解）画像の集合を用いて評価を行うことができる。そして、ラベル付けされた文書は、メモリへ格納される。

この方法及びシステムは、複数の例やグランドトゥルースからパラメータ群を自動的に訓練（学習）する。

この明細書に示す方法及びシステムは、小さなマーキング（印刷又は手書きなどにより形成された文字、記号、図形、絵などの記入物）の断片を、連結成分（互いに隣接する値が同じ画素のかたまり）又は連結成分よりも小さい成分のレベルで分類するというかなり困難な仕事に取り組むものである。これにより、異なる種類の（タッチパネルなどに対して）タッチ入力（パネルなどの表面に対して接触させたペン先や指先による記入）されたマーキングを、連結成分を適切に分割することにより呼び出し（calling out）／識別を可能にするとともに、基本的な便利な基礎単位（例えば断片分類器）を構築することであり、これは、（単語レベル、領域レベル、ページレベルなどといった）よりおおざっぱなレベルの判定が、ここに説明する基礎単位のツール（例えば断片分類器）の出力を集めることにより、これまでより遙かに正確にできるという理解に基づく。対照的に、従前の概念は、より大きな集合体としての領域の分類のみを目的としている。

単一の前景（例えば黒色）画素は、単独では、当該画素のソース種類（当該画素の属する源（ソース）、すなわちマーキングの種類）の解読に利用するのに十分な情報を持っていない。以下に示す想定は、異なる種類のマーキングの例である。

(i) 画素ラベル：各画素は、単一のマーキングカテゴリラベルを有する。この想定により、ある画像のグランドトゥルース（正解）を、各画素についてそれぞれ整数ラベルを有する他の画像により表現することができる。このように、グランドトゥルースは格納することができ、グランドトゥルースの出力は公知の画像フォーマットを用いて処理することができ、画像ビューワ（閲覧ソフト）、画像ローダー、及び画像エディタを用いて、それら画像フォーマットを効果的に視覚化して取り扱うようにしてもよい。
(ii) 背景画素: マーキングカテゴリは、前景画素（すなわち黒色の画素）のみに割り当てられる。白色の画素は背景（例えば紙）を形成するものと想定する。
(iii) 曖昧（多義的）画素：複数のマーキングが同じ１つの黒画素内で重なる場合がある。それらマーキングが共に同じカテゴリのものであれば、画素のラベリング（ラベル付け）に曖昧さはない。他の状況では、その画素に対して、それら重複するマーキングのカテゴリのうちの１つが割り当てられるべきである。カテゴリラベル群について、あらかじめ定めた優先順位を想定することが考えられる。優先順位の高いラベルを割り当てることにより、曖昧さを解消することができる。例えば、１つの実装例では、「手書きテキスト」を最高順位のカテゴリとする。手書き文字が機械で印刷された線と重複する場合、両者が交わる部分の画素には「手書きテキスト」のラベルが付与される。ノイズラベルは最低順位である。
(iv) 評価尺度（評価メトリック）：２つのグランドトゥルースラベルファイルを比較する場合、又は１つの自動分類結果の出力をグランドトゥルースと比較する場合、各画素位置でそれらラベルが比較され、もしそれら２つのラベルが異なっていればエラーが１つ計数されることになる。これは評価尺度として有益である。なぜなら、この定義は、解法に関わりなく、矛盾なく機能するからである。１つの実施例では、区分してから分類する、という解法を用いる。別の解法では、各画素をコンテキスト（周辺状況）に基づいて分類する。更に別の解法では。画像のグリッド（格子）パッチ(grid-patches)に対してラベルを付与する。しかし、すべての解法について、この実施形態の方法及びシステムは、正しくラベル付けされた複数の前景画素からなる小部分を測定する。画素ラベル同士の比較は、混同マトリクスと、カテゴリごとの精度及びリコール（取り消し）などのような他の派生的な尺度とへ至るものであり、これらについては例えば図９と関連づけて後で説明する。この実施形態の概念は、画素ではなく、小部分（断片）を分類（及び分類のために学習）するというものである。にもかかわらず、画素エラー尺度(pixel error metric)を用いることは有益である。なぜなら、大きい断片を誤って分類することは、小さい断片に対してミスをする場合よりも悪いからである。
(v) 画像内容についての想定：この仕組みはかなり一般的であり、この実施形態のシステム及び方法は上述したことに合致しない状況に適用されることがあるものの、使用される画像について、明示的にせよ暗黙的にせよ、いくつかの想定をすることができる。まず、テスト／応用のシナリオは、それら学習用の画像に十分に表現されていると想定する。例えば、ありふれたスキャン文書画像を表す画像は、傾いておらず、二値画像であり、ほぼ３００ｄｐｉであり、機械印刷されたテキストは横方向に並んでいる、と想定することができる。

文書編集装置上で実行されるソフトウエアプログラムなどの実装品では、上述の想定は有効であると考えられる。にもかかわらず、この実施形態のシステム及び方法は、それら想定が有効でない場合でも機能し続けるであろう。

以下に定めた対象（ターゲット）マーキングカテゴリは実際の特定の実装目的に応じて変更してもよい。しかし、この実施形態の説明では、以下に示す各対象マーキング、及びそれら対象マーキングについての非曖昧化（明確化）優先度の順位付け（高い(i)から低い(v)への順）を使用する。

(i) 手書き: これは、手書きテキスト(HandwrittenText)（手書きされた段落、単語、単一の文字、又は単なる句読点）、手書き署名（HandwrittenSignatures）、手書きグラフィックス（HandwrittenGraphics）（下線、矢印、線画、取消線、チェックボックス内のチェックマークなど）から構成される。この種類のテキストは、手書きすなわち筆記体であってよく、いかなる言語又は文字体系のものであってもよい。筆記体フォントで印刷されたテキストは、機械印刷テキスト（MachinePrintText。機械で印刷されたテキスト）とみなす。
(ii) 機械印刷テキスト（MachinePrintText）：機械で印刷された、いずれかの言語又は文字体系の、白地上の黒色のテキスト。網掛けテキストや、黒い背景上の白いテキストは、機械印刷グラフィックス（MachinePrintGraphic）としてマーク付けされるべきである。
(iii) 機械印刷グラフィックス（MachinePrintGraphic）：機械印刷線画グラフィックス（MachinePrintLineGraphic）（下線、矢印、背景の罫線、線画）、又は機械印刷ブロックグラフィックス（MachinePrintBlockGraphic）（黒丸記号(bullet)、ロゴ、写真）。
(iv) ごま塩スキャナノイズ（ScannerNoiseSaltPepper）：小さな粒状ノイズであり、通常は、紙のテクスチャ（きめ）や誤った二値化による。
(v) 暗領域スキャナノイズ（ScannerNoiseDarkRegion）：機械印刷又は手書きのインクによって生成されたのではない、顕著な黒い領域を表すためのものである。これには、紙の折り目や影、穴などのように、背景物の暗がりにより生成される黒い画素群が含まれる。

１．ソリューション・アーキテクチャ
図１のシステム１００は、デジタル化されたビットマップ画像及び／又はデジタルインク技術により形成された画像を、本実施形態の区分器・分類器システムに供給する様々なチャンネル（経路）を例示している。

画像を有する文書１０２のハードコピーがスキャナ１０４に入力され、スキャナ１０４はその文書１０２の画像を、電子文書画像１０６に変換する。ハードコピー文書１０２上の画像は、例えば、電子データ処理装置によって、ペンや鉛筆その他の電子的でない材料によって、電子的又は人手によるスタンプによって、生成されたものであるが、これらに限定されるものではない。電子文書１０６は、コンピュータ、個人用デジタルシステムその他の電子装置１１０の画面１０８に表示される。この電子装置１１０は、本実施形態の区分器・分類器システム１１２を備える。電子装置１０８は、区分器・分類器システム１１２を動作させるために、少なくとも１つのプロセッサと十分な電子メモリ記憶装置を備えている。区分器・分類器システム１１２は、１つの例では、ソフトウエアであってよい。電子装置１１０は、マウス及び／又はキーボード（ただしこれに限るものではない）などの入出力装置を備えている。

また、別の例として、ホワイトボード即ちデジタルインク装置１１４が電子装置１１０に接続されていてもよく、これによりビットマップ画像即ちデジタルインク画像１１６が電子装置１１０に電子的に転送される。別のチャンネルとしては、他の電子装置１１８を用いる場合がある。この電子装置１１８は、以下に示す様々なシステム（ただしそれらに限るものではない）のうちのいずれであってもよい。すなわち、コンピュータ、コンピュータ化したＣＡＤシステム、電子タブレット、ＰＤＡ（Personal Digital Assistant）、ウェブページを配信するインターネット上のサーバ、ビットマップ画像及び／又はデジタルインク画像１２０を区分器・分類器システム１１２に供給する他のいずれかのシステム、など（これらに限られるわけではない）のうちのいずれであってもよい。更に、電子装置１１０にロードされた画像生成ソフトウエアを用いてビットマップ画像又はデジタルインク画像を生成し、その画像を区分器・分類器システム１１２で使用してもよい。区分器・分類器システム１１２により処理された画像を伴う電子文書の確定バージョンは、コンピュータシステム１１０のメモリ記憶装置に格納されるか、他の電子装置１１８に送信されるか、プリンタ１２２によりハードコピーとして印刷出力されるか、又はコンバータ／スキャナ１０８に関連づけられた印刷機能から印刷出力される。

区分器・分類器システム１１２は、区分器１１２ａと分類器１１２ｂを備える。区分器１１２ａは、文書画像を取り込み、画素の集合を複数の小さな断片に区分する。分類器１１２ｂは、各断片を取り込み、それら各断片にカテゴリラベルを付与する。分類器１１２ｂは、異なる各マーキングカテゴリに対応する各スコア（得点）を返す。１つの例では、分類器１１２ｂは、最高スコアのカテゴリも返す。解釈器１２４などの下流のアプリケーションが、それらスコアを解釈して判定を行うようにしてもよい。例えば、受け入れ基準を満たさないスコアには「拒否」又は「未知」のラベルを付け、あらかじめ設定された閾値を超える「手書き」スコアを持つ断片は、ディスプレイ１０８上に表示された処理後の電子文書上でのアノテーション（注釈、コメント付け）処理のために、強調又はマーク付けされるようにしてもよい。

２．区分器
この実施形態では、特に各画素が黒か白である場合において、個々の画素を当該画素のマーキング種類に従って分類即ちスコア付けすることは、空間的な近傍部分、及び文書の他の形態のコンテキスト（状況）を考慮することにより達成される。画素は、その近傍についての特徴量の測定に基づき分類してもよい。これは、とりわけ区分けと認識とが互いに足並みをそろえて進行するという定式化を可能にするという興味深い可能性に繋がっている。

本実施形態の１つの方法は、画像を、同じマーキングのソース（源）に由来すると推定される画素の塊へと区分することである。そのあと、これらの断片（塊）がまとめて分類される。区分器・分類器システム１１２の区分器１１２ａは困難な判定を行うことになるので、区分器１１２ａによる誤り（エラー）はどれも最終結果の誤りを引き起こす可能性が高い。（ａ）明らかに異なるマーキング種類の組み合わせである断片を生成すること、及び（ｂ）同じマーキング種類の領域から断片を不必要に切り出してしまうこと、という２種類の誤りをカウント（計数）する。

タイプ（ａ）の誤りは画素レベルのラベル付け誤りをもたらすのに対し、タイプ（ｂ）の誤りの影響はもっと微妙である。したがって、周辺のコンテキストをより多く集めることができれば、結果はよりよくなると考えられる。機械印刷された領域から手書き領域を識別することは、機械印刷の文字から手書き文字を区別することよりも容易である。ストローク（一筆、一画）レベルになると更に難しくなる。区分器１１２ａにより導入された人工的な境界により、マーキングの実際の見え方がマスクされると、更なる問題が生じる。

上述の懸念にもかかわらず、「区分し、その後で分類する」という方法を採用した。この方法は、連結成分の解析に依存することにより、区分しなさ過ぎ（under-segment）よりもむしろ区分しすぎる(over-segment)ように動作するが、必要ならば選択された連結成分を分割するかどうかの判定処理を設ける。

上述の処理を実現するために設計された区分器１１２ａの一例を、図２及び図３に示す。図２は、区分器１１２ａの第１段階即ち第１処理のための、長い横（水平）線及び縦（垂直）線の断片を抽出するための処理を示すフローチャートである。何が長い横線又は長い縦線であるかの判定は、システム及び処理方法に対して設定されるパラメータであり、特定に実装形態や目的により影響を受けることになる。図３は、区分器１１２ａの第２段階即ち第２処理における、断片群の再帰的な分割処理を示すフローチャートである。

図２では、長い横及び縦の線の断片を抽出する処理２００は、画像２０２から始まる。この画像２０２は、画像内に残っている内容から、前景画素（例えば黒画素）の大きな横方向のラン（線上で連続する同一画素値の画素群）を識別して分離し（ステップ２０４ａ）、前景画素（例えば黒画素）の大きな縦方向のランを識別して分離する（ステップ２０４ｂ）ために調査される。横方向及び縦方向のそれぞれについて、そのような長いランがマーク付け（印付け）され、長い横及び縦のランの画素のみからなる連結成分が形成される（ステップ２０６ａ、ステップ２０６ｂ）。横ランの連結成分及び縦ランの連結成分は、図２に示すように互いに別々に形成される。長い前景（黒）がそのランが、たまたま暗い領域（例えば機械で印刷された図形、又は影の部分など）内、及び手書きの途中に見つかることがあることに留意すべきである（図４Ａ及び図４Ｂ参照）。したがって、断片群（すなわち形成された連結成分を備える横及び縦のラン）は、仮の線断片群と考える。このグループから、あらかじめ定められたサイズのエッジ輪郭画素群の断片部分が元（オリジナル）の画像内の黒画素群に隣接していると、この処理では、仮の線断片のグループから、連結成分を除去する（ステップ２０８ａ及び２０８ｂ）。そして、残っている断片群がレンダリング（描画）され（ステップ２１０ａ及びステップ２１０ｂ）、横及び縦の線画像が形成される（ステップ２１２ａ及びステップ２１２ｂ）。

画像２０２に戻ると、ステップ２１４にて、元の画像からの前景画素であって横及び縦の線の画像に含まれる前景画素が検出されて、形態学的（モルフォロジー）演算により除去され、「線無し」画像２１６が求められる。この「線無し」画像の連結成分解析により、断片群が求められる（ステップ２１８）。これら断片のうち、あらかじめ定められた十分小さいサイズであり且つ線画像（例えば横線及び縦線）に対して有意な境界を共有するものが、「線無し」断片リストから除去され、適切な線の画像に追加される（ステップ２２０ａ、ステップ２２０ｂ）。

仮の横線画像（ステップ２１２ａ）及び仮の縦線画像（ステップ２１２ｂ）が、ステップ２２０ａ及びステップ２２０ｂからの断片と共に、レンダリング演算に供される（ステップ２２２ａ及びステップ２２２ｂ）。

レンダリング（ステップ２２２ａ及びステップ２２２ｂ）により、最終的な横線画像（ステップ２２４ａ）及び最終的な縦線画像（ステップ２２４ｂ）がそれぞれ生成される。最後に、３つの出力、すなわち、横線断片群（ステップ２２６ａ）、縦線断片群（ステップ２２６ｂ）、及び線無し断片群（ステップ２２８）が生成される。

図３に更に詳しく説明するように、線無し断片群は、最終的な区分結果に到達するには大きすぎると最初の時点で考えられた断片を分割するよう、再帰的な分割ルーチン３００により処理される。横及び縦の線断片群は、それ以上は分割されず、最終結果に追加される。

再帰的分割ルーチン３００では、十分に小さい断片はそれ以上分割されない。サイズについての検査に合格しない断片に対しては、縦及び／又は横の分割経路（パス）が特定される。縦の分割経路は、当該断片のバウンディングボックス（当該断片をぴったりと取り囲む、ｘ、ｙ方向にそれぞれ平行な辺からなる矩形）における各ｙについてのｘ位置の配列であり、各ｘは自分の隣からみて±１以内にある。このように、この縦の経路は厳密に垂直でなくてもよい。もし、そのような場所にある前景画素群が除去されると、その経路の左側及び右側の画像が非連結状態となり、より小さい新たな断片群が求められる。１回の分割により、２つより多い断片を生じさせる場合もあり得る。同様に、横方向の分割経路は、各ｘについてのｙ位置の配列である。また、縦の経路の場合と同様、この横の経路も厳密に水平でなくてもよい。

画像中の各画素について、当該画素を通って分割する場合のコストが割り当てられる。黒を横切って分割するコストは、正の値であり、当該場所における横方向の黒ランの長さに比例する。エッジ上の背景画素に沿った分割には、インセンティブ（負のコスト）がある。このコストは、横（縦）分割については横（縦）のエッジフィルタの応答に比例したものとなるように設定される。どのエッジからも遠い背景画素を通って分割する場合のコストは０である。分割経路に沿っての累計コストをその経路の長さで割った値が最も小さい分割を、「最善」の分割と定義する。各方向についての最善の分割経路は、動的計画法（ダイナミック・プログラミング）アルゴリズムを用いて見出される。１つの例では、再帰的分割処理３００は、Breuel in "Segmentation of Handprinted Letter Strings Using a Dynamic Programming Algorithm," in Proceedings of Sixth International Conference on Document Analysis and Recognition に提示された概念にしたがったものでよく、これは手書き文字についての区分仮説を生成するためのアルゴリズムを用いる。区分器のこの第２段階についての相違点は、手書き単語群の区分では縦の分割のみを調べる必要があるのに対し、この実施形態では、縦及び横の両方についての分割を調べて、それらのうちから選択する必要があるということである。

図３の再帰的分割アルゴリズム３００に注目すると、残余線無し断片群（連結成分を有する）がメモリ記憶装置スタックに配置される（ステップ３０２）。格納された線無し断片がスタックからポップされ（取り出され）（ステップ３０４）、現在（カレント）の線無し断片（ステップ３０６）が演算処理に渡される。現在の線無し断片が「幅広すぎであり且つやせ細りすぎではない」かについての調査が行われ（ステップ３０８）、同時に、現在の線無し断片が「高すぎであり且つやせ細りすぎでない」かについての調査が行われる（ステップ３１０）。それら問合せに対する回答がそれぞれ肯定（Ｙｅｓ）であれば、処理は、それぞれ、最善の縦分割値を見つけ（ステップ３１２）、最善の横分割値を見つける（ステップ３１４）。これら最善の値がステップ３１６で比較され、最善の分割選択肢が生成される（ステップ３１８）。この最善の選択肢は判定ブロック（ステップ３２０）に提供され、当該分割スコアがあらかじめ定められた閾値より良いかどうかが判定され、分割スコアが閾値より良い場合には（Ｙｅｓ）、処理は、分割後の線無し断片（例えば過去に分割されたいかなる断片でも。例えばサブ断片）が依然として大きすぎると判定し、その線無し断片が更なる分割のために断片スタックへ追加される（ステップ３２２）。また、ステップ３２０にて最善の分割スコアが閾値より小さい場合は、現在の断片は出力断片リストに追加され（ステップ３２４）、現在の出力断片は、この例では、横線断片画像へと渡される（ステップ３２６）。縦分割のスコアの方が良い場合は、現在の出力断片は縦線断片画像に渡される。

再帰的分割アルゴリズム３００への入力として到来する断片には、更に分割すべきかどうかを判定するためのテストが行われる。更に分割すべきでない場合は、その断片は、断片結果リストに追加される。更に分割すべき（横、又は縦、又は両方について）場合には、最良の分割が求められ、その最良の分割のスコアが受入閾値を満たすならば、断片が、分割経路のそれぞれの側で連結成分を集めることにより、再帰的に分割される。断片のサイズは、例えば個々の単語よりも小さくてもよく、あるいは個々の文字又は単語よりも小さくてもよく、また実装に依存する他の適切なサイズより小さくてよい。

図４Ａ及び図４Ｂでは、長い前景（黒）画素ランのいくつかが、たまたま暗い領域（例えば、機械で印刷されたグラフィックス又は影）内、又は手書き記入物の途中で見つかることがある。したがって、それら断片（すなわち、それら形成された連結成分群を有する横及び縦のラン）は、仮の線断片とみなす。このことは、図４Ａから除去されたそのような線により示されている。しかし、これらの線はノイズではなく適切なものであると見なされるので、この実施形態のシステム及び方法はこれらの線をより適切に識別する。したがって、この実施形態では、十分な支持エッジ群を持つ長いランのみを実際に除去するために２段階処理を用いる。

図５Ａ〜図５Ｄは、分割の間又は後のいくつかの異なる種類の断片の結果の例を示す。より詳しくは、図５Ａは、混合された内容を含んだ画像５００の一部分を拡大して示す。混合された内容には、手書き記入物５０２、機械で印刷されたテキスト５０４、機械で印刷されたグラフィックス５０６とともに、長い横線ラン５０８と識別される可能性のあるものが含まれる。図５Ｂでは、長い横線ランが検出され抽出されている。この図から分かるように、下側の横線ラン５０８の左側の部分は、機械で印刷されたグラフィックス（図形）部分（すなわち「Part II」）と識別される可能性のあるものの一部分として識別されるかも知れない。図５Ｃは、この実施形態の方法及びシステムで生成された線無し画像を示し、これは以降の段落で更に詳しく説明する。この画像部分には、横の線がない。図５Ｄは、再帰的分割演算によりいったん断片群が生成されたあとの画像部分を示す。この画像では、再帰的分割は、１レベルの深さの演算である。言い換えれば、いったん分割されると、断片群は、十分に小さいサイズになっており、これ以上分割する必要がない。分割経路は、この画像の色つきバージョンの中で色付け（例えば青）されており、例えば１つの例では分割経路５１０として識別されている。断片の境界の輪郭が、特定の断片の外周に沿って描かれてその断片を識別しており、この文書の色つきバージョンではその輪郭も色（例えば赤）で示されるが、ここでは破線の断片境界輪郭５１２として示されている。了解されるように、明確さのために、ごく少数の代表的な分割経路５１０及び断片境界輪郭５１２のみを示している。

３．断片分類器
区分器１１２ａは、画像から、複数の断片からなるリストを生成する。各断片は、当該断片とその周囲のコンテキスト（状況）から計算される多くの特徴測定値（特徴量）により特徴付けられている。この実施形態の分類器１１２ｂは、各断片を、その特徴量に基づき、上述したマーキング種類のカテゴリのいずれかに分類するように訓練されている（すなわち学習済みである）。

３．１特徴
上述したテキスト行（文字列からなる行）の特徴に加え、様々な種類の特徴が、各断片について測定（計算）される。それら多様な特徴には、例えば以下のようなものがある。

(i) セグメンター(segmenter：区分用)特徴：これらは、０又は１の２つの特徴量であり、当該断片が横線画像又は縦線画像のどちらの一部であるかを示す。
(ii) サイズ特徴：バウンディングボックスの縦横比、幅、高さ、周囲のサイズ、連結成分内の穴の数、前景画素の数など。また、ミッドクラック細線化(midcrack thinning)からの求められる背骨断片（spine-fragment）の数、バウンディングボックスの面積に対する前景画素の数の比、周囲のサイズに対する前景画素の数の比、及びバウンディングボックスの面積に対する周囲サイズの比、などが含まれてもよい。
(iii) 位置特徴：画像の境界からの当該断片に対する横及び縦方向の距離の最小値が求められる。これにより文書内の暗いグラフィック領域からのシャドー（影）ノイズの識別の助けとなるというアイデアである。
(iv) 規則性（Regularity）特徴：機械印刷されたテキストを他の種類のマーキングから区別して特徴付けるためのものである。機械印刷されたテキストは、整列状態及びサイズに関して高度な規則性を見せる。もし、文書内又は空間的に近傍の他の多くの断片の高さ、バウンディングボックスの上端のｙ座標及び下端のｙ座標が同じならば、カレントの断片（処理対象として注目している断片）は機械印刷されたテキスト又はグラフィックスである可能性が高い。この特徴の測定値は、相対的な差のヒストグラムとして形成される。例えば、高さについての規則性を求める場合、（ｈi−ｈ0）のヒストグラムが用いられる。ここで、ｈiはi番目の断片の高さであり、ｈ0は当該断片の高さである。ヒストグラムの各ビン（値の各範囲）は、[？32, ？16),…., [？4, ？2), [？2, ？1), [？1, 0), [0, 0], (0, 1], (1, 2], (2, 4],....., (16, 32].にセットされる。この場合、機械印刷されたテキストについては中央の３つのビンのカウント値が高くなると期待される。高さについてのヒストグラムは画像中のすべての断片を考慮するが、バウンディングボックス端部（bounding box extremity）についてのヒストグラムはｘ近傍（x-neighborhood）内の断片のみを考慮する。
(v) エッジ湾曲特徴：各断片について、高速な測定により外部輪郭の湾曲（曲率）を求める。ある輪郭点での湾曲指標は、当該点と、輪郭上で当該点からある固定した距離（例えば輪郭点１６点の距離）だけ離れた輪郭上の２つの点同士を結ぶ直線と、のユークリッド距離として測定される。１つの断片の外側の輪郭全体にわたって測定されるすべての湾曲指標からなるヒストグラムが計算され、使用される。
(vi) 輪郭特徴: これは、２つの測定値から構成される。断片の外側輪郭を反時計回りにたどり、４つの輪郭位置により分離された２つの輪郭点同士の間の変位のヒストグラムが記録される。ここから、符号無しのエッジ変位のヒストグラム（ここでは２つの反対向きの変位が足し算される）と、対称性違反のヒストグラム（ここでは２つの反対向きの変位が互いに打ち消しあう）と、が求められる。機械印刷された線及び機械印刷されたテキストについては、ほぼ縦方向及び横方向についてのヒストグラムの強度が高くなると予想される。均一なストロークについては、対称性違反については低い値になると予想される。
(vii) ランレングス特徴：断片の背骨が、１つの例では、本願発明者Saundに対する２００２年の米国特許第６，３７７，７１０号明細書"Method And Apparatus For Extracting The Skeleton Of A Binary Figure By Contour-Based Erosion"に示されるようなミッドクラック細線化アルゴリズムにより計算される。この文献は参考のためその全部をこの明細書に組み込む。その背骨上の各点において、横方向及び縦方向のランレングスの最小値及び最大値が記録される。これら２つの数のヒストグラムが、ランレングス特徴として返される。機械印刷された部分は、手書きやノイズの部分よりも、ランレングスヒストグラムがより集中したもの（即ちばらつきが少ない）になる。しかし、集中の仕方は、単峰的（ユニモーダル）である必要はない。分類器のトレーナー（訓練させる者）が異なるカテゴリについてのヒストグラム同士の間のいくつかの相違点を見つけ出すことができるであろうとの想定のもとで、生のランレングスヒストグラムが特徴として用いられる。
(viii) エッジターン（エッジ曲がり）ヒストグラム特徴: これらは有益ではあったが、輪郭特徴及びエッジ湾曲特徴の方がより優れていることが分かった。
(ix) テキスト行整列特徴：断片の外側輪郭の頂上及び底の点群が集められ、ＲＡＮＳＡＣアルゴリズムにより、ほぼ横方向の直線に対してよく整列した（すなわち直線に対して位置が合った）頂上点のグループ及び底点のグループを見つける。各断片について。頂上点の整列の数（整列した頂上点の数）、及び底点の整列の数（整列した底点の数）が、特徴として測定される。これらは、印刷されたテキスト行については高くなると期待される。第３の特徴は、更なる処理により求められる。それら２種類の整列した点のグループからの線分同士が突き合わされ、ラテン文字の印刷されたテキストであるという想定の下で、「テキスト行」を形成するようにグループ化される。断片（の少なくとも一部）が整列したテキスト行内に入っているか又は断片がテキスト行のバウンディングボックス内に完全に含まれている場合、それら断片は、印刷されたテキスト断片であることを強く示す値「１」により印（マーク）付けされる。整列したテキスト行に加わっていない断片は、「０」で印付けされる。したがって、１つの例では、分類処理は、印刷されたテキストの断片を検出するためのものであり、ここでマーキングが印刷されたテキストの断片であることの証拠の拠り所は、断片の頂上点群と底点群との間に見られる整列度合い及びその断片の隣の断片群の整列度合いである。テキスト行の概念（コンセプト）についての更なる説明は、Saundによる"System And Method For Segmenting Text Lines In Documents"と題された米国特許出願第１２／５００，８８２号明細書に示される。

３．２分類器
マーキング種類に従った断片の分類は、図６Ａ〜Ｄ及び図７に示すように、２段階で行われる。図６Ａ〜Ｄに示されるように、２段階分類器６００は、第１段階６０２の中に、複数の第１段階分類器６０２ａ、６０２ｂ、・・・、６０２ｎを有する。第１ステージでは、各断片が上述の３．１節で説明した特徴のみに基づいて分類される。この結果、各断片はカテゴリごとのスコアを有することとなる。したがって、図６Ａ〜Ｄに示すように、画像断片６０４ａは特定の特徴ベクトル６０６ａに供給される（図７参照）。ここで分類器６００が停止すれば、最高スコアのカテゴリが各断片に対して割り当てられる。

しかし、分類器６０２ａと６０２ｎを用いていることから分かるように、周辺のコンテキストと空間的な近傍がどのように分類されたかを考慮に入れることで分類が精密化される。ここで、近傍の断片６０４ｂ、・・・、６０４ｎはそれぞれ対応する特徴ベクトル６０６ｂ、・・・、６０６ｎに供給される。これらの処理の結果、すなわちカテゴリスコア６０８ａ及び累積カテゴリスコア６０８ｂ、・・・、６０８ｎの形の処理結果は、特徴ベクトル６０２ａとともに、拡張特徴ベクトル(augmented feature vector)６１０に供給され、２段階分類器６００の第２段階分類器６１２により利用される。これにより、第１段階６０２ａで用いられたすべての特徴と、近傍の断片６０４ｂ、・・・、６０４ｂの有望な（すなわち確定されてはいないが可能性としては高い）カテゴリ（二次的特徴）のラベルとを考慮に入れて画像断片６０４ａを再分類することにより、その精密化された出力がもたらされる。第２段階分類器６１２からの出力は、最終的なカテゴリスコア６１４を提供する。分類器６１２からのこの最終的なカテゴリスコア６１４は、ラベル付けモジュール６５０により画像の断片にラベル（例えば色、グレイ階調、その他のマーキング又は標識）を付与するために使用される。１つの例では、ラベル付けモジュールは、図１に示したシステムのなかの適当な構成要素であると理解される。

二次的な特徴は、当該断片のバウンディングボックスに続く空間的な近傍に含まれる複数のバウンディングボックス内のすべての断片の第１段階カテゴリスコアを累積したものとして名付けられ、求められる。

(i) 横方向の帯片：ｙ方向について当該断片から±１６画素以内、ｘ方向について当該断片から±１６０画素以内
(ii) 縦方向の帯片：ｘ方向について当該断片から±１６画素以内、ｙ方向について当該断片から±１６０画素以内
(iii) 矩形近傍：当該断片からｘ方向及びｙ方向の両方についてそれぞれ±１６０画素以内。

上記における各「近傍」のサイズは、いくつかの実施例で３００ｄｐｉ、１２ポイントのフォントのもとで１文字の高さ（例えば１６画素）と数文字分の高さ（例えば１６０画素）よりも小さくなるように選ばれることを除けば、かなり任意に選んでよい。また、近傍のサイズは、応用先の状況、例えばスキャンの解像度などに従って調整することができる。このように、この実施形態の方法及びシステムは、特定の実装に合わせて調整可能である。

この二次的特徴と、第１段階特徴（これも近傍の内容、例えば規則性特徴を考慮している）との間には、微妙ではあるが重要な目的の相違があることを指摘しておく。二次的特徴は、近傍の各断片のカテゴリラベル同士の関係を表すものであるのに対し、第１段階特徴は断片と当該断片について観察できる性質との間の関係を表すものである。例えば、規則性特徴について考えてみよう。高さ規則性特徴は、当該断片の高さが近傍の中にどれだけの頻度で入るのかを測定したものである。これは、近傍の他の断片を考慮してはいるが、それら近傍の断片の有望なカテゴリが何かについては考慮していない。したがって、ｓ_iがi番目の断片を示し、ｕ_iがその断片について測定された特徴であり、ｃ_iがその断片のカテゴリであるとすると、第１段階特徴で学習した分類器では、
が成り立つ。一方、二次的特徴は、次の形式の依存性を表す。
このように、二次的特徴は、ラベル間の依存性の問題に取り組むためのものである。

ツェン（Zheng）らは、この問題に取り組むのに、マルコフランダム場（Markov Random Field）を構築した。この実施形態の方法は、それとは異なる。この方法では、各ノード（断片）についての近傍が確定され、近傍のラベル群に基づいて断片のラベルを付与できるようにする。依存性のパターンは近傍（の断片群）の選択により導かれるものの、前もって想定されていた依存性の形式が強制されるわけではない。むしろ、その依存性は、もし顕著ならば、学習（訓練）用データから学習される。近傍の特徴群は、第２段階分類器学習器に利用できるようにされ、分類に有益であることが分かれば選択されることになる。さらに、この定式化では、計算時間や輻輳の問題を有するかもしれないループの多いメッセージ伝達や反復的なサンプリング推論を避ける。

２段階分類器は、図７に示した基本分類器を用いて構築される。第１段階６０２ａ、・・・６０２ｎでは、この基本分類器は、上の３．１節で説明した特徴群に基づいて断片をカテゴリ分けするのに適用される。カテゴリ分けの結果は、画像全体について集計され、二次的特徴６０８ａ、・・・６０８ｎになる。これら二次的特徴と初期特徴（６０６ａ）とがいっしょに、第２段階にて最終的なカテゴリ分け番号に達するために、他の基本分類器（すなわち第２段階分類器６１０）により使用される。

３．３基本分類器
１つの例では、各段階で使用される基本分類器は、「一対全部」の分類器の集まり（１カテゴリあたり１つ）である。この種の分類器は、複数の特徴からなるベクトルを入力として受け入れ、１カテゴリあたり１つのスコアからなるスコア配列を生成する。この出力配列は、最高スコアのカテゴリを見つけたり、あるいは様々な拒否／受入閾値を適用したりするのに用いられる。

図７では、分類器７００は、図６の各分類器として用いられる種類の分類器と理解してよい。この実施例では、分類器７００は、複数の弱分類器（weak classifier）の重み付け加算として実装された「一対全部」タイプの分類器として実装される。ここで、各弱分類器は、１つの断片について測定されたスカラー特徴量のうちの１つ（例えば特徴ベクトルの１つの次元）に対する単一閾値のテストである。更に詳しくは、画像断片７０２が特徴ベクトル７０４ａ、・・・、７０４ｎのそれぞれに供給される。これらのベクトルからの出力は、多次元スコアベクトル（例えば５次元スコアベクトル）７０６に渡される。そして、この出力は、スコア調整器７０８に渡される。スコア調整器７０８は、多次元調整済みスコアベクトル（例えば５次元調整済みスコアベクトル）７１０を出力する。

このような設計構成によれば、極めて高速な分類が可能になる。例えば、５０個の弱分類器の組み合わせを備える分類器では、各断片について約５０の比較、乗算、及び加算にまで達する。

各弱分類器は、比較テストの結果を示す＋１又は−１のどちらかの数を生成する。これらの重み付け加算結果は＋１から−１までの間の数になり、その結果が肯定的（正の値）であるならば、名目上、肯定的な分類結果を示す。このように、基本分類器の出力は、１カテゴリに付き１つの数からなる数の配列となる。正の結果は、名目上、（その正の結果に）対応するカテゴリによく合致していることを示す。典型的には、それらの数字の１つのみが正になるであろう。正の数が１より多い場合、当該断片は割り当て不能として拒否されるようにしてもよい。あるいは、最高スコアのものを選択するようシステムを設計してもよい。同様に、いずれのカテゴリも、当該カテゴリであることを示す正のスコアを返さなかった場合も、調停が必要になるかもしれない。１つの方法は、そのカテゴリスコアベクトルを他の分類器に供給し、当該他の分類器がより精密化したカテゴリスコアを生成するようにすることである。この方法は、この第２段階分類器もデータから自動学習できる場合には特に有益である。いくつかの実施例ではこのような方法に適合された第２段階分類器は、スコア調整器と見なしてもよい。

このようにその基本分類器そのものは、１つのスコア調整器に対して結果を供給する多数の「一対全部」分類器を備えた２段階分類器として考えてもよい。これは、近傍の情報が第２段階にて統合されるより大きい２段階アプローチと混同してはならない。実際、既に説明したように、２段階分類器は同じ基本分類器構造を用いて実装できるが、第２段階の分類器は拡張された特徴に基づいて動作するので、各段階では異なったパラメータを用いる必要がある。したがって、予備的なカテゴリ割り当ては、近傍の断片群に対してなされたカテゴリ割り当ての統計に基づいて更新される。

図８に示すように、「一対全部」の基本分類器、及びスコア調整器８００は、１つの例では、適応的ブースティング（Adaptive BoostingすなわちAdaBoost）と呼ばれる機械学習アルゴリズムを用いて訓練される。図８では、特徴ベクトル８０２はスカラー特徴セレクタ８０４ａ、・・・、８０４ｎに供給される。これらスカラー特徴セレクタの出力は弱スカラー分類器８０６ａ、・・・、８０６ｎに与えられる。データは総和器８０８で総和され、二値的な判定結果８１２を得るためにスコア付け８１０される。処理では、弱学習器は一度につき１つの特徴の次元／ベクトル８０２を考慮し、学習用データ（弱スカラー分類器）８０６についての重み付きの誤差を最小とする閾値テスト（スカラー特徴セレクタ）８０４を見出す。それら特徴の次元のうち最も識別力のあるものが、次の弱分類器（８０８、８１０、８１２）として選択される。この処理は、AdaBoostの反復により繰り返される。このような構成により、分類器のパラメータは、多くの測定値のファミリー（集団）の中から有益な特徴を選択しそれら選択した特徴に相対的な重みを割り当てる判別的AdaBoost学習により取得される。

この特別な形のAdaBoost分類器学習器は、最近、Xerox Global Servicesのクライアントアプリケーションデータ集合の中の文書画像群をカテゴリ分けするのに非常に効果的であることが分かってきた。AdaBoostについての１つの説明が、Freundらによる"A Decision-Theoretic Generalization Of On-Line Learning And An Application To Boosting," European Conference On Computational Learning Theory, pages 23-37, 1995に示されている。

４．実装
学習及び画素ラベル付けシステムを支援するためのグランドトゥルースを生成することが必要である。このラベル付けシステムを用いて、ボランティアのチームが、様々なソース（源）からの７０近くの文書画像に対して、人手でラベル付けした。１つの例では、人手によるラベル付けは、Saundらによる"System and Method for Machine-Assisted Human Labeling of Pixels in an Image"と題された米国特許出願第１２／５００，９２８号明細書に記載されているようなラベル付け装置により行ってもよい。

５．評価
上述のように、本出願の方法及びシステムの例を、以下を含むスキャンした文書画像の集合について学習させ、評価した。
(i) NIST special database（米国商務省標準化技術研究所のスペシャル・データベース）からの手書きの納税書類
(ii) 機械で印刷されたジャーナル（雑誌）からのページ群
iii) Xerox Global Servicesのクライアントからの手書きの文字群（そのうちのいくつかには印刷されたレターヘッド上にある）
(iv) British American Tobacco company（ブリティッシュ・アメリカン・タバコ社）に対する訴訟に用いられた書類からの、手書きのアノテーション（コメント）及び署名が書かれたページ。

以下に示すのは、それら画像のうちの１６個の画像について学習（訓練）を行い、残りの画像について評価を行った方法及びシステムについての結果についての説明である。１６個の学習用の文書画像は、以下のようにして選ばれた。１人の人により正解（グランドトゥルース）と判定された１３個の画像が、最初に学習のために用いられた。残りの文書についてテストが行われたとき、ごく少数の画像が極めて高いエラー率を示した。テストでは、これらの文書は、学習用の集合の中には現れなかったノイズと機械で印刷されたテキストの特徴を持ったものであった。これらの文書のうち３つが学習用の集合に加えられた。これにより、テスト用の集合のエラー率において顕著な減少（画素数の観点で約１４％から約１０％）が見られた。

５．１全体的な結果
分類性能の混同マトリックスによる要約を、図９に示す。画素数は、テスト用の画像全部にわたって累計された。数値は１０００単位である（最も近い千に丸めた）。対角線上の数値は正しい分類を示す。対角線から外れた位置の数値は、エラー（分類誤り）に対応する。全体的なカテゴリ間の混同（エラー）率は１０．８６％である。ここで、エラー率は、自動付与されたラベルが真のラベルと異なる画素のパーセンテージである。

図１０は、手書きをほとんどあるいは全く含まない文書画像１０００を示す。この文書３を３００ｄｐｉ（ドット・パー・インチ）でスキャンし、「影」のノイズ１００２の実質的な部分を含んでいる。このノイズ１００２の部分は適切に識別された。文書１０００内の肖像画１００４は、画像部分１００６として正しく識別された領域と、誤って識別されたノイズ領域１００８（すなわちこれら領域も画像領域と判定されるべきであった）。この種のエラーは、区別が難しい。しかし、要求内容や目的によっては、これらのエラーは、公知の局所多数決法（local majority voting schemes）を用いることにより、又は他の公知の平滑化制約を適用することにより、容易に除去することができる。

図１１には、機械印刷されたテキスト、手書きされたもの、シミ（ノイズ）（すべてが示されているわけではない）、及びスタンプ１１０２（図示されている）を含んだノイズの多い文書と見られるものの一部分１１００が示されている。この実施形態のシステムは、その文書上の多くのマーキング種類を正しく識別した。このシステムのセットアップでは、スタンプが、グランドトゥルース（正解）内にて、機械印刷されたテキストとして識別されたであるとされた。図１１から分かるように、この実施形態のシステム及び方法は、このスタンプ（又は少なくともその一部）を誤って識別した。誤識別部分（１１０４，１１０６）についての理由は、学習用のデータはスタンプを有する文書を持たなかったことである。このことは、大きな学習用の画像群を用いることで、このシステム及び方法の処理を改善できることを強調するものである。

５．２時間の統計
開示した実施形態では区分処理がもっとも時間のかかる部分であることが経験的に分かった。テスト用の画像の集合では、区分処理に要した時間も中央値（メジアン）は、１画像あたり３．８秒である。これに対し、特徴量を計算し、断片を分類し、分類の結果をファイルに書き出すのに要した時間の中央値は０．６秒である。テスト画像のほとんどは、３００ｄｐｉのレターサイズのページである。１画像あたりの全処理及び入出力のための時間の中央値は４．６秒である。これらの時間は、ペンギンクラスターマシン（penguin cluster machines）上で実行したバッチテスト実験からのものである。これらは、２．６６ＧＨｚ動作で８ＧＢのＲＡＭを有し、４ＭＢのオンチップキャッシュメモリを有する、６４ビットIntel Xeonプロセッサ群を用いた。

難しい画像（すなわち、複数のマーキング種類が混合したノイズの多い画像）を学習用の集合に加えることにより、性能が向上する。

頻度の少ないサンプルほど高い重みを与えることによっても性能は向上する。

手書きを特徴付ける処理は、ストローク（運筆）を辿って特徴付けを行うよりも高度なモデルを用いることにより、利益を得る。

マーキング種類認識器の他の側面について以下に示す。
(i) ターゲットとなるアプリケーション：この明細書に記載した主題の動機は、マーキング種類の分類を実行する能力を有するアノテーション（注釈、コメント）付けされたページ画像についての検出器、として用いることを含んでいる。システムの性能の目標は、特定のユースケース（use-case：利用事例）を用いて精度の性能の向上を達成するようにしてもよい。これは以下の３つによりもたらされる。
・特定の利用のコンテキスト（状況、文脈）では、大規模な場合に比べて、データの変動が小さいと期待される。
・カテゴリスコアからのカテゴリラベルの推定を、手持ちの特定のアプリケーションに適用することができるし、そうすべきである。例えば、もしページ上の印刷されたテキストの領域を識別することが目的ならば、隣接する小さい断片を印刷された文字に関連づけるための標準的な方法を適用して、結果を「きれいにする（clean up）」ことができる。
・最後に、「ソフトな」分類スコアを集計することで、例えばページ上の特定の領域が主として手書きであるならば、高レベルの判定に到達することもできる。
(ii) 区分処理における学習：画像の区分化（セグメンテーション）を改善することは、画素レベルでの精度に寄与する。学習により区分処理の改善に寄与する少なくとも２つの場所がある。すなわち、(a) どの断片に更なる分割が必要かの識別、及び(b) 画像中の分割スコアである。
(iii) よりよい弱分類器学習装置の利用：ブースティング（boosting）処理を行う複数の弱分類器に特徴の二つ組又は三つ組を関与させることにより、分類の学習の効率の改善に寄与することが分かる。
(iv) より高度な特徴：より高度な特徴を用いることは性能の改善に資する。
(v) 分類出力のよりよい較正：分類の第２段階の効率は、それらスコアの比較可能性を改善するために、出力スコアについてよりよい較正を行うことにより改善することができる。例えば、別の学習器として、分類器を学習させるために、RealBoostとして知られている学習器などを用いてもよい。
vi) カラー又はグレースケールでの入力：カラー又はグレースケールは、マーキングの分類のみならず、区分化についても優れた証拠（エビデンス）を提供することができる。

１００システム、１０２文書、１０４スキャナ、１０６電子文書画像、１０８画面、１１０電子装置、１１２区分器・分類器システム、１１２ａ区分器、１１２ｂ分類器、１１４デジタルインク装置、１１６デジタルインク画像、１１８他の電子装置、１２０デジタルインク画像、１２２プリンタ。

Claims

文書のページの画像上のマーキングをマーキング種類に従って分類するための方法であって、
前記文書のページの画像を区分器に供給するステップと、
前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップと、
各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものである分類器に対して前記複数の断片を供給するステップであって、前記分類器はそれら各断片についてのカテゴリスコアを求めるステップと、
前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、
を含む方法。
前記分割するステップは、形態学的演算により検出され除去される横及び縦の線を区分する第１段階と、サイズに関するテストに合格するまで連結成分を再帰的に分割する第２段階と、を含む、請求項１に記載の方法。
前記分割するステップでの分割は、動的計画法に基づき、分割すべき断片を横切るコスト最小の分割経路を見つけることにより行われる、請求項２に記載の方法。
前記分割経路のコストは、当該経路に沿った画素のコストの総和である、請求項３に記載の方法。
前記断片は、単語よりも小さいか、又は、個々の文字又は数字よりも小さい、請求項１に記載の方法。
予備的なカテゴリ割り当てが、近傍の断片群に対してなされたカテゴリ割り当ての統計に基づいて更新される、請求項１に記載の方法。
前記分類器のパラメータは、多くの測定値の集まりの中から有益な特徴を選択しそれら選択した特徴に相対的な重みを割り当てる判別的AdaBoost学習により取得される、請求項１に記載の方法。
前記分類は、印刷されたテキストの断片を検出するためのものであり、証拠の拠り所の１つは、断片の頂上点群と底点群との間に見られる整列度合い及びその断片の隣の断片群の整列度合いである、請求項１に記載の方法。
文書内の画像上のマーキングをマーキング種類に従って分類するためのシステムであって、
プロセッサ上で動作する共に前記画像を含んだ前記文書を受け取るように構成された区分器であって、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割する区分器と、
前記プロセッサ上で動作する共に前記断片群を受け取るように構成され、各断片についてのカテゴリスコアを求める分類器と、
を備え、前記分類器は、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものであるとともに、前記分類器は、前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てる、システム。
文書内の画像上のマーキングをマーキング種類に従って分類するための方法であって、
前記画像を含んだ前記文書を区分器に供給するステップと、
前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップであって、形態学的演算により検出され除去される横及び縦の線を区分する第１段階と、サイズに関するテストに合格するまで連結成分を再帰的に分割する第２段階と、を含むステップと、
前記断片群を２段階分類器に供給し、前記２段階分類器により各断片にカテゴリスコアを付与するステップであって、前記２段階分類器は、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものであり、前記２段階分類器のうちの第１段階の分類器は、１カテゴリあたり１つの一対全部分類器からなる組を含んでおり、＋１から−１までの間のカテゴリスコアからなる配列を生成し、前記２段階分類器のうちの第２段階の分類器は、前記第１段階の分類器からのカテゴリスコアの配列を受け取ってすべてのマーキング種類のカテゴリのスコアの通知を受けることで、精密化したスコアの配列を生成するところのステップと、
前記断片が前記分類器によりあるマーキング種類に分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、
を含む方法。