JP5729930B2

JP5729930B2 - 文書内のテキスト行を区分するための方法

Info

Publication number: JP5729930B2
Application number: JP2010156612A
Authority: JP
Inventors: サウンドエリック
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2009-07-10
Filing date: 2010-07-09
Publication date: 2015-06-03
Anticipated expiration: 2030-07-09
Also published as: EP2275973A3; USRE47889E1; US20130114890A1; EP2275973A2; JP2011018337A; US8768057B2; US8649600B2; US20110007970A1; EP2275973B1

Description

本実施形態は、文書内のテキストの行を区分するためのシステム及び方法、及び区分されたテキストを用いて文書内のマーキング種類を判定することに関する。

図１は、機械で印刷されたグラフィックス１０２，機械で印刷されたテキスト１０４及び手書き１０６を含む文書の一部１００を示している。様々なアプリケーションにおいて、これらの種類又は他の種類のマーキング（印刷又は手書きなどにより形成された文字、記号、図形、絵などの記入物）群を分離してラベル付けすることが必要とされる。

この分野におけるよく知られた中間ステップは、連結成分（互いに隣接する値が同じ画素のかたまり）を形成することである。連結成分群が複数種類のマーキングを含んでいる場合、特に、罫線又は元のテキスト行の一部ではないタッチ手書き（タッチパネルなどに対して接触させたペン先や指先により記入すること）したアノテーション（注釈、コメント）などのような、手書きテキストのタッチ方式で記入されたグラフィックス（画像）と、機械で印刷されたグラフィックスとが混在する場合に問題が起こる。したがって、正しい構文解析のためには、連結成分を更に細かい断片に分けることが求められる。１つの例は、フォーム（申込用紙などの定型書き込み用紙）又は手紙の印刷されたテキストを横切ってのたくる手書き署名である。他の例は、図１に示すものであり、この例では、手書きの数字１０６が機械で印刷されたテキスト１０４の上まで延びている。

Zheng et al., "Machine Printed Text And Handwriting Identification In Noisy Document Images," IEEE Trans. Pattern anal. Mach. Intell., 26(3):337-353, 2004 Chen et al., "Image Objects And Multi-Scale Features For Annotation Detection", in Proceedings of International Conference on Pattern Recognition, Tampa Bay, FL, 2008 Koyama et al., "Local-Spectrum-Based Distinction Between Handwritten And Machine-Printed Characters", in Proceedings of the 2008 IEEE International Conference On Image Processing, San Diego, CA, October 2008

図２には、図１の各連結成分（例えば、符号１０８ａ〜１０８ｎで示されるサンプル）を、バウンディングボックス（画像オブジェクトの境界を示す四角、例えば、符号１０８ａ〜１０８ｎで示されるサンプル）の観点から示したものである。明らかに、それら多数の連結成分は、複数のマーキング種類を含み得るし、現に含んでいる。問題は、このような連結成分を、グルーピング（グループ分け）及び正しい種類への分類に適したより小さい意味ある単位に分割することである。

この実施形態の方法及びシステムは、文書画像内に見られるマーキングの連結成分を区分できるようにする。この区分のための方法は、整列されたテキスト（「整列テキスト」と呼ぶ）を検出する処理を含む。この検出されたデータから、整列テキストマスクが生成され、その画像の処理に用いられる。この処理は、連結成分とその断片のうち整列テキストに属していそうなものを検出して区分することにより、その文書画像内の連結成分をより小さい断片すなわち部分に分けることを含んでいる。整列したテキストを検出する処理では、前記連結成分の上側及び下側の極値群を検出し、検出された前記連結成分の前記上側及び下側の極値群の上側及び下側の輪郭極値を識別し、識別された上側及び下側の輪郭極値をグループ分けし、上側の輪郭極値グループと下側の輪郭極値グループとを識別し、上側の輪郭極値グループと下側の輪郭極値グループとにそれぞれ線分をフィッティングし、上側及び下側の輪郭極値グループにフィッティングした線分のうち横方向に対してあらかじめ定められた整列閾値を超えて外れた方向の線分を除去処理し、前記除去処理の後に残った上側と下側の線分のペアを求め、前記除去処理の後に残ったペアになった上側と下側の線分に基づき、整列テキストであると考えられる連結成分を識別するためのテキスト行バウンディングボックスを形成する。

機械で印刷されたテキストと手書きのテキストとグラフィックスとが混在する画像領域の例を示す図である。図１の画像においてバウンディングボックスにより示された連結成分を表す図である。実施形態の概念が実装される環境の例を示すシステム図である。マスクの生成し、そのマスクを用いて連結成分をより小さい断片へ区分するための上位レベルの処理の例を示すフローチャートである。画像に対するマスク処理の結果としての、画像内の横及び縦の線画（ラインマーキング）を例示する図である。実施形態の処理により見つけられるテキスト行のバウンディングボックスを示す図である。図６の画像の一部を示す図であり、実施形態の処理により分割された後の断片の周囲のバウンディングボックスを示す図である。テキスト行を見つけるのに用いられる処理ステップ群を示すフローチャートである。図６の画像の一部を示す図であり、連結成分のバウンディング輪郭（当該連結成分を取り囲む輪郭）の上側及び下側の極値群を例示する図である。横（水平）方向についての整列状態（アラインメント）に基づいてグループ分けされたコンテンツ極値群を例示する図である。極値グループにより形成された線分を示す図である。実施形態に従って構成された二段階分類器の概要を示す図である。実施形態に従って構成された二段階分類器の概要を示す図である。実施形態に従って構成された二段階分類器の概要を示す図である。実施形態に従って構成された二段階分類器の概要を示す図である。図１２の二段階分類器を形成するのに用いることができる分類器の一例を示す図である。１つの例としての「一対全部」分類器の各々として使用される、AdaBoostアルゴリズムにより得られる重み付き加算分類器を模式的に示す図である。実施形態の概念を組み込んだ処理のより詳細なフローチャートである。

以下、文書内の機械で印刷されたテキストの行（文字列からなる行）に由来する整列状態（アラインメント）を見つけるための方法及びシステムを説明する。この方法及びシステムは、二値化されたスキャン画像内の様々な種類のマーキングを識別するために設計された、より大きな方法及びシステムの中で用いられる。そのあと、その識別結果が、文書画像内の、手書き、機械印刷、及びノイズを検出するのに用いられる。いくつかの実施例では、システムは、物理的なハードコピーの文書を読み込んで二値画像に変換し、断片が属するマーキングの種類の自動分類に従って画像の画素を色分けした新たなバージョンの画像を出力するように構成される。

１つの実施例では、ハードコピー文書をデジタイズ（デジタル化）して、手書きテキスト、機械で印刷されたテキスト、機械で印刷されたグラフィックス（図形等の画像）、未識別マーキング（例えばノイズ）、及びフォーム（書式）の線即ちの罫線のうちの少なくとも１つを含む画像を生成する。画像は、区分器（セグメンター）モジュールにより複数の断片に区分される。各断片は、自動学習した多段階分類器により分類され、各断片に対して分類ラベルが付与される。これらのラベルは、例えば、色であってもよいし、異なるグレイ濃度であってもよいし、記号その他の識別子であってもよい。分類ラベルに到達するために、分類器は、当該断片自体の性質（プロパティ）のみならず、当該断片の近傍の性質も考慮する。分類分野での用語では、これら性質すなわち属性は、特徴（フィーチャー）と呼ばれる。複数の特徴測定値の中から、弁別に関する特徴が自動的に選別される。この分類器は、各画素が「グランドトゥルース(ground truth)」ラベル、つまり（分類の正解である）基準画像すなわちオリジナル画像上のラベル（すなわち「正解」を表すラベル）、を有するラベル付きのサンプル画像、により学習した二段階分類器である。提供されたグランドトゥルース（正解）画像の集合を用いて評価を行うことができる。そして、ラベル付けされた文書に対し、メモリへの格納、ディスプレイ表示、印刷、その他の処理が行われる。

この方法及びシステムのある側面では、サンプルすなわちグランドトゥルース（正解）画像により、パラメータ群を自動的に学習する能力である。これにより、この実施形態の概念（コンセプト）を、特定の目標と手元のデータにより、大量の処理に利用することができる。

この明細書に示す方法及びシステムは、小さなマーキングの断片を、連結成分又は連結成分よりも小さい成分のレベルで分類するというかなり困難な仕事に取り組むものである。この動機は、少なくとも２つの理由のためである。すなわち、１つは、これにより異なる種類の（タッチパネルなどに対して）タッチ入力されたマーキングを、必要ならば連結成分を適切に分割して、呼び出し（calling out）／識別できるようにするからである。二番目の動機は、基本的な便利な基礎単位（例えば断片分類器）を構築することである。これは、（単語レベル、領域レベル、ページレベルなどといった）よりおおざっぱなレベルの判定が、ここに説明する基礎単位のツール（例えば断片分類器）の出力を集めることにより、これまでより遙かに正確にできるという理解に基づく。対照的に、従前の概念は、より大きな集合体としての領域の分類のみを目的としている。

理解されるように、単一の前景（例えば黒色）画素は、単独では、当該画素のソース種類（当該画素の属する源（ソース）、すなわちマーキングの種類）の解読に利用するのに十分な情報を持っていない。以下に示すマーキングの例は、本実施形態の概念の説明の補助としてのものに過ぎず、本実施形態の方法や本発明の特許請求の範囲を限定するものと解するべきではない。このように、以下に示す想定は、グランドトゥルース（正解）の表現と一貫した評価尺度(evaluation metric)を提供するための補助のために作成された例である。

(i) 画素ラベル：各画素は、単一のマーキングカテゴリラベルを有する。この想定は、もちろん、純粋に実用主義的なものである。この想定により、ある画像のグランドトゥルース（正解）を、各画素についてそれぞれ整数ラベルを有する他の画像により表現することができる。このように、グランドトゥルースは格納することができ、グランドトゥルースの出力は公知の画像フォーマットを用いて処理することができ、画像ビューワ（閲覧ソフト）、画像ローダー、及び画像エディタを用いて、それら画像フォーマットを効果的に視覚化して取り扱うようにしてもよい。また、この想定により、単純で汎用的且つ一貫性のある評価尺度（これについては後述）を導くことができる。
(ii) 背景画素: マーキングカテゴリは、前景画素（すなわち黒色の画素）のみに割り当てられる。白色の画素は背景（例えば紙）を形成するものと想定する。この想定は、ここで想定している利用シナリオに合致している。
(iii)曖昧（多義的）画素：明らかに、複数のマーキングが同じ１つの黒画素内で重なる場合がある。それらマーキングが共に同じカテゴリのものであれば、画素のラベリング（ラベル付け）に曖昧さはない。他の状況では、その画素に対して、それら重複するマーキングのカテゴリのうちの１つが割り当てられるべきである。カテゴリラベル群について、あらかじめ定めた優先順位を想定することが考えられる。優先順位の高いラベルを割り当てることにより、曖昧さを解消することができる。例えば、１つの実装例では、「手書きテキスト」を最高順位のカテゴリとする。手書き文字が機械で印刷された線と重複する場合、両者が交わる部分の画素には「手書きテキスト」のラベルが付与される。ノイズラベルは最低順位である。
(iv) 評価尺度（評価メトリック）：２つのグランドトゥルースラベルファイルを比較する場合、又は１つの自動分類結果の出力をグランドトゥルースと比較する場合、各画素位置でそれらラベルが比較され、もしそれら２つのラベルが異なっていればエラーが１つ計数されることになる。これは評価尺度として有益である。なぜなら、この定義は、解法に関わりなく、矛盾なく機能するからである。１つの実施例では、区分してから分類する、という解法を用いる。別の解法では、各画素をコンテキスト（周辺状況）に基づいて分類する。更に別の解法では。画像のグリッド（格子）パッチ(grid-patches)に対してラベルを付与する。しかし、すべての解法について、この実施形態の方法及びシステムは、正しくラベル付けされた複数の前景画素からなる小部分を測定する。この実施形態の概念は、画素ではなく、小部分（断片）を分類（及び分類のために学習）するというものである。にもかかわらず、画素エラー尺度(pixel error metric)を用いることは有益である。なぜなら、大きい断片を誤って分類することは、小さい断片に対してミスをする場合よりも悪いからである。
(v) 画像内容についての想定：この仕組みはかなり一般的であり、この実施形態のシステム及び方法は上述したことに合致しない状況に適用されることがあるものの、使用される画像について、明示的にせよ暗黙的にせよ、いくつかの想定をすることができる。まず、テスト／応用のシナリオは、それら学習用の画像に十分に表現されていると想定する。例えば、ありふれたスキャン文書画像を表す画像は、傾いておらず、二値画像であり、ほぼ３００ｄｐｉであり、機械印刷されたテキストは横方向に並んでいる、と想定することができる。

文書編集装置上で実行されるソフトウエアプログラムなどの実装品では、上述の想定は有効であると考えられる。にもかかわらず、この実施形態のシステム及び方法は、それら想定が有効でない場合でも機能し続けるであろう。

この実施形態の方法及びシステムは、かなり一般的であるように、且つ拡張可能であるように設計している。したがって、以下に定めた対象（ターゲット）マーキングカテゴリは、実際の特定の実装目的に応じて変更してもよい。しかし、この実施形態の説明では、以下に示す各対象マーキング、及びそれら対象マーキングについての非曖昧化（明確化）優先度の順位付け（高い(i)から低い(v)への順）を使用する。

(i) 手書き: これは、手書きテキスト(HandwrittenText)（手書きされた段落、単語、単一の文字、又は単なる句読点）、手書き署名（HandwrittenSignatures）、手書きグラフィックス（HandwrittenGraphics）（下線、矢印、線画、取消線、チェックボックス内のチェックマークなど）から構成される。この種類のテキストは、手書きすなわち筆記体であってよく、いかなる言語又は文字体系のものであってもよい。筆記体フォントで印刷されたテキストは、機械印刷テキスト（MachinePrintText。機械で印刷されたテキスト）とみなす。
(ii) 機械印刷テキスト（MachinePrintText）：機械で印刷された、いずれかの言語又は文字体系の、白地上の黒色のテキスト。網掛けテキストや、黒い背景上の白いテキストは、機械印刷グラフィックス（MachinePrintGraphic）としてマーク付けされるべきである。
(iii)機械印刷グラフィックス（MachinePrintGraphic）：機械印刷線画グラフィックス（MachinePrintLineGraphic）（下線、矢印、背景の罫線、線画）、又は機械印刷ブロックグラフィックス（MachinePrintBlockGraphic）（黒丸記号(bullet)、ロゴ、写真）。
(iv) ごま塩スキャナノイズ（ScannerNoiseSaltPepper）：小さな粒状ノイズであり、通常は、紙のテクスチャ（きめ）や誤った二値化による。
(v) 暗領域スキャナノイズ（ScannerNoiseDarkRegion）：機械印刷又は手書きのインクによって生成されたのではない、顕著な黒い領域を表すためのものである。これには、紙の折り目や影、穴などのように、背景物の暗がりにより生成される黒い画素群が含まれる。

１．ソリューション・アーキテクチャ
図３は、本実施形態の概念（コンセプト）を実装したシステム３００を示す。システム３００は、デジタル化されたビットマップ画像及び／又はデジタルインク技術により形成された画像を、本実施形態の区分器・分類器システムに供給する様々なチャンネル（経路）を例示している。

より詳しくは、画像を有する文書３０２のハードコピーがスキャナ３０４に入力され、スキャナ３０４はその文書３０２の画像を、電子文書画像３０６に変換する。ハードコピー文書３０２上の画像は、例えば、電子データ処理装置によって、ペンや鉛筆その他の電子的でない材料によって、電子的又は人手によるスタンプによって、生成されたものであるが、これらに限定されるものではない。電子文書３０６は、コンピュータ、個人用デジタルシステムその他の電子装置３１０の画面３０８に表示される。この電子装置３１０は、本実施形態の区分器・分類器システム３１２を備える。電子装置３０８は、区分器・分類器システム３１２を動作させるために、少なくとも１つのプロセッサと十分な電子メモリ記憶装置を備えている。区分器・分類器システム３１２は、１つの例では、ソフトウエアであってよい。電子装置３１０は、マウス及び／又はキーボード（ただしこれに限るものではない）などの入出力装置を備えている。

また、別の例として、ホワイトボード即ちデジタルインク装置３１４が電子装置３１０に接続されていてもよく、これによりビットマップ画像即ちデジタルインク画像３１６が電子装置３１０に電子的に転送される。ビットマップ即ちデジタルインク画像が区分器・分類器子ステム３１２に供給される別のチャンネルとしては、他の電子装置３１８を用いる場合がある。この電子装置３１８は、以下に示す様々なシステム（ただしそれらに限るものではない）のうちのいずれであってもよい。すなわち、コンピュータ、コンピュータ化したＣＡＤシステム、電子タブレット、ＰＤＡ（Personal Digital Assistant）、ウェブページを配信するインターネット上のサーバ、ビットマップ画像及び／又はデジタルインク画像３２０を区分器・分類器システム３１２に供給する他のいずれかのシステム、など（これらに限られるわけではない）のうちのいずれであってもよい。更に、電子装置３１０にロードされた画像生成ソフトウエアを用いてビットマップ画像又はデジタルインク画像を生成し、その画像を区分器・分類器システム３１２で使用してもよい。区分器・分類器システム３１２により処理された画像を伴う電子文書の確定バージョンは、コンピュータシステム３１０のメモリ記憶装置に格納されるか、他の電子装置３１８に送信されるか、プリンタ３２２によりハードコピーとして印刷出力されるか、又はコンバータ／スキャナ３０８に関連づけられた印刷機能から印刷出力される。

本実施形態の概念は、上述したチャンネルのみならず、他のチャンネルを介して取得した文書上の画像についても機能することを理解すべきである。

図３に示すように、区分器・分類器システム３１２は、区分器３１２ａと分類器３１２ｂを備える。区分器３１２ａは、文書画像を取り込み、画素の集合を複数の小さな断片に区分する。分類器３１２ｂは、各断片を取り込み、それら各断片にカテゴリラベルを付与する。分類器３１２ｂは、異なる各マーキングカテゴリに対応する各スコア（得点）を返す。１つの例では、分類器３１２ｂは、最高スコアのカテゴリも返す。解釈器３２４などの下流のアプリケーションが、それらスコアを解釈して判定を行うようにしてもよい。例えば、受け入れ基準を満たさないスコアには「拒否」又は「未知」のラベルを付け、あらかじめ設定された閾値を超える「手書き」スコアを持つ断片は、ディスプレイ３０８上に表示された処理後の電子文書上でのアノテーション（注釈、コメント付け）処理のために、強調又はマーク付けされるようにしてもよい。

２．区分器
この実施形態では、特に各画素が黒か白である場合において、個々の画素を当該画素のマーキング種類に従って分類即ちスコア付けすることは、空間的な近傍部分、及び文書の他の形態のコンテキスト（状況）を考慮することにより達成される。画素は、その近傍についての特徴量の測定に基づき分類してもよい。これは、とりわけ区分けと認識とが互いに足並みをそろえて進行するという定式化を可能にするという興味深い可能性に繋がっている。

本実施形態の１つの方法は、画像を、同じマーキングのソース（源）に由来すると推定される画素の塊へと区分することである。そのあと、これらの断片（塊）がまとめて分類される。言うまでもないことだが、区分器・分類器システム３１２の区分器３１２ａは困難な判定を行うことになるので、区分器３１２ａによる誤り（エラー）はどれも最終結果の誤りを引き起こす可能性が高い。（ａ）明らかに異なるマーキング種類の組み合わせである断片を生成すること、及び（ｂ）同じマーキング種類の領域から断片を不必要に切り出してしまうこと、という２種類の誤りをカウント（計数）する。

タイプ（ａ）の誤りは画素レベルのラベル付け誤りをもたらすことが明らかであるのに対し、タイプ（ｂ）の誤りの影響はもっと微妙である。したがって、周辺のコンテキストをより多く集めることができれば、結果はよりよくなると考えられる。ここでは、機械印刷された領域から手書き領域を識別することは、機械印刷の文字から手書き文字を区別することよりも容易であることが分かっている。ストローク（一筆、一画）レベルになると更に難しくなる。区分器３１２ａにより導入された人工的な境界により、マーキングの実際の見え方がマスクされると、更なる問題が生じる。

上述の懸念にもかかわらず、「区分し、その後で分類する」という方法を採用した。この方法は、連結成分の解析に依存することにより、区分しなさ過ぎ（under-segment）よりもむしろ区分しすぎる(over-segment)ように動作するが、必要ならば選択された連結成分を分割するかどうかの判定処理を設ける。

図４に例示される処理４００により、画像の区分を行うために区分器３１２ａの処理が行われる。この例では、例えば機械印刷のテキストに由来する整列状態を見つけるというコンセプト（概念）が、他の断片を見つけるための組み合わされたマーク（combined mark）の使用と共に、横方向及び縦方向の線を見つけることを伴う処理の中に例示されている。しかし、以下ではそれら複数の概念をまとめて論じているが、整列したテキストを見つけるという概念を、他の概念無しで用いてもよいことは理解されるべきである。処理では、電子画像４０２が、整列したテキストの識別４０４のために調査され、同時にその画像内の横方向及び縦方向の線の識別４０６が個別に行われる。整列したテキストが識別されると、この情報が整列テキストマスク４０８として用いられる。同様に、識別された横方向の線及び縦方向の線は、グラフィック線マスク４１０として用いられる。整列テキストマスク４０８及びグラフィック線マスク４１０は、この処理で、どのようにして画像を整列したテキスト断片４１２に対応する小片群とグラフィック線の断片４１４に対応する小片群とに分けるのかを規定する。また、処理４００では、整列テキストマスク４０８とグラフィック線マスク４１０とが組み合わされて画像に適用され（４１６）、この組み合わせにより、この処理で、どのようにして画像を残余断片４１８（例えば、整列テキストでもグラフィック線でもない断片）群に分けるかが規定される。ここで、１つの例では、残余断片は、機械印刷された行か又は整然と書かれたテキストの境界の外の断片である。

得られるマスクの一例として、図５は、図１の画像のグラフィック線マスク５００を示す。このマスクは、縦及び横方向の線画を含んでいる。整列テキストマスク及び組み合わせマスクを用いる処理は、マスクの内容に対応する画像の部分のみを有していることが理解されるであろう。

後で更に詳しく説明するが、処理４００で生成された断片群は、文書画像上のマーキング群を分類するための更なる処理にて使用される。しかし、図４の処理の他の側面では（その処理を図８及び図１５の処理により拡張した場合）、それら断片を分類するのに有益な特徴（特徴量）を生成する。特に、この明細書に示したアラインメント（整列）処理は、高度に又は「とてもよく」整列しており機械印刷されたマーキングである可能性が高いと判断される断片群を見つけることができる。一方この処理により「中程度によく」整列しているに過ぎないと判定された断片群は手書きのテキストに由来する可能性が高い。テキストが、「高度に」、「とてもよく」、又は「中程度によく」整列しているといった場合、これらの用語はそれぞれ、特定の実装のために定めた各閾値に対応している。特に、ある実装では、見出すべき整列の程度は、この実施形態の概念の利用の仕方に依存して、高くしても低くしてもよい。したがって、それら特定の要件に基づいて閾値をシステムに組み込むことができ、システムは実際に動作中にそれらの因子について調整できるようにしてもよい。

整列したテキスト、及び横方向及び縦方向のグラフィックスを検出するのに、様々な公知の処理を用いてよいことに留意されたい。整列したテキストを求めるためのこの実施形態の特定の方法は、図８との関連で説明する。

図６は、処理４００により生成された画像６００を示す。この画像６００では、各バウンディングボックス６０２が、整列した各テキストを取り囲んでいる。これらバウンディングボックス６０２（すべてのバウンディングボックスに符号を付しているわけではない）は、整列したテキストを規定するものであると共に、整列したテキストの領域の外側へと延びる連結成分を示す。

図７は、図６の画像の一部分７００を拡大したものである。例示したバウンディングボックス７０２ａ〜７０２ｎは、処理４００により見つけ出された断片群を取り囲むように識別されている。簡潔にするために、すべてのバウンディングボックスに符号を付すことはしていない。図において特に注目すべきは、部分７００は、手書きの数字が機械印刷されたテキストを横切っているという状況、すなわち“3”が"REPAIR ORDER NUMBER"のうちの“PA”を横切っているという状況であるということである。この例では、"3"を構成する連結成分が単語"REPAIR"に触れており、単語"REPAIR"はより小さな断片に分割されており、その整列したテキストの領域の内部に“PA”の断片がある。

この明細書の特定の側面は、高度に整列したテキスト、例えば"REPAIR ORDER NUMBER"や、かなりよく整列したテキスト、例えば“370147”（図７の中の手書き）のような整列したテキストの行を見つけるのに用いられる処理である。このようなものを識別する処理は、輪郭経路の極値群のグループ化に基づくものであり、これは、例えば、図８の処理８００に従って実現される。

まず、連結成分（ＣＣ：Connected Component）８０２が入力される。上側の極値と下側の極値とが検出される（８０４ａ、８０４ｂ）。この処理の結果が図９に示される。図９では、符号９００で示す画像部分のサンプルから求められた輪郭が示されており、更に点９０２ａ、９０２ｂ、９０２ｃで示されるそれら輪郭の上側の極値と、符号９０４ａ、９０４ｂ、９０４ｃで示される輪郭の下側の極値とが示されている。

図８では、それら上側及び下側の輪郭の各極値が、それら極値点のグループ（８０６ａ、８０６ｂ）を見つけ出すために独立して処理される。これは、まず縦方向についての位置によってクラスタリング（クラスタ分け）することと、ある選択された最大閾値以内（within a threshold instance of a selected maximum）にある点群を選択することとにより、横方向に並ぶ複数の極値点からなる帯状領域を見つけ出すことにより達成される。この処理は、ステップ８０４ａ及び８０４ｂで識別された点群の中から点を取りだしてグループ分けするごとに繰り返し実行される。それら極値点からなる帯状領域の各々は、水平な大きなギャップ（間隙）によって分離されている。最後に、それら極値点が、横方向又はほぼ横方向に互いに整列して並んだ極値点のグループへとクラスタ分けされる（８０８ａ、８０８ｂ）。このクラスタ分けは、例えば１つの例ではよく知られたＲＡＮＳＡＣ（Random Sample Consensusの略）アルゴリズムを用いて行えばよい。図１０は、この処理により見つけ出された極値点のグループ（９０２ａ’、９０４ａ’、９０２ｂ’、９０４ｂ’及び９０４ｃ’）を示している。図９と図１０を比べれば分かるように、ＲＡＮＳＡＣ処理により外れ値（アウトライア）と判定された点が除去されている。実際、上側の極値点９０２ｃ群はすべて除去されているが、多くの点は残りのグループ内にある。

図８のステップ８１２ａ、８１２ｂでは、それら点のグループに対して線分がフィッティング（当てはめ）される（例えば、図１１では、"12249Y"の上部の線１１００ａ、"REPAIR ORDER NUMBER"の上下の線１１００ｂ、１１００ｃ、及び"370147”の下部の線１１００ｄ）。横（水平）方向からあらかじめ定められた閾値差を超えて外れた方向となる線分は除去（フィルタリング）される（例えば、線分１１００ｂ及び１１００ｃは残されるが、線分１１００ａ及び１１００ｄは後で説明するように除去される）。

そして、ステップ８１６では、上側の輪郭の極値点群に由来する線分８１４ａと下側の輪郭の極値点群に由来する線分８１４ｂとが、重なり合い及び距離に従って対（ペア）にされる。これらは、ステップ８１８で、図６に示したようなテキスト行のバウンディングボックスを形成する。最終的なテキストのバウンディングボックスは、アセンダ（b,dなどのアルファベットで上に突き出た部分）とディセンダ（j,p等のアルファベットで下に突き出た部分）の幅と、極値点群の元である連結成分が左及び右に延びている分だけ拡張される。したがって、いくつかの例では、テキスト行のバウンディングボックスは、この例が生成するものより幾分大きくなるであろう。

３．断片分類器
上述のように、区分器３１２ａは、画像から、複数の断片からなるリストを生成する。各断片は、当該断片とその周囲のコンテキスト（状況）から計算される多くの特徴測定値（特徴量）により特徴付けられている。この実施形態の分類器３１２ｂは、各断片を、その特徴量に基づき、上述したマーキング種類のカテゴリのいずれかに分類するように訓練されている（すなわち学習済みである）。

３．１特徴
上述したテキスト行の特徴に加え、様々な種類の特徴が、各断片について測定（計算）される。それら多様な特徴には、例えば以下のようなものがある。
(i) セグメンター(segmenter：区分用)特徴：これらは、単純に０又は１の２つの特徴量であり、当該断片が横線画像又は縦線画像のどちらの一部であるかを示す。
(ii) サイズ特徴：これらは、バウンディングボックスの縦横比、幅、高さ、周囲のサイズ、連結成分内の穴の数、前景画素の数を含む。また、ミッドクラック細線化(midcrack thinning)からの求められる背骨断片（spine-fragment）の数、バウンディングボックスの面積に対する前景画素の数の比、周囲のサイズに対する前景画素の数の比、及びバウンディングボックスの面積に対する周囲サイズの比、などが含まれてもよい。
(iii)位置特徴：画像の境界からの当該断片に対する横及び縦方向の距離の最小値が求められる。これにより文書内の暗いグラフィック領域からのシャドー（影）ノイズの識別の助けとなるというアイデアである。
(iv) 規則性（Regularity）特徴：これは、主として機械印刷されたテキストを他の種類のマーキングから区別して特徴付けるためのものである。機械印刷されたテキストは、整列状態及びサイズに関して高度な規則性を見せる。もし、文書内又は空間的に近傍の他の多くの断片の高さ、バウンディングボックスの上端のｙ座標及び下端のｙ座標が同じならば、カレントの断片（処理対象として注目している断片）は機械印刷されたテキスト又はグラフィックスである可能性が高い。手書きやノイズがそのような規則性を見せるのは、偶然である可能性が高い。この特徴の測定値は、相対的な差のヒストグラムとして形成される。例えば、高さについての規則性を求める場合、（ｈi−ｈ0）のヒストグラムが用いられる。ここで、ｈiはi番目の断片の高さであり、ｈ0は当該断片の高さである。ヒストグラムの各ビン（値の各範囲）は、[?32, ?16),…., [?4, ?2), [?2, ?1), [?1, 0), [0, 0], (0, 1], (1, 2], (2, 4],....., (16, 32].にセットされる。この場合、機械印刷されたテキストについては中央の３つのビンのカウント値が高くなると期待される。高さについてのヒストグラムは画像中のすべての断片を考慮するが、バウンディングボックス端部（bounding box extremity）についてのヒストグラムはｘ近傍（x-neighborhood）内の断片のみを考慮する。
(v) エッジ湾曲特徴：各断片について、高速な測定により外部輪郭の湾曲（曲率）を求める。ある輪郭点での湾曲指標は、当該点と、輪郭上で当該点からある固定した距離（例えば輪郭点１６点の距離）だけ離れた輪郭上の２つの点同士を結ぶ直線と、のユークリッド距離として測定される。１つの断片の外側の輪郭全体にわたって測定されるすべての湾曲指標からなるヒストグラムが計算され、使用される。
(vi) 輪郭特徴: これは、２つの測定値から構成される。断片の外側輪郭を反時計回りにたどり、４つの輪郭位置により分離された２つの輪郭点同士の間の変位のヒストグラムが記録される。ここから、符号無しのエッジ変位のヒストグラム（ここでは２つの反対向きの変位が足し算される）と、対称性違反のヒストグラム（ここでは２つの反対向きの変位が互いに打ち消しあう）と、が求められる。機械印刷された線及び機械印刷されたテキストについては、ほぼ縦方向及び横方向についてのヒストグラムの強度が高くなると予想される。均一なストロークについては、対称性違反については低い値になると予想される。
(vii)ランレングス特徴：断片の背骨が、本願発明者Saundに対する２００２年の米国特許第６，３７７，７１０号明細書"Method And Apparatus For Extracting The Skeleton Of A Binary Figure By Contour-Based Erosion"に示されるようなミッドクラック細線化アルゴリズムにより計算される。この文献は参考のためその全部をこの明細書に組み込む。その背骨上の各点において、横方向及び縦方向のランレングスの最小値及び最大値が記録される。これら２つの数のヒストグラムが、ランレングス特徴として返される。機械印刷された部分は、手書きやノイズの部分よりも、ランレングスヒストグラムがより集中したもの（即ちばらつきが少ない）になる。しかし、集中の仕方は、単峰的（ユニモーダル）である必要はない。分類器のトレーナー（訓練させる者）が異なるカテゴリについてのヒストグラム同士の間のいくつかの相違点を見つけ出すことができるであろうとの想定のもとで、生のランレングスヒストグラムが特徴として用いられる。
(viii)エッジターン（エッジ曲がり）ヒストグラム特徴: これらは有益ではあったが、輪郭特徴及びエッジ湾曲特徴の方がより優れていることが分かった。

３．２分類器
マーキング種類に従った断片の分類は、図１２Ａ〜Ｄ及び図１３に示すように、２段階で行われる。図１２Ａ〜Ｄにより詳しく示されるように、２段階分類器１２００は、第１段階１２０２の中に、複数の第１段階分類器１２０２ａ、１２０２ｂ、・・・、１２０２ｎを有する。第１ステージでは、各断片が上述の３．１節で説明した特徴のみに基づいて分類される。この結果、各断片はカテゴリごとのスコアを有することとなる。したがって、図１２に示すように、画像断片１２０４ａは特定の特徴ベクトル１２０６ａに供給される（これについては図１３に更に詳しく示している）。ここで分類器１２００が停止すれば、最高スコアのカテゴリが各断片に対して割り当てられる。

しかし、分類器１２０２ａと１２０２ｎを用いていることから分かるように、本出願の各実施形態では、周辺のコンテキストと空間的な近傍がどのように分類されたかを考慮に入れることで分類が精密化される。ここで、近傍の断片１２０４ｂ、・・・、１２０４ｎはそれぞれ対応する特徴ベクトル１２０６ｂ、・・・、１２０６ｎに供給される。これらの処理の結果、すなわちカテゴリスコア１２０８ａ及び累積カテゴリスコア１２０８ｂ、・・・、１２０８ｎの形の処理結果は、特徴ベクトル１２０２ａとともに、拡張特徴ベクトル(augmented feature vector)に供給され、２段階分類器１２００の第２段階分類器１２１２により利用される。これにより、第１段階１２０２ａで用いられたすべての特徴と、近傍の断片１２０４ｂ、・・・、１２０４ｂの有望な（すなわち確定されてはいないが可能性としては高い）カテゴリ（二次的特徴）のラベルとを考慮に入れて画像断片１２０４ａを再分類することにより、その精密化された出力がもたらされる。第２段階分類器１２１２からの出力は、最終的なカテゴリスコア１２１４を提供する。分類器１２１２からのこの最終的なカテゴリスコア１２１４は、ラベル付けモジュール１２５０により画像の断片にラベル（例えば色、グレイ階調、その他のマーキング又は標識）を付与するために、この実施形態のシステム及び方法により使用される。１つの例では、ラベル付けモジュールは、図３に示したシステムのなかの適当な構成要素であると理解される。

二次的な特徴は、当該断片のバウンディングボックスに続く空間的な近傍に含まれる複数のバウンディングボックス内のすべての断片の第１段階カテゴリスコアを累積したものとして名付けられ、求められる。

(i) 横方向の帯片：ｙ方向について当該断片から±１６画素以内、ｘ方向について当該断片から±１６０画素以内
(ii) 縦方向の帯片：ｘ方向について当該断片から±１６画素以内、ｙ方向について当該断片から±１６０画素以内
(iii) 矩形近傍：当該断片からｘ方向及びｙ方向の両方についてそれぞれ±１６０画素以内。

上記における各「近傍」のサイズは、いくつかの実施例で３００ｄｐｉ、１２ポイントのフォントのもとで１文字の高さ（例えば１６画素）と数文字分の高さ（例えば１６０画素）よりも小さくなるように選ばれることを除けば、かなり任意に選んでよい。また、近傍のサイズは、応用先の状況、例えばスキャンの解像度などに従って調整することができる。このように、この実施形態の方法及びシステムは、特定の実装に合わせて調整可能である。

この二次的特徴と、第１段階特徴（これも近傍の内容、例えば規則性特徴を考慮している）との間には、微妙ではあるが重要な目的の相違があることを指摘しておく。二次的特徴は、近傍の各断片のカテゴリラベル同士の関係を表すものであるのに対し、第１段階特徴は断片と当該断片について観察できる性質との間の関係を表すものである。例えば、規則性特徴について考えてみよう。高さ規則性特徴は、当該断片の高さが近傍の中にどれだけの頻度で入るのかを測定したものである。これは、近傍の他の断片を考慮してはいるが、それら近傍の断片の有望なカテゴリが何かについては考慮していない。したがって、ｓ_ｉがi番目の断片を示し、ｕ_ｉがその断片について測定された特徴であり、ｃ_ｉがその断片のカテゴリであるとすると、第１段階特徴で学習した分類器では、
が成り立つ。一方、二次的特徴は、次の形式の依存性を表す。
このように、二次的特徴は、ラベル間の依存性の問題に取り組むためのものである。

ツェン（Zheng）らは、この問題に取り組むのに、マルコフランダム場（Markov Random Field）を構築した。この実施形態の方法は、それとは異なる。この方法では、各ノード（断片）についての近傍が確定され、近傍のラベル群に基づいて断片のラベルを付与できるようにする。依存性のパターンは近傍（の断片群）の選択により導かれるものの、前もって想定されていた依存性の形式が強制されるわけではない。むしろ、その依存性は、もし顕著ならば、学習（訓練）用データから学習される。近傍の特徴群は、第２段階分類器学習器に利用できるようにされ、分類に有益であることが分かれば選択されることになる。さらに、この定式化では、計算時間や輻輳の問題を有するかもしれないループの多いメッセージ伝達や反復的なサンプリング推論を避ける。

２段階分類器は、図１３に示した基本分類器を用いて構築される。第１段階１２０２ａ、・・・１２０２ｎでは、この基本分類器は、上の３．１節で説明した特徴群に基づいて断片をカテゴリ分けするのに適用される。カテゴリ分けの結果は、画像全体について集計され、二次的特徴１２０８ａ、・・・１２０８ｎになる。これら二次的特徴と初期特徴（１２０６ａ）とがいっしょに、第２段階にて最終的なカテゴリ分け番号に達するために、他の基本分類器（すなわち第２段階分類器１２１０）により使用される。

３．３基本分類器
１つの例では、各段階で使用される基本分類器は、「一対全部」の分類器の集まり（１カテゴリあたり１つ）である。この種の分類器は、複数の特徴からなるベクトルを入力として受け入れ、１カテゴリあたり１つのスコアからなるスコア配列を生成する。この出力配列は、最高スコアのカテゴリを見つけたり、あるいは様々な拒否／受入閾値を適用したりするのに用いられる。

図１３では、分類器１３００は、図１２の各分類器として用いられる種類の分類器と理解してよい。この実施例では、分類器１３００は、複数の弱分類器（weak classifier）の重み付け加算として実装された「一対全部」タイプの分類器として実装される。ここで、各弱分類器は、１つの断片について測定されたスカラー特徴量のうちの１つ（例えば特徴ベクトルの１つの次元）に対する単一閾値のテストである。更に詳しくは、画像断片１３０２が特徴ベクトル１３０４ａ、・・・、１３０４ｎのそれぞれに供給される。これらのベクトルからの出力は、多次元スコアベクトル（例えば５次元スコアベクトル）１３０６に渡される。そして、この出力は、スコア調整器１３０８に渡される。スコア調整器１３０８は、多次元調整済みスコアベクトル（例えば５次元調整済みスコアベクトル）１３１０を出力する。

このような設計構成によれば、極めて高速な分類が可能になる。例えば、５０個の弱分類器の組み合わせを備える分類器では、各断片について約５０の比較、乗算、及び加算にまで達する。

各弱分類器は、比較テストの結果を示す＋１又は−１のどちらかの数を生成する。これらの重み付け加算結果は＋１から−１までの間の数になり、その結果が肯定的（正の値）であるならば、名目上、肯定的な分類結果を示す。このように、基本分類器の出力は、１カテゴリに付き１つの数からなる数の配列となる。正の結果は、名目上、（その正の結果に）対応するカテゴリによく合致していることを示す。典型的には、それらの数字の１つのみが正になるであろう（ただし、常にそうだとは限らない）。正の数が１より多い場合、当該断片は割り当て不能として拒否されるようにしてもよい。あるいは、最高スコアのものを選択するようシステムを設計してもよい。同様に、いずれのカテゴリも、当該カテゴリであることを示す正のスコアを返さなかった場合も、調停が必要になるかもしれない。１つの方法は、そのカテゴリスコアベクトルを他の分類器に供給し、当該他の分類器がより精密化したカテゴリスコアを生成するようにすることである。この方法は、この第２段階分類器もデータから自動学習できる場合には特に有益である。いくつかの実施例ではこのような方法に適合された第２段階分類器は、スコア調整器と見なしてもよい。

このようにその基本分類器そのものは、１つのスコア調整器に対して結果を供給する多数の「一対全部」分類器を備えた２段階分類器として考えてもよい。これは、近傍の情報が第２段階にて統合されるより大きい２段階アプローチと混同してはならない。実際、既に説明したように、２段階分類器は同じ基本分類器構造を用いて実装できるが、第２段階の分類器は拡張された特徴に基づいて動作するので、各段階では異なったパラメータを用いる必要がある。したがって、予備的なカテゴリ割り当ては、近傍の断片群に対してなされたカテゴリ割り当ての統計に基づいて更新される。

図１４に示すように、「一対全部」の基本分類器、及びスコア調整器１４００は、１つの例では、適応的ブースティング（Adaptive BoostingすなわちAdaBoost）と呼ばれる機械学習アルゴリズムを用いて訓練される。図１４では、特徴ベクトル１４０２はスカラー特徴セレクタ１４０４ａ、・・・、１４０４ｎに供給される。これらスカラー特徴セレクタの出力は弱スカラー分類器１４０６ａ、・・・、１４０６ｎに与えられる。データは総和器１４０８で総和され、二値的な判定結果１４１２を得るためにスコア付け１４１０される。処理では、弱学習器は一度につき１つの特徴の次元／ベクトル１４０２を考慮し、学習用データ（弱スカラー分類器）１４０６についての重み付きの誤差を最小とする閾値テスト（スカラー特徴セレクタ）１４０４を見出す。それら特徴の次元のうち最も識別力のあるものが、次の弱分類器（１４０８、１４１０、１４１２）として選択される。この処理は、AdaBoostの反復により繰り返される。このような構成により、分類器のパラメータは、多くの測定値のファミリー（集団）の中から有益な特徴を選択しそれら選択した特徴に相対的な重みを割り当てる判別的AdaBoost学習により取得される。

この特別な形のAdaBoost分類器学習器は、最近、Xerox Global Servicesのクライアントアプリケーションデータ集合の中の文書画像群をカテゴリ分けするのに非常に効果的であることが分かってきた。

４．画像処理フローチャート
図４の処理をより詳しく示したのが、図１５の処理手順１５００である。このフローチャートでは、マスク処理のようなビット単位の論理演算に好適な画像ベースの（すなわち画像に基づく）表現と、グループ分けや幾何学的な性質に対する論理や規則の適用に好適な記号的な表現と間の相互作用がある。図４と同様、処理手順１５００の１つの側面は、様々な画像マスクを生成することである。したがって、以下の説明では、概略的には、図１５の左側の各ステップはそれらマスクの生成及び更なる処理に関するものであり、同図の右側の各ステップはそれらマスクを用いた画像処理に関するものである。このように、処理手順１５００は、連結成分（ＣＣ：Connected Component）オブジェクトのようなトークンに作用する記号処理と画像処理とを混合した処理を提供する。

処理手順１５００を更に詳しく見ると、暗い／黒いデータ（dark/black material）の大きな領域（この明細書では、大きい黒いしみ(big black blob)又はＢＢＢと呼ぶこともある）１５０４についてのあらかじめ定められた定義を満たす画像領域を見つけるために、オリジナル（元の）画像１５０２が調査される。“AndNot”演算１５０８がオリジナル画像（原画像）とＢＢＢとに対して実行され、オリジナル画像からＢＢＢの部分が削除された結果１５１０が生成される。

オリジナル画像からのＢＢＢの減算を行うことで、残りの画像内の連結成分（ＣＣ）が抽出され（１５１２）、すべてのＣＣが識別された画像が生成される（１５１４）。フィルタ処理が実行されることにより（１５１６）、寸法が小さいＣＣ（小さいため塵（ダスト）ＣＣあるいはシミＣＣ等とも呼ばれることがある）が除去され、その結果残ったＣＣは非塵（ノン・ダスト）ＣＣとなる。
この非塵（ノン・ダスト）ＣＣの画像に対し、テキスト行を見つけるためのテキスト行判定プロセスが適用される（１５２０）。１つの実施例では、このテキスト行判定プロセスは、図８の処理８００により実行してもよい。この結果求められたテキスト行１５２２の画像は、テキスト行の画像（即ち１５２２）が存在する場所でのバウンディングボックスを生成する（すなわちバウンディングボックスは成長させられる）（１５２４）。これにより、判定されたテキスト行の場所をカバーするバウンディングボックス１５２６の位置が識別される。バウンディングボックスがレンダリング（描画）され（１５２８）、これにより整列（アラインメント）テキストマスク１５３０が生成される。二値画素カラー反転演算１５３２が整列テキストマスク１５３０に適用され、これにより当該マスクの各二値画素が反転（すなわち画素の色が反転）されることにより、反転整列テキストマスク１５３４が生成される。

このように、以上の処理により整列テキストマスク１５３０と反転整列テキストマスク１５３４が生成されており、これらが後の画像処理ステップで使用されることになる。

フィルタ処理１５１６に再び注目すると、塵即ちシミ連結成分（ＣＣ）は符号１５３６で示されている。図１５では「塵ＣＣ」は二重線のボックスで示されている。この二重線のボックスは、テキスト画像が存在するかも知れないとシステム又は処理が考える、オリジナルの画像１５００からの最終的な完全な画像の集合を表すことを意図したものであり、この時点では異なる複数のタイプのオブジェクトと解釈されることを意図している。この二重線のボックスは、テキスト画像が存在するかもしれないと本実施形態のシステム又は処理が考えている、オリジナルの画像１５００からの最終的な完全な画像の集合であって、この時点では、異なるタイプのオブジェクトと解釈されることを意図されるものである。

次に、バウンディングボックスの成長１５２４に注目すると、識別されたＣＣ（連結成分）の中には、適切なサイズと判定されるＣＣ１５４０とは逆に、バウンディングボックスにテキスト行として含まれるには大きすぎると判定されるＣＣ１５３８の例があるかもしれない。「ＯＫＣＣ」１５４０は、二重線のボックスで示している。二重線のボックスは、テキスト画像が存在するとシステムが考える、オリジナルの画像１５００からの画像データの最終的な完全な集合を表している。

さて、右側の処理フローに移ると、処理手順１５００の画像処理演算は、以上に説明した処理により生成されたマスク及びデータを用いるものであるが、この点について以下で更に詳しく取り扱う。

オリジナル画像からＢＢＢを減算した結果１５１０に戻ると、この減算結果の画像は、個々の横線及び縦線を抽出する抽出処理１５４２に供される。更に詳しくは、この処理では、横線を持つビットマップ１５４４と、縦線を持つビットマップ１５４６と、線を持たないビットマップ１５４８とを見つけ出す。

横線ビットマップ１５４４には、ビットマップの連結成分（ＣＣ）を抽出する処理が施され（１５５０）、横線画像の連結成分１５５２が生成される。縦線ビットマップ１５４６は横線ビットマップ１５４４とは異なった仕方で処理される。この処理では、縦線ビットマップ１５４６の画素と横線ビットマップ１５４４との間で"AndNot"論理演算が実行される。この演算は、縦の連結成分を取り、横の連結成分を除く処理である。これにより残った連結成分（ＣＣ）を抽出し、これにより連結成分（ＣＣ）の縦線画像が結果として求められる。

「横線ＣＣ画像」１５５２及び「縦線ＣＣ画像」１５５８は二重線のボックスで示されている。二重線のボックスは、テキスト画像が存在すると考えられる、オリジナルの画像１５００からの画像データの最終的な完全な集合を表している。

線無しビットマップ１５４８に戻ると、この画像は反転整列テキストマスク１５３４とビットごとにＡＮＤ（論理和）演算される（１５６０）。この演算により、既に求められている整列したテキスト行の外側にある線無しビットマップ１５６２を識別する。この画像をきれいにするために、塵ＣＣ１５３６が供給され、この塵ＣＣが白色でレンダリングされる（すなわち塵ＣＣが背景となる）（１５６４）。このきれいにされた整列領域外のデータ１５６６から、連結成分（ＣＣ）が抽出され（１５６８）、その結果あらかじめ定められたテキスト行領域の外側にある連結成分の最終的な画像１５７０が求められる。「整列領域外ＣＣ」は二重線のボックスで示されている二重線のボックスは、テキスト画像が存在すると考えられる、オリジナルの画像１５００からの画像データの最終的な完全な集合を表している。

ステップ１５７２に移り、大きすぎるＣＣ１５３８がレンダリング（描画）され、大きすぎるＣＣビットマップ１５７４が形成され、このビットマップ１５７４が整列テキストマスク１５３０とビットごとにＡＮＤ（論理積）される。このＡＮＤ演算により、整列テキストの画像の領域内にある「大きすぎるビットマップ」１５７８が生成され、このビットマップから連結成分が抽出され（１５８０）、整列テキスト領域内の大きすぎるＣＣの画像１５８２が生成される。

処理手順１５００により、オリジナル画像からの最終的な完全な画像データの各集合（例えば断片又は連結成分）が生成され、これらは今や、異なる種類のオブジェクト（すなわち画像の小さいシミ）１５３６、テキスト画像と考えられる連結成分（ＯＫＣＣ）１５４０、横線ＣＣ１５５２、縦線ＣＣ１５５８、整列テキスト行の外側にあると判定・判断されるＣＣ（連結成分）１５７０、及び整列テキスト行の領域内にあると判定・判断されるＣＣ（連結成分）１５７２と解釈される。

この明細書に記載した概念（コンセプト）によれば、例えば、アノテーション（追記される手書きコメントなど）検出システムやマーキング分類システムなどが、連結成分単位よりも細かいレベルでの処理を行うことができ、これにより印刷画像などに触れているアノテーションを分離することができる。

３００システム、３０２文書、３０４スキャナ、３０６電子文書画像、３０８画面、３１０電子装置、３１２区分器・分類器システム、３１２ａ区分器、３１２ｂ分類器、３１４デジタルインク装置、３１６デジタルインク画像、３１８他の電子装置、３２０デジタルインク画像、３２２プリンタ。

Claims

文書の画像内のマーキングの連結成分をより小さい部分に区分するための方法であって、
前記画像内の整列したテキストを検出するステップと、
検出した前記整列したテキストから整列テキストマスクを生成するステップと、
前記整列テキストマスクを用いて前記画像を整列したテキストの断片に区分するステップと、
を含む方法であって、前記画像内の整列したテキストを検出するステップでは、
前記連結成分の上側及び下側の極値群を検出し、
検出された前記連結成分の前記上側及び下側の極値群の上側及び下側の輪郭極値を識別し、
識別された上側及び下側の輪郭極値をグループ分けし、
上側の輪郭極値グループと下側の輪郭極値グループとを識別し、
上側の輪郭極値グループと下側の輪郭極値グループとにそれぞれ線分をフィッティングし、
上側及び下側の輪郭極値グループにフィッティングした線分のうち横方向に対してあらかじめ定められた整列閾値を超えて外れた方向の線分を除去処理し、
前記除去処理の後に残った上側と下側の線分のペアを求め、
前記除去処理の後に残ったペアになった上側と下側の線分に基づき、整列テキストであると考えられる連結成分を識別するためのテキスト行バウンディングボックスを形成する、
ことを特徴とする方法。