JP2011018338A - スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム - Google Patents

スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム Download PDF

Info

Publication number
JP2011018338A
JP2011018338A JP2010156620A JP2010156620A JP2011018338A JP 2011018338 A JP2011018338 A JP 2011018338A JP 2010156620 A JP2010156620 A JP 2010156620A JP 2010156620 A JP2010156620 A JP 2010156620A JP 2011018338 A JP2011018338 A JP 2011018338A
Authority
JP
Japan
Prior art keywords
classifier
fragment
image
fragments
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010156620A
Other languages
English (en)
Other versions
JP2011018338A5 (ja
JP5379085B2 (ja
Inventor
Prateek Sarkar
サーカー プラティーク
Eric Saund
サウンド エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2011018338A publication Critical patent/JP2011018338A/ja
Publication of JP2011018338A5 publication Critical patent/JP2011018338A5/ja
Application granted granted Critical
Publication of JP5379085B2 publication Critical patent/JP5379085B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

【課題】文書内の画像上のマーキングをマーキング種類に従って分類する。
【解決手段】
画像を含んだ文書を区分器112aに供給する。区分器112aは、連結成分を見つけることで、その画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割し、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片群を求める。分類器112bは各断片についてのカテゴリスコアを求める。ここで分類器112bは各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものである。断片が分類器112bにより分類されると、その断片に含まれるすべての画素に同じラベルを割り当てられる。
【選択図】図1

Description

本発明は、スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステムに関する。
文書画像解析の文献では、粒状のノイズ(ごま塩ノイズと呼ばれることもある)、線画、及び機械で印刷されたテキストを識別することにもっとも多くの注意が払われてきた。様々な主要なアプローチは、マーキングの各種類についてのある種の予測可能な特徴に依拠するものであった。例えば、あるサイズより小さい画素連結成分は、ノイズであると推定され、暗い画素群の大きな領域は影であると推定され、画素の長い真っ直ぐなランは線画に由来するものであると推定される。機械で印刷されたテキストの識別はよりいっそう困難な処理である。商業的なOCR(光学文字認識)パッケージでは、機械で印刷された領域の検出のためのシステムは、特にローマアルファベットのために、言語、書体、画像の解像度及びテキストのサイズについての既知のコンテキスト(状況)の元で機能するように、手作業で大幅に調整していた。
Zheng et al., "Machine Printed Text And Handwriting Identification In Noisy Document Images," IEEE Trans. Pattern anal. Mach. Intell., 26(3):337-353, 2004 Chen et al., "Image Objects And Multi-Scale Features For Annotation Detection", in Proceedings of International Conference on Pattern Recognition, Tampa Bay, FL, 2008 Koyama et al., "Local-Spectrum-Based Distinction Between Handwritten And Machine-Printed Characters", in Proceedings of the 2008 IEEE International Conference On Image Processing, San Diego, CA, October 2008
これらの処理は、きれいな画像に用いられる場合にはある程度の成功は収めたものの、クラッターを持つ画像を取り扱う場合には成功しなかった。
本発明に係る分類方法は、前記画像を含んだ前記文書を区分器に供給するステップと、前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップと、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものである分類器に対して前記複数の断片を供給するステップであって、前記分類器はそれら各断片についてのカテゴリスコアを求めるステップと、前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、を含む方法である。
この出願の概念(コンセプト)を適用可能なシステムの例を示す図である。 区分器(セグメンター)の第1段階において実行される、長い横及び縦の線(ライン)の断片を抽出する処理の例を示すフローチャートである。 区分器の第2段階において実行される、断片の再帰的分割の処理の例を示すフローチャートである。 画素の長いランが偶然除去されてしまった画像を示す図である。 十分な支持エッジ群(supporting edges)を持つ長いランのみを除去するための2段階処理に基づきそれら画素の線が画像内に示されている状態を示す図である。 この出願の区分処理を受けている画像の様々な局面を示す図である。 この出願の区分処理を受けている画像の様々な局面を示す図である。 この出願の区分処理を受けている画像の様々な局面を示す図である。 この出願の区分処理を受けている画像の様々な局面を示す図である。 この出願の概念に従って構成された2段階分類器の概要を示す図である。 この出願の概念に従って構成された2段階分類器の概要を示す図である。 この出願の概念に従って構成された2段階分類器の概要を示す図である。 この出願の概念に従って構成された2段階分類器の概要を示す図である。 図6の2段階分類器を構成するのに利用可能な分類器の一実施例を示す図である。 1つの例としての「一 対 全部」分類器の各々として使用される、AdaBoostアルゴリズムにより得られる重み付き加算分類器を模式的に示す図である。 テストデータに関するエラーを分析するのに用いられる画素混同マトリックス例示する図である。 機械印刷されたテキストと、署名付きのポートレイト(肖像画)とを含んだ文書の例を示すとともに、適切に識別された領域と不適切に識別された領域とをそれぞれ示す図である。 物理的に押印されたスタンプを含んだ画像の一部を示す図である。
1つの実施例では、ハードコピー文書をデジタイズ(デジタル化)して、手書きテキスト、機械で印刷されたテキスト、機械で印刷されたグラフィックス(図形等の画像)、未識別マーキング(例えばノイズ)、及びフォーム(書式)の線即ち罫線、のうちの少なくとも1つを含む画像を生成する。画像は、区分器(セグメンター)モジュールにより複数の断片に区分される。各断片は、自動学習した多段階分類器により分類され、各断片に対して分類ラベルが付与される。これらのラベルは、例えば、色であってもよいし、異なるグレイ濃度であってもよいし、記号その他の識別子であってもよい。分類ラベルに到達するために、分類器は、当該断片自体の性質(プロパティ)のみならず、当該断片の近傍の性質も考慮する。分類分野での用語では、これら性質すなわち属性は、特徴(フィーチャー)と呼ばれる。複数の特徴測定値の中から、弁別に関する特徴が自動的に選別される。この分類器は、各画素が「グランドトゥルース(ground truth)」ラベル、つまり(分類の正解である)基準画像すなわちオリジナル画像上のラベル(すなわち「正解」を表すラベル)、を有するラベル付きのサンプル画像、により学習した2段階分類器である。提供されたグランドトゥルース(正解)画像の集合を用いて評価を行うことができる。そして、ラベル付けされた文書は、メモリへ格納される。
この方法及びシステムは、複数の例やグランドトゥルースからパラメータ群を自動的に訓練(学習)する。
この明細書に示す方法及びシステムは、小さなマーキング(印刷又は手書きなどにより形成された文字、記号、図形、絵などの記入物)の断片を、連結成分(互いに隣接する値が同じ画素のかたまり)又は連結成分よりも小さい成分のレベルで分類するというかなり困難な仕事に取り組むものである。これにより、異なる種類の(タッチパネルなどに対して)タッチ入力(パネルなどの表面に対して接触させたペン先や指先による記入)されたマーキングを、連結成分を適切に分割することにより呼び出し(calling out)/識別を可能にするとともに、基本的な便利な基礎単位(例えば断片分類器)を構築することであり、これは、(単語レベル、領域レベル、ページレベルなどといった)よりおおざっぱなレベルの判定が、ここに説明する基礎単位のツール(例えば断片分類器)の出力を集めることにより、これまでより遙かに正確にできるという理解に基づく。対照的に、従前の概念は、より大きな集合体としての領域の分類のみを目的としている。
単一の前景(例えば黒色)画素は、単独では、当該画素のソース種類(当該画素の属する源(ソース)、すなわちマーキングの種類)の解読に利用するのに十分な情報を持っていない。以下に示す想定は、異なる種類のマーキングの例である。
(i) 画素ラベル: 各画素は、単一のマーキングカテゴリラベルを有する。この想定により、ある画像のグランドトゥルース(正解)を、各画素についてそれぞれ整数ラベルを有する他の画像により表現することができる。このように、グランドトゥルースは格納することができ、グランドトゥルースの出力は公知の画像フォーマットを用いて処理することができ、画像ビューワ(閲覧ソフト)、画像ローダー、及び画像エディタを用いて、それら画像フォーマットを効果的に視覚化して取り扱うようにしてもよい。
(ii) 背景画素: マーキングカテゴリは、前景画素(すなわち黒色の画素)のみに割り当てられる。白色の画素は背景(例えば紙)を形成するものと想定する。
(iii) 曖昧(多義的)画素: 複数のマーキングが同じ1つの黒画素内で重なる場合がある。それらマーキングが共に同じカテゴリのものであれば、画素のラベリング(ラベル付け)に曖昧さはない。他の状況では、その画素に対して、それら重複するマーキングのカテゴリのうちの1つが割り当てられるべきである。カテゴリラベル群について、あらかじめ定めた優先順位を想定することが考えられる。優先順位の高いラベルを割り当てることにより、曖昧さを解消することができる。例えば、1つの実装例では、「手書きテキスト」を最高順位のカテゴリとする。手書き文字が機械で印刷された線と重複する場合、両者が交わる部分の画素には「手書きテキスト」のラベルが付与される。ノイズラベルは最低順位である。
(iv) 評価尺度(評価メトリック): 2つのグランドトゥルースラベルファイルを比較する場合、又は1つの自動分類結果の出力をグランドトゥルースと比較する場合、各画素位置でそれらラベルが比較され、もしそれら2つのラベルが異なっていればエラーが1つ計数されることになる。これは評価尺度として有益である。なぜなら、この定義は、解法に関わりなく、矛盾なく機能するからである。1つの実施例では、区分してから分類する、という解法を用いる。別の解法では、各画素をコンテキスト(周辺状況)に基づいて分類する。更に別の解法では。画像のグリッド(格子)パッチ(grid-patches)に対してラベルを付与する。しかし、すべての解法について、この実施形態の方法及びシステムは、正しくラベル付けされた複数の前景画素からなる小部分を測定する。画素ラベル同士の比較は、混同マトリクスと、カテゴリごとの精度及びリコール(取り消し)などのような他の派生的な尺度とへ至るものであり、これらについては例えば図9と関連づけて後で説明する。この実施形態の概念は、画素ではなく、小部分(断片)を分類(及び分類のために学習)するというものである。にもかかわらず、画素エラー尺度(pixel error metric)を用いることは有益である。なぜなら、大きい断片を誤って分類することは、小さい断片に対してミスをする場合よりも悪いからである。
(v) 画像内容についての想定: この仕組みはかなり一般的であり、この実施形態のシステム及び方法は上述したことに合致しない状況に適用されることがあるものの、使用される画像について、明示的にせよ暗黙的にせよ、いくつかの想定をすることができる。まず、テスト/応用のシナリオは、それら学習用の画像に十分に表現されていると想定する。例えば、ありふれたスキャン文書画像を表す画像は、傾いておらず、二値画像であり、ほぼ300dpiであり、機械印刷されたテキストは横方向に並んでいる、と想定することができる。
文書編集装置上で実行されるソフトウエアプログラムなどの実装品では、上述の想定は有効であると考えられる。にもかかわらず、この実施形態のシステム及び方法は、それら想定が有効でない場合でも機能し続けるであろう。
以下に定めた対象(ターゲット)マーキングカテゴリは実際の特定の実装目的に応じて変更してもよい。しかし、この実施形態の説明では、以下に示す各対象マーキング、及びそれら対象マーキングについての非曖昧化(明確化)優先度の順位付け(高い(i)から低い(v)への順)を使用する。
(i) 手書き: これは、手書きテキスト(HandwrittenText)(手書きされた段落、単語、単一の文字、又は単なる句読点)、手書き署名(HandwrittenSignatures)、手書きグラフィックス(HandwrittenGraphics)(下線、矢印、線画、取消線、チェックボックス内のチェックマークなど)から構成される。この種類のテキストは、手書きすなわち筆記体であってよく、いかなる言語又は文字体系のものであってもよい。筆記体フォントで印刷されたテキストは、機械印刷テキスト(MachinePrintText。機械で印刷されたテキスト)とみなす。
(ii) 機械印刷テキスト(MachinePrintText): 機械で印刷された、いずれかの言語又は文字体系の、白地上の黒色のテキスト。網掛けテキストや、黒い背景上の白いテキストは、機械印刷グラフィックス(MachinePrintGraphic)としてマーク付けされるべきである。
(iii) 機械印刷グラフィックス(MachinePrintGraphic): 機械印刷線画グラフィックス(MachinePrintLineGraphic)(下線、矢印、背景の罫線、線画)、又は機械印刷ブロックグラフィックス(MachinePrintBlockGraphic)(黒丸記号(bullet)、ロゴ、写真)。
(iv) ごま塩スキャナノイズ(ScannerNoiseSaltPepper): 小さな粒状ノイズであり、通常は、紙のテクスチャ(きめ)や誤った二値化による。
(v) 暗領域スキャナノイズ(ScannerNoiseDarkRegion): 機械印刷又は手書きのインクによって生成されたのではない、顕著な黒い領域を表すためのものである。これには、紙の折り目や影、穴などのように、背景物の暗がりにより生成される黒い画素群が含まれる。
1.ソリューション・アーキテクチャ
図1のシステム100は、デジタル化されたビットマップ画像及び/又はデジタルインク技術により形成された画像を、本実施形態の区分器・分類器システムに供給する様々なチャンネル(経路)を例示している。
画像を有する文書102のハードコピーがスキャナ104に入力され、スキャナ104はその文書102の画像を、電子文書画像106に変換する。ハードコピー文書102上の画像は、例えば、電子データ処理装置によって、ペンや鉛筆その他の電子的でない材料によって、電子的又は人手によるスタンプによって、生成されたものであるが、これらに限定されるものではない。電子文書106は、コンピュータ、個人用デジタルシステムその他の電子装置110の画面108に表示される。この電子装置110は、本実施形態の区分器・分類器システム112を備える。電子装置108は、区分器・分類器システム112を動作させるために、少なくとも1つのプロセッサと十分な電子メモリ記憶装置を備えている。区分器・分類器システム112は、1つの例では、ソフトウエアであってよい。電子装置110は、マウス及び/又はキーボード(ただしこれに限るものではない)などの入出力装置を備えている。
また、別の例として、ホワイトボード即ちデジタルインク装置114が電子装置110に接続されていてもよく、これによりビットマップ画像即ちデジタルインク画像116が電子装置110に電子的に転送される。別のチャンネルとしては、他の電子装置118を用いる場合がある。この電子装置118は、以下に示す様々なシステム(ただしそれらに限るものではない)のうちのいずれであってもよい。すなわち、コンピュータ、コンピュータ化したCADシステム、電子タブレット、PDA(Personal Digital Assistant)、ウェブページを配信するインターネット上のサーバ、ビットマップ画像及び/又はデジタルインク画像120を区分器・分類器システム112に供給する他のいずれかのシステム、など(これらに限られるわけではない)のうちのいずれであってもよい。更に、電子装置110にロードされた画像生成ソフトウエアを用いてビットマップ画像又はデジタルインク画像を生成し、その画像を区分器・分類器システム112で使用してもよい。区分器・分類器システム112により処理された画像を伴う電子文書の確定バージョンは、コンピュータシステム110のメモリ記憶装置に格納されるか、他の電子装置118に送信されるか、プリンタ122によりハードコピーとして印刷出力されるか、又はコンバータ/スキャナ108に関連づけられた印刷機能から印刷出力される。
区分器・分類器システム112は、区分器112aと分類器112bを備える。区分器112aは、文書画像を取り込み、画素の集合を複数の小さな断片に区分する。分類器112bは、各断片を取り込み、それら各断片にカテゴリラベルを付与する。分類器112bは、異なる各マーキングカテゴリに対応する各スコア(得点)を返す。1つの例では、分類器112bは、最高スコアのカテゴリも返す。解釈器124などの下流のアプリケーションが、それらスコアを解釈して判定を行うようにしてもよい。例えば、受け入れ基準を満たさないスコアには「拒否」又は「未知」のラベルを付け、あらかじめ設定された閾値を超える「手書き」スコアを持つ断片は、ディスプレイ108上に表示された処理後の電子文書上でのアノテーション(注釈、コメント付け)処理のために、強調又はマーク付けされるようにしてもよい。
2.区分器
この実施形態では、特に各画素が黒か白である場合において、個々の画素を当該画素のマーキング種類に従って分類即ちスコア付けすることは、空間的な近傍部分、及び文書の他の形態のコンテキスト(状況)を考慮することにより達成される。画素は、その近傍についての特徴量の測定に基づき分類してもよい。これは、とりわけ区分けと認識とが互いに足並みをそろえて進行するという定式化を可能にするという興味深い可能性に繋がっている。
本実施形態の1つの方法は、画像を、同じマーキングのソース(源)に由来すると推定される画素の塊へと区分することである。そのあと、これらの断片(塊)がまとめて分類される。区分器・分類器システム112の区分器112aは困難な判定を行うことになるので、区分器112aによる誤り(エラー)はどれも最終結果の誤りを引き起こす可能性が高い。(a)明らかに異なるマーキング種類の組み合わせである断片を生成すること、及び(b)同じマーキング種類の領域から断片を不必要に切り出してしまうこと、という2種類の誤りをカウント(計数)する。
タイプ(a)の誤りは画素レベルのラベル付け誤りをもたらすのに対し、タイプ(b)の誤りの影響はもっと微妙である。したがって、周辺のコンテキストをより多く集めることができれば、結果はよりよくなると考えられる。機械印刷された領域から手書き領域を識別することは、機械印刷の文字から手書き文字を区別することよりも容易である。ストローク(一筆、一画)レベルになると更に難しくなる。区分器112aにより導入された人工的な境界により、マーキングの実際の見え方がマスクされると、更なる問題が生じる。
上述の懸念にもかかわらず、「区分し、その後で分類する」という方法を採用した。この方法は、連結成分の解析に依存することにより、区分しなさ過ぎ(under-segment)よりもむしろ区分しすぎる(over-segment)ように動作するが、必要ならば選択された連結成分を分割するかどうかの判定処理を設ける。
上述の処理を実現するために設計された区分器112aの一例を、図2及び図3に示す。図2は、区分器112aの第1段階即ち第1処理のための、長い横(水平)線及び縦(垂直)線の断片を抽出するための処理を示すフローチャートである。何が長い横線又は長い縦線であるかの判定は、システム及び処理方法に対して設定されるパラメータであり、特定に実装形態や目的により影響を受けることになる。図3は、区分器112aの第2段階即ち第2処理における、断片群の再帰的な分割処理を示すフローチャートである。
図2では、長い横及び縦の線の断片を抽出する処理200は、画像202から始まる。この画像202は、画像内に残っている内容から、前景画素(例えば黒画素)の大きな横方向のラン(線上で連続する同一画素値の画素群)を識別して分離し(ステップ204a)、前景画素(例えば黒画素)の大きな縦方向のランを識別して分離する(ステップ204b)ために調査される。横方向及び縦方向のそれぞれについて、そのような長いランがマーク付け(印付け)され、長い横及び縦のランの画素のみからなる連結成分が形成される(ステップ206a、ステップ206b)。横ランの連結成分及び縦ランの連結成分は、図2に示すように互いに別々に形成される。長い前景(黒)がそのランが、たまたま暗い領域(例えば機械で印刷された図形、又は影の部分など)内、及び手書きの途中に見つかることがあることに留意すべきである(図4A及び図4B参照)。したがって、断片群(すなわち形成された連結成分を備える横及び縦のラン)は、仮の線断片群と考える。このグループから、あらかじめ定められたサイズのエッジ輪郭画素群の断片部分が元(オリジナル)の画像内の黒画素群に隣接していると、この処理では、仮の線断片のグループから、連結成分を除去する(ステップ208a及び208b)。そして、残っている断片群がレンダリング(描画)され(ステップ210a及びステップ210b)、横及び縦の線画像が形成される(ステップ212a及びステップ212b)。
画像202に戻ると、ステップ214にて、元の画像からの前景画素であって横及び縦の線の画像に含まれる前景画素が検出されて、形態学的(モルフォロジー)演算により除去され、「線無し」画像216が求められる。この「線無し」画像の連結成分解析により、断片群が求められる(ステップ218)。これら断片のうち、あらかじめ定められた十分小さいサイズであり且つ線画像(例えば横線及び縦線)に対して有意な境界を共有するものが、「線無し」断片リストから除去され、適切な線の画像に追加される(ステップ220a、ステップ220b)。
仮の横線画像(ステップ212a)及び仮の縦線画像(ステップ212b)が、ステップ220a及びステップ220bからの断片と共に、レンダリング演算に供される(ステップ222a及びステップ222b)。
レンダリング(ステップ222a及びステップ222b)により、最終的な横線画像(ステップ224a)及び最終的な縦線画像(ステップ224b)がそれぞれ生成される。最後に、3つの出力、すなわち、横線断片群(ステップ226a)、縦線断片群(ステップ226b)、及び線無し断片群(ステップ228)が生成される。
図3に更に詳しく説明するように、線無し断片群は、最終的な区分結果に到達するには大きすぎると最初の時点で考えられた断片を分割するよう、再帰的な分割ルーチン300により処理される。横及び縦の線断片群は、それ以上は分割されず、最終結果に追加される。
再帰的分割ルーチン300では、十分に小さい断片はそれ以上分割されない。サイズについての検査に合格しない断片に対しては、縦及び/又は横の分割経路(パス)が特定される。縦の分割経路は、当該断片のバウンディングボックス(当該断片をぴったりと取り囲む、x、y方向にそれぞれ平行な辺からなる矩形)における各yについてのx位置の配列であり、各xは自分の隣からみて±1以内にある。このように、この縦の経路は厳密に垂直でなくてもよい。もし、そのような場所にある前景画素群が除去されると、その経路の左側及び右側の画像が非連結状態となり、より小さい新たな断片群が求められる。1回の分割により、2つより多い断片を生じさせる場合もあり得る。同様に、横方向の分割経路は、各xについてのy位置の配列である。また、縦の経路の場合と同様、この横の経路も厳密に水平でなくてもよい。
画像中の各画素について、当該画素を通って分割する場合のコストが割り当てられる。黒を横切って分割するコストは、正の値であり、当該場所における横方向の黒ランの長さに比例する。エッジ上の背景画素に沿った分割には、インセンティブ(負のコスト)がある。このコストは、横(縦)分割については横(縦)のエッジフィルタの応答に比例したものとなるように設定される。どのエッジからも遠い背景画素を通って分割する場合のコストは0である。分割経路に沿っての累計コストをその経路の長さで割った値が最も小さい分割を、「最善」の分割と定義する。各方向についての最善の分割経路は、動的計画法(ダイナミック・プログラミング)アルゴリズムを用いて見出される。1つの例では、再帰的分割処理300は、Breuel in "Segmentation of Handprinted Letter Strings Using a Dynamic Programming Algorithm," in Proceedings of Sixth International Conference on Document Analysis and Recognition に提示された概念にしたがったものでよく、これは手書き文字についての区分仮説を生成するためのアルゴリズムを用いる。区分器のこの第2段階についての相違点は、手書き単語群の区分では縦の分割のみを調べる必要があるのに対し、この実施形態では、縦及び横の両方についての分割を調べて、それらのうちから選択する必要があるということである。
図3の再帰的分割アルゴリズム300に注目すると、残余線無し断片群(連結成分を有する)がメモリ記憶装置スタックに配置される(ステップ302)。格納された線無し断片がスタックからポップされ(取り出され)(ステップ304)、現在(カレント)の線無し断片(ステップ306)が演算処理に渡される。現在の線無し断片が「幅広すぎであり且つやせ細りすぎではない」かについての調査が行われ(ステップ308)、同時に、現在の線無し断片が「高すぎであり且つやせ細りすぎでない」かについての調査が行われる(ステップ310)。それら問合せに対する回答がそれぞれ肯定(Yes)であれば、処理は、それぞれ、最善の縦分割値を見つけ(ステップ312)、最善の横分割値を見つける(ステップ314)。これら最善の値がステップ316で比較され、最善の分割選択肢が生成される(ステップ318)。この最善の選択肢は判定ブロック(ステップ320)に提供され、当該分割スコアがあらかじめ定められた閾値より良いかどうかが判定され、分割スコアが閾値より良い場合には(Yes)、処理は、分割後の線無し断片(例えば過去に分割されたいかなる断片でも。例えばサブ断片)が依然として大きすぎると判定し、その線無し断片が更なる分割のために断片スタックへ追加される(ステップ322)。また、ステップ320にて最善の分割スコアが閾値より小さい場合は、現在の断片は出力断片リストに追加され(ステップ324)、現在の出力断片は、この例では、横線断片画像へと渡される(ステップ326)。縦分割のスコアの方が良い場合は、現在の出力断片は縦線断片画像に渡される。
再帰的分割アルゴリズム300への入力として到来する断片には、更に分割すべきかどうかを判定するためのテストが行われる。更に分割すべきでない場合は、その断片は、断片結果リストに追加される。更に分割すべき(横、又は縦、又は両方について)場合には、最良の分割が求められ、その最良の分割のスコアが受入閾値を満たすならば、断片が、分割経路のそれぞれの側で連結成分を集めることにより、再帰的に分割される。断片のサイズは、例えば個々の単語よりも小さくてもよく、あるいは個々の文字又は単語よりも小さくてもよく、また実装に依存する他の適切なサイズより小さくてよい。
図4A及び図4Bでは、長い前景(黒)画素ランのいくつかが、たまたま暗い領域(例えば、機械で印刷されたグラフィックス又は影)内、又は手書き記入物の途中で見つかることがある。したがって、それら断片(すなわち、それら形成された連結成分群を有する横及び縦のラン)は、仮の線断片とみなす。このことは、図4Aから除去されたそのような線により示されている。しかし、これらの線はノイズではなく適切なものであると見なされるので、この実施形態のシステム及び方法はこれらの線をより適切に識別する。したがって、この実施形態では、十分な支持エッジ群を持つ長いランのみを実際に除去するために2段階処理を用いる。
図5A〜図5Dは、分割の間又は後のいくつかの異なる種類の断片の結果の例を示す。より詳しくは、図5Aは、混合された内容を含んだ画像500の一部分を拡大して示す。混合された内容には、手書き記入物502、機械で印刷されたテキスト504、機械で印刷されたグラフィックス506とともに、長い横線ラン508と識別される可能性のあるものが含まれる。図5Bでは、長い横線ランが検出され抽出されている。この図から分かるように、下側の横線ラン508の左側の部分は、機械で印刷されたグラフィックス(図形)部分(すなわち「Part II」)と識別される可能性のあるものの一部分として識別されるかも知れない。図5Cは、この実施形態の方法及びシステムで生成された線無し画像を示し、これは以降の段落で更に詳しく説明する。この画像部分には、横の線がない。図5Dは、再帰的分割演算によりいったん断片群が生成されたあとの画像部分を示す。この画像では、再帰的分割は、1レベルの深さの演算である。言い換えれば、いったん分割されると、断片群は、十分に小さいサイズになっており、これ以上分割する必要がない。分割経路は、この画像の色つきバージョンの中で色付け(例えば青)されており、例えば1つの例では分割経路510として識別されている。断片の境界の輪郭が、特定の断片の外周に沿って描かれてその断片を識別しており、この文書の色つきバージョンではその輪郭も色(例えば赤)で示されるが、ここでは破線の断片境界輪郭512として示されている。了解されるように、明確さのために、ごく少数の代表的な分割経路510及び断片境界輪郭512のみを示している。
3.断片分類器
区分器112aは、画像から、複数の断片からなるリストを生成する。各断片は、当該断片とその周囲のコンテキスト(状況)から計算される多くの特徴測定値(特徴量)により特徴付けられている。この実施形態の分類器112bは、各断片を、その特徴量に基づき、上述したマーキング種類のカテゴリのいずれかに分類するように訓練されている(すなわち学習済みである)。
3.1 特徴
上述したテキスト行(文字列からなる行)の特徴に加え、様々な種類の特徴が、各断片について測定(計算)される。それら多様な特徴には、例えば以下のようなものがある。
(i) セグメンター(segmenter:区分用)特徴: これらは、0又は1の2つの特徴量であり、当該断片が横線画像又は縦線画像のどちらの一部であるかを示す。
(ii) サイズ特徴: バウンディングボックスの縦横比、幅、高さ、周囲のサイズ、連結成分内の穴の数、前景画素の数など。また、ミッドクラック細線化(midcrack thinning)からの求められる背骨断片(spine-fragment)の数、バウンディングボックスの面積に対する前景画素の数の比、周囲のサイズに対する前景画素の数の比、及びバウンディングボックスの面積に対する周囲サイズの比、などが含まれてもよい。
(iii) 位置特徴: 画像の境界からの当該断片に対する横及び縦方向の距離の最小値が求められる。これにより文書内の暗いグラフィック領域からのシャドー(影)ノイズの識別の助けとなるというアイデアである。
(iv) 規則性(Regularity)特徴: 機械印刷されたテキストを他の種類のマーキングから区別して特徴付けるためのものである。機械印刷されたテキストは、整列状態及びサイズに関して高度な規則性を見せる。もし、文書内又は空間的に近傍の他の多くの断片の高さ、バウンディングボックスの上端のy座標及び下端のy座標が同じならば、カレントの断片(処理対象として注目している断片)は機械印刷されたテキスト又はグラフィックスである可能性が高い。この特徴の測定値は、相対的な差のヒストグラムとして形成される。例えば、高さについての規則性を求める場合、(hi−h0)のヒストグラムが用いられる。ここで、hiはi番目の断片の高さであり、h0は当該断片の高さである。ヒストグラムの各ビン(値の各範囲)は、[?32, ?16),…., [?4, ?2), [?2, ?1), [?1, 0), [0, 0], (0, 1], (1, 2], (2, 4],....., (16, 32].にセットされる。この場合、機械印刷されたテキストについては中央の3つのビンのカウント値が高くなると期待される。高さについてのヒストグラムは画像中のすべての断片を考慮するが、バウンディングボックス端部(bounding box extremity)についてのヒストグラムはx近傍(x-neighborhood)内の断片のみを考慮する。
(v) エッジ湾曲特徴: 各断片について、高速な測定により外部輪郭の湾曲(曲率)を求める。ある輪郭点での湾曲指標は、当該点と、輪郭上で当該点からある固定した距離(例えば輪郭点16点の距離)だけ離れた輪郭上の2つの点同士を結ぶ直線と、のユークリッド距離として測定される。1つの断片の外側の輪郭全体にわたって測定されるすべての湾曲指標からなるヒストグラムが計算され、使用される。
(vi) 輪郭特徴: これは、2つの測定値から構成される。断片の外側輪郭を反時計回りにたどり、4つの輪郭位置により分離された2つの輪郭点同士の間の変位のヒストグラムが記録される。ここから、符号無しのエッジ変位のヒストグラム(ここでは2つの反対向きの変位が足し算される)と、対称性違反のヒストグラム(ここでは2つの反対向きの変位が互いに打ち消しあう)と、が求められる。機械印刷された線及び機械印刷されたテキストについては、ほぼ縦方向及び横方向についてのヒストグラムの強度が高くなると予想される。均一なストロークについては、対称性違反については低い値になると予想される。
(vii) ランレングス特徴:断片の背骨が、1つの例では、本願発明者Saundに対する2002年の米国特許第6,377,710号明細書"Method And Apparatus For Extracting The Skeleton Of A Binary Figure By Contour-Based Erosion"に示されるようなミッドクラック細線化アルゴリズムにより計算される。この文献は参考のためその全部をこの明細書に組み込む。その背骨上の各点において、横方向及び縦方向のランレングスの最小値及び最大値が記録される。これら2つの数のヒストグラムが、ランレングス特徴として返される。機械印刷された部分は、手書きやノイズの部分よりも、ランレングスヒストグラムがより集中したもの(即ちばらつきが少ない)になる。しかし、集中の仕方は、単峰的(ユニモーダル)である必要はない。分類器のトレーナー(訓練させる者)が異なるカテゴリについてのヒストグラム同士の間のいくつかの相違点を見つけ出すことができるであろうとの想定のもとで、生のランレングスヒストグラムが特徴として用いられる。
(viii) エッジターン(エッジ曲がり)ヒストグラム特徴: これらは有益ではあったが、輪郭特徴及びエッジ湾曲特徴の方がより優れていることが分かった。
(ix) テキスト行整列特徴: 断片の外側輪郭の頂上及び底の点群が集められ、RANSACアルゴリズムにより、ほぼ横方向の直線に対してよく整列した(すなわち直線に対して位置が合った)頂上点のグループ及び底点のグループを見つける。各断片について。頂上点の整列の数(整列した頂上点の数)、及び底点の整列の数(整列した底点の数)が、特徴として測定される。これらは、印刷されたテキスト行については高くなると期待される。第3の特徴は、更なる処理により求められる。それら2種類の整列した点のグループからの線分同士が突き合わされ、ラテン文字の印刷されたテキストであるという想定の下で、「テキスト行」を形成するようにグループ化される。断片(の少なくとも一部)が整列したテキスト行内に入っているか又は断片がテキスト行のバウンディングボックス内に完全に含まれている場合、それら断片は、印刷されたテキスト断片であることを強く示す値「1」により印(マーク)付けされる。整列したテキスト行に加わっていない断片は、「0」で印付けされる。したがって、1つの例では、分類処理は、印刷されたテキストの断片を検出するためのものであり、ここでマーキングが印刷されたテキストの断片であることの証拠の拠り所は、断片の頂上点群と底点群との間に見られる整列度合い及びその断片の隣の断片群の整列度合いである。テキスト行の概念(コンセプト)についての更なる説明は、Saundによる"System And Method For Segmenting Text Lines In Documents"と題された米国特許出願第12/500,882号明細書に示される。
3.2 分類器
マーキング種類に従った断片の分類は、図6A〜D及び図7に示すように、2段階で行われる。図6A〜Dに示されるように、2段階分類器600は、第1段階602の中に、複数の第1段階分類器602a、602b、・・・、602nを有する。第1ステージでは、各断片が上述の3.1節で説明した特徴のみに基づいて分類される。この結果、各断片はカテゴリごとのスコアを有することとなる。したがって、図6A〜Dに示すように、画像断片604aは特定の特徴ベクトル606aに供給される(図7参照)。ここで分類器600が停止すれば、最高スコアのカテゴリが各断片に対して割り当てられる。
しかし、分類器602aと602nを用いていることから分かるように、周辺のコンテキストと空間的な近傍がどのように分類されたかを考慮に入れることで分類が精密化される。ここで、近傍の断片604b、・・・、604nはそれぞれ対応する特徴ベクトル606b、・・・、606nに供給される。これらの処理の結果、すなわちカテゴリスコア608a及び累積カテゴリスコア608b、・・・、608nの形の処理結果は、特徴ベクトル602aとともに、拡張特徴ベクトル(augmented feature vector)610に供給され、2段階分類器600の第2段階分類器612により利用される。これにより、第1段階602aで用いられたすべての特徴と、近傍の断片604b、・・・、604bの有望な(すなわち確定されてはいないが可能性としては高い)カテゴリ(二次的特徴)のラベルとを考慮に入れて画像断片604aを再分類することにより、その精密化された出力がもたらされる。第2段階分類器612からの出力は、最終的なカテゴリスコア614を提供する。分類器612からのこの最終的なカテゴリスコア614は、ラベル付けモジュール650により画像の断片にラベル(例えば色、グレイ階調、その他のマーキング又は標識)を付与するために使用される。1つの例では、ラベル付けモジュールは、図1に示したシステムのなかの適当な構成要素であると理解される。
二次的な特徴は、当該断片のバウンディングボックスに続く空間的な近傍に含まれる複数のバウンディングボックス内のすべての断片の第1段階カテゴリスコアを累積したものとして名付けられ、求められる。
(i) 横方向の帯片: y方向について当該断片から±16画素以内、x方向について当該断片から±160画素以内
(ii) 縦方向の帯片: x方向について当該断片から±16画素以内、y方向について当該断片から±160画素以内
(iii) 矩形近傍: 当該断片からx方向及びy方向の両方についてそれぞれ±160画素以内。
上記における各「近傍」のサイズは、いくつかの実施例で300dpi、12ポイントのフォントのもとで1文字の高さ(例えば16画素)と数文字分の高さ(例えば160画素)よりも小さくなるように選ばれることを除けば、かなり任意に選んでよい。また、近傍のサイズは、応用先の状況、例えばスキャンの解像度などに従って調整することができる。このように、この実施形態の方法及びシステムは、特定の実装に合わせて調整可能である。
この二次的特徴と、第1段階特徴(これも近傍の内容、例えば規則性特徴を考慮している)との間には、微妙ではあるが重要な目的の相違があることを指摘しておく。二次的特徴は、近傍の各断片のカテゴリラベル同士の関係を表すものであるのに対し、第1段階特徴は断片と当該断片について観察できる性質との間の関係を表すものである。例えば、規則性特徴について考えてみよう。高さ規則性特徴は、当該断片の高さが近傍の中にどれだけの頻度で入るのかを測定したものである。これは、近傍の他の断片を考慮してはいるが、それら近傍の断片の有望なカテゴリが何かについては考慮していない。したがって、siがi番目の断片を示し、uiがその断片について測定された特徴であり、ciがその断片のカテゴリであるとすると、第1段階特徴で学習した分類器では、
が成り立つ。一方、二次的特徴は、次の形式の依存性を表す。
このように、二次的特徴は、ラベル間の依存性の問題に取り組むためのものである。
ツェン(Zheng)らは、この問題に取り組むのに、マルコフランダム場(Markov Random Field)を構築した。この実施形態の方法は、それとは異なる。この方法では、各ノード(断片)についての近傍が確定され、近傍のラベル群に基づいて断片のラベルを付与できるようにする。依存性のパターンは近傍(の断片群)の選択により導かれるものの、前もって想定されていた依存性の形式が強制されるわけではない。むしろ、その依存性は、もし顕著ならば、学習(訓練)用データから学習される。近傍の特徴群は、第2段階分類器学習器に利用できるようにされ、分類に有益であることが分かれば選択されることになる。さらに、この定式化では、計算時間や輻輳の問題を有するかもしれないループの多いメッセージ伝達や反復的なサンプリング推論を避ける。
2段階分類器は、図7に示した基本分類器を用いて構築される。第1段階602a、・・・602nでは、この基本分類器は、上の3.1節で説明した特徴群に基づいて断片をカテゴリ分けするのに適用される。カテゴリ分けの結果は、画像全体について集計され、二次的特徴608a、・・・608nになる。これら二次的特徴と初期特徴(606a)とがいっしょに、第2段階にて最終的なカテゴリ分け番号に達するために、他の基本分類器(すなわち第2段階分類器610)により使用される。
3.3 基本分類器
1つの例では、各段階で使用される基本分類器は、「一対全部」の分類器の集まり(1カテゴリあたり1つ)である。この種の分類器は、複数の特徴からなるベクトルを入力として受け入れ、1カテゴリあたり1つのスコアからなるスコア配列を生成する。この出力配列は、最高スコアのカテゴリを見つけたり、あるいは様々な拒否/受入閾値を適用したりするのに用いられる。
図7では、分類器700は、図6の各分類器として用いられる種類の分類器と理解してよい。この実施例では、分類器700は、複数の弱分類器(weak classifier)の重み付け加算として実装された「一対全部」タイプの分類器として実装される。ここで、各弱分類器は、1つの断片について測定されたスカラー特徴量のうちの1つ(例えば特徴ベクトルの1つの次元)に対する単一閾値のテストである。更に詳しくは、画像断片702が特徴ベクトル704a、・・・、704nのそれぞれに供給される。これらのベクトルからの出力は、多次元スコアベクトル(例えば5次元スコアベクトル)706に渡される。そして、この出力は、スコア調整器708に渡される。スコア調整器708は、多次元調整済みスコアベクトル(例えば5次元調整済みスコアベクトル)710を出力する。
このような設計構成によれば、極めて高速な分類が可能になる。例えば、50個の弱分類器の組み合わせを備える分類器では、各断片について約50の比較、乗算、及び加算にまで達する。
各弱分類器は、比較テストの結果を示す+1又は−1のどちらかの数を生成する。これらの重み付け加算結果は+1から−1までの間の数になり、その結果が肯定的(正の値)であるならば、名目上、肯定的な分類結果を示す。このように、基本分類器の出力は、1カテゴリに付き1つの数からなる数の配列となる。正の結果は、名目上、(その正の結果に)対応するカテゴリによく合致していることを示す。典型的には、それらの数字の1つのみが正になるであろう。正の数が1より多い場合、当該断片は割り当て不能として拒否されるようにしてもよい。あるいは、最高スコアのものを選択するようシステムを設計してもよい。同様に、いずれのカテゴリも、当該カテゴリであることを示す正のスコアを返さなかった場合も、調停が必要になるかもしれない。1つの方法は、そのカテゴリスコアベクトルを他の分類器に供給し、当該他の分類器がより精密化したカテゴリスコアを生成するようにすることである。この方法は、この第2段階分類器もデータから自動学習できる場合には特に有益である。いくつかの実施例ではこのような方法に適合された第2段階分類器は、スコア調整器と見なしてもよい。
このようにその基本分類器そのものは、1つのスコア調整器に対して結果を供給する多数の「一対全部」分類器を備えた2段階分類器として考えてもよい。これは、近傍の情報が第2段階にて統合されるより大きい2段階アプローチと混同してはならない。実際、既に説明したように、2段階分類器は同じ基本分類器構造を用いて実装できるが、第2段階の分類器は拡張された特徴に基づいて動作するので、各段階では異なったパラメータを用いる必要がある。したがって、予備的なカテゴリ割り当ては、近傍の断片群に対してなされたカテゴリ割り当ての統計に基づいて更新される。
図8に示すように、「一対全部」の基本分類器、及びスコア調整器800は、1つの例では、適応的ブースティング(Adaptive BoostingすなわちAdaBoost)と呼ばれる機械学習アルゴリズムを用いて訓練される。図8では、特徴ベクトル802はスカラー特徴セレクタ804a、・・・、804nに供給される。これらスカラー特徴セレクタの出力は弱スカラー分類器806a、・・・、806nに与えられる。データは総和器808で総和され、二値的な判定結果812を得るためにスコア付け810される。処理では、弱学習器は一度につき1つの特徴の次元/ベクトル802を考慮し、学習用データ(弱スカラー分類器)806についての重み付きの誤差を最小とする閾値テスト(スカラー特徴セレクタ)804を見出す。それら特徴の次元のうち最も識別力のあるものが、次の弱分類器(808、810、812)として選択される。この処理は、AdaBoostの反復により繰り返される。このような構成により、分類器のパラメータは、多くの測定値のファミリー(集団)の中から有益な特徴を選択しそれら選択した特徴に相対的な重みを割り当てる判別的AdaBoost学習により取得される。
この特別な形のAdaBoost分類器学習器は、最近、Xerox Global Servicesのクライアントアプリケーションデータ集合の中の文書画像群をカテゴリ分けするのに非常に効果的であることが分かってきた。AdaBoostについての1つの説明が、Freundらによる"A Decision-Theoretic Generalization Of On-Line Learning And An Application To Boosting," European Conference On Computational Learning Theory, pages 23-37, 1995に示されている。
4.実装
学習及び画素ラベル付けシステムを支援するためのグランドトゥルースを生成することが必要である。このラベル付けシステムを用いて、ボランティアのチームが、様々なソース(源)からの70近くの文書画像に対して、人手でラベル付けした。1つの例では、人手によるラベル付けは、Saundらによる"System and Method for Machine-Assisted Human Labeling of Pixels in an Image"と題された米国特許出願第12/500,928号明細書に記載されているようなラベル付け装置により行ってもよい。
5.評価
上述のように、本出願の方法及びシステムの例を、以下を含むスキャンした文書画像の集合について学習させ、評価した。
(i) NIST special database(米国商務省標準化技術研究所のスペシャル・データベース)からの手書きの納税書類
(ii) 機械で印刷されたジャーナル(雑誌)からのページ群
iii) Xerox Global Servicesのクライアントからの手書きの文字群(そのうちのいくつかには印刷されたレターヘッド上にある)
(iv) British American Tobacco company(ブリティッシュ・アメリカン・タバコ社)に対する訴訟に用いられた書類からの、手書きのアノテーション(コメント)及び署名が書かれたページ。
以下に示すのは、それら画像のうちの16個の画像について学習(訓練)を行い、残りの画像について評価を行った方法及びシステムについての結果についての説明である。16個の学習用の文書画像は、以下のようにして選ばれた。1人の人により正解(グランドトゥルース)と判定された13個の画像が、最初に学習のために用いられた。残りの文書についてテストが行われたとき、ごく少数の画像が極めて高いエラー率を示した。テストでは、これらの文書は、学習用の集合の中には現れなかったノイズと機械で印刷されたテキストの特徴を持ったものであった。これらの文書のうち3つが学習用の集合に加えられた。これにより、テスト用の集合のエラー率において顕著な減少(画素数の観点で約14%から約10%)が見られた。
5.1 全体的な結果
分類性能の混同マトリックスによる要約を、図9に示す。画素数は、テスト用の画像全部にわたって累計された。数値は1000単位である(最も近い千に丸めた)。対角線上の数値は正しい分類を示す。対角線から外れた位置の数値は、エラー(分類誤り)に対応する。全体的なカテゴリ間の混同(エラー)率は10.86%である。ここで、エラー率は、自動付与されたラベルが真のラベルと異なる画素のパーセンテージである。
図10は、手書きをほとんどあるいは全く含まない文書画像1000を示す。この文書3を300dpi(ドット・パー・インチ)でスキャンし、「影」のノイズ1002の実質的な部分を含んでいる。このノイズ1002の部分は適切に識別された。文書1000内の肖像画1004は、画像部分1006として正しく識別された領域と、誤って識別されたノイズ領域1008(すなわちこれら領域も画像領域と判定されるべきであった)。この種のエラーは、区別が難しい。しかし、要求内容や目的によっては、これらのエラーは、公知の局所多数決法(local majority voting schemes)を用いることにより、又は他の公知の平滑化制約を適用することにより、容易に除去することができる。
図11には、機械印刷されたテキスト、手書きされたもの、シミ(ノイズ)(すべてが示されているわけではない)、及びスタンプ1102(図示されている)を含んだノイズの多い文書と見られるものの一部分1100が示されている。この実施形態のシステムは、その文書上の多くのマーキング種類を正しく識別した。このシステムのセットアップでは、スタンプが、グランドトゥルース(正解)内にて、機械印刷されたテキストとして識別されたであるとされた。図11から分かるように、この実施形態のシステム及び方法は、このスタンプ(又は少なくともその一部)を誤って識別した。誤識別部分(1104,1106)についての理由は、学習用のデータはスタンプを有する文書を持たなかったことである。このことは、大きな学習用の画像群を用いることで、このシステム及び方法の処理を改善できることを強調するものである。
5.2 時間の統計
開示した実施形態では区分処理がもっとも時間のかかる部分であることが経験的に分かった。テスト用の画像の集合では、区分処理に要した時間も中央値(メジアン)は、1画像あたり3.8秒である。これに対し、特徴量を計算し、断片を分類し、分類の結果をファイルに書き出すのに要した時間の中央値は0.6秒である。テスト画像のほとんどは、300dpiのレターサイズのページである。1画像あたりの全処理及び入出力のための時間の中央値は4.6秒である。これらの時間は、ペンギンクラスターマシン(penguin cluster machines)上で実行したバッチテスト実験からのものである。これらは、2.66GHz動作で8GBのRAMを有し、4MBのオンチップキャッシュメモリを有する、64ビットIntel Xeonプロセッサ群を用いた。
難しい画像(すなわち、複数のマーキング種類が混合したノイズの多い画像)を学習用の集合に加えることにより、性能が向上する。
頻度の少ないサンプルほど高い重みを与えることによっても性能は向上する。
手書きを特徴付ける処理は、ストローク(運筆)を辿って特徴付けを行うよりも高度なモデルを用いることにより、利益を得る。
マーキング種類認識器の他の側面について以下に示す。
(i) ターゲットとなるアプリケーション:この明細書に記載した主題の動機は、マーキング種類の分類を実行する能力を有するアノテーション(注釈、コメント)付けされたページ画像についての検出器、として用いることを含んでいる。システムの性能の目標は、特定のユースケース(use-case:利用事例)を用いて精度の性能の向上を達成するようにしてもよい。これは以下の3つによりもたらされる。
・特定の利用のコンテキスト(状況、文脈)では、大規模な場合に比べて、データの変動が小さいと期待される。
・カテゴリスコアからのカテゴリラベルの推定を、手持ちの特定のアプリケーションに適用することができるし、そうすべきである。例えば、もしページ上の印刷されたテキストの領域を識別することが目的ならば、隣接する小さい断片を印刷された文字に関連づけるための標準的な方法を適用して、結果を「きれいにする(clean up)」ことができる。
・最後に、「ソフトな」分類スコアを集計することで、例えばページ上の特定の領域が主として手書きであるならば、高レベルの判定に到達することもできる。
(ii) 区分処理における学習:画像の区分化(セグメンテーション)を改善することは、画素レベルでの精度に寄与する。学習により区分処理の改善に寄与する少なくとも2つの場所がある。すなわち、(a) どの断片に更なる分割が必要かの識別、及び(b) 画像中の分割スコアである。
(iii) よりよい弱分類器学習装置の利用:ブースティング(boosting)処理を行う複数の弱分類器に特徴の二つ組又は三つ組を関与させることにより、分類の学習の効率の改善に寄与することが分かる。
(iv) より高度な特徴:より高度な特徴を用いることは性能の改善に資する。
(v) 分類出力のよりよい較正:分類の第2段階の効率は、それらスコアの比較可能性を改善するために、出力スコアについてよりよい較正を行うことにより改善することができる。例えば、別の学習器として、分類器を学習させるために、RealBoostとして知られている学習器などを用いてもよい。
vi) カラー又はグレースケールでの入力:カラー又はグレースケールは、マーキングの分類のみならず、区分化についても優れた証拠(エビデンス)を提供することができる。
100 システム、102 文書、104 スキャナ、106 電子文書画像、108 画面、110 電子装置、112 区分器・分類器システム、112a 区分器、112b 分類器、114 デジタルインク装置、116 デジタルインク画像、118 他の電子装置、120 デジタルインク画像、122 プリンタ。

Claims (3)

  1. 文書内の画像上のマーキングをマーキング種類に従って分類するための方法であって、
    前記画像を含んだ前記文書を区分器に供給するステップと、
    前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップと、
    各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものである分類器に対して前記複数の断片を供給するステップであって、前記分類器はそれら各断片についてのカテゴリスコアを求めるステップと、
    前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、
    を含む方法。
  2. 文書内の画像上のマーキングをマーキング種類に従って分類するためのシステムであって、
    プロセッサ上で動作する共に前記画像を含んだ前記文書を受け取るように構成された区分器であって、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割する区分器と、
    前記プロセッサ上で動作する共に前記断片群を受け取るように構成され、各断片についてのカテゴリスコアを求める分類器と、
    を備え、前記分類器は、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものであるとともに、前記分類器は、前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てる、システム。
  3. 文書内の画像上のマーキングをマーキング種類に従って分類するための方法であって、
    前記画像を含んだ前記文書を区分器に供給するステップと、
    前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップであって、形態学的演算により検出され除去される横及び縦の線を区分する第1段階と、サイズに関するテストに合格するまで連結成分を再帰的に分割する第2段階と、を含むステップと、
    前記断片群を2段階分類器に供給し、前記2段階分類器により各断片にカテゴリスコアを付与するステップであって、前記2段階分類器は、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものであり、前記2段階分類器のうちの第1段階の分類器は、1カテゴリあたり1つの一対全部分類器からなる組を含んでおり、+1から−1までの間のカテゴリスコアからなる配列を生成し、前記2段階分類器のうちの第2段階の分類器は、前記第1段階の分類器からのカテゴリスコアの配列を受け取ってすべてのマーキング種類のカテゴリのスコアの通知を受けることで、精密化したスコアの配列を生成するところのステップと、
    前記断片が前記分類器によりあるマーキング種類に分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、
    を含む方法。
JP2010156620A 2009-07-10 2010-07-09 スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム Expired - Fee Related JP5379085B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/501,187 US8442319B2 (en) 2009-07-10 2009-07-10 System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US12/501,187 2009-07-10

Publications (3)

Publication Number Publication Date
JP2011018338A true JP2011018338A (ja) 2011-01-27
JP2011018338A5 JP2011018338A5 (ja) 2013-08-22
JP5379085B2 JP5379085B2 (ja) 2013-12-25

Family

ID=43034592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010156620A Expired - Fee Related JP5379085B2 (ja) 2009-07-10 2010-07-09 スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム

Country Status (3)

Country Link
US (1) US8442319B2 (ja)
EP (1) EP2275974A3 (ja)
JP (1) JP5379085B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020101843A (ja) * 2018-12-19 2020-07-02 キヤノン株式会社 画像処理システム、画像処理方法、画像処理装置
KR20220067387A (ko) * 2020-11-17 2022-05-24 아주대학교산학협력단 이미지의 레이아웃 분석 방법 및 시스템
JP7431005B2 (ja) 2019-09-20 2024-02-14 Toppanエッジ株式会社 学習データ生成装置、学習データ生成方法、及びプログラム

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452086B2 (en) * 2009-07-10 2013-05-28 Palo Alto Research Center Incorporated System and user interface for machine-assisted human labeling of pixels in an image
US8649600B2 (en) 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
US8442319B2 (en) * 2009-07-10 2013-05-14 Palo Alto Research Center Incorporated System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US20120092374A1 (en) * 2010-10-19 2012-04-19 Apple Inc. Systems, methods, and computer-readable media for placing a representation of the captured signature in a document
CN102622724A (zh) * 2011-01-27 2012-08-01 鸿富锦精密工业(深圳)有限公司 外观专利图像切割方法及系统
DE102011082866A1 (de) * 2011-09-16 2013-03-21 Olaf Rudolph Verfahren zum Erkennen einer oder meherer gleichzeitig auftretender Teilenladungs-Quellen
US8792730B2 (en) * 2012-03-07 2014-07-29 Ricoh Co., Ltd. Classification and standardization of field images associated with a field in a form
US9152884B2 (en) * 2012-06-05 2015-10-06 Drvision Technologies Llc Teachable pattern scoring method
US8879855B2 (en) * 2012-08-17 2014-11-04 Nec Laboratories America, Inc. Image segmentation for large-scale fine-grained recognition
US9235781B2 (en) * 2013-08-09 2016-01-12 Kabushiki Kaisha Toshiba Method of, and apparatus for, landmark location
US9245205B1 (en) * 2013-10-16 2016-01-26 Xerox Corporation Supervised mid-level features for word image representation
US9940511B2 (en) * 2014-05-30 2018-04-10 Kofax, Inc. Machine print, hand print, and signature discrimination
US10120843B2 (en) 2014-08-26 2018-11-06 International Business Machines Corporation Generation of parsable data for deep parsing
US11100650B2 (en) * 2016-03-31 2021-08-24 Sony Depthsensing Solutions Sa/Nv Method for foreground and background determination in an image
US10607228B1 (en) * 2016-08-24 2020-03-31 Jpmorgan Chase Bank, N.A. Dynamic rule strategy and fraud detection system and method
US10354161B2 (en) * 2017-06-05 2019-07-16 Intuit, Inc. Detecting font size in a digital image
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same
US11416546B2 (en) * 2018-03-20 2022-08-16 Hulu, LLC Content type detection in videos using multiple classifiers
CN108960290A (zh) * 2018-06-08 2018-12-07 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备
US10685261B2 (en) * 2018-06-11 2020-06-16 GM Global Technology Operations LLC Active segmention of scanned images based on deep reinforcement learning for OCR applications
US11462037B2 (en) 2019-01-11 2022-10-04 Walmart Apollo, Llc System and method for automated analysis of electronic travel data
US10671892B1 (en) 2019-03-31 2020-06-02 Hyper Labs, Inc. Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data
US11106891B2 (en) 2019-09-09 2021-08-31 Morgan Stanley Services Group Inc. Automated signature extraction and verification
US11200411B2 (en) * 2019-10-16 2021-12-14 The Toronto-Dominion Bank Training a card type classifier with simulated card images
US11704352B2 (en) 2021-05-03 2023-07-18 Bank Of America Corporation Automated categorization and assembly of low-quality images into electronic documents
US11798258B2 (en) 2021-05-03 2023-10-24 Bank Of America Corporation Automated categorization and assembly of low-quality images into electronic documents
US11881041B2 (en) 2021-09-02 2024-01-23 Bank Of America Corporation Automated categorization and processing of document images of varying degrees of quality
US11409951B1 (en) 2021-09-24 2022-08-09 International Business Machines Corporation Facilitating annotation of document elements
CN113657559B (zh) * 2021-10-18 2022-02-08 广州天鹏计算机科技有限公司 基于机器学习的胸部扫描图像分类方法
US20230162520A1 (en) * 2021-11-23 2023-05-25 Abbyy Development Inc. Identifying writing systems utilized in documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004069698A (ja) * 2002-07-26 2004-03-04 Matsushita Electric Works Ltd 画像処理方法
JP2006072839A (ja) * 2004-09-03 2006-03-16 Ricoh Co Ltd 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP2007193446A (ja) * 2006-01-17 2007-08-02 Konica Minolta Business Technologies Inc 画像処理装置および罫線抽出プログラム
JP2008171411A (ja) * 2006-12-13 2008-07-24 Canon Inc 動的なコネクタ解析のための方法及び装置

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5402504A (en) 1989-12-08 1995-03-28 Xerox Corporation Segmentation of text styles
US5202933A (en) 1989-12-08 1993-04-13 Xerox Corporation Segmentation of text and graphics
US5181255A (en) 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
US5369714A (en) * 1991-11-19 1994-11-29 Xerox Corporation Method and apparatus for determining the frequency of phrases in a document without document image decoding
US5201011A (en) 1991-11-19 1993-04-06 Xerox Corporation Method and apparatus for image hand markup detection using morphological techniques
US5434953A (en) * 1992-03-20 1995-07-18 Xerox Corporation Use of fast textured reduction for discrimination of document image components
US6009196A (en) * 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US5892842A (en) 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US5778092A (en) 1996-12-20 1998-07-07 Xerox Corporation Method and apparatus for compressing color or gray scale documents
US6411733B1 (en) 1998-11-25 2002-06-25 Xerox Corporation Method and apparatus for separating document image object types
US6377710B1 (en) 1998-11-25 2002-04-23 Xerox Corporation Method and apparatus for extracting the skeleton of a binary figure by contour-based erosion
US6301386B1 (en) 1998-12-09 2001-10-09 Ncr Corporation Methods and apparatus for gray image based text identification
US6587583B1 (en) 1999-09-17 2003-07-01 Kurzweil Educational Systems, Inc. Compression/decompression algorithm for image documents having text, graphical and color content
US6771816B1 (en) 2000-01-19 2004-08-03 Adobe Systems Incorporated Generating a text mask for representing text pixels
SE0000205D0 (sv) * 2000-01-25 2000-01-25 Siemens Elema Ab Ventilator
US8103104B2 (en) * 2002-01-11 2012-01-24 Hewlett-Packard Development Company, L.P. Text extraction and its application to compound document image compression
US7136082B2 (en) 2002-01-25 2006-11-14 Xerox Corporation Method and apparatus to convert digital ink images for use in a structured text/graphics editor
US7036077B2 (en) 2002-03-22 2006-04-25 Xerox Corporation Method for gestural interpretation in a system for selecting and arranging visible material in document images
US7086013B2 (en) 2002-03-22 2006-08-01 Xerox Corporation Method and system for overloading loop selection commands in a system for selecting and arranging visible material in document images
US6903751B2 (en) 2002-03-22 2005-06-07 Xerox Corporation System and method for editing electronic images
US7177483B2 (en) 2002-08-29 2007-02-13 Palo Alto Research Center Incorporated. System and method for enhancement of document images
US7079687B2 (en) * 2003-03-06 2006-07-18 Seiko Epson Corporation Method and apparatus for segmentation of compound documents
US7379594B2 (en) 2004-01-28 2008-05-27 Sharp Laboratories Of America, Inc. Methods and systems for automatic detection of continuous-tone regions in document images
US7260276B2 (en) * 2004-06-30 2007-08-21 Sharp Laboratories Of America, Inc. Methods and systems for complexity estimation and complexity-based selection
US7970171B2 (en) 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
GB0510793D0 (en) 2005-05-26 2005-06-29 Bourbay Ltd Segmentation of digital images
US7783117B2 (en) 2005-08-12 2010-08-24 Seiko Epson Corporation Systems and methods for generating background and foreground images for document compression
US7899258B2 (en) * 2005-08-12 2011-03-01 Seiko Epson Corporation Systems and methods to convert images into high-quality compressed documents
US7734094B2 (en) 2006-06-28 2010-06-08 Microsoft Corporation Techniques for filtering handwriting recognition results
US7792353B2 (en) * 2006-10-31 2010-09-07 Hewlett-Packard Development Company, L.P. Retraining a machine-learning classifier using re-labeled training samples
US8417033B2 (en) * 2007-04-27 2013-04-09 Hewlett-Packard Development Company, L.P. Gradient based background segmentation and enhancement of images
US7907778B2 (en) * 2007-08-13 2011-03-15 Seiko Epson Corporation Segmentation-based image labeling
US7936923B2 (en) * 2007-08-31 2011-05-03 Seiko Epson Corporation Image background suppression
US7958068B2 (en) * 2007-12-12 2011-06-07 International Business Machines Corporation Method and apparatus for model-shared subspace boosting for multi-label classification
US8180112B2 (en) 2008-01-21 2012-05-15 Eastman Kodak Company Enabling persistent recognition of individuals in images
US8111923B2 (en) * 2008-08-14 2012-02-07 Xerox Corporation System and method for object class localization and semantic class based image segmentation
US8261180B2 (en) * 2009-04-28 2012-09-04 Lexmark International, Inc. Automatic forms processing systems and methods
US8452086B2 (en) 2009-07-10 2013-05-28 Palo Alto Research Center Incorporated System and user interface for machine-assisted human labeling of pixels in an image
US8442319B2 (en) * 2009-07-10 2013-05-14 Palo Alto Research Center Incorporated System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US8649600B2 (en) 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004069698A (ja) * 2002-07-26 2004-03-04 Matsushita Electric Works Ltd 画像処理方法
JP2006072839A (ja) * 2004-09-03 2006-03-16 Ricoh Co Ltd 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP2007193446A (ja) * 2006-01-17 2007-08-02 Konica Minolta Business Technologies Inc 画像処理装置および罫線抽出プログラム
JP2008171411A (ja) * 2006-12-13 2008-07-24 Canon Inc 動的なコネクタ解析のための方法及び装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020101843A (ja) * 2018-12-19 2020-07-02 キヤノン株式会社 画像処理システム、画像処理方法、画像処理装置
JP7431005B2 (ja) 2019-09-20 2024-02-14 Toppanエッジ株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
KR20220067387A (ko) * 2020-11-17 2022-05-24 아주대학교산학협력단 이미지의 레이아웃 분석 방법 및 시스템
KR102509343B1 (ko) 2020-11-17 2023-03-13 아주대학교산학협력단 이미지의 레이아웃 분석 방법 및 시스템

Also Published As

Publication number Publication date
EP2275974A3 (en) 2014-12-31
JP5379085B2 (ja) 2013-12-25
EP2275974A2 (en) 2011-01-19
US20110007366A1 (en) 2011-01-13
US8442319B2 (en) 2013-05-14

Similar Documents

Publication Publication Date Title
JP5379085B2 (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
JP5729930B2 (ja) 文書内のテキスト行を区分するための方法
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN109948510B (zh) 一种文档图像实例分割方法及装置
Guo et al. Separating handwritten material from machine printed text using hidden markov models
US8606010B2 (en) Identifying text pixels in scanned images
JP4006224B2 (ja) 画像品質判定方法、判定装置、判定プログラム
US8520941B2 (en) Method and system for document image classification
CN110503054B (zh) 文本图像的处理方法及装置
JP2019102061A (ja) テキスト線の区分化方法
JPH11345339A (ja) 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN114581928A (zh) 一种表格识别方法及系统
Ghosh et al. Textual content retrieval from filled-in form images
Mehri et al. ICDAR2019 competition on historical book analysis-HBA2019
Zhang et al. Computational method for calligraphic style representation and classification
Lin et al. Multilingual corpus construction based on printed and handwritten character separation
Bharathi et al. Segregated handwritten character recognition using GLCM features
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN114386413A (zh) 处理数字化的手写
Lee et al. Combining macro and micro features for writer identification
Dhandra et al. Classification of Document Image Components
Sarkar et al. Classifying foreground pixels in document images
Kaur Classification of printed and handwritten Gurmukhi text using labeling and segmentation technique
KR100573392B1 (ko) 적응학습 모듈이 탑재된 문자인식 기반 대용량 문서디지털화 방법 및 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130704

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130704

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130704

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130827

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130926

R150 Certificate of patent or registration of utility model

Ref document number: 5379085

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees