JP5379085B2 - スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム - Google Patents
スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム Download PDFInfo
- Publication number
- JP5379085B2 JP5379085B2 JP2010156620A JP2010156620A JP5379085B2 JP 5379085 B2 JP5379085 B2 JP 5379085B2 JP 2010156620 A JP2010156620 A JP 2010156620A JP 2010156620 A JP2010156620 A JP 2010156620A JP 5379085 B2 JP5379085 B2 JP 5379085B2
- Authority
- JP
- Japan
- Prior art keywords
- classifier
- fragment
- fragments
- image
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18076—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Description
(ii) 背景画素: マーキングカテゴリは、前景画素(すなわち黒色の画素)のみに割り当てられる。白色の画素は背景(例えば紙)を形成するものと想定する。
(iii) 曖昧(多義的)画素: 複数のマーキングが同じ1つの黒画素内で重なる場合がある。それらマーキングが共に同じカテゴリのものであれば、画素のラベリング(ラベル付け)に曖昧さはない。他の状況では、その画素に対して、それら重複するマーキングのカテゴリのうちの1つが割り当てられるべきである。カテゴリラベル群について、あらかじめ定めた優先順位を想定することが考えられる。優先順位の高いラベルを割り当てることにより、曖昧さを解消することができる。例えば、1つの実装例では、「手書きテキスト」を最高順位のカテゴリとする。手書き文字が機械で印刷された線と重複する場合、両者が交わる部分の画素には「手書きテキスト」のラベルが付与される。ノイズラベルは最低順位である。
(iv) 評価尺度(評価メトリック): 2つのグランドトゥルースラベルファイルを比較する場合、又は1つの自動分類結果の出力をグランドトゥルースと比較する場合、各画素位置でそれらラベルが比較され、もしそれら2つのラベルが異なっていればエラーが1つ計数されることになる。これは評価尺度として有益である。なぜなら、この定義は、解法に関わりなく、矛盾なく機能するからである。1つの実施例では、区分してから分類する、という解法を用いる。別の解法では、各画素をコンテキスト(周辺状況)に基づいて分類する。更に別の解法では。画像のグリッド(格子)パッチ(grid-patches)に対してラベルを付与する。しかし、すべての解法について、この実施形態の方法及びシステムは、正しくラベル付けされた複数の前景画素からなる小部分を測定する。画素ラベル同士の比較は、混同マトリクスと、カテゴリごとの精度及びリコール(取り消し)などのような他の派生的な尺度とへ至るものであり、これらについては例えば図9と関連づけて後で説明する。この実施形態の概念は、画素ではなく、小部分(断片)を分類(及び分類のために学習)するというものである。にもかかわらず、画素エラー尺度(pixel error metric)を用いることは有益である。なぜなら、大きい断片を誤って分類することは、小さい断片に対してミスをする場合よりも悪いからである。
(v) 画像内容についての想定: この仕組みはかなり一般的であり、この実施形態のシステム及び方法は上述したことに合致しない状況に適用されることがあるものの、使用される画像について、明示的にせよ暗黙的にせよ、いくつかの想定をすることができる。まず、テスト/応用のシナリオは、それら学習用の画像に十分に表現されていると想定する。例えば、ありふれたスキャン文書画像を表す画像は、傾いておらず、二値画像であり、ほぼ300dpiであり、機械印刷されたテキストは横方向に並んでいる、と想定することができる。
(ii) 機械印刷テキスト(MachinePrintText): 機械で印刷された、いずれかの言語又は文字体系の、白地上の黒色のテキスト。網掛けテキストや、黒い背景上の白いテキストは、機械印刷グラフィックス(MachinePrintGraphic)としてマーク付けされるべきである。
(iii) 機械印刷グラフィックス(MachinePrintGraphic): 機械印刷線画グラフィックス(MachinePrintLineGraphic)(下線、矢印、背景の罫線、線画)、又は機械印刷ブロックグラフィックス(MachinePrintBlockGraphic)(黒丸記号(bullet)、ロゴ、写真)。
(iv) ごま塩スキャナノイズ(ScannerNoiseSaltPepper): 小さな粒状ノイズであり、通常は、紙のテクスチャ(きめ)や誤った二値化による。
(v) 暗領域スキャナノイズ(ScannerNoiseDarkRegion): 機械印刷又は手書きのインクによって生成されたのではない、顕著な黒い領域を表すためのものである。これには、紙の折り目や影、穴などのように、背景物の暗がりにより生成される黒い画素群が含まれる。
図1のシステム100は、デジタル化されたビットマップ画像及び/又はデジタルインク技術により形成された画像を、本実施形態の区分器・分類器システムに供給する様々なチャンネル(経路)を例示している。
この実施形態では、特に各画素が黒か白である場合において、個々の画素を当該画素のマーキング種類に従って分類即ちスコア付けすることは、空間的な近傍部分、及び文書の他の形態のコンテキスト(状況)を考慮することにより達成される。画素は、その近傍についての特徴量の測定に基づき分類してもよい。これは、とりわけ区分けと認識とが互いに足並みをそろえて進行するという定式化を可能にするという興味深い可能性に繋がっている。
区分器112aは、画像から、複数の断片からなるリストを生成する。各断片は、当該断片とその周囲のコンテキスト(状況)から計算される多くの特徴測定値(特徴量)により特徴付けられている。この実施形態の分類器112bは、各断片を、その特徴量に基づき、上述したマーキング種類のカテゴリのいずれかに分類するように訓練されている(すなわち学習済みである)。
上述したテキスト行(文字列からなる行)の特徴に加え、様々な種類の特徴が、各断片について測定(計算)される。それら多様な特徴には、例えば以下のようなものがある。
(ii) サイズ特徴: バウンディングボックスの縦横比、幅、高さ、周囲のサイズ、連結成分内の穴の数、前景画素の数など。また、ミッドクラック細線化(midcrack thinning)からの求められる背骨断片(spine-fragment)の数、バウンディングボックスの面積に対する前景画素の数の比、周囲のサイズに対する前景画素の数の比、及びバウンディングボックスの面積に対する周囲サイズの比、などが含まれてもよい。
(iii) 位置特徴: 画像の境界からの当該断片に対する横及び縦方向の距離の最小値が求められる。これにより文書内の暗いグラフィック領域からのシャドー(影)ノイズの識別の助けとなるというアイデアである。
(iv) 規則性(Regularity)特徴: 機械印刷されたテキストを他の種類のマーキングから区別して特徴付けるためのものである。機械印刷されたテキストは、整列状態及びサイズに関して高度な規則性を見せる。もし、文書内又は空間的に近傍の他の多くの断片の高さ、バウンディングボックスの上端のy座標及び下端のy座標が同じならば、カレントの断片(処理対象として注目している断片)は機械印刷されたテキスト又はグラフィックスである可能性が高い。この特徴の測定値は、相対的な差のヒストグラムとして形成される。例えば、高さについての規則性を求める場合、(hi−h0)のヒストグラムが用いられる。ここで、hiはi番目の断片の高さであり、h0は当該断片の高さである。ヒストグラムの各ビン(値の各範囲)は、[?32, ?16),…., [?4, ?2), [?2, ?1), [?1, 0), [0, 0], (0, 1], (1, 2], (2, 4],....., (16, 32].にセットされる。この場合、機械印刷されたテキストについては中央の3つのビンのカウント値が高くなると期待される。高さについてのヒストグラムは画像中のすべての断片を考慮するが、バウンディングボックス端部(bounding box extremity)についてのヒストグラムはx近傍(x-neighborhood)内の断片のみを考慮する。
(v) エッジ湾曲特徴: 各断片について、高速な測定により外部輪郭の湾曲(曲率)を求める。ある輪郭点での湾曲指標は、当該点と、輪郭上で当該点からある固定した距離(例えば輪郭点16点の距離)だけ離れた輪郭上の2つの点同士を結ぶ直線と、のユークリッド距離として測定される。1つの断片の外側の輪郭全体にわたって測定されるすべての湾曲指標からなるヒストグラムが計算され、使用される。
(vi) 輪郭特徴: これは、2つの測定値から構成される。断片の外側輪郭を反時計回りにたどり、4つの輪郭位置により分離された2つの輪郭点同士の間の変位のヒストグラムが記録される。ここから、符号無しのエッジ変位のヒストグラム(ここでは2つの反対向きの変位が足し算される)と、対称性違反のヒストグラム(ここでは2つの反対向きの変位が互いに打ち消しあう)と、が求められる。機械印刷された線及び機械印刷されたテキストについては、ほぼ縦方向及び横方向についてのヒストグラムの強度が高くなると予想される。均一なストロークについては、対称性違反については低い値になると予想される。
(vii) ランレングス特徴:断片の背骨が、1つの例では、本願発明者Saundに対する2002年の米国特許第6,377,710号明細書"Method And Apparatus For Extracting The Skeleton Of A Binary Figure By Contour-Based Erosion"に示されるようなミッドクラック細線化アルゴリズムにより計算される。この文献は参考のためその全部をこの明細書に組み込む。その背骨上の各点において、横方向及び縦方向のランレングスの最小値及び最大値が記録される。これら2つの数のヒストグラムが、ランレングス特徴として返される。機械印刷された部分は、手書きやノイズの部分よりも、ランレングスヒストグラムがより集中したもの(即ちばらつきが少ない)になる。しかし、集中の仕方は、単峰的(ユニモーダル)である必要はない。分類器のトレーナー(訓練させる者)が異なるカテゴリについてのヒストグラム同士の間のいくつかの相違点を見つけ出すことができるであろうとの想定のもとで、生のランレングスヒストグラムが特徴として用いられる。
(viii) エッジターン(エッジ曲がり)ヒストグラム特徴: これらは有益ではあったが、輪郭特徴及びエッジ湾曲特徴の方がより優れていることが分かった。
(ix) テキスト行整列特徴: 断片の外側輪郭の頂上及び底の点群が集められ、RANSACアルゴリズムにより、ほぼ横方向の直線に対してよく整列した(すなわち直線に対して位置が合った)頂上点のグループ及び底点のグループを見つける。各断片について。頂上点の整列の数(整列した頂上点の数)、及び底点の整列の数(整列した底点の数)が、特徴として測定される。これらは、印刷されたテキスト行については高くなると期待される。第3の特徴は、更なる処理により求められる。それら2種類の整列した点のグループからの線分同士が突き合わされ、ラテン文字の印刷されたテキストであるという想定の下で、「テキスト行」を形成するようにグループ化される。断片(の少なくとも一部)が整列したテキスト行内に入っているか又は断片がテキスト行のバウンディングボックス内に完全に含まれている場合、それら断片は、印刷されたテキスト断片であることを強く示す値「1」により印(マーク)付けされる。整列したテキスト行に加わっていない断片は、「0」で印付けされる。したがって、1つの例では、分類処理は、印刷されたテキストの断片を検出するためのものであり、ここでマーキングが印刷されたテキストの断片であることの証拠の拠り所は、断片の頂上点群と底点群との間に見られる整列度合い及びその断片の隣の断片群の整列度合いである。テキスト行の概念(コンセプト)についての更なる説明は、Saundによる"System And Method For Segmenting Text Lines In Documents"と題された米国特許出願第12/500,882号明細書に示される。
マーキング種類に従った断片の分類は、図6A〜D及び図7に示すように、2段階で行われる。図6A〜Dに示されるように、2段階分類器600は、第1段階602の中に、複数の第1段階分類器602a、602b、・・・、602nを有する。第1ステージでは、各断片が上述の3.1節で説明した特徴のみに基づいて分類される。この結果、各断片はカテゴリごとのスコアを有することとなる。したがって、図6A〜Dに示すように、画像断片604aは特定の特徴ベクトル606aに供給される(図7参照)。ここで分類器600が停止すれば、最高スコアのカテゴリが各断片に対して割り当てられる。
(ii) 縦方向の帯片: x方向について当該断片から±16画素以内、y方向について当該断片から±160画素以内
(iii) 矩形近傍: 当該断片からx方向及びy方向の両方についてそれぞれ±160画素以内。
1つの例では、各段階で使用される基本分類器は、「一対全部」の分類器の集まり(1カテゴリあたり1つ)である。この種の分類器は、複数の特徴からなるベクトルを入力として受け入れ、1カテゴリあたり1つのスコアからなるスコア配列を生成する。この出力配列は、最高スコアのカテゴリを見つけたり、あるいは様々な拒否/受入閾値を適用したりするのに用いられる。
学習及び画素ラベル付けシステムを支援するためのグランドトゥルースを生成することが必要である。このラベル付けシステムを用いて、ボランティアのチームが、様々なソース(源)からの70近くの文書画像に対して、人手でラベル付けした。1つの例では、人手によるラベル付けは、Saundらによる"System and Method for Machine-Assisted Human Labeling of Pixels in an Image"と題された米国特許出願第12/500,928号明細書に記載されているようなラベル付け装置により行ってもよい。
上述のように、本出願の方法及びシステムの例を、以下を含むスキャンした文書画像の集合について学習させ、評価した。
(i) NIST special database(米国商務省標準化技術研究所のスペシャル・データベース)からの手書きの納税書類
(ii) 機械で印刷されたジャーナル(雑誌)からのページ群
iii) Xerox Global Servicesのクライアントからの手書きの文字群(そのうちのいくつかには印刷されたレターヘッド上にある)
(iv) British American Tobacco company(ブリティッシュ・アメリカン・タバコ社)に対する訴訟に用いられた書類からの、手書きのアノテーション(コメント)及び署名が書かれたページ。
分類性能の混同マトリックスによる要約を、図9に示す。画素数は、テスト用の画像全部にわたって累計された。数値は1000単位である(最も近い千に丸めた)。対角線上の数値は正しい分類を示す。対角線から外れた位置の数値は、エラー(分類誤り)に対応する。全体的なカテゴリ間の混同(エラー)率は10.86%である。ここで、エラー率は、自動付与されたラベルが真のラベルと異なる画素のパーセンテージである。
開示した実施形態では区分処理がもっとも時間のかかる部分であることが経験的に分かった。テスト用の画像の集合では、区分処理に要した時間も中央値(メジアン)は、1画像あたり3.8秒である。これに対し、特徴量を計算し、断片を分類し、分類の結果をファイルに書き出すのに要した時間の中央値は0.6秒である。テスト画像のほとんどは、300dpiのレターサイズのページである。1画像あたりの全処理及び入出力のための時間の中央値は4.6秒である。これらの時間は、ペンギンクラスターマシン(penguin cluster machines)上で実行したバッチテスト実験からのものである。これらは、2.66GHz動作で8GBのRAMを有し、4MBのオンチップキャッシュメモリを有する、64ビットIntel Xeonプロセッサ群を用いた。
(i) ターゲットとなるアプリケーション:この明細書に記載した主題の動機は、マーキング種類の分類を実行する能力を有するアノテーション(注釈、コメント)付けされたページ画像についての検出器、として用いることを含んでいる。システムの性能の目標は、特定のユースケース(use-case:利用事例)を用いて精度の性能の向上を達成するようにしてもよい。これは以下の3つによりもたらされる。
・特定の利用のコンテキスト(状況、文脈)では、大規模な場合に比べて、データの変動が小さいと期待される。
・カテゴリスコアからのカテゴリラベルの推定を、手持ちの特定のアプリケーションに適用することができるし、そうすべきである。例えば、もしページ上の印刷されたテキストの領域を識別することが目的ならば、隣接する小さい断片を印刷された文字に関連づけるための標準的な方法を適用して、結果を「きれいにする(clean up)」ことができる。
・最後に、「ソフトな」分類スコアを集計することで、例えばページ上の特定の領域が主として手書きであるならば、高レベルの判定に到達することもできる。
(ii) 区分処理における学習:画像の区分化(セグメンテーション)を改善することは、画素レベルでの精度に寄与する。学習により区分処理の改善に寄与する少なくとも2つの場所がある。すなわち、(a) どの断片に更なる分割が必要かの識別、及び(b) 画像中の分割スコアである。
(iii) よりよい弱分類器学習装置の利用:ブースティング(boosting)処理を行う複数の弱分類器に特徴の二つ組又は三つ組を関与させることにより、分類の学習の効率の改善に寄与することが分かる。
(iv) より高度な特徴:より高度な特徴を用いることは性能の改善に資する。
(v) 分類出力のよりよい較正:分類の第2段階の効率は、それらスコアの比較可能性を改善するために、出力スコアについてよりよい較正を行うことにより改善することができる。例えば、別の学習器として、分類器を学習させるために、RealBoostとして知られている学習器などを用いてもよい。
vi) カラー又はグレースケールでの入力:カラー又はグレースケールは、マーキングの分類のみならず、区分化についても優れた証拠(エビデンス)を提供することができる。
Claims (10)
- 文書のページの画像上のマーキングをマーキング種類に従って分類するための方法であって、
前記文書のページの画像を区分器に供給するステップと、
前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップと、
各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものである分類器に対して前記複数の断片を供給するステップであって、前記分類器はそれら各断片についてのカテゴリスコアを求めるステップと、
前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、
を含む方法。 - 前記分割するステップは、形態学的演算により検出され除去される横及び縦の線を区分する第1段階と、サイズに関するテストに合格するまで連結成分を再帰的に分割する第2段階と、を含む、請求項1に記載の方法。
- 前記分割するステップでの分割は、動的計画法に基づき、分割すべき断片を横切るコスト最小の分割経路を見つけることにより行われる、請求項2に記載の方法。
- 前記分割経路のコストは、当該経路に沿った画素のコストの総和である、請求項3に記載の方法。
- 前記断片は、単語よりも小さいか、又は、個々の文字又は数字よりも小さい、請求項1に記載の方法。
- 予備的なカテゴリ割り当てが、近傍の断片群に対してなされたカテゴリ割り当ての統計に基づいて更新される、請求項1に記載の方法。
- 前記分類器のパラメータは、多くの測定値の集まりの中から有益な特徴を選択しそれら選択した特徴に相対的な重みを割り当てる判別的AdaBoost学習により取得される、請求項1に記載の方法。
- 前記分類は、印刷されたテキストの断片を検出するためのものであり、証拠の拠り所の1つは、断片の頂上点群と底点群との間に見られる整列度合い及びその断片の隣の断片群の整列度合いである、請求項1に記載の方法。
- 文書内の画像上のマーキングをマーキング種類に従って分類するためのシステムであって、
プロセッサ上で動作する共に前記画像を含んだ前記文書を受け取るように構成された区分器であって、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割する区分器と、
前記プロセッサ上で動作する共に前記断片群を受け取るように構成され、各断片についてのカテゴリスコアを求める分類器と、
を備え、前記分類器は、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものであるとともに、前記分類器は、前記断片が前記分類器により分類されると、その断片に含まれるすべての画素に同じラベルを割り当てる、システム。 - 文書内の画像上のマーキングをマーキング種類に従って分類するための方法であって、
前記画像を含んだ前記文書を区分器に供給するステップと、
前記区分器により、連結成分を見つけ、横方向に近い罫線及び縦方向に近い罫線を削除し、いくつかの連結成分を更に分割することで断片を求めることにより、受け取られた前記画像を、同じマーキング種類である可能性が高いと識別される前景画素構造の複数の断片へと分割するステップであって、形態学的演算により検出され除去される横及び縦の線を区分する第1段階と、サイズに関するテストに合格するまで連結成分を再帰的に分割する第2段階と、を含むステップと、
前記断片群を2段階分類器に供給し、前記2段階分類器により各断片にカテゴリスコアを付与するステップであって、前記2段階分類器は、各画素が既知のマーキング種類に従ってラベル付けされているグランドトゥルース画像群により学習したものであり、前記2段階分類器のうちの第1段階の分類器は、1カテゴリあたり1つの一対全部分類器からなる組を含んでおり、+1から−1までの間のカテゴリスコアからなる配列を生成し、前記2段階分類器のうちの第2段階の分類器は、前記第1段階の分類器からのカテゴリスコアの配列を受け取ってすべてのマーキング種類のカテゴリのスコアの通知を受けることで、精密化したスコアの配列を生成するところのステップと、
前記断片が前記分類器によりあるマーキング種類に分類されると、その断片に含まれるすべての画素に同じラベルを割り当てるステップと、
を含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/501,187 | 2009-07-10 | ||
US12/501,187 US8442319B2 (en) | 2009-07-10 | 2009-07-10 | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011018338A JP2011018338A (ja) | 2011-01-27 |
JP2011018338A5 JP2011018338A5 (ja) | 2013-08-22 |
JP5379085B2 true JP5379085B2 (ja) | 2013-12-25 |
Family
ID=43034592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010156620A Expired - Fee Related JP5379085B2 (ja) | 2009-07-10 | 2010-07-09 | スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8442319B2 (ja) |
EP (1) | EP2275974A3 (ja) |
JP (1) | JP5379085B2 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8452086B2 (en) * | 2009-07-10 | 2013-05-28 | Palo Alto Research Center Incorporated | System and user interface for machine-assisted human labeling of pixels in an image |
US8649600B2 (en) * | 2009-07-10 | 2014-02-11 | Palo Alto Research Center Incorporated | System and method for segmenting text lines in documents |
US8442319B2 (en) * | 2009-07-10 | 2013-05-14 | Palo Alto Research Center Incorporated | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking |
US20120092374A1 (en) * | 2010-10-19 | 2012-04-19 | Apple Inc. | Systems, methods, and computer-readable media for placing a representation of the captured signature in a document |
CN102622724A (zh) * | 2011-01-27 | 2012-08-01 | 鸿富锦精密工业(深圳)有限公司 | 外观专利图像切割方法及系统 |
DE102011082866A1 (de) * | 2011-09-16 | 2013-03-21 | Olaf Rudolph | Verfahren zum Erkennen einer oder meherer gleichzeitig auftretender Teilenladungs-Quellen |
US8792730B2 (en) * | 2012-03-07 | 2014-07-29 | Ricoh Co., Ltd. | Classification and standardization of field images associated with a field in a form |
US9152884B2 (en) * | 2012-06-05 | 2015-10-06 | Drvision Technologies Llc | Teachable pattern scoring method |
US8879855B2 (en) * | 2012-08-17 | 2014-11-04 | Nec Laboratories America, Inc. | Image segmentation for large-scale fine-grained recognition |
US9235781B2 (en) * | 2013-08-09 | 2016-01-12 | Kabushiki Kaisha Toshiba | Method of, and apparatus for, landmark location |
US9245205B1 (en) * | 2013-10-16 | 2016-01-26 | Xerox Corporation | Supervised mid-level features for word image representation |
US9940511B2 (en) * | 2014-05-30 | 2018-04-10 | Kofax, Inc. | Machine print, hand print, and signature discrimination |
US10120843B2 (en) | 2014-08-26 | 2018-11-06 | International Business Machines Corporation | Generation of parsable data for deep parsing |
WO2017167381A1 (en) * | 2016-03-31 | 2017-10-05 | Softkinetic Software | Method for foreground and background determination in an image |
US10607228B1 (en) * | 2016-08-24 | 2020-03-31 | Jpmorgan Chase Bank, N.A. | Dynamic rule strategy and fraud detection system and method |
US10354161B2 (en) * | 2017-06-05 | 2019-07-16 | Intuit, Inc. | Detecting font size in a digital image |
US10163022B1 (en) * | 2017-06-22 | 2018-12-25 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
US11416546B2 (en) * | 2018-03-20 | 2022-08-16 | Hulu, LLC | Content type detection in videos using multiple classifiers |
CN108960290A (zh) * | 2018-06-08 | 2018-12-07 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和电子设备 |
US10685261B2 (en) * | 2018-06-11 | 2020-06-16 | GM Global Technology Operations LLC | Active segmention of scanned images based on deep reinforcement learning for OCR applications |
JP7262993B2 (ja) * | 2018-12-19 | 2023-04-24 | キヤノン株式会社 | 画像処理システム、画像処理方法、画像処理装置 |
US11462037B2 (en) | 2019-01-11 | 2022-10-04 | Walmart Apollo, Llc | System and method for automated analysis of electronic travel data |
US10671892B1 (en) | 2019-03-31 | 2020-06-02 | Hyper Labs, Inc. | Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data |
US11106891B2 (en) | 2019-09-09 | 2021-08-31 | Morgan Stanley Services Group Inc. | Automated signature extraction and verification |
JP7431005B2 (ja) * | 2019-09-20 | 2024-02-14 | Toppanエッジ株式会社 | 学習データ生成装置、学習データ生成方法、及びプログラム |
US11200411B2 (en) * | 2019-10-16 | 2021-12-14 | The Toronto-Dominion Bank | Training a card type classifier with simulated card images |
KR102509343B1 (ko) * | 2020-11-17 | 2023-03-13 | 아주대학교산학협력단 | 이미지의 레이아웃 분석 방법 및 시스템 |
US11704352B2 (en) | 2021-05-03 | 2023-07-18 | Bank Of America Corporation | Automated categorization and assembly of low-quality images into electronic documents |
US11798258B2 (en) | 2021-05-03 | 2023-10-24 | Bank Of America Corporation | Automated categorization and assembly of low-quality images into electronic documents |
US11881041B2 (en) | 2021-09-02 | 2024-01-23 | Bank Of America Corporation | Automated categorization and processing of document images of varying degrees of quality |
US11409951B1 (en) | 2021-09-24 | 2022-08-09 | International Business Machines Corporation | Facilitating annotation of document elements |
CN113657559B (zh) * | 2021-10-18 | 2022-02-08 | 广州天鹏计算机科技有限公司 | 基于机器学习的胸部扫描图像分类方法 |
US20230162520A1 (en) * | 2021-11-23 | 2023-05-25 | Abbyy Development Inc. | Identifying writing systems utilized in documents |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5202933A (en) | 1989-12-08 | 1993-04-13 | Xerox Corporation | Segmentation of text and graphics |
US5402504A (en) | 1989-12-08 | 1995-03-28 | Xerox Corporation | Segmentation of text styles |
US5181255A (en) | 1990-12-13 | 1993-01-19 | Xerox Corporation | Segmentation of handwriting and machine printed text |
US5201011A (en) | 1991-11-19 | 1993-04-06 | Xerox Corporation | Method and apparatus for image hand markup detection using morphological techniques |
US5369714A (en) * | 1991-11-19 | 1994-11-29 | Xerox Corporation | Method and apparatus for determining the frequency of phrases in a document without document image decoding |
US5434953A (en) * | 1992-03-20 | 1995-07-18 | Xerox Corporation | Use of fast textured reduction for discrimination of document image components |
US6009196A (en) * | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US5892842A (en) | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
US5778092A (en) | 1996-12-20 | 1998-07-07 | Xerox Corporation | Method and apparatus for compressing color or gray scale documents |
US6411733B1 (en) | 1998-11-25 | 2002-06-25 | Xerox Corporation | Method and apparatus for separating document image object types |
US6377710B1 (en) | 1998-11-25 | 2002-04-23 | Xerox Corporation | Method and apparatus for extracting the skeleton of a binary figure by contour-based erosion |
US6301386B1 (en) | 1998-12-09 | 2001-10-09 | Ncr Corporation | Methods and apparatus for gray image based text identification |
US6587583B1 (en) | 1999-09-17 | 2003-07-01 | Kurzweil Educational Systems, Inc. | Compression/decompression algorithm for image documents having text, graphical and color content |
US6771816B1 (en) | 2000-01-19 | 2004-08-03 | Adobe Systems Incorporated | Generating a text mask for representing text pixels |
SE0000205D0 (sv) * | 2000-01-25 | 2000-01-25 | Siemens Elema Ab | Ventilator |
US8103104B2 (en) * | 2002-01-11 | 2012-01-24 | Hewlett-Packard Development Company, L.P. | Text extraction and its application to compound document image compression |
US7136082B2 (en) | 2002-01-25 | 2006-11-14 | Xerox Corporation | Method and apparatus to convert digital ink images for use in a structured text/graphics editor |
US7086013B2 (en) | 2002-03-22 | 2006-08-01 | Xerox Corporation | Method and system for overloading loop selection commands in a system for selecting and arranging visible material in document images |
US7036077B2 (en) | 2002-03-22 | 2006-04-25 | Xerox Corporation | Method for gestural interpretation in a system for selecting and arranging visible material in document images |
US6903751B2 (en) | 2002-03-22 | 2005-06-07 | Xerox Corporation | System and method for editing electronic images |
JP3800208B2 (ja) * | 2002-07-26 | 2006-07-26 | 松下電工株式会社 | 画像処理方法 |
US7177483B2 (en) | 2002-08-29 | 2007-02-13 | Palo Alto Research Center Incorporated. | System and method for enhancement of document images |
US7079687B2 (en) * | 2003-03-06 | 2006-07-18 | Seiko Epson Corporation | Method and apparatus for segmentation of compound documents |
US7379594B2 (en) | 2004-01-28 | 2008-05-27 | Sharp Laboratories Of America, Inc. | Methods and systems for automatic detection of continuous-tone regions in document images |
US7260276B2 (en) * | 2004-06-30 | 2007-08-21 | Sharp Laboratories Of America, Inc. | Methods and systems for complexity estimation and complexity-based selection |
JP2006072839A (ja) * | 2004-09-03 | 2006-03-16 | Ricoh Co Ltd | 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体 |
US7970171B2 (en) | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US7570816B2 (en) * | 2005-03-31 | 2009-08-04 | Microsoft Corporation | Systems and methods for detecting text |
GB0510793D0 (en) | 2005-05-26 | 2005-06-29 | Bourbay Ltd | Segmentation of digital images |
US7899258B2 (en) * | 2005-08-12 | 2011-03-01 | Seiko Epson Corporation | Systems and methods to convert images into high-quality compressed documents |
US7783117B2 (en) | 2005-08-12 | 2010-08-24 | Seiko Epson Corporation | Systems and methods for generating background and foreground images for document compression |
JP4329764B2 (ja) * | 2006-01-17 | 2009-09-09 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および罫線抽出プログラム |
US7734094B2 (en) | 2006-06-28 | 2010-06-08 | Microsoft Corporation | Techniques for filtering handwriting recognition results |
US7792353B2 (en) * | 2006-10-31 | 2010-09-07 | Hewlett-Packard Development Company, L.P. | Retraining a machine-learning classifier using re-labeled training samples |
AU2006252019B2 (en) * | 2006-12-13 | 2012-06-28 | Canon Kabushiki Kaisha | Method and Apparatus for Dynamic Connector Analysis |
US8417033B2 (en) * | 2007-04-27 | 2013-04-09 | Hewlett-Packard Development Company, L.P. | Gradient based background segmentation and enhancement of images |
US7907778B2 (en) * | 2007-08-13 | 2011-03-15 | Seiko Epson Corporation | Segmentation-based image labeling |
US7936923B2 (en) * | 2007-08-31 | 2011-05-03 | Seiko Epson Corporation | Image background suppression |
US7958068B2 (en) * | 2007-12-12 | 2011-06-07 | International Business Machines Corporation | Method and apparatus for model-shared subspace boosting for multi-label classification |
US8180112B2 (en) | 2008-01-21 | 2012-05-15 | Eastman Kodak Company | Enabling persistent recognition of individuals in images |
US8111923B2 (en) * | 2008-08-14 | 2012-02-07 | Xerox Corporation | System and method for object class localization and semantic class based image segmentation |
US8261180B2 (en) * | 2009-04-28 | 2012-09-04 | Lexmark International, Inc. | Automatic forms processing systems and methods |
US8442319B2 (en) * | 2009-07-10 | 2013-05-14 | Palo Alto Research Center Incorporated | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking |
US8649600B2 (en) | 2009-07-10 | 2014-02-11 | Palo Alto Research Center Incorporated | System and method for segmenting text lines in documents |
US8452086B2 (en) | 2009-07-10 | 2013-05-28 | Palo Alto Research Center Incorporated | System and user interface for machine-assisted human labeling of pixels in an image |
-
2009
- 2009-07-10 US US12/501,187 patent/US8442319B2/en not_active Expired - Fee Related
-
2010
- 2010-07-08 EP EP10168842.2A patent/EP2275974A3/en not_active Ceased
- 2010-07-09 JP JP2010156620A patent/JP5379085B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011018338A (ja) | 2011-01-27 |
EP2275974A3 (en) | 2014-12-31 |
US20110007366A1 (en) | 2011-01-13 |
US8442319B2 (en) | 2013-05-14 |
EP2275974A2 (en) | 2011-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5379085B2 (ja) | スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム | |
JP5729930B2 (ja) | 文書内のテキスト行を区分するための方法 | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
US8045798B2 (en) | Features generation and spotting methods and systems using same | |
Guo et al. | Separating handwritten material from machine printed text using hidden markov models | |
JP4006224B2 (ja) | 画像品質判定方法、判定装置、判定プログラム | |
US8606010B2 (en) | Identifying text pixels in scanned images | |
US8520941B2 (en) | Method and system for document image classification | |
CN110503054B (zh) | 文本图像的处理方法及装置 | |
CN107491730A (zh) | 一种基于图像处理的化验单识别方法 | |
Singh et al. | Offline script identification from multilingual indic-script documents: a state-of-the-art | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
JPH11345339A (ja) | 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ | |
CN114386413A (zh) | 处理数字化的手写 | |
CN111612045B (zh) | 一种获取目标检测数据集的通用方法 | |
Mehri et al. | ICDAR2019 competition on historical book analysis-HBA2019 | |
Zhang et al. | Computational method for calligraphic style representation and classification | |
Lin et al. | Multilingual corpus construction based on printed and handwritten character separation | |
Bharathi et al. | Segregated handwritten character recognition using GLCM features | |
Bureš et al. | Semantic text segmentation from synthetic images of full-text documents | |
Lee et al. | Combining macro and micro features for writer identification | |
Dhandra et al. | Classification of Document Image Components | |
CN109086769A (zh) | 一种断裂粘连激光印刷数字串识别方法 | |
Kaur | Classification of printed and handwritten Gurmukhi text using labeling and segmentation technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130704 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130704 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20130704 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20130827 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5379085 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |