JP5729930B2 - 文書内のテキスト行を区分するための方法 - Google Patents
文書内のテキスト行を区分するための方法 Download PDFInfo
- Publication number
- JP5729930B2 JP5729930B2 JP2010156612A JP2010156612A JP5729930B2 JP 5729930 B2 JP5729930 B2 JP 5729930B2 JP 2010156612 A JP2010156612 A JP 2010156612A JP 2010156612 A JP2010156612 A JP 2010156612A JP 5729930 B2 JP5729930 B2 JP 5729930B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- text
- classifier
- line
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 87
- 239000012634 fragment Substances 0.000 claims description 89
- 230000008569 process Effects 0.000 claims description 51
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 27
- 239000013598 vector Substances 0.000 description 15
- 239000000428 dust Substances 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012776 electronic material Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/155—Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
(ii) 背景画素: マーキングカテゴリは、前景画素(すなわち黒色の画素)のみに割り当てられる。白色の画素は背景(例えば紙)を形成するものと想定する。この想定は、ここで想定している利用シナリオに合致している。
(iii)曖昧(多義的)画素: 明らかに、複数のマーキングが同じ1つの黒画素内で重なる場合がある。それらマーキングが共に同じカテゴリのものであれば、画素のラベリング(ラベル付け)に曖昧さはない。他の状況では、その画素に対して、それら重複するマーキングのカテゴリのうちの1つが割り当てられるべきである。カテゴリラベル群について、あらかじめ定めた優先順位を想定することが考えられる。優先順位の高いラベルを割り当てることにより、曖昧さを解消することができる。例えば、1つの実装例では、「手書きテキスト」を最高順位のカテゴリとする。手書き文字が機械で印刷された線と重複する場合、両者が交わる部分の画素には「手書きテキスト」のラベルが付与される。ノイズラベルは最低順位である。
(iv) 評価尺度(評価メトリック): 2つのグランドトゥルースラベルファイルを比較する場合、又は1つの自動分類結果の出力をグランドトゥルースと比較する場合、各画素位置でそれらラベルが比較され、もしそれら2つのラベルが異なっていればエラーが1つ計数されることになる。これは評価尺度として有益である。なぜなら、この定義は、解法に関わりなく、矛盾なく機能するからである。1つの実施例では、区分してから分類する、という解法を用いる。別の解法では、各画素をコンテキスト(周辺状況)に基づいて分類する。更に別の解法では。画像のグリッド(格子)パッチ(grid-patches)に対してラベルを付与する。しかし、すべての解法について、この実施形態の方法及びシステムは、正しくラベル付けされた複数の前景画素からなる小部分を測定する。この実施形態の概念は、画素ではなく、小部分(断片)を分類(及び分類のために学習)するというものである。にもかかわらず、画素エラー尺度(pixel error metric)を用いることは有益である。なぜなら、大きい断片を誤って分類することは、小さい断片に対してミスをする場合よりも悪いからである。
(v) 画像内容についての想定: この仕組みはかなり一般的であり、この実施形態のシステム及び方法は上述したことに合致しない状況に適用されることがあるものの、使用される画像について、明示的にせよ暗黙的にせよ、いくつかの想定をすることができる。まず、テスト/応用のシナリオは、それら学習用の画像に十分に表現されていると想定する。例えば、ありふれたスキャン文書画像を表す画像は、傾いておらず、二値画像であり、ほぼ300dpiであり、機械印刷されたテキストは横方向に並んでいる、と想定することができる。
(ii) 機械印刷テキスト(MachinePrintText): 機械で印刷された、いずれかの言語又は文字体系の、白地上の黒色のテキスト。網掛けテキストや、黒い背景上の白いテキストは、機械印刷グラフィックス(MachinePrintGraphic)としてマーク付けされるべきである。
(iii)機械印刷グラフィックス(MachinePrintGraphic): 機械印刷線画グラフィックス(MachinePrintLineGraphic)(下線、矢印、背景の罫線、線画)、又は機械印刷ブロックグラフィックス(MachinePrintBlockGraphic)(黒丸記号(bullet)、ロゴ、写真)。
(iv) ごま塩スキャナノイズ(ScannerNoiseSaltPepper): 小さな粒状ノイズであり、通常は、紙のテクスチャ(きめ)や誤った二値化による。
(v) 暗領域スキャナノイズ(ScannerNoiseDarkRegion): 機械印刷又は手書きのインクによって生成されたのではない、顕著な黒い領域を表すためのものである。これには、紙の折り目や影、穴などのように、背景物の暗がりにより生成される黒い画素群が含まれる。
図3は、本実施形態の概念(コンセプト)を実装したシステム300を示す。システム300は、デジタル化されたビットマップ画像及び/又はデジタルインク技術により形成された画像を、本実施形態の区分器・分類器システムに供給する様々なチャンネル(経路)を例示している。
この実施形態では、特に各画素が黒か白である場合において、個々の画素を当該画素のマーキング種類に従って分類即ちスコア付けすることは、空間的な近傍部分、及び文書の他の形態のコンテキスト(状況)を考慮することにより達成される。画素は、その近傍についての特徴量の測定に基づき分類してもよい。これは、とりわけ区分けと認識とが互いに足並みをそろえて進行するという定式化を可能にするという興味深い可能性に繋がっている。
上述のように、区分器312aは、画像から、複数の断片からなるリストを生成する。各断片は、当該断片とその周囲のコンテキスト(状況)から計算される多くの特徴測定値(特徴量)により特徴付けられている。この実施形態の分類器312bは、各断片を、その特徴量に基づき、上述したマーキング種類のカテゴリのいずれかに分類するように訓練されている(すなわち学習済みである)。
上述したテキスト行の特徴に加え、様々な種類の特徴が、各断片について測定(計算)される。それら多様な特徴には、例えば以下のようなものがある。
(i) セグメンター(segmenter:区分用)特徴: これらは、単純に0又は1の2つの特徴量であり、当該断片が横線画像又は縦線画像のどちらの一部であるかを示す。
(ii) サイズ特徴: これらは、バウンディングボックスの縦横比、幅、高さ、周囲のサイズ、連結成分内の穴の数、前景画素の数を含む。また、ミッドクラック細線化(midcrack thinning)からの求められる背骨断片(spine-fragment)の数、バウンディングボックスの面積に対する前景画素の数の比、周囲のサイズに対する前景画素の数の比、及びバウンディングボックスの面積に対する周囲サイズの比、などが含まれてもよい。
(iii)位置特徴: 画像の境界からの当該断片に対する横及び縦方向の距離の最小値が求められる。これにより文書内の暗いグラフィック領域からのシャドー(影)ノイズの識別の助けとなるというアイデアである。
(iv) 規則性(Regularity)特徴: これは、主として機械印刷されたテキストを他の種類のマーキングから区別して特徴付けるためのものである。機械印刷されたテキストは、整列状態及びサイズに関して高度な規則性を見せる。もし、文書内又は空間的に近傍の他の多くの断片の高さ、バウンディングボックスの上端のy座標及び下端のy座標が同じならば、カレントの断片(処理対象として注目している断片)は機械印刷されたテキスト又はグラフィックスである可能性が高い。手書きやノイズがそのような規則性を見せるのは、偶然である可能性が高い。この特徴の測定値は、相対的な差のヒストグラムとして形成される。例えば、高さについての規則性を求める場合、(hi−h0)のヒストグラムが用いられる。ここで、hiはi番目の断片の高さであり、h0は当該断片の高さである。ヒストグラムの各ビン(値の各範囲)は、[?32, ?16),…., [?4, ?2), [?2, ?1), [?1, 0), [0, 0], (0, 1], (1, 2], (2, 4],....., (16, 32].にセットされる。この場合、機械印刷されたテキストについては中央の3つのビンのカウント値が高くなると期待される。高さについてのヒストグラムは画像中のすべての断片を考慮するが、バウンディングボックス端部(bounding box extremity)についてのヒストグラムはx近傍(x-neighborhood)内の断片のみを考慮する。
(v) エッジ湾曲特徴: 各断片について、高速な測定により外部輪郭の湾曲(曲率)を求める。ある輪郭点での湾曲指標は、当該点と、輪郭上で当該点からある固定した距離(例えば輪郭点16点の距離)だけ離れた輪郭上の2つの点同士を結ぶ直線と、のユークリッド距離として測定される。1つの断片の外側の輪郭全体にわたって測定されるすべての湾曲指標からなるヒストグラムが計算され、使用される。
(vi) 輪郭特徴: これは、2つの測定値から構成される。断片の外側輪郭を反時計回りにたどり、4つの輪郭位置により分離された2つの輪郭点同士の間の変位のヒストグラムが記録される。ここから、符号無しのエッジ変位のヒストグラム(ここでは2つの反対向きの変位が足し算される)と、対称性違反のヒストグラム(ここでは2つの反対向きの変位が互いに打ち消しあう)と、が求められる。機械印刷された線及び機械印刷されたテキストについては、ほぼ縦方向及び横方向についてのヒストグラムの強度が高くなると予想される。均一なストロークについては、対称性違反については低い値になると予想される。
(vii)ランレングス特徴:断片の背骨が、本願発明者Saundに対する2002年の米国特許第6,377,710号明細書"Method And Apparatus For Extracting The Skeleton Of A Binary Figure By Contour-Based Erosion"に示されるようなミッドクラック細線化アルゴリズムにより計算される。この文献は参考のためその全部をこの明細書に組み込む。その背骨上の各点において、横方向及び縦方向のランレングスの最小値及び最大値が記録される。これら2つの数のヒストグラムが、ランレングス特徴として返される。機械印刷された部分は、手書きやノイズの部分よりも、ランレングスヒストグラムがより集中したもの(即ちばらつきが少ない)になる。しかし、集中の仕方は、単峰的(ユニモーダル)である必要はない。分類器のトレーナー(訓練させる者)が異なるカテゴリについてのヒストグラム同士の間のいくつかの相違点を見つけ出すことができるであろうとの想定のもとで、生のランレングスヒストグラムが特徴として用いられる。
(viii)エッジターン(エッジ曲がり)ヒストグラム特徴: これらは有益ではあったが、輪郭特徴及びエッジ湾曲特徴の方がより優れていることが分かった。
マーキング種類に従った断片の分類は、図12A〜D及び図13に示すように、2段階で行われる。図12A〜Dにより詳しく示されるように、2段階分類器1200は、第1段階1202の中に、複数の第1段階分類器1202a、1202b、・・・、1202nを有する。第1ステージでは、各断片が上述の3.1節で説明した特徴のみに基づいて分類される。この結果、各断片はカテゴリごとのスコアを有することとなる。したがって、図12に示すように、画像断片1204aは特定の特徴ベクトル1206aに供給される(これについては図13に更に詳しく示している)。ここで分類器1200が停止すれば、最高スコアのカテゴリが各断片に対して割り当てられる。
(ii) 縦方向の帯片: x方向について当該断片から±16画素以内、y方向について当該断片から±160画素以内
(iii) 矩形近傍: 当該断片からx方向及びy方向の両方についてそれぞれ±160画素以内。
1つの例では、各段階で使用される基本分類器は、「一対全部」の分類器の集まり(1カテゴリあたり1つ)である。この種の分類器は、複数の特徴からなるベクトルを入力として受け入れ、1カテゴリあたり1つのスコアからなるスコア配列を生成する。この出力配列は、最高スコアのカテゴリを見つけたり、あるいは様々な拒否/受入閾値を適用したりするのに用いられる。
図4の処理をより詳しく示したのが、図15の処理手順1500である。このフローチャートでは、マスク処理のようなビット単位の論理演算に好適な画像ベースの(すなわち画像に基づく)表現と、グループ分けや幾何学的な性質に対する論理や規則の適用に好適な記号的な表現と間の相互作用がある。図4と同様、処理手順1500の1つの側面は、様々な画像マスクを生成することである。したがって、以下の説明では、概略的には、図15の左側の各ステップはそれらマスクの生成及び更なる処理に関するものであり、同図の右側の各ステップはそれらマスクを用いた画像処理に関するものである。このように、処理手順1500は、連結成分(CC:Connected Component)オブジェクトのようなトークンに作用する記号処理と画像処理とを混合した処理を提供する。
この非塵(ノン・ダスト)CCの画像に対し、テキスト行を見つけるためのテキスト行判定プロセスが適用される(1520)。1つの実施例では、このテキスト行判定プロセスは、図8の処理800により実行してもよい。この結果求められたテキスト行1522の画像は、テキスト行の画像(即ち1522)が存在する場所でのバウンディングボックスを生成する(すなわちバウンディングボックスは成長させられる)(1524)。これにより、判定されたテキスト行の場所をカバーするバウンディングボックス1526の位置が識別される。バウンディングボックスがレンダリング(描画)され(1528)、これにより整列(アラインメント)テキストマスク1530が生成される。二値画素カラー反転演算1532が整列テキストマスク1530に適用され、これにより当該マスクの各二値画素が反転(すなわち画素の色が反転)されることにより、反転整列テキストマスク1534が生成される。
Claims (1)
- 文書の画像内のマーキングの連結成分をより小さい部分に区分するための方法であって、
前記画像内の整列したテキストを検出するステップと、
検出した前記整列したテキストから整列テキストマスクを生成するステップと、
前記整列テキストマスクを用いて前記画像を整列したテキストの断片に区分するステップと、
を含む方法であって、前記画像内の整列したテキストを検出するステップでは、
前記連結成分の上側及び下側の極値群を検出し、
検出された前記連結成分の前記上側及び下側の極値群の上側及び下側の輪郭極値を識別し、
識別された上側及び下側の輪郭極値をグループ分けし、
上側の輪郭極値グループと下側の輪郭極値グループとを識別し、
上側の輪郭極値グループと下側の輪郭極値グループとにそれぞれ線分をフィッティングし、
上側及び下側の輪郭極値グループにフィッティングした線分のうち横方向に対してあらかじめ定められた整列閾値を超えて外れた方向の線分を除去処理し、
前記除去処理の後に残った上側と下側の線分のペアを求め、
前記除去処理の後に残ったペアになった上側と下側の線分に基づき、整列テキストであると考えられる連結成分を識別するためのテキスト行バウンディングボックスを形成する、
ことを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/500,882 | 2009-07-10 | ||
US12/500,882 US8649600B2 (en) | 2009-07-10 | 2009-07-10 | System and method for segmenting text lines in documents |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011018337A JP2011018337A (ja) | 2011-01-27 |
JP5729930B2 true JP5729930B2 (ja) | 2015-06-03 |
Family
ID=43034566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010156612A Expired - Fee Related JP5729930B2 (ja) | 2009-07-10 | 2010-07-09 | 文書内のテキスト行を区分するための方法 |
Country Status (3)
Country | Link |
---|---|
US (3) | US8649600B2 (ja) |
EP (1) | EP2275973B1 (ja) |
JP (1) | JP5729930B2 (ja) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8452086B2 (en) * | 2009-07-10 | 2013-05-28 | Palo Alto Research Center Incorporated | System and user interface for machine-assisted human labeling of pixels in an image |
US8649600B2 (en) | 2009-07-10 | 2014-02-11 | Palo Alto Research Center Incorporated | System and method for segmenting text lines in documents |
US8442319B2 (en) * | 2009-07-10 | 2013-05-14 | Palo Alto Research Center Incorporated | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking |
CN102622724A (zh) * | 2011-01-27 | 2012-08-01 | 鸿富锦精密工业(深圳)有限公司 | 外观专利图像切割方法及系统 |
JP5757259B2 (ja) * | 2012-02-28 | 2015-07-29 | ブラザー工業株式会社 | 画像処理装置及び画像処理プログラム |
US9536141B2 (en) * | 2012-06-29 | 2017-01-03 | Palo Alto Research Center Incorporated | System and method for forms recognition by synthesizing corrected localization of data fields |
JP2014203393A (ja) * | 2013-04-09 | 2014-10-27 | 株式会社東芝 | 電子機器、手書き文書処理方法、及び手書き文書処理プログラム |
CN103413132B (zh) * | 2013-06-24 | 2016-11-09 | 西安交通大学 | 一种渐进层次认知的场景图像文本检测方法 |
JP6094400B2 (ja) * | 2013-06-25 | 2017-03-15 | ソニー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
US8831329B1 (en) * | 2013-06-28 | 2014-09-09 | Google Inc. | Extracting card data with card models |
US9235755B2 (en) * | 2013-08-15 | 2016-01-12 | Konica Minolta Laboratory U.S.A., Inc. | Removal of underlines and table lines in document images while preserving intersecting character strokes |
US9245205B1 (en) * | 2013-10-16 | 2016-01-26 | Xerox Corporation | Supervised mid-level features for word image representation |
US8965117B1 (en) * | 2013-12-17 | 2015-02-24 | Amazon Technologies, Inc. | Image pre-processing for reducing consumption of resources |
US9325672B2 (en) * | 2014-04-25 | 2016-04-26 | Cellco Partnership | Digital encryption shredder and document cube rebuilder |
US9940511B2 (en) * | 2014-05-30 | 2018-04-10 | Kofax, Inc. | Machine print, hand print, and signature discrimination |
US9842281B2 (en) * | 2014-06-05 | 2017-12-12 | Xerox Corporation | System for automated text and halftone segmentation |
US9904956B2 (en) | 2014-07-15 | 2018-02-27 | Google Llc | Identifying payment card categories based on optical character recognition of images of the payment cards |
US9430704B2 (en) | 2015-01-16 | 2016-08-30 | Sony Corporation | Image processing system with layout analysis and method of operation thereof |
US9530082B2 (en) * | 2015-04-24 | 2016-12-27 | Facebook, Inc. | Objectionable content detector |
US9684984B2 (en) * | 2015-07-08 | 2017-06-20 | Sage Software, Inc. | Nearsighted camera object detection |
US9785850B2 (en) | 2015-07-08 | 2017-10-10 | Sage Software, Inc. | Real time object measurement |
CN107133622B (zh) | 2016-02-29 | 2022-08-26 | 阿里巴巴集团控股有限公司 | 一种单词的分割方法和装置 |
US10037459B2 (en) | 2016-08-19 | 2018-07-31 | Sage Software, Inc. | Real-time font edge focus measurement for optical character recognition (OCR) |
KR102533972B1 (ko) * | 2016-09-08 | 2023-05-17 | 고 수 시아 | 시각적 검색 플랫폼용 영상 인제스트 프레임워크 |
US10354161B2 (en) * | 2017-06-05 | 2019-07-16 | Intuit, Inc. | Detecting font size in a digital image |
US10163022B1 (en) * | 2017-06-22 | 2018-12-25 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
US10452952B2 (en) * | 2017-06-30 | 2019-10-22 | Konica Minolta Laboratory U.S.A., Inc. | Typesetness score for a table |
RU2666277C1 (ru) * | 2017-09-06 | 2018-09-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Сегментация текста |
US10318803B1 (en) * | 2017-11-30 | 2019-06-11 | Konica Minolta Laboratory U.S.A., Inc. | Text line segmentation method |
US11593552B2 (en) | 2018-03-21 | 2023-02-28 | Adobe Inc. | Performing semantic segmentation of form images using deep learning |
CN108875737B (zh) * | 2018-06-11 | 2022-06-21 | 四川骏逸富顿科技有限公司 | 一种纸质处方单据中检测复选框是否勾选的方法及系统 |
CN109191210A (zh) * | 2018-09-13 | 2019-01-11 | 厦门大学嘉庚学院 | 一种基于Adaboost算法的宽带目标用户识别方法 |
US10402673B1 (en) | 2018-10-04 | 2019-09-03 | Capital One Services, Llc | Systems and methods for digitized document image data spillage recovery |
US10331966B1 (en) * | 2018-10-19 | 2019-06-25 | Capital One Services, Llc | Image processing to detect a rectangular object |
US11462037B2 (en) | 2019-01-11 | 2022-10-04 | Walmart Apollo, Llc | System and method for automated analysis of electronic travel data |
CN109902806B (zh) * | 2019-02-26 | 2021-03-16 | 清华大学 | 基于卷积神经网络的噪声图像目标边界框确定方法 |
US10671892B1 (en) * | 2019-03-31 | 2020-06-02 | Hyper Labs, Inc. | Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data |
US11042734B2 (en) * | 2019-08-13 | 2021-06-22 | Adobe Inc. | Electronic document segmentation using deep learning |
US11106891B2 (en) | 2019-09-09 | 2021-08-31 | Morgan Stanley Services Group Inc. | Automated signature extraction and verification |
US11074473B1 (en) | 2020-01-21 | 2021-07-27 | Capital One Services, Llc | Systems and methods for digitized document image text contouring |
CN111767787B (zh) * | 2020-05-12 | 2023-07-18 | 北京奇艺世纪科技有限公司 | 身份证图像的正反面判断方法、装置、设备及存储介质 |
CN111832292B (zh) * | 2020-06-03 | 2024-02-02 | 北京百度网讯科技有限公司 | 文本识别处理方法、装置、电子设备和存储介质 |
CN111680628B (zh) * | 2020-06-09 | 2023-04-28 | 北京百度网讯科技有限公司 | 文字框融合方法、装置、设备以及存储介质 |
CN111680145B (zh) * | 2020-06-10 | 2023-08-15 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
CN112989452B (zh) * | 2021-01-20 | 2023-12-29 | 上海品览智造科技有限公司 | 一种cad给排水专业图中对构件引线标注文本的识别方法 |
US11682220B2 (en) * | 2021-03-15 | 2023-06-20 | Optum Technology, Inc. | Overlap-aware optical character recognition |
US11755817B2 (en) * | 2021-08-02 | 2023-09-12 | Adobe Inc. | Systems for generating snap guides relative to glyphs of editable text |
US11830264B2 (en) * | 2022-01-31 | 2023-11-28 | Intuit Inc. | End to end trainable document extraction |
CN116090417B (zh) * | 2023-04-11 | 2023-06-27 | 福昕鲲鹏(北京)信息科技有限公司 | 版式文档文本选择渲染方法、装置、电子设备及存储介质 |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5202933A (en) * | 1989-12-08 | 1993-04-13 | Xerox Corporation | Segmentation of text and graphics |
US5181255A (en) * | 1990-12-13 | 1993-01-19 | Xerox Corporation | Segmentation of handwriting and machine printed text |
US5402504A (en) * | 1989-12-08 | 1995-03-28 | Xerox Corporation | Segmentation of text styles |
US5369714A (en) * | 1991-11-19 | 1994-11-29 | Xerox Corporation | Method and apparatus for determining the frequency of phrases in a document without document image decoding |
US5201011A (en) * | 1991-11-19 | 1993-04-06 | Xerox Corporation | Method and apparatus for image hand markup detection using morphological techniques |
US5852676A (en) * | 1995-04-11 | 1998-12-22 | Teraform Inc. | Method and apparatus for locating and identifying fields within a document |
US6009196A (en) * | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US5892842A (en) * | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
US5956468A (en) | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
US5778092A (en) * | 1996-12-20 | 1998-07-07 | Xerox Corporation | Method and apparatus for compressing color or gray scale documents |
US5953451A (en) * | 1997-06-19 | 1999-09-14 | Xerox Corporation | Method of indexing words in handwritten document images using image hash tables |
JPH11238095A (ja) * | 1998-02-20 | 1999-08-31 | Toshiba Corp | 郵便物宛先読取装置 |
US6377710B1 (en) * | 1998-11-25 | 2002-04-23 | Xerox Corporation | Method and apparatus for extracting the skeleton of a binary figure by contour-based erosion |
US6411733B1 (en) * | 1998-11-25 | 2002-06-25 | Xerox Corporation | Method and apparatus for separating document image object types |
US6301386B1 (en) * | 1998-12-09 | 2001-10-09 | Ncr Corporation | Methods and apparatus for gray image based text identification |
JP2000181993A (ja) * | 1998-12-16 | 2000-06-30 | Fujitsu Ltd | 文字認識方法および装置 |
JP4229521B2 (ja) * | 1999-05-21 | 2009-02-25 | 富士通株式会社 | 文字認識方法および装置 |
US6587583B1 (en) * | 1999-09-17 | 2003-07-01 | Kurzweil Educational Systems, Inc. | Compression/decompression algorithm for image documents having text, graphical and color content |
US6771816B1 (en) * | 2000-01-19 | 2004-08-03 | Adobe Systems Incorporated | Generating a text mask for representing text pixels |
US6909805B2 (en) * | 2001-01-31 | 2005-06-21 | Matsushita Electric Industrial Co., Ltd. | Detecting and utilizing add-on information from a scanned document image |
US6640009B2 (en) * | 2001-02-06 | 2003-10-28 | International Business Machines Corporation | Identification, separation and compression of multiple forms with mutants |
US6940617B2 (en) * | 2001-02-09 | 2005-09-06 | Matsushita Electric Industrial Co., Ltd. | Printing control interface system and method with handwriting discrimination capability |
US7136082B2 (en) * | 2002-01-25 | 2006-11-14 | Xerox Corporation | Method and apparatus to convert digital ink images for use in a structured text/graphics editor |
US7086013B2 (en) * | 2002-03-22 | 2006-08-01 | Xerox Corporation | Method and system for overloading loop selection commands in a system for selecting and arranging visible material in document images |
US7036077B2 (en) * | 2002-03-22 | 2006-04-25 | Xerox Corporation | Method for gestural interpretation in a system for selecting and arranging visible material in document images |
US6903751B2 (en) * | 2002-03-22 | 2005-06-07 | Xerox Corporation | System and method for editing electronic images |
US7010165B2 (en) * | 2002-05-10 | 2006-03-07 | Microsoft Corporation | Preprocessing of multi-line rotated electronic ink |
US7050632B2 (en) * | 2002-05-14 | 2006-05-23 | Microsoft Corporation | Handwriting layout analysis of freeform digital ink input |
US6904170B2 (en) * | 2002-05-17 | 2005-06-07 | Hewlett-Packard Development Company, L.P. | Method and system for document segmentation |
US7177483B2 (en) * | 2002-08-29 | 2007-02-13 | Palo Alto Research Center Incorporated. | System and method for enhancement of document images |
JP3914119B2 (ja) * | 2002-09-02 | 2007-05-16 | 東芝ソリューション株式会社 | 文字認識方法および文字認識装置 |
AU2003900865A0 (en) * | 2003-02-26 | 2003-03-13 | Silverbrook Research Pty Ltd | Methods, systems and apparatus (NPW010) |
US7079687B2 (en) * | 2003-03-06 | 2006-07-18 | Seiko Epson Corporation | Method and apparatus for segmentation of compound documents |
US7369702B2 (en) * | 2003-11-07 | 2008-05-06 | Microsoft Corporation | Template-based cursive handwriting recognition |
US7379594B2 (en) * | 2004-01-28 | 2008-05-27 | Sharp Laboratories Of America, Inc. | Methods and systems for automatic detection of continuous-tone regions in document images |
US7260276B2 (en) * | 2004-06-30 | 2007-08-21 | Sharp Laboratories Of America, Inc. | Methods and systems for complexity estimation and complexity-based selection |
US8156115B1 (en) * | 2007-07-11 | 2012-04-10 | Ricoh Co. Ltd. | Document-based networking with mixed media reality |
US7970171B2 (en) * | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US20060164682A1 (en) * | 2005-01-25 | 2006-07-27 | Dspv, Ltd. | System and method of improving the legibility and applicability of document pictures using form based image enhancement |
US8077973B2 (en) * | 2005-01-28 | 2011-12-13 | Imds Software, Inc. | Handwritten word recognition based on geometric decomposition |
US7570816B2 (en) * | 2005-03-31 | 2009-08-04 | Microsoft Corporation | Systems and methods for detecting text |
GB0510793D0 (en) | 2005-05-26 | 2005-06-29 | Bourbay Ltd | Segmentation of digital images |
US7783117B2 (en) * | 2005-08-12 | 2010-08-24 | Seiko Epson Corporation | Systems and methods for generating background and foreground images for document compression |
US7899258B2 (en) * | 2005-08-12 | 2011-03-01 | Seiko Epson Corporation | Systems and methods to convert images into high-quality compressed documents |
US7734094B2 (en) * | 2006-06-28 | 2010-06-08 | Microsoft Corporation | Techniques for filtering handwriting recognition results |
US7792353B2 (en) | 2006-10-31 | 2010-09-07 | Hewlett-Packard Development Company, L.P. | Retraining a machine-learning classifier using re-labeled training samples |
US8417033B2 (en) * | 2007-04-27 | 2013-04-09 | Hewlett-Packard Development Company, L.P. | Gradient based background segmentation and enhancement of images |
US7907778B2 (en) | 2007-08-13 | 2011-03-15 | Seiko Epson Corporation | Segmentation-based image labeling |
US7936923B2 (en) | 2007-08-31 | 2011-05-03 | Seiko Epson Corporation | Image background suppression |
US7958068B2 (en) | 2007-12-12 | 2011-06-07 | International Business Machines Corporation | Method and apparatus for model-shared subspace boosting for multi-label classification |
US8180112B2 (en) * | 2008-01-21 | 2012-05-15 | Eastman Kodak Company | Enabling persistent recognition of individuals in images |
US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
US8111923B2 (en) * | 2008-08-14 | 2012-02-07 | Xerox Corporation | System and method for object class localization and semantic class based image segmentation |
US8261180B2 (en) * | 2009-04-28 | 2012-09-04 | Lexmark International, Inc. | Automatic forms processing systems and methods |
US8442319B2 (en) * | 2009-07-10 | 2013-05-14 | Palo Alto Research Center Incorporated | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking |
US8452086B2 (en) * | 2009-07-10 | 2013-05-28 | Palo Alto Research Center Incorporated | System and user interface for machine-assisted human labeling of pixels in an image |
US8649600B2 (en) | 2009-07-10 | 2014-02-11 | Palo Alto Research Center Incorporated | System and method for segmenting text lines in documents |
-
2009
- 2009-07-10 US US12/500,882 patent/US8649600B2/en active Active
-
2010
- 2010-07-07 EP EP10168648.3A patent/EP2275973B1/en not_active Not-in-force
- 2010-07-09 JP JP2010156612A patent/JP5729930B2/ja not_active Expired - Fee Related
-
2012
- 2012-11-15 US US13/677,473 patent/US8768057B2/en not_active Ceased
-
2016
- 2016-07-01 US US15/200,351 patent/USRE47889E1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2275973A3 (en) | 2014-07-30 |
USRE47889E1 (en) | 2020-03-03 |
US20130114890A1 (en) | 2013-05-09 |
EP2275973A2 (en) | 2011-01-19 |
JP2011018337A (ja) | 2011-01-27 |
US8768057B2 (en) | 2014-07-01 |
US8649600B2 (en) | 2014-02-11 |
US20110007970A1 (en) | 2011-01-13 |
EP2275973B1 (en) | 2016-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5729930B2 (ja) | 文書内のテキスト行を区分するための方法 | |
JP5379085B2 (ja) | スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム | |
Eskenazi et al. | A comprehensive survey of mostly textual document segmentation algorithms since 2008 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
Namboodiri et al. | Document structure and layout analysis | |
Nikolaou et al. | Segmentation of historical machine-printed documents using adaptive run length smoothing and skeleton segmentation paths | |
JP4340076B2 (ja) | ビットマップ化イメージを構造化テキスト/図形エディタで利用すべく変換するシステム | |
Gatos et al. | ICDAR2009 handwriting segmentation contest | |
US8045798B2 (en) | Features generation and spotting methods and systems using same | |
JP4339602B2 (ja) | デジタルインクイメージを構造化テキスト/図形エディタで利用すべく変換するシステム | |
Guo et al. | Separating handwritten material from machine printed text using hidden markov models | |
JP5492205B2 (ja) | 印刷媒体ページの記事へのセグメント化 | |
Chaudhuri et al. | An approach for detecting and cleaning of struck-out handwritten text | |
JP4443576B2 (ja) | パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法 | |
Lehal | Ligature segmentation for Urdu OCR | |
Al Abodi et al. | An effective approach to offline Arabic handwriting recognition | |
EP3985527A1 (en) | Processing digitized handwriting | |
Ghosh et al. | Textual content retrieval from filled-in form images | |
Kamola et al. | Image-based logical document structure recognition | |
Lin et al. | Multilingual corpus construction based on printed and handwritten character separation | |
Naz et al. | Challenges in baseline detection of cursive script languages | |
JP3476595B2 (ja) | 画像領域分割方法、および画像2値化方法 | |
Marinai | Learning algorithms for document layout analysis | |
Zelenika et al. | Text detection in document images by machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140813 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140818 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140909 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150407 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5729930 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |