JP4323328B2 - 取り込み画像データから文字列を識別して抜出するシステムおよび方法 - Google Patents
取り込み画像データから文字列を識別して抜出するシステムおよび方法 Download PDFInfo
- Publication number
- JP4323328B2 JP4323328B2 JP2003586825A JP2003586825A JP4323328B2 JP 4323328 B2 JP4323328 B2 JP 4323328B2 JP 2003586825 A JP2003586825 A JP 2003586825A JP 2003586825 A JP2003586825 A JP 2003586825A JP 4323328 B2 JP4323328 B2 JP 4323328B2
- Authority
- JP
- Japan
- Prior art keywords
- edge pixel
- edge
- frame
- pixel
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
本発明は、画像データから文字列を識別して抜出するシステムおよび方法に関し、詳細には、本開示は、複雑な自然のシーンの取り込み画像データに見られる文字列を識別して抜出するシステムおよび方法を提供する。
デジタル画像が普及しデジタル画像を取り込みやすくなったことにより、取り込み画像データの画像内容を解析して識別することが可能なことが望ましくなっており、時によっては必要になっている。
一例として、文書を走査する場合、走査されて取り込まれた文書データは、文書中の各種画像データを別様に処理するために分離されて抜出されることが多い。
走査文書内に含まれることが多い様々な種類の画像データとしては、英数字テキスト、自然の画像、およびグラフィック画像が挙げられる。
走査文書画像データ内のテキストに対応する画像データは、自然の画像データまたはグラフィック画像データとは別様に処理されて強調されることが多い。
多くの場合、抜出されたテキストは後に、光学文字認識ソフトウェアを通して処理され、テキストをデジタルビットマップフォーマットから電子編集が可能な符号化フォーマットに変換することができる。
たとえば、明るい背景上に暗色のテキストがある場合、明るい背景から暗いテキストに移る際に大きな勾配があり、また暗いテキストから明るい背景に移る際に第2の勾配がある。
画像データからテキストデータを抜出するように設計されたフィルタは当分野において既知であり、一般に、こういった大きな勾配を検出することに基づいてテキストデータを識別して抜出する。
走査文書中のテキストを識別する別の既知の技法はしきい値処理と呼ばれる。
しきい値処理技法は、画像中のテキストが特定の輝度を有し、その一方で他の画像データタイプは特定の輝度を有さないと想定する。
文書画像データが解析されて、文書画像のデジタルビットマップ内で所定の輝度を有するすべてのピクセル値が識別される。
次に、こういったピクセルはテキストであると想定される。
この実施形態の変形形態では、しきい値処理技法は、対象ピクセル付近の背景輝度を考慮に入れるように適合される。
具体的には、自然の環境内に見られる文字列を含む掲示された標識の取り込みデジタル画像は、走査文書内のタイプされたテキストと同じ差別化特徴を有さない。
図1Aは、走査文書10内に見られる文字列11Aおよび11Bの一例を示す。
見て分かるように、テキスト(11Aおよび11B)は一般に、エッジ検出を比較的単純なプロセスにするために自然の画像(12Aおよび12B)から分離される。
さらに、テキスト文字列は、テキストの検出に役立つ、関連する大きな勾配を有する独特のエッジを有する。
図1Bは、自然環境の取り込み画像14に見られる文字列13の一例を示す。
図1Aに示す文字列とは対照的に、文字列13のエッジは文字に関して一部の情報しか提供しない。
たとえば、検出されるエッジは文字のエッジに対応するものもあれば、しないものもある。
さらに、間隔、照明、背景輝度、前景輝度、および画像の歪みはすべて、非均一で予測がつきにくい文字列特徴を表し、それにより単純なエッジ検出またはしきい値処理を使用して、自然環境に見られるこういった種類の文字列を識別し抜出することができない。
たとえば、1つの既知の技法は、自然環境内に見られる文字列の特定の特徴に関連する前提に基づいている。
この技法は、2つの主要なアルゴリズムを使用してカラー画像からテキストを見つけることにより実施される。
2つの主要なアルゴリズムのうち一方は画像を均一な色を有する連結した構成要素に分けることに基づき、他方はカラー画像のグレースケール画像での局所空間変化の計算に基づく。
この技法の基本となる前提は、文字列テキストの色が均一であり、かつテキスト領域が高いグレースケール変化を有するはずであるということである。
問題は、テキストがこれら前提に従って行動しない場合が多く、その結果、この技法によって検出されない場合があることである。
したがって、この技法は、自然環境の取り込み画像データ中の文字列を検出する際には信頼性がない。
まず、取り込み画像から、画像勾配情報に応じてエッジピクセル情報が得られる。
エッジピクセルは文字の線および文字の湾曲を画定するグループにまとめられ、このグループが次にテキスト列に結合される。
この技法に伴う問題は頑健性に欠け、その結果、信頼できない抜出結果を提供することである。
特にこの技法は、単純に画像勾配情報に基づいてエッジ検出を行う。
しかし、非均一な照明、雑音、または分布を有する取り込み画像では、この種類のエッジピクセル検出の信頼性は大幅に低下するか、または不可能である。
その結果、誤ったエッジピクセル情報により、文字の線および湾曲が識別されない場合がある。
さらに、この技法は、単純に関連するエッジピクセルの連結性に基づき、画像の他の態様をすべて無視して、画像内の特定の湾曲および線を所与の文字に割り当てる。
しかし文字のエッジが急旋回し、かつ/または予想されるように連結していない場合、連結性のみに基づいた判断は文字を2つのセグメントに「分割」してしまう場合がある。
最後に、この技法は、小さな(また多くの場合極めて重要な)文字ストリングの点、アクセント記号、および句読点を識別しない。
取り込み画像データ内の文字列を検出するシステムおよび方法を記載する。
文字のエッジが画像データ内で検出されて、画像データのエッジ表現が生成される。
エッジ表現は、関連する大きさおよび方向をそれぞれ有する複数の単一幅エッジピクセルを含む。
隣接するエッジピクセルのラベル付けに応じて、エッジピクセルラベルが割り当てられる。
一実施形態では、エッジピクセルのラベル付けはエッジピクセルの連結性に基づく。
別の実施形態では、エッジピクセルのラベル付けはさらにエッジピクセルの方向に基づく。
文字境界エリア画定部が、エッジ表現情報を使用するとともに、同様のエッジピクセルラベルに応じて作成される。
一実施形態では、文字画定部は、高文字曲率エリアにおける終点エッジピクセルを識別してリンクすることによって作成される。
文字境界画定部は方向情報を使用してフィルタリングされて、文字前景情報および文字背景情報が識別される。
一実施形態では、画定部は、文字境界エリア画定部の幾何学的形状および/またはグレースケール均一性のうちの一方または両方を解析することによってさらにフィルタリングされる。
フィルタリングされた画定部は、隣接する境界エリア画定部の互いの相対位置に応じて隣接する境界画定部と組み合わせられて、線画定部が形成される。
概して、本発明は、自然環境の取り込みデジタル画像から文字列を抜出するシステムおよび方法である。
本開示において述べる取り込み画像データは、少なくとも1つの文字列のグラフィック表現に対応する画像データの少なくとも一部を含むことに留意されたい。
取り込み画像データは、環境内で、文字列のグラフィック表現の周囲に自然に見られる他の被写体(たとえば、有生命被写体および無生命被写体)に対応する画像データをさらに含むことができる。
自然環境に掲示される標識に対応する画像データは、標識の外縁によって囲まれた線内に単一の言葉、語句、文章、または文字列のグラフィック表現を含む場合が多い。
図1Bは、自然環境の取り込み画像14内に見られる文字列13の一例を示す。
図示の方法によれば、まずエッジが検出されて、デジタル画像のエッジ表現が求められる(20)。
デジタル画像はカラーデジタル画像であっても、またはグレースケールデジタル画像であってもよいことに留意されたい。
一実施形態では、カラー画像をグレースケール画像に変換し、グレースケール画像を使用して画像のエッジ表現を得ることができる。
1つまたは複数の関連するデジタル成分値(たとえば、RGB値、CMYK値等)をそれぞれ有する複数のピクセルを含むカラー画像の場合、エッジ検出はカラー画像の各成分に対して行うことができる。
たとえば、画像がRGB色空間で表される場合、画像中のピクセルすべての赤色成分のみを解析して、デジタル画像のエッジ表現を得ることができる。
別法として、各成分または成分の組み合わせを使用して、デジタル画像のエッジ表現を生成することができる。
アルゴリズムは、検出されたエッジが複数ピクセル幅を有する場合であっても単一幅エッジピクセルを生成することに留意されたい。
このアルゴリズムは、参照により本明細書に援用される「A Computational Approach to Edge Detection」(J. Canny, IEEE Tran. PAMI, vol. 8, no. 6, 1986)に述べられている変形Cannyアルゴリズムを使用して実施することができる。
一般にCannyアルゴリズムは、文字が画像背景と独特の十分なコントラストを有すると想定し、それにより文字境界がこのアルゴリズムによって検出可能である。
同様の結果を提供する他のアルゴリズムも使用することができることに留意されたい。
まずデジタル画像が、ガウスフィルタまたは同様の拡散型フィルタを使用してフィルタリングされて、画像内のエッジの検出を妨害し得るいずれの雑音も除去する(30)。
次に画像データは、1)表現中の各エッジピクセルの大きさを表す中間エッジマップ(31A)、および2)前の隣接エッジピクセルとの関係に応じて各エッジピクセルへの方向を提供するエッジ方向マップ、を含むデジタル画像の単一ピクセル幅エッジ表現を生成するエッジ検出アルゴリズムによって処理される(31)。
図3Bはエッジ方向画定部の一実施形態を示す。
図示のように、エッジピクセルには、対象ピクセルが前の隣接エッジピクセルである対象ピクセルIへの相対方向を示す値1〜8を割り当てることができる。
中間エッジマップはしきい値処理フィルタによってフィルタリングされて、小さいエッジピクセルを除去し、二値エッジマップ33Aが生成される(32)。
まず、ラベル付けはピクセルの連結性に従って実行される(40)。
具体的には、すべてのN連結ピクセルが同じ値を有するように各ピクセルにラベル値が与えられる。
図4BはN連結ピクセルの概念を示し、ここでN=8である。
図示のように、エッジピクセルが、ラベル値L1を有する対象エッジピクセルIの周囲のいずれかのピクセル位置Pにある場合、そのエッジピクセル値もラベル値L1を有することになる。
次に、エッジピクセルが評価されて終点エッジピクセルが特定され(41)、次に、適切なラベルを割り当てるように終点エッジピクセルを他のエッジピクセルにリンクする(42)。
終点エッジピクセルを見つける目的は、エッジ検出(すなわち、図2のブロック20)中に誤って生成されたエッジ表現内の文字のエッジの途切れを識別することにある。
具体的には、エッジの検出に使用されるアルゴリズムに応じて、結果得られるエッジ表現の高曲率角に途切れが発生する場合がある。
一実施形態では、終点は以下のアルゴリズムに従って検出される。
エッジ表現中の各エッジピクセルp毎に、8近傍(図3Bに示すように)を評価し、k番目の近傍ピクセルがエッジピクセルである場合に「neighbor[k-1]=1」であり、その他の場合は「neighbor[k-1]=0」であるように8要素整数配列近傍を設定する。
さらに、整数の変数ncountが近傍中のエッジピクセルkの数に設定される。
(1)If(ncount>=3)、pは終点ではない。(6)に進む。
(2)If(ncount<=1)、pは終点である。(6)に進む。
(3)If((neighbor[2]==1 and neighbor[0]==1) or (neighbor[4]==1 and neighbor[0]==1))、pは終点ではない。(6)に進む。
(4)For(k=0; k<8; k++){
If((neighbor[k]==1) and (neighbor[(k+1)] mod 8]==1))、
pは終点である。(6)に進む。
}
(5)pは終点ではない。
(7)終了。
別の終点が近傍において検出される場合、評価プロセスが実行されて、これら2つの終点をリンクすることができるか否かがチェックされる。
2つの終点がリンクされる場合、2つの終点に関連するエッジピクセルにはすべて同じラベルが割り当てられる。
一実施形態では、この評価プロセスは、2つの終点をリンクする最適な最短距離経路を探索することによって設計される。
リンキングを適格なものにするために、この最適経路上のあらゆるピクセルは所定のしきい値を越える勾配を有する(このしきい値選択の一選択肢は、図3Aの32において使用されるものと同じしきい値を使用するというものである)。
2つの終点e1およびe2が(r1,c1)および(r2,c2)のそれぞれにあると想定する。
但し、rおよびcは画像全体の座標系に対する点の行および列の座標である。
((r1+r2)/2,(c1+c2)/2)が中心になるようにk×k矩形探索近傍(SNE)が終点対に対して定義される。
SNE内にある各8連結点対pおよびqについて、点qにおけるグレースケール勾配が所定のしきい値を越える場合はdist(p,q)=1であり、その他の場合はdist(p,q)=+∞であるようにpからqまでの距離が画定される。
画像のグレースケール勾配は、参照として本明細書に援用される「Digital Image Processing」(R. Gonzalez and R. Woods, Addison Wesley, 1992)に述べられているようにソーベル(Sobel)演算子を使用して計算可能であり、または図3Aに関連して上に述べたCannyアルゴリズムの副産物として得ることができることに留意する。
SNE内の各点から終点e1までの最短距離は、この距離画定部およびダイナミックプログラミングを用いて計算することができる。
より具体的には、SNE内の点pからの最短距離をSD(p)として表す場合、SD(p)は、
したがって、SD(e1)=0を開始点として定義し、最短距離関数がダイナミックプログラミングを用いてSNE内の各点について計算される。
終点リンキング評価のために、SD(e2)を使用する。
すなわち、2つの終点e1およびe2はSD(e2)が無限未満である場合にのみリンクされる。
図5は、文字エッジ53および対応する境界エリア(文字枠とも呼ぶ)の一例を示す。
文字枠画定部は、枠内の文字および枠自体の両方に関連する情報を提供する。
一実施形態では、エッジピクセルがラベル付けられると同時に、境界エリア画定部も作成されていることに留意されたい。
一実施形態では、文字枠は、文字および枠に関連する情報を含むデータ構造に従って定義される。
文字枠データ構造(BoxComp)の一例を以下に示す。
structure BoxComp
{
RECT rect;
Int col0;
Int row0;
Int h0;
Int textColor;
Int edgeIndex;
Int threshold;
}
BoxComp構造は文字枠の表現に必要な特徴フィールドを含む。
上に示す例では、rectが枠(または境界エリア)識別子に対応し、row0およびcol0は枠の中心座標に対応し(画像全体に対する座標系を想定して)、h0はピクセル数での枠の高さであり、textColorは文字が背景に対して暗い文字である(textColor=0)であるか、それとも背景に対して明るい文字であるか(textColor=1)を示し、edgeIndexは文字のエッジピクセルに使用されるラベル値を表し、thresholdは文字枠を二値ビットマップに変換する際に使用される推奨値である。
上の例に示すすべてのフィールドが必要であるわけではなく、後の処理ステップにおけるデータ構造を使用しやすくするために含んでよいことに留意されたい。
たとえば、高さh0は文字枠座標から容易に求められる。
したがって、実際の実施態様は速度要件とメモリ要件との間のトレードオフに基づいて決定されるべきである。
一実施形態では、作成される文字枠は、エッジピクセル座標情報から得られる枠の幾何学的座標情報(rect、col0、row0、h0)も含む。
終点リンキング中、リンクされたエッジピクセルの集合が結合され、共通の文字枠ラベルが再びラベル付けられる。
文字枠をフィルタリングする目的は、枠のいくつかが、誤って文字枠と特定された文字列以外の画像データに対応する場合があることにある(本明細書では負の文字候補と呼ぶ)。
枠をフィルタリングすることにより、真の文字枠(本明細書では正の文字候補と呼ぶ)からこういった誤った枠が検出される。
さらに、方向情報を使用して文字の背景および前景を識別することができ、したがって方向情報を使用して、特定された背景および前景を解析して、文字枠が正の文字候補であるか、それとも負の文字候補であるかを判断することができる。
位相解析は2つのフィルタリングプロセスを含む。
第1のプロセスでは、ラスタ走査投影線を使用して、ピクセル線単位で文字枠候補内のすべてのエッジピクセルと交差する(図6A)。
投影線に沿った最初と最後の交点がP1およびP2と表される(線に沿って交点が2つしかないと想定するものではないことに留意する)。
対になった各エッジピクセルの方向情報が、前に求められたエッジ表現情報、特に方向情報から得られる。
対になった各エッジピクセル毎に、グレースケール勾配ベクトルが投影方向に投影される。
投影された勾配ベクトルは、各交点での輝度変化を特徴付け、したがって前景が背景よりも暗いか、それとも明るいかを示す。
たとえば、図6Bでは、交点P1において、投影された勾配ベクトルの方向により、前景がより暗く、背景がより明るいことが示される(勾配はグレースケールの低い方から高い方を指す)。
同じ原理がP2にも当てはまる(P2では、前景色と勾配投影方向の間の関係がP1において用いられるものとは逆であることに留意する)。
交点におけるグレースケール勾配ベクトルがラスタ走査投影線に垂直な場合、投影勾配ベクトルはゼロであり、前景色についての指示を得ることができないことに留意されたい。
一実施態様では、最終投影勾配ベクトルの大きさではなく方向が前景/背景解析に使用されるため、上記勾配投影情報(大きさ情報および方向情報を含む)が必要ないことに留意する。
一実施形態では、勾配方向は、エッジ方向マップ(図3Aの構成要素33B)の形で表される、図4Bに示すように8つの離散値に量子化することができ、方向解析をエッジ方向マップに基づいて実行することができる。
投影線プロセスは、垂直方向および水平方向それぞれにおいて候補枠全体にわたってラスタ走査様式で実行される。
マッチ対をもたらす投影線の割合は、投影測定値(projection measure)として使用される。
一実施形態では、投影線の75%を越える投影測定値を有する候補枠が正の候補とみなされる。
上に示したように、候補枠の前景/背景色(明るいか、または暗いか)は、エッジピクセルのエッジ方向マップから類推することができる。
しかし、異なるエッジピクセル対から類推される前景色は、1つの候補枠で同じではない場合がある。
テキスト領域に対応する正の候補枠の場合、前景/背景色指示(エッジ方向マップに基づく)はかなり一貫性があるはずであるが、非テキスト雑音を表す負の候補枠の場合、前景/背景色指示は、雑音信号のランダム特徴に似ている。
したがって、エッジピクセルの前景/背景色指示統計に対する一貫性測定が、正の候補枠から負の候補枠を分離する良好なフィルタリング測定としての役割を果たす。
エッジピクセルの大半が同じ前景色指示(「+」または「−」)を有する枠のみが、このフィルタリングプロセスを乗り越える。
さらにフィルタリングステップは、文字枠データ構造のtextColorフィールドをもたらし、textColorフィールドは後に、文字枠を二値化する際に使用される。
具体的には、まず幾何学的解析70が各枠に対して実行される。
幾何学的解析は本質的に、各候補枠のサイズ(ピクセル数で)およびアスペクト比を測定する。
適切なサイズおよびアスペクト比を有する枠のみが次に、後のフィルタリング解析中に考慮される。
幾何学的解析に通らなかった残りの候補は負の候補72Bとして記憶される。
一実施形態では、幾何学的解析は位相解析71に先立って実行される。
位相解析71は、上に述べたように幾何学的解析70からフィルタリングされた候補に対して実行される。
位相解析は、エッジ検出中に得られた方向情報を使用して、文字枠の考えられる前景および背景を識別する。
位相解析基準に通らない文字枠は負の候補とみなされ、幾何学的解析中に判断された負の候補とともに記憶される。
位相基準に通った候補は次に、グレースケール解析72中に考慮される。
次に分布を用いて、前景と背景の間のコントラストを示すことができる。
十分なコントラストが存在する場合、枠は正の候補であるとみなされる。
図7Bは、本発明によるグレースケール解析の一実施形態を示す。
まず枠のサイズが評価されて、グレースケール解析を実行するに十分大きいか否かが判断される(73)(一実施形態では、枠の高さがしきい値と比較される)。
枠が小さすぎる(たとえば、高さがしきい値未満である)場合、統計学的解析は小さなピクセル値母集団に対しては確実に実行することができないため、枠は迂回する。
迂回した枠は正の候補であると想定される。
枠が分布解析に十分大きな母集団の値を提供する場合、元の取り込み画像のグレースケール画像を使用して二値化される(74)。
枠の二値化は、候補枠ピクセルを元画像のグレースケール版中の対応するピクセルに再びマッピングし、次に二値化関数を使用して候補枠のグレースケール画像を候補枠の二値ビットマップに変換することによって実行される。
枠が二値化されると、分布解析が枠の二値ビットマップに対して実行される。
所与の二値枠の前景ピクセルおよび背景ピクセルのグレースケール平均および標準偏差はgf、gb、σf、およびσbとしてそれぞれ定義される。
背景ピクセルと前景ピクセルの間のコントラストcは、以下に示す式2に従って定義される。
式2 c=exp(((gf−gb)2)/σf 2)+exp(((gf−gb)2)/σb 2)
ブロック76(図7B)に示すように、二値枠のコントラストが許容可能値を越える(すなわち、十分に高い)場合、枠は正の候補とみなされる。
越えない場合は負の候補とみなされ、残りの負の候補72B(図7A)とともに保存される。
一実施形態によれば、線は水平であるとみなされる。
本発明の別の実施形態では、線画定部は、所与の線について組み合わせられた境界エリア画定部を追跡するデータ構造によって実施される。
図8Aは、データ構造80および組み合わせられた境界エリア画定部81〜84との関係の一例を示す。
図示のように、データ構造は以下のデータフィールドを含む。
すなわち、rectは組み合わせられた、または結合された文字枠の線画定部を識別し、child_numは、この線画定部を作成するために結合された文字枠(子枠とも呼ぶ)の数である。
一実施形態では、データ構造80は、BoxCompデータ構造において表されるすべての子枠の容器として機能する。
言い換えれば、子枠は、テキスト線におけるそれぞれの空間的関係に基づいて双方向リストデータ構造(BoxCompを埋め込む)を使用してリンクされる。
すなわち、枠Aが枠Bの左側に空間的にある場合、枠Aはリスト中の枠Bの前にリンクされる。
枠の空間的関係は、それぞれを包含する矩形の中心点を使用して求めることができる。
このリスト設計によれば、2つのデータフィールド、すなわちleft_ptrおよびright_ptrが、線構造の左側および右側のそれぞれで文字枠のBoxCompデータ構造に繋がる2つのポインタとして含まれる。
これら2つのポインタを使用して、それぞれの空間的関係に関わる子枠に素早くアクセスすることができる。
別の正の候補がエリアに重複していることが見つかる場合、その別の正の候補は現在の線に結合され、次に新しい線画定部の周囲の近傍エリアが探索される。
正の候補が、線に関連するいずれの候補を中心にする所与の線についてもそれ以上見つからない場合、新しい候補に新しい線画定部が割り当てられ、プロセスが繰り返される。
正の候補の線への結合を実施するアルゴリズムの一実施形態について以下述べる。
入力:正の候補
出力:線画定部配列
(1)正の候補がそれ以上ない場合、(6)に進む。
(2)現在の正の候補を得て、現在の線画定部を割り振り、現在の候補を線画定部に加える。
(3)現在の線画定部の境界エリアの予め規定された近傍を見て、他に正の候補がこの近傍に重複しているか否かを調べる。ない場合、(1)に進む。
(4)現在の線画定部と結合することができる場合、現在の線画定部に加える。
(5)(3)に進む。
(6)終了。
上に示すプロセスの(4)の結合基準は、重複した候補を、線画定部の3つの他の関連する文字枠、すなわち対象の現在の線に関連する収容枠および線画定部の左右両方の子枠、と比較する。
結合基準を満たすには、重複した候補枠は、左右いずれかの子枠と同様の高さ、および/または左右の子枠の高さの間にある高さを有することが必要である。
候補枠は、図8Aの枠81〜84の間の単方向矢印によって表される、同じ線画定部の候補間にリンクを作成することによって「加え」られる。
たとえば、下付き文字「i」および「j」の点、様々なアクセント記号、および句読点が、文字であるには小さすぎるため、または水平に並んでいないために前の処理ステップ中に除外されている場合がある。
こういった「他の文字」要素は、線画定部情報、およびそれまでにフィルタリングされて除外され、記憶されている負の候補文字枠を使用して見つけられる。
一般に、負の候補枠は、サイズおよび文字枠への近接度が与えられた上で、各線中の文字枠に対するそれぞれの関係を鑑みて評価される。
図8Bを参照すると、より具体的には、各線包含枠85、候補枠86A〜86Dそれぞれの周囲の予め規定されたエリア87Aおよび87Bが、特定の特徴(たとえば、サイズ)を有する負の候補を求めて探索される。
一実施形態では、これら「他の文字」要素は、以下のプロセスに従って見つけられ、線画定部に結合される。
(1)各L容器毎に、点探索エリアを画定する。
(2)N容器を見て、いずれかの枠が点探索エリアにほぼ重複するか否かを調べる。
(3)重複する各枠毎に、欠けている点として適合するに適切なサイズ範囲にあるか否かを調べる。適切なサイズ範囲にある場合、L容器に結合させる。
但し、L容器は線画定部に対応し、N容器は負の候補枠に対応する。
その代わり、前のフィルタリング手順から得られる負の候補枠はすべて、メモリの消費を低減するために記憶されることなく破棄される。
この場合、「他の文字」要素は、予め規定される近傍エリア87Aおよび87Bにおいてのみ図4Aで述べた文字枠生成方法を繰り返すことによって見つけられる。
これら文字枠が首尾良く生成され、次に評価されて「他の文字」が見つけられると、これら文字枠を上に述べたように線画定部に結合することによってさらに処理することができる。
図9Aは文字枠の二値化の一実施形態を示す。
まず文字枠が評価されて、十分に大きいか否かが判断される(90)。
具体的には、エッジ変調二値化(91)は、正確な結果を得るには最小限の母集団を必要とする統計学的演算である。
枠のサイズ(すなわち、ピクセル数)が十分に大きくない場合は、従来のしきい値処理は文字枠のグレースケール版に対して実行されて、二値文字枠が得られる。
一実施形態では、枠の高さ(文字枠画定部から得られる)がしきい値と比較される。
高さがしきい値未満の場合、しきい値処理(92)が実行される。
高さがしきい値未満ではない場合は、エッジ変調二値化(91)が実行されて、二値文字枠が得られる。
図9Bを参照すると、まず近傍枠94が文字枠93に対して画定される。
一実施形態では、近傍枠94は、文字枠93を1.1〜1.2倍拡張することによって得られる。
ラスタ走査手順が使用されて、近傍枠内の文字枠を線毎に走査する。
ラスタ走査が文字枠内の文字のエッジと交差すると、交点が左から右にp1,p2,p3,・・・,pNとラベル付けられる。
さらに、ラスタ走査が近傍枠と交差する点がp0およびp(N+1)とラベル付けられる。
これらN+2個の交点が一緒になって、ピクセル線をN+2個のセグメント(p0,p1),(p1,p2),・・・,(p(N),p(N+1))に分ける。
セグメント表記は(p(k),p(k+1))と画定され、ラスタ走査線上の点p(k)とp(k+1)の間にあるピクセルを表す。
一実施形態では、二値化プロセスが各ピクセルセグメントに前景および背景という2つの二値カテゴリを割り当てる。
このプロセスによって二値化されている要素はピクセルセグメントであることから、二値化プロセスは「エッジ変調二値化」と呼ばれる。
これは、ピクセルセグメントではなく個々のピクセルを二値化する一般的な従来技術による二値化アルゴリズムとは対照的である。
言い換えれば、本発明者らは、1つのセグメント中のピクセルは、前景あるいは背景という同じ二値カテゴリに属すべきであると想定する。
図6に関連して上に述べたように、各交点対(p(k)、p(k+1))は、2点の投影勾配ベクトルの方向に応じて「マッチする」か、あるいは「マッチしない」。
したがって、点対(p(k)、p(k+1))が前に「マッチ」していた場合、「マッチする」点の対によって特定されるセグメントは、前に求められた文字枠textcolorフィールド(図7Aの位相解析71中に求められる)に基づいて前景(F)セグメントまたは背景(B)セグメントのいずれかとして分類することができる。
対が「マッチしない」場合、こういったセグメントは不確実(U)として分類される。
これら交点対は次に、上に述べたように前景(F)、背景(B)、および不確実(U)にさらに分類することができる。
(1)N(gf,σf)およびN(gb,σb)として表す2つのガウスモデルが、(F)セグメントおよび(B)セグメントのグレースケール分布にそれぞれ適合される。
但し、gf(gb)およびσf(gb)は、前景(背景)ピクセルのガウス分布の平均および標準偏差を表す。
(2)2つのガウスモデル間の重み付き距離を測定する。
式3 距離=exp(((gf−gb)2)/σf 2)+exp(((gf−gb)2)/σb 2)
距離がしきい値未満の場合、(U)グループからのピクセルは、(F)モデルおよび(B)モデルまでのそれぞれの距離に基づいて(F)グループまたは(B)グループのいずれかに分類され、(4)に進む。
(3)前景セグメント(F)および背景セグメント(B)のピクセルを初期化データとして使用してEMアルゴリズムを実行して、M個の線分を2つのガウスモデルにグループ化する。
(4)終了。
(3)において、EMアルゴリズムについては、参照により本明細書に援用される「Maximum likelihood from incomplete data via the EM algorithm」(A. P. Dempster, N. M. Laird, and D. B. Rubin, Journal of Royal Statistical Society, ser. B, vol. 39, pages 1 - 38, 1977)に述べられている。
図示のように、取り込み画像データはコンバータ100Aによってグレースケール画像データに変換される。
このデータはエッジ検出器100Bに提供される。
別法として、取り込み画像データはエッジ検出器100Bに直接提供される。
エッジ検出器100Bは、エッジマップの形の大きさ情報、およびエッジ方向マップの形の方向情報を含む取り込み画像データのエッジ表現を生成する。
画定部作成器101は、隣接ピクセルへの近接度に応じて、またエッジピクセルの方向情報に応じてエッジマップ中の各エッジピクセルをラベル付けるエッジピクセルラベラー101Aを少なくとも備える。
さらに、画定部作成器101は任意選択で、エッジにおける意図的ではない区切点および単一の連続したエッジへの、特定された区切点に関連する結合(再ラベル付けにより)エッジを特定する終点検出器101Bおよび終点リンカ01Cを備える。
ラベル付けられたエッジが使用されて、境界エリア画定部(候補枠とも呼ばれる)が作成される。
さらに、文字枠フィルタ102は任意選択で、幾何学的形状解析器102Bおよびグレースケール解析器102Cを備える。
幾何学的形状解析器102Bは、アスペクト比が期待されるしきい値内にない場合、候補枠をフィルタリングして除外する。
言い換えれば、アスペクト比が、枠が文字列中の文字を表す可能性が低いようなものである場合、フィルタリングされる。
グレースケール解析器102Cは、元のデジタル画像のグレースケール版に対して統計学的解析を実行して、各枠の前景および背景のグレースケール分布を測定する。
分布を使用して、前景と背景の間のコントラストを示す。
十分なコントラストが存在する場合、枠は正の候補と考えられる。
候補枠フィルタ102は、正および負の候補枠の両方を生成する。
正の候補結合器103Aは、正の各候補周囲の所定のエリア内を探索して、他の正の候補を見つける。
正の候補がエリア内で見つけられた場合、線画定部に結合される。
「他の文字」要素検出器103Bは、負の候補を処理して、句読点等、文字以外の文字記号に対応する正の候補周囲に予め規定されたエリア内にある文字枠を識別する。
識別された「他の文字」候補は次に、対応する線画定部と結合される。
しかし、こういった特定の詳細は本発明の実施に使用する必要がないことが当業者には明らかであろう。
さらに、例示として図示し説明した特定の実施形態は決して限定を意味するものではないことを理解されたい。
こういった実施形態の詳細への言及は特許請求の範囲を限定するように意図されていない。
30・・・ローパスフィルタ,
31・・・エッジ検出,
32・・・しきい値フィルタ,
33A・・・二値エッジマップ,
33B・・・エッジ方向マップ,
100A・・・グレースケールコンバータ,
100B・・・エッジ検出器,
101・・・境界エリア画定部作成器,
101A・・・エッジピクセルラベラー,
101B・・・終点検出器,
101C・・・終点リンキング,
102・・・候補枠フィルタ,
102A・・・位相解析器,
102B・・・幾何学的解析器,
102C・・・グレースケール解析器,
103・・・線画定部作成器,
103A・・・正の候補枠結合器,
103B・・・他の文字要素検出器,
104・・・二値化器,
Claims (10)
- 少なくとも1つの文字列に対応する画像データを含む取り込み画像データを処理する方法であって、
前記画像データ内のエッジを検出して(20)、前記検出されたエッジを単一ピクセル幅で表すように関連付けられた複数のエッジピクセルを含み、少なくとも、各エッジピクセルのピクセル値情報および隣接するエッジピクセルとの位置関係を示す方向情報を含むエッジ表現を生成することと、
隣接する他のエッジピクセルにエッジピクセルラベルが付されているときに、各エッジピクセルに、隣接するエッジピクセルと同じエッジピクセルラベルを割り当てること(21)と、
方向情報を使用するとともに、前記割り当てられたエッジピクセルラベルに応じて、同じエッジピクセルラベルが割り当てられたエッジピクセル全てを含むエッジピクセル枠を定義すること(22)と、
方向情報を使用して、前記定義されたエッジピクセル枠をフィルタリングすること(23)により、前記定義されたエッジピクセル枠から、誤ってエッジピクセル枠であると特定された負のエッジピクセル枠を識別することと、
隣接するエッジピクセル枠の互いの相対位置に応じて、フィルタリングされた前記隣接するエッジピクセル枠において、前記負のエッジピクセル枠以外の正のエッジピクセル枠を結合する結合線を定義すること(24)と
を含む方法。 - 前記エッジピクセルをラベルすることは、終点エッジピクセルを識別することに依存する
請求項1記載の方法。 - 前記方向情報を使用してフィルタリングすることは、
寸法補助線を使用してエッジピクセル枠を走査することであって、エッジピクセル対および各エッジピクセル対の関連する勾配ベクトルを識別して、前記対の関連する前記負のエッジピクセル枠と前記正のエッジピクセル枠とを評価すること
をさらに含む
請求項1記載の方法。 - 前記方向情報を使用してフィルタリングすることは、
前記エッジピクセル対の前記勾配ベクトル情報を統計学的に解析することであって、それによって各エッジピクセル枠に関連する前景の明暗を識別すること
をさらに含む
請求項3記載の方法。 - 前記フィルタリングすることは、
前記エッジピクセル枠の幾何学的特徴を解析すること
をさらに含む
請求項1記載の方法。 - 前記フィルタリングすることは、
方向情報からエッジピクセル対を識別することであって、前記エッジピクセル枠から、前記負のエッジピクセル枠と前記正のエッジピクセル枠とを識別すること
をさらに含む
請求項1記載の方法。 - 前記フィルタリングすることは、
前記エッジピクセル枠のグレースケール特徴を解析することであって、前記エッジピクセル枠から、前記負のエッジピクセル枠と前記正のエッジピクセルと枠とを識別すること
をさらに含む
請求項1記載の方法。 - 前記結合線を定義することは、
a)現在の前記正のエッジピクセル枠を現在の結合線に割り当てることと、
b)前記現在の線付近にある予め画定されたエリアを探索することと、
c)前記予め画定されたエリアに少なくとも重複する新しいエッジピクセル枠を見つけることと、
d)前記新しいエッジピクセル枠を前記現在の結合線に結合することと、
e)新しいエッジピクセル枠がなくなるまでb)〜d)を繰り返すことと
を含む
請求項1記載の方法。 - 各エッジピクセル枠の前景および背景のピクセルセグメント全体を二値化することにより、各結合線に関連する各エッジピクセル枠を二値化すること
をさらに含む請求項1記載の方法。 - 少なくとも1つの文字列に対応する画像データを含む取り込み画像データを処理するシステムであて、
前記画像データ内のエッジを検出して、前記検出されたエッジを単一ピクセル幅で表すように関連付けられた複数のエッジピクセルを含み、少なくとも、各エッジピクセルのピクセル値情報および隣接するエッジピクセルとの位置関係を示す方向情報を含むエッジ表現を生成するエッジ検出器(100B)と、
隣接する他のエッジピクセルにエッジピクセルラベルが付されているときに、隣接するエッジピクセルと同じエッジピクセルラベルを各エッジピクセルに割り当てるエッジピクセルラベラーを少なくとも備え、方向情報を使用するとともに、前記割り当てられたエッジピクセルラベルに応じて、同じエッジピクセルラベルが割り当てられたエッジピクセル全てを含むエッジピクセル枠を定義するエッジピクセル枠定義器(101)と、
方向情報を使用してエッジピクセル枠をフィルタリングすることにより、エッジピクセル枠から、誤ってエッジピクセル枠と特定された負のエッジピクセル枠と、前記負のエッジピクセル以外の正のエッジピクセル枠とを識別するエッジピクセル枠フィルタ(102)と、
隣接するエッジピクセル枠の互いの相対位置に応じて、フィルタリングされた前記隣接するエッジピクセル枠において、前記負のエッジピクセル枠以外の正のエッジピクセル枠を結合する結合線を定義する結合線定義器(103)と
を備えるシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/126,151 US20030198386A1 (en) | 2002-04-19 | 2002-04-19 | System and method for identifying and extracting character strings from captured image data |
PCT/US2003/012131 WO2003090155A1 (en) | 2002-04-19 | 2003-04-17 | System and method for identifying and extracting character strings from captured image data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005523530A JP2005523530A (ja) | 2005-08-04 |
JP4323328B2 true JP4323328B2 (ja) | 2009-09-02 |
Family
ID=29214951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003586825A Expired - Fee Related JP4323328B2 (ja) | 2002-04-19 | 2003-04-17 | 取り込み画像データから文字列を識別して抜出するシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20030198386A1 (ja) |
EP (1) | EP1497787B1 (ja) |
JP (1) | JP4323328B2 (ja) |
AU (1) | AU2003221718A1 (ja) |
DE (1) | DE60303202T2 (ja) |
WO (1) | WO2003090155A1 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392472B2 (en) * | 2002-04-25 | 2008-06-24 | Microsoft Corporation | Layout analysis |
US7164797B2 (en) * | 2002-04-25 | 2007-01-16 | Microsoft Corporation | Clustering |
US7263227B2 (en) * | 2002-04-25 | 2007-08-28 | Microsoft Corporation | Activity detector |
US7043079B2 (en) * | 2002-04-25 | 2006-05-09 | Microsoft Corporation | “Don't care” pixel interpolation |
US7024039B2 (en) * | 2002-04-25 | 2006-04-04 | Microsoft Corporation | Block retouching |
US7711375B2 (en) * | 2002-08-06 | 2010-05-04 | Hang Liu | Method and system for determining a location of a wireless transmitting device and guiding the search for the same |
US20040096102A1 (en) * | 2002-11-18 | 2004-05-20 | Xerox Corporation | Methodology for scanned color document segmentation |
US7564969B2 (en) * | 2003-04-01 | 2009-07-21 | Sytex, Inc. | Methodology, system and computer readable medium for detecting file encryption |
US7561753B2 (en) * | 2004-01-09 | 2009-07-14 | The Boeing Company | System and method for comparing images with different contrast levels |
CN100369478C (zh) * | 2004-02-18 | 2008-02-13 | 华亚微电子(上海)有限公司 | 基于方向性插值的图像边缘平滑方法 |
US20050204335A1 (en) * | 2004-03-11 | 2005-09-15 | Microsoft Corporation | Affinity regions on visual design surfaces |
CN100369049C (zh) * | 2005-02-18 | 2008-02-13 | 富士通株式会社 | 灰度字符的精确分割装置及方法 |
US7487438B1 (en) * | 2005-03-08 | 2009-02-03 | Pegasus Imaging Corporation | Method and apparatus for recognizing a digitized form, extracting information from a filled-in form, and generating a corrected filled-in form |
US8031940B2 (en) | 2006-06-29 | 2011-10-04 | Google Inc. | Recognizing text in images using ranging data |
US8098934B2 (en) | 2006-06-29 | 2012-01-17 | Google Inc. | Using extracted image text |
KR100833346B1 (ko) | 2007-01-03 | 2008-05-28 | (주)폴리다임 | 디스플레이 장치에 표시된 문자 이미지의 픽셀 단위 가로폭 측정 방법 |
US8228522B2 (en) * | 2007-01-29 | 2012-07-24 | Kabushiki Kaisha Toshiba | Document data management apparatus to manage document data read and digitized by an image reading apparatus and a technique to improve reliability of various processing using document data |
US8260057B2 (en) * | 2007-07-12 | 2012-09-04 | Ricoh Company, Limited | Image processing apparatus that obtains a ruled line from a multi-value image |
JP5161311B2 (ja) * | 2007-09-19 | 2013-03-13 | トムソン ライセンシング | 画像をスケーリングするシステムおよび方法 |
US8917935B2 (en) | 2008-05-19 | 2014-12-23 | Microsoft Corporation | Detecting text using stroke width based text detection |
US8526732B2 (en) * | 2010-03-10 | 2013-09-03 | Microsoft Corporation | Text enhancement of a textual image undergoing optical character recognition |
US8509534B2 (en) * | 2010-03-10 | 2013-08-13 | Microsoft Corporation | Document page segmentation in optical character recognition |
US8805095B2 (en) * | 2010-12-03 | 2014-08-12 | International Business Machines Corporation | Analysing character strings |
US8331670B2 (en) * | 2011-03-22 | 2012-12-11 | Konica Minolta Laboratory U.S.A., Inc. | Method of detection document alteration by comparing characters using shape features of characters |
KR101829459B1 (ko) * | 2011-07-14 | 2018-02-14 | 엘지디스플레이 주식회사 | 영상처리방법과 이를 이용한 입체영상 표시장치 |
JP2013070212A (ja) * | 2011-09-22 | 2013-04-18 | Fuji Xerox Co Ltd | 画像処理装置、画像処理プログラム |
RU2631164C2 (ru) * | 2011-12-08 | 2017-09-19 | Общество с ограниченной ответственностью "Базелевс-Инновации" | Способ анимации sms-сообщений |
US8837830B2 (en) * | 2012-06-12 | 2014-09-16 | Xerox Corporation | Finding text in natural scenes |
CN102930262B (zh) * | 2012-09-19 | 2017-07-04 | 北京百度网讯科技有限公司 | 一种从图像中提取文字行的方法及装置 |
US10339406B2 (en) * | 2013-03-15 | 2019-07-02 | Orcam Technologies Ltd. | Apparatus and method for using background change to determine context |
US9058539B2 (en) | 2013-04-16 | 2015-06-16 | Canon Kabushiki Kaisha | Systems and methods for quantifying graphics or text in an image |
US20140314314A1 (en) * | 2013-04-23 | 2014-10-23 | Canon Kabushiki Kaisha | Systems and methods for quantifying graphics or text in an image |
US9520102B2 (en) * | 2013-04-29 | 2016-12-13 | International Business Machines Corporation | Text extraction from graphical user interface content |
CN104298982B (zh) | 2013-07-16 | 2019-03-08 | 深圳市腾讯计算机系统有限公司 | 一种文字识别方法及装置 |
US9087272B2 (en) * | 2013-07-17 | 2015-07-21 | International Business Machines Corporation | Optical match character classification |
US9495606B2 (en) | 2014-02-28 | 2016-11-15 | Ricoh Co., Ltd. | Method for product recognition from multiple images |
US9036083B1 (en) * | 2014-05-28 | 2015-05-19 | Gracenote, Inc. | Text detection in video |
IL237548B (en) * | 2015-03-04 | 2020-05-31 | Au10Tix Ltd | Character categorization methods are adopted for use, for example, as a gateway to authentication systems |
RU2603495C1 (ru) * | 2015-06-16 | 2016-11-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Классификация изображений документов на основе параметров цветовых слоев |
CN106709484B (zh) * | 2015-11-13 | 2022-02-22 | 国网吉林省电力有限公司检修公司 | 数字式仪表的数字识别方法 |
CN106023191B (zh) * | 2016-05-16 | 2018-11-27 | 山东建筑大学 | 一种基于结构特征的光学刻划字符边缘提取和边缘拟合方法 |
US9965871B1 (en) * | 2016-12-30 | 2018-05-08 | Konica Minolta Laboratory U.S.A., Inc. | Multi-binarization image processing |
CN110532855B (zh) * | 2019-07-12 | 2022-03-18 | 西安电子科技大学 | 基于深度学习的自然场景证件图像文字识别方法 |
US11087163B2 (en) | 2019-11-01 | 2021-08-10 | Vannevar Labs, Inc. | Neural network-based optical character recognition |
CN111027560B (zh) * | 2019-11-07 | 2023-09-29 | 浙江大华技术股份有限公司 | 文本检测方法以及相关装置 |
US11721119B2 (en) * | 2020-12-18 | 2023-08-08 | Konica Minolta Business Solutions U.S.A., Inc. | Finding natural images in document pages |
CN112669302B (zh) * | 2020-12-30 | 2023-07-28 | 北京市商汤科技开发有限公司 | 吊弦缺陷检测方法、装置、电子设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5321770A (en) * | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
US6005976A (en) * | 1993-02-25 | 1999-12-21 | Fujitsu Limited | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions |
JP3345224B2 (ja) * | 1995-03-06 | 2002-11-18 | 富士通株式会社 | パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置 |
US5999647A (en) * | 1995-04-21 | 1999-12-07 | Matsushita Electric Industrial Co., Ltd. | Character extraction apparatus for extracting character data from a text image |
US5892843A (en) * | 1997-01-21 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Title, caption and photo extraction from scanned document images |
US6366699B1 (en) * | 1997-12-04 | 2002-04-02 | Nippon Telegraph And Telephone Corporation | Scheme for extractions and recognitions of telop characters from video data |
US6614930B1 (en) * | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
-
2002
- 2002-04-19 US US10/126,151 patent/US20030198386A1/en not_active Abandoned
-
2003
- 2003-04-17 JP JP2003586825A patent/JP4323328B2/ja not_active Expired - Fee Related
- 2003-04-17 AU AU2003221718A patent/AU2003221718A1/en not_active Abandoned
- 2003-04-17 WO PCT/US2003/012131 patent/WO2003090155A1/en active IP Right Grant
- 2003-04-17 DE DE60303202T patent/DE60303202T2/de not_active Expired - Lifetime
- 2003-04-17 EP EP03718458A patent/EP1497787B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1497787A1 (en) | 2005-01-19 |
EP1497787B1 (en) | 2006-01-11 |
DE60303202T2 (de) | 2006-08-10 |
DE60303202D1 (de) | 2006-04-06 |
AU2003221718A1 (en) | 2003-11-03 |
US20030198386A1 (en) | 2003-10-23 |
JP2005523530A (ja) | 2005-08-04 |
WO2003090155A1 (en) | 2003-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4323328B2 (ja) | 取り込み画像データから文字列を識別して抜出するシステムおよび方法 | |
Khotanzad et al. | Contour line and geographic feature extraction from USGS color topographical paper maps | |
US10817741B2 (en) | Word segmentation system, method and device | |
Cheung et al. | An Arabic optical character recognition system using recognition-based segmentation | |
US6339651B1 (en) | Robust identification code recognition system | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
JPH06309498A (ja) | 画像抽出方式 | |
Zoizou et al. | A new hybrid method for Arabic multi-font text segmentation, and a reference corpus construction | |
WO2020061691A1 (en) | Automatically detecting and isolating objects in images | |
US5113453A (en) | Character recognition method and apparatus | |
IL98293A (en) | A method for distinguishing between text and graphics | |
Tung et al. | Binarization of uneven-lighting image by maximizing boundary connectivity | |
Tse et al. | An OCR-independent character segmentation using shortest-path in grayscale document images | |
Malakar et al. | An improved offline handwritten character segmentation algorithm for Bangla script. | |
Lai et al. | Binarization by local k-means clustering for Korean text extraction | |
JP3268552B2 (ja) | 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置 | |
Velu et al. | Automatic letter sorting for Indian postal address recognition system based on pin codes | |
JP3476595B2 (ja) | 画像領域分割方法、および画像2値化方法 | |
US6901168B1 (en) | Method for segmenting and identifying a document, in particular a technical chart | |
Sherkat et al. | Use of colour for hand-filled form analysis and recognition | |
Ghaleb et al. | Graph modeling based segmentation of handwritten Arabic text into constituent sub-words | |
Sambyal et al. | Connected component based English character set segmentation | |
Bushofa et al. | Segmentation and Recognition of Printed Arabic Characters. | |
JPH09305707A (ja) | 画像抽出方式 | |
Yang et al. | A skeleton based binarization approach for video text recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080509 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080806 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081106 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090210 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090604 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120612 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130612 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |