JP2005523530A - 取り込み画像データから文字列を識別して抜出するシステムおよび方法 - Google Patents

取り込み画像データから文字列を識別して抜出するシステムおよび方法 Download PDF

Info

Publication number
JP2005523530A
JP2005523530A JP2003586825A JP2003586825A JP2005523530A JP 2005523530 A JP2005523530 A JP 2005523530A JP 2003586825 A JP2003586825 A JP 2003586825A JP 2003586825 A JP2003586825 A JP 2003586825A JP 2005523530 A JP2005523530 A JP 2005523530A
Authority
JP
Japan
Prior art keywords
edge
character
information
pixel
boundary area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003586825A
Other languages
English (en)
Other versions
JP4323328B2 (ja
Inventor
フイタオ・ルオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2005523530A publication Critical patent/JP2005523530A/ja
Application granted granted Critical
Publication of JP4323328B2 publication Critical patent/JP4323328B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 取り込まれた自然画像の画像データ内の文字列を検出して抜出するシステムおよび方法を提供する。
【解決手段】 関連する大きさおよび方向をそれぞれ有する複数の単一幅エッジピクセルを含む画像データのエッジ表現が得られる(20)。各ピクセルは、ピクセルの連結性に応じてラベルされる(21)。終点エッジピクセルが識別され、それぞれのラベルが高文字曲率エリアで結合される。文字境界エリア画定部が、エッジピクセルの方向情報およびラベルを使用して作成される(22)。文字境界画定部が方向情報を使用してフィルタリングされて、文字前景情報および文字背景情報が識別される(23)。フィルタリングされた画定部は、隣接する境界エリア画定部の互いの相対位置に応じて隣接する境界画定部と結合されて、文字線画定部が形成される(24)。

Description

[発明の分野]
本発明は、画像データから文字列を識別して抜出するシステムおよび方法に関し、詳細には、本開示は、複雑な自然のシーンの取り込み画像データに見られる文字列を識別して抜出するシステムおよび方法を提供する。
[発明の背景]
デジタル画像が普及しデジタル画像を取り込みやすくなったことにより、取り込み画像データの画像内容を解析して識別することが可能なことが望ましくなっており、時によっては必要になっている。
一例として、文書を走査する場合、走査されて取り込まれた文書データは、文書中の各種画像データを別様に処理するために分離されて抜出されることが多い。
走査文書内に含まれることが多い様々な種類の画像データとしては、英数字テキスト、自然の画像、およびグラフィック画像が挙げられる。
走査文書画像データ内のテキストに対応する画像データは、自然の画像データまたはグラフィック画像データとは別様に処理されて強調されることが多い。
多くの場合、抜出されたテキストは後に、光学文字認識ソフトウェアを通して処理され、テキストをデジタルビットマップフォーマットから電子編集が可能な符号化フォーマットに変換することができる。
走査文書の場合、もたらされるテキストビットマップを背景と明らかに異なるように走査プロセスの品質が容易に制御されるため、テキスト画像データは文書画像のデジタルビットマップフォーマットから容易に識別され抜出される。
たとえば、明るい背景上に暗色のテキストがある場合、明るい背景から暗いテキストに移る際に大きな勾配があり、また暗いテキストから明るい背景に移る際に第2の勾配がある。
画像データからテキストデータを抜出するように設計されたフィルタは当分野において既知であり、一般に、こういった大きな勾配を検出することに基づいてテキストデータを識別して抜出する。
走査文書中のテキストを識別する別の既知の技法はしきい値処理と呼ばれる。
しきい値処理技法は、画像中のテキストが特定の輝度を有し、その一方で他の画像データタイプは特定の輝度を有さないと想定する。
文書画像データが解析されて、文書画像のデジタルビットマップ内で所定の輝度を有するすべてのピクセル値が識別される。
次に、こういったピクセルはテキストであると想定される。
この実施形態の変形形態では、しきい値処理技法は、対象ピクセル付近の背景輝度を考慮に入れるように適合される。
こういったテキスト抜出技法は、走査文書内の印字テキストに対しては信頼性が高いが、自然の環境内に見られる文字列を識別するには信頼性が低い。
具体的には、自然の環境内に見られる文字列を含む掲示された標識の取り込みデジタル画像は、走査文書内のタイプされたテキストと同じ差別化特徴を有さない。
図1Aは、走査文書10内に見られる文字列11Aおよび11Bの一例を示す。
見て分かるように、テキスト(11Aおよび11B)は一般に、エッジ検出を比較的単純なプロセスにするために自然の画像(12Aおよび12B)から分離される。
さらに、テキスト文字列は、テキストの検出に役立つ、関連する大きな勾配を有する独特のエッジを有する。
図1Bは、自然環境の取り込み画像14に見られる文字列13の一例を示す。
図1Aに示す文字列とは対照的に、文字列13のエッジは文字に関して一部の情報しか提供しない。
たとえば、検出されるエッジは文字のエッジに対応するものもあれば、しないものもある。
さらに、間隔、照明、背景輝度、前景輝度、および画像の歪みはすべて、非均一で予測がつきにくい文字列特徴を表し、それにより単純なエッジ検出またはしきい値処理を使用して、自然環境に見られるこういった種類の文字列を識別し抜出することができない。
残念なことに、取り込み画像データから文字列を抜出する既知の技法は信頼性が比較的低い。
たとえば、1つの既知の技法は、自然環境内に見られる文字列の特定の特徴に関連する前提に基づいている。
この技法は、2つの主要なアルゴリズムを使用してカラー画像からテキストを見つけることにより実施される。
2つの主要なアルゴリズムのうち一方は画像を均一な色を有する連結した構成要素に分けることに基づき、他方はカラー画像のグレースケール画像での局所空間変化の計算に基づく。
この技法の基本となる前提は、文字列テキストの色が均一であり、かつテキスト領域が高いグレースケール変化を有するはずであるということである。
問題は、テキストがこれら前提に従って行動しない場合が多く、その結果、この技法によって検出されない場合があることである。
したがって、この技法は、自然環境の取り込み画像データ中の文字列を検出する際には信頼性がない。
第2の技法は、階層アルゴリズムに従ってテキスト検出を実行する。
まず、取り込み画像から、画像勾配情報に応じてエッジピクセル情報が得られる。
エッジピクセルは文字の線および文字の湾曲を画定するグループにまとめられ、このグループが次にテキスト列に結合される。
この技法に伴う問題は頑健性に欠け、その結果、信頼できない抜出結果を提供することである。
特にこの技法は、単純に画像勾配情報に基づいてエッジ検出を行う。
しかし、非均一な照明、雑音、または分布を有する取り込み画像では、この種類のエッジピクセル検出の信頼性は大幅に低下するか、または不可能である。
その結果、誤ったエッジピクセル情報により、文字の線および湾曲が識別されない場合がある。
さらに、この技法は、単純に関連するエッジピクセルの連結性に基づき、画像の他の態様をすべて無視して、画像内の特定の湾曲および線を所与の文字に割り当てる。
しかし文字のエッジが急旋回し、かつ/または予想されるように連結していない場合、連結性のみに基づいた判断は文字を2つのセグメントに「分割」してしまう場合がある。
最後に、この技法は、小さな(また多くの場合極めて重要な)文字ストリングの点、アクセント記号、および句読点を識別しない。
国際公開第01/37212号 欧州特許出願公開第0854433号 米国特許第6249604号 J. Canny,「A Computational Approach to Edge Detection」, 1986年, IEEE Tran. PAMI, vol. 8, no. 6 R. Gonzalez, R. Woods, Addison Wesley,「Digital Image Processing」, 1992年 A. P. Dempster, N. M. Laird, D. B. Rubin,「Maximum likelihood from incomplete data via the EM algorithm」, 1977年, Journal of Royal Statistical Society, ser. B, vol. 39, p 1 - 38
したがって、自然環境の取り込み画像データから文字列画像データを抜出する信頼性の高いシステムおよび方法が必要である。
[発明の概要]
取り込み画像データ内の文字列を検出するシステムおよび方法を記載する。
文字のエッジが画像データ内で検出されて、画像データのエッジ表現が生成される。
エッジ表現は、関連する大きさおよび方向をそれぞれ有する複数の単一幅エッジピクセルを含む。
隣接するエッジピクセルのラベル付けに応じて、エッジピクセルラベルが割り当てられる。
一実施形態では、エッジピクセルのラベル付けはエッジピクセルの連結性に基づく。
別の実施形態では、エッジピクセルのラベル付けはさらにエッジピクセルの方向に基づく。
文字境界エリア画定部が、エッジ表現情報を使用するとともに、同様のエッジピクセルラベルに応じて作成される。
一実施形態では、文字画定部は、高文字曲率エリアにおける終点エッジピクセルを識別してリンクすることによって作成される。
文字境界画定部は方向情報を使用してフィルタリングされて、文字前景情報および文字背景情報が識別される。
一実施形態では、画定部は、文字境界エリア画定部の幾何学的形状および/またはグレースケール均一性のうちの一方または両方を解析することによってさらにフィルタリングされる。
フィルタリングされた画定部は、隣接する境界エリア画定部の互いの相対位置に応じて隣接する境界画定部と組み合わせられて、線画定部が形成される。
[発明の詳細な説明]
概して、本発明は、自然環境の取り込みデジタル画像から文字列を抜出するシステムおよび方法である。
本開示において述べる取り込み画像データは、少なくとも1つの文字列のグラフィック表現に対応する画像データの少なくとも一部を含むことに留意されたい。
取り込み画像データは、環境内で、文字列のグラフィック表現の周囲に自然に見られる他の被写体(たとえば、有生命被写体および無生命被写体)に対応する画像データをさらに含むことができる。
自然環境に掲示される標識に対応する画像データは、標識の外縁によって囲まれた線内に単一の言葉、語句、文章、または文字列のグラフィック表現を含む場合が多い。
図1Bは、自然環境の取り込み画像14内に見られる文字列13の一例を示す。
図2は、自然環境の取り込みデジタル画像データから文字列を抜出する本発明の方法の第1の実施形態を示す。
図示の方法によれば、まずエッジが検出されて、デジタル画像のエッジ表現が求められる(20)。
デジタル画像はカラーデジタル画像であっても、またはグレースケールデジタル画像であってもよいことに留意されたい。
一実施形態では、カラー画像をグレースケール画像に変換し、グレースケール画像を使用して画像のエッジ表現を得ることができる。
1つまたは複数の関連するデジタル成分値(たとえば、RGB値、CMYK値等)をそれぞれ有する複数のピクセルを含むカラー画像の場合、エッジ検出はカラー画像の各成分に対して行うことができる。
たとえば、画像がRGB色空間で表される場合、画像中のピクセルすべての赤色成分のみを解析して、デジタル画像のエッジ表現を得ることができる。
別法として、各成分または成分の組み合わせを使用して、デジタル画像のエッジ表現を生成することができる。
一実施形態では、エッジ表現は、取り込み画像データ内の検出されたエッジに単一幅エッジピクセルマップを生成するアルゴリズムを使用して、デジタル画像を処理することによって得られ、マップ中の各エッジピクセルは関連する大きさ成分および方向成分を有する。
アルゴリズムは、検出されたエッジが複数ピクセル幅を有する場合であっても単一幅エッジピクセルを生成することに留意されたい。
このアルゴリズムは、参照により本明細書に援用される「A Computational Approach to Edge Detection」(J. Canny, IEEE Tran. PAMI, vol. 8, no. 6, 1986)に述べられている変形Cannyアルゴリズムを使用して実施することができる。
一般にCannyアルゴリズムは、文字が画像背景と独特の十分なコントラストを有すると想定し、それにより文字境界がこのアルゴリズムによって検出可能である。
同様の結果を提供する他のアルゴリズムも使用することができることに留意されたい。
図3Aは、本発明によるエッジ検出の一実施形態を示す。
まずデジタル画像が、ガウスフィルタまたは同様の拡散型フィルタを使用してフィルタリングされて、画像内のエッジの検出を妨害し得るいずれの雑音も除去する(30)。
次に画像データは、1)表現中の各エッジピクセルの大きさを表す中間エッジマップ(31A)、および2)前の隣接エッジピクセルとの関係に応じて各エッジピクセルへの方向を提供するエッジ方向マップ、を含むデジタル画像の単一ピクセル幅エッジ表現を生成するエッジ検出アルゴリズムによって処理される(31)。
図3Bはエッジ方向画定部の一実施形態を示す。
図示のように、エッジピクセルには、対象ピクセルが前の隣接エッジピクセルである対象ピクセルIへの相対方向を示す値1〜8を割り当てることができる。
中間エッジマップはしきい値処理フィルタによってフィルタリングされて、小さいエッジピクセルを除去し、二値エッジマップ33Aが生成される(32)。
図2を再び参照すると、エッジ検出(20)が実行され、エッジ表現が生成されると、エッジピクセルラベルが他の隣接エッジピクセルのラベルに応じて割り当てられる(21)。
一実施形態では、ラベル付けは図4Aに示すように実行される。
まず、ラベル付けはピクセルの連結性に従って実行される(40)。
具体的には、すべてのN連結ピクセルが同じ値を有するように各ピクセルにラベル値が与えられる。
図4BはN連結ピクセルの概念を示し、ここでN=8である。
図示のように、エッジピクセルが、ラベル値L1を有する対象エッジピクセルIの周囲のいずれかのピクセル位置Pにある場合、そのエッジピクセル値もラベル値L1を有することになる。
次に、エッジピクセルが評価されて終点エッジピクセルが特定され(41)、次に、適切なラベルを割り当てるように終点エッジピクセルを他のエッジピクセルにリンクする(42)。
終点エッジピクセルを見つける目的は、エッジ検出(すなわち、図2のブロック20)中に誤って生成されたエッジ表現内の文字のエッジの途切れを識別することにある。
具体的には、エッジの検出に使用されるアルゴリズムに応じて、結果得られるエッジ表現の高曲率角に途切れが発生する場合がある。
一実施形態では、終点は以下のアルゴリズムに従って検出される。
エッジ表現中の各エッジピクセルp毎に、8近傍(図3Bに示すように)を評価し、k番目の近傍ピクセルがエッジピクセルである場合に「neighbor[k-1]=1」であり、その他の場合は「neighbor[k-1]=0」であるように8要素整数配列近傍を設定する。
さらに、整数の変数ncountが近傍中のエッジピクセルkの数に設定される。
(1)If(ncount>=3)、pは終点ではない。(6)に進む。
(2)If(ncount<=1)、pは終点である。(6)に進む。
(3)If((neighbor[2]==1 and neighbor[0]==1) or (neighbor[4]==1 and neighbor[0]==1))、pは終点ではない。(6)に進む。
(4)For(k=0; k<8; k++){
If((neighbor[k]==1) and (neighbor[(k+1)] mod 8]==1))、
pは終点である。(6)に進む。
}
(5)pは終点ではない。
(7)終了。
終点リンキング(42)は、あらゆる終点についてk×k近傍がチェックされて、検出された他のいずれの終点も見つけるように実行される。
別の終点が近傍において検出される場合、評価プロセスが実行されて、これら2つの終点をリンクすることができるか否かがチェックされる。
2つの終点がリンクされる場合、2つの終点に関連するエッジピクセルにはすべて同じラベルが割り当てられる。
一実施形態では、この評価プロセスは、2つの終点をリンクする最適な最短距離経路を探索することによって設計される。
リンキングを適格なものにするために、この最適経路上のあらゆるピクセルは所定のしきい値を越える勾配を有する(このしきい値選択の一選択肢は、図3Aの32において使用されるものと同じしきい値を使用するというものである)。
最適経路の探索に使用することができる1つのアルゴリズムについて以下述べる。
2つの終点e1およびe2が(r1,c1)および(r2,c2)のそれぞれにあると想定する。
但し、rおよびcは画像全体の座標系に対する点の行および列の座標である。
((r1+r2)/2,(c1+c2)/2)が中心になるようにk×k矩形探索近傍(SNE)が終点対に対して定義される。
SNE内にある各8連結点対pおよびqについて、点qにおけるグレースケール勾配が所定のしきい値を越える場合はdist(p,q)=1であり、その他の場合はdist(p,q)=+∞であるようにpからqまでの距離が画定される。
画像のグレースケール勾配は、参照として本明細書に援用される「Digital Image Processing」(R. Gonzalez and R. Woods, Addison Wesley, 1992)に述べられているようにソーベル(Sobel)演算子を使用して計算可能であり、または図3Aに関連して上に述べたCannyアルゴリズムの副産物として得ることができることに留意する。
SNE内の各点から終点e1までの最短距離は、この距離画定部およびダイナミックプログラミングを用いて計算することができる。
より具体的には、SNE内の点pからの最短距離をSD(p)として表す場合、SD(p)は、
Figure 2005523530
として得ることができ、式中NE(p)は点pと8連結される点の集合を表す。
したがって、SD(e1)=0を開始点として定義し、最短距離関数がダイナミックプログラミングを用いてSNE内の各点について計算される。
終点リンキング評価のために、SD(e2)を使用する。
すなわち、2つの終点e1およびe2はSD(e2)が無限未満である場合にのみリンクされる。
図2を参照すると、ラベルがピクセルのエッジに割り当てられると、境界エリア画定部が作成される(22)。
図5は、文字エッジ53および対応する境界エリア(文字枠とも呼ぶ)の一例を示す。
文字枠画定部は、枠内の文字および枠自体の両方に関連する情報を提供する。
一実施形態では、エッジピクセルがラベル付けられると同時に、境界エリア画定部も作成されていることに留意されたい。
一実施形態では、文字枠は、文字および枠に関連する情報を含むデータ構造に従って定義される。
文字枠データ構造(BoxComp)の一例を以下に示す。
structure BoxComp
{
RECT rect;
Int col0;
Int row0;
Int h0;
Int textColor;
Int edgeIndex;
Int threshold;
}
BoxComp構造は文字枠の表現に必要な特徴フィールドを含む。
上に示す例では、rectが枠(または境界エリア)識別子に対応し、row0およびcol0は枠の中心座標に対応し(画像全体に対する座標系を想定して)、h0はピクセル数での枠の高さであり、textColorは文字が背景に対して暗い文字である(textColor=0)であるか、それとも背景に対して明るい文字であるか(textColor=1)を示し、edgeIndexは文字のエッジピクセルに使用されるラベル値を表し、thresholdは文字枠を二値ビットマップに変換する際に使用される推奨値である。
上の例に示すすべてのフィールドが必要であるわけではなく、後の処理ステップにおけるデータ構造を使用しやすくするために含んでよいことに留意されたい。
たとえば、高さh0は文字枠座標から容易に求められる。
したがって、実際の実施態様は速度要件とメモリ要件との間のトレードオフに基づいて決定されるべきである。
したがって、すべてのエッジがラベル付けられると、異なるエッジラベル(すなわち、edgeIndex)毎に対応する文字枠画定部があるように、エッジピクセルに割り当てられたそれぞれの異なるラベル毎に単一の文字枠が作成される。
一実施形態では、作成される文字枠は、エッジピクセル座標情報から得られる枠の幾何学的座標情報(rect、col0、row0、h0)も含む。
終点リンキング中、リンクされたエッジピクセルの集合が結合され、共通の文字枠ラベルが再びラベル付けられる。
図2を参照すると、すべての文字枠が画定されると、枠は、エッジピクセル表現から得られる方向情報を使用してフィルタリングされて、文字前景情報および文字背景情報が識別される(23)。
文字枠をフィルタリングする目的は、枠のいくつかが、誤って文字枠と特定された文字列以外の画像データに対応する場合があることにある(本明細書では負の文字候補と呼ぶ)。
枠をフィルタリングすることにより、真の文字枠(本明細書では正の文字候補と呼ぶ)からこういった誤った枠が検出される。
さらに、方向情報を使用して文字の背景および前景を識別することができ、したがって方向情報を使用して、特定された背景および前景を解析して、文字枠が正の文字候補であるか、それとも負の文字候補であるかを判断することができる。
一実施形態では、文字枠は、各文字枠に対応するエッジの位相解析を実行することにより、方向情報を使用してフィルタリングされる。
位相解析は2つのフィルタリングプロセスを含む。
第1のプロセスでは、ラスタ走査投影線を使用して、ピクセル線単位で文字枠候補内のすべてのエッジピクセルと交差する(図6A)。
投影線に沿った最初と最後の交点がP1およびP2と表される(線に沿って交点が2つしかないと想定するものではないことに留意する)。
対になった各エッジピクセルの方向情報が、前に求められたエッジ表現情報、特に方向情報から得られる。
対になった各エッジピクセル毎に、グレースケール勾配ベクトルが投影方向に投影される。
図6Bは、図6Aに示すP1およびP2それぞれの勾配ベクトルを示す。
投影された勾配ベクトルは、各交点での輝度変化を特徴付け、したがって前景が背景よりも暗いか、それとも明るいかを示す。
たとえば、図6Bでは、交点P1において、投影された勾配ベクトルの方向により、前景がより暗く、背景がより明るいことが示される(勾配はグレースケールの低い方から高い方を指す)。
同じ原理がP2にも当てはまる(P2では、前景色と勾配投影方向の間の関係がP1において用いられるものとは逆であることに留意する)。
交点におけるグレースケール勾配ベクトルがラスタ走査投影線に垂直な場合、投影勾配ベクトルはゼロであり、前景色についての指示を得ることができないことに留意されたい。
勾配投影情報に基づいて、各交点は「+」(暗い前景を示す)、「−」(明るい前景を示す)、または「0」(指示なし)で表すことができる。
一実施態様では、最終投影勾配ベクトルの大きさではなく方向が前景/背景解析に使用されるため、上記勾配投影情報(大きさ情報および方向情報を含む)が必要ないことに留意する。
一実施形態では、勾配方向は、エッジ方向マップ(図3Aの構成要素33B)の形で表される、図4Bに示すように8つの離散値に量子化することができ、方向解析をエッジ方向マップに基づいて実行することができる。
走査線上の最初と最後の交点の方向情報が得られると、交点対P1およびP2は、それぞれの指示が両方とも「+」である、または両方とも「−」である場合に「マッチ」対として定義される。
投影線プロセスは、垂直方向および水平方向それぞれにおいて候補枠全体にわたってラスタ走査様式で実行される。
マッチ対をもたらす投影線の割合は、投影測定値(projection measure)として使用される。
一実施形態では、投影線の75%を越える投影測定値を有する候補枠が正の候補とみなされる。
第2の位相プロセスはエッジ方向一貫性測定であり、これもまた、エッジピクセル表現から得られるエッジ勾配ベクトルの方向および前の位相解析からの結果に基づく。
上に示したように、候補枠の前景/背景色(明るいか、または暗いか)は、エッジピクセルのエッジ方向マップから類推することができる。
しかし、異なるエッジピクセル対から類推される前景色は、1つの候補枠で同じではない場合がある。
テキスト領域に対応する正の候補枠の場合、前景/背景色指示(エッジ方向マップに基づく)はかなり一貫性があるはずであるが、非テキスト雑音を表す負の候補枠の場合、前景/背景色指示は、雑音信号のランダム特徴に似ている。
したがって、エッジピクセルの前景/背景色指示統計に対する一貫性測定が、正の候補枠から負の候補枠を分離する良好なフィルタリング測定としての役割を果たす。
エッジピクセルの大半が同じ前景色指示(「+」または「−」)を有する枠のみが、このフィルタリングプロセスを乗り越える。
さらにフィルタリングステップは、文字枠データ構造のtextColorフィールドをもたらし、textColorフィールドは後に、文字枠を二値化する際に使用される。
本発明の別の実施形態によれば、候補枠は図7Aに示すようにフィルタリングされる。
具体的には、まず幾何学的解析70が各枠に対して実行される。
幾何学的解析は本質的に、各候補枠のサイズ(ピクセル数で)およびアスペクト比を測定する。
適切なサイズおよびアスペクト比を有する枠のみが次に、後のフィルタリング解析中に考慮される。
幾何学的解析に通らなかった残りの候補は負の候補72Bとして記憶される。
一実施形態では、幾何学的解析は位相解析71に先立って実行される。
位相解析71は、上に述べたように幾何学的解析70からフィルタリングされた候補に対して実行される。
位相解析は、エッジ検出中に得られた方向情報を使用して、文字枠の考えられる前景および背景を識別する。
位相解析基準に通らない文字枠は負の候補とみなされ、幾何学的解析中に判断された負の候補とともに記憶される。
位相基準に通った候補は次に、グレースケール解析72中に考慮される。
一般に、候補枠のグレースケール解析は元のデジタル画像のグレースケール版を使用して実行され、各枠の前景ピクセルおよび背景ピクセルのグレースケール分布を測定する。
次に分布を用いて、前景と背景の間のコントラストを示すことができる。
十分なコントラストが存在する場合、枠は正の候補であるとみなされる。
図7Bは、本発明によるグレースケール解析の一実施形態を示す。
まず枠のサイズが評価されて、グレースケール解析を実行するに十分大きいか否かが判断される(73)(一実施形態では、枠の高さがしきい値と比較される)。
枠が小さすぎる(たとえば、高さがしきい値未満である)場合、統計学的解析は小さなピクセル値母集団に対しては確実に実行することができないため、枠は迂回する。
迂回した枠は正の候補であると想定される。
枠が分布解析に十分大きな母集団の値を提供する場合、元の取り込み画像のグレースケール画像を使用して二値化される(74)。
枠の二値化は、候補枠ピクセルを元画像のグレースケール版中の対応するピクセルに再びマッピングし、次に二値化関数を使用して候補枠のグレースケール画像を候補枠の二値ビットマップに変換することによって実行される。
枠が二値化されると、分布解析が枠の二値ビットマップに対して実行される。
所与の二値枠の前景ピクセルおよび背景ピクセルのグレースケール平均および標準偏差はg、g、σ、およびσとしてそれぞれ定義される。
背景ピクセルと前景ピクセルの間のコントラストcは、以下に示す式2に従って定義される。
式2 c=exp(((g−g)/σ )+exp(((g−g)/σ
ブロック76(図7B)に示すように、二値枠のコントラストが許容可能値を越える(すなわち、十分に高い)場合、枠は正の候補とみなされる。
越えない場合は負の候補とみなされ、残りの負の候補72B(図7A)とともに保存される。
図2を再び参照すると、フィルタリングされた境界エリア画定部が、それぞれの互いの相対位置に応じて、他の隣接する境界エリア画定部と組み合わせられ/結合されて、テキスト線画定部が形成される(24)。
一実施形態によれば、線は水平であるとみなされる。
本発明の別の実施形態では、線画定部は、所与の線について組み合わせられた境界エリア画定部を追跡するデータ構造によって実施される。
図8Aは、データ構造80および組み合わせられた境界エリア画定部81〜84との関係の一例を示す。
図示のように、データ構造は以下のデータフィールドを含む。
すなわち、rectは組み合わせられた、または結合された文字枠の線画定部を識別し、child_numは、この線画定部を作成するために結合された文字枠(子枠とも呼ぶ)の数である。
一実施形態では、データ構造80は、BoxCompデータ構造において表されるすべての子枠の容器として機能する。
言い換えれば、子枠は、テキスト線におけるそれぞれの空間的関係に基づいて双方向リストデータ構造(BoxCompを埋め込む)を使用してリンクされる。
すなわち、枠Aが枠Bの左側に空間的にある場合、枠Aはリスト中の枠Bの前にリンクされる。
枠の空間的関係は、それぞれを包含する矩形の中心点を使用して求めることができる。
このリスト設計によれば、2つのデータフィールド、すなわちleft_ptrおよびright_ptrが、線構造の左側および右側のそれぞれで文字枠のBoxCompデータ構造に繋がる2つのポインタとして含まれる。
これら2つのポインタを使用して、それぞれの空間的関係に関わる子枠に素早くアクセスすることができる。
一実施形態では、境界エリア画定部は、まず現在の正の候補を現在の線画定部に割り当て、続けて、現在の線画定部を中心とする予め規定された近傍エリア内の正の候補を探索することによって結合される。
別の正の候補がエリアに重複していることが見つかる場合、その別の正の候補は現在の線に結合され、次に新しい線画定部の周囲の近傍エリアが探索される。
正の候補が、線に関連するいずれの候補を中心にする所与の線についてもそれ以上見つからない場合、新しい候補に新しい線画定部が割り当てられ、プロセスが繰り返される。
正の候補の線への結合を実施するアルゴリズムの一実施形態について以下述べる。
入力:正の候補
出力:線画定部配列
(1)正の候補がそれ以上ない場合、(6)に進む。
(2)現在の正の候補を得て、現在の線画定部を割り振り、現在の候補を線画定部に加える。
(3)現在の線画定部の境界エリアの予め規定された近傍を見て、他に正の候補がこの近傍に重複しているか否かを調べる。ない場合、(1)に進む。
(4)現在の線画定部と結合することができる場合、現在の線画定部に加える。
(5)(3)に進む。
(6)終了。
上に示すプロセスの(4)の結合基準は、重複した候補を、線画定部の3つの他の関連する文字枠、すなわち対象の現在の線に関連する収容枠および線画定部の左右両方の子枠、と比較する。
結合基準を満たすには、重複した候補枠は、左右いずれかの子枠と同様の高さ、および/または左右の子枠の高さの間にある高さを有することが必要である。
候補枠は、図8Aの枠81〜84の間の単方向矢印によって表される、同じ線画定部の候補間にリンクを作成することによって「加え」られる。
本発明の一実施形態では、文字枠が結合されて線画定部を形成した後、各線画定部に関連する各文字枠周囲の予め規定されているエリアが探索されて、文字列に関連する「他の文字」要素が見つけられる。
たとえば、下付き文字「i」および「j」の点、様々なアクセント記号、および句読点が、文字であるには小さすぎるため、または水平に並んでいないために前の処理ステップ中に除外されている場合がある。
こういった「他の文字」要素は、線画定部情報、およびそれまでにフィルタリングされて除外され、記憶されている負の候補文字枠を使用して見つけられる。
一般に、負の候補枠は、サイズおよび文字枠への近接度が与えられた上で、各線中の文字枠に対するそれぞれの関係を鑑みて評価される。
図8Bを参照すると、より具体的には、各線包含枠85、候補枠86A〜86Dそれぞれの周囲の予め規定されたエリア87Aおよび87Bが、特定の特徴(たとえば、サイズ)を有する負の候補を求めて探索される。
一実施形態では、これら「他の文字」要素は、以下のプロセスに従って見つけられ、線画定部に結合される。
(1)各L容器毎に、点探索エリアを画定する。
(2)N容器を見て、いずれかの枠が点探索エリアにほぼ重複するか否かを調べる。
(3)重複する各枠毎に、欠けている点として適合するに適切なサイズ範囲にあるか否かを調べる。適切なサイズ範囲にある場合、L容器に結合させる。
但し、L容器は線画定部に対応し、N容器は負の候補枠に対応する。
本発明の別の実施形態では、テキスト線画定部の「他の文字」要素は負の候補枠から探索されない。
その代わり、前のフィルタリング手順から得られる負の候補枠はすべて、メモリの消費を低減するために記憶されることなく破棄される。
この場合、「他の文字」要素は、予め規定される近傍エリア87Aおよび87Bにおいてのみ図4Aで述べた文字枠生成方法を繰り返すことによって見つけられる。
これら文字枠が首尾良く生成され、次に評価されて「他の文字」が見つけられると、これら文字枠を上に述べたように線画定部に結合することによってさらに処理することができる。
本発明の一実施形態によれば、可能なすべての候補およびすべての関連する「他の文字」要素が各線画定部に識別されると、各線画定部エリアに関連する各画定部文字枠が二値化される。
図9Aは文字枠の二値化の一実施形態を示す。
まず文字枠が評価されて、十分に大きいか否かが判断される(90)。
具体的には、エッジ変調二値化(91)は、正確な結果を得るには最小限の母集団を必要とする統計学的演算である。
枠のサイズ(すなわち、ピクセル数)が十分に大きくない場合は、従来のしきい値処理は文字枠のグレースケール版に対して実行されて、二値文字枠が得られる。
一実施形態では、枠の高さ(文字枠画定部から得られる)がしきい値と比較される。
高さがしきい値未満の場合、しきい値処理(92)が実行される。
高さがしきい値未満ではない場合は、エッジ変調二値化(91)が実行されて、二値文字枠が得られる。
エッジ変調二値化は、文字枠画定部、元のグレースケール画像、ならびにエッジマップ(すなわち、エッジ表現の大きさ情報)およびエッジ方向マップ(すなわち、エッジ表現の方向情報)を含むエッジ表現を使用して実行される。
図9Bを参照すると、まず近傍枠94が文字枠93に対して画定される。
一実施形態では、近傍枠94は、文字枠93を1.1〜1.2倍拡張することによって得られる。
ラスタ走査手順が使用されて、近傍枠内の文字枠を線毎に走査する。
ラスタ走査が文字枠内の文字のエッジと交差すると、交点が左から右にp,p,p,・・・,pとラベル付けられる。
さらに、ラスタ走査が近傍枠と交差する点がpおよびp(N+1)とラベル付けられる。
これらN+2個の交点が一緒になって、ピクセル線をN+2個のセグメント(p,p),(p,p),・・・,(p(N),p(N+1))に分ける。
セグメント表記は(p(k),p(k+1))と画定され、ラスタ走査線上の点p(k)とp(k+1)の間にあるピクセルを表す。
一実施形態では、二値化プロセスが各ピクセルセグメントに前景および背景という2つの二値カテゴリを割り当てる。
このプロセスによって二値化されている要素はピクセルセグメントであることから、二値化プロセスは「エッジ変調二値化」と呼ばれる。
これは、ピクセルセグメントではなく個々のピクセルを二値化する一般的な従来技術による二値化アルゴリズムとは対照的である。
言い換えれば、本発明者らは、1つのセグメント中のピクセルは、前景あるいは背景という同じ二値カテゴリに属すべきであると想定する。
文字枠を二値化するために、セグメントグループがまず、勾配ベクトル方向に基づいて前景(F)、背景(B)、および不確実(U)のセグメントに分類される。
図6に関連して上に述べたように、各交点対(p(k)、p(k+1))は、2点の投影勾配ベクトルの方向に応じて「マッチする」か、あるいは「マッチしない」。
したがって、点対(p(k)、p(k+1))が前に「マッチ」していた場合、「マッチする」点の対によって特定されるセグメントは、前に求められた文字枠textcolorフィールド(図7Aの位相解析71中に求められる)に基づいて前景(F)セグメントまたは背景(B)セグメントのいずれかとして分類することができる。
対が「マッチしない」場合、こういったセグメントは不確実(U)として分類される。
別の実施形態では、近傍枠交点が、これら各点におけるラプラシアンを求めることにより、またラプラシアンの符号に基づいて処理され、近傍交点対は「マッチする」対または「マッチしない」対に分類される。
これら交点対は次に、上に述べたように前景(F)、背景(B)、および不確実(U)にさらに分類することができる。
すべてのセグメントが(F)、(B)、または(U)に分類されると、セグメントは統計学的に評価されて、以下のアルゴリズムに従ってセグメントの3つの分類(F)、(B)、および(U)の二値グループを求めることによって(F)または(B)のいずれかとして再分類される。
(1)N(g,σ)およびN(g,σ)として表す2つのガウスモデルが、(F)セグメントおよび(B)セグメントのグレースケール分布にそれぞれ適合される。
但し、g(g)およびσ(g)は、前景(背景)ピクセルのガウス分布の平均および標準偏差を表す。
(2)2つのガウスモデル間の重み付き距離を測定する。
式3 距離=exp(((g−g)/σ )+exp(((g−g)/σ
距離がしきい値未満の場合、(U)グループからのピクセルは、(F)モデルおよび(B)モデルまでのそれぞれの距離に基づいて(F)グループまたは(B)グループのいずれかに分類され、(4)に進む。
(3)前景セグメント(F)および背景セグメント(B)のピクセルを初期化データとして使用してEMアルゴリズムを実行して、M個の線分を2つのガウスモデルにグループ化する。
(4)終了。
(3)において、EMアルゴリズムについては、参照により本明細書に援用される「Maximum likelihood from incomplete data via the EM algorithm」(A. P. Dempster, N. M. Laird, and D. B. Rubin, Journal of Royal Statistical Society, ser. B, vol. 39, pages 1 - 38, 1977)に述べられている。
図10は、本発明による取り込み画像データから文字列を抜出するシステムの一実施形態を示す。
図示のように、取り込み画像データはコンバータ100Aによってグレースケール画像データに変換される。
このデータはエッジ検出器100Bに提供される。
別法として、取り込み画像データはエッジ検出器100Bに直接提供される。
エッジ検出器100Bは、エッジマップの形の大きさ情報、およびエッジ方向マップの形の方向情報を含む取り込み画像データのエッジ表現を生成する。
境界エリア画定部作成器101がエッジ表現を使用して、各文字に関連する各境界エリア毎に画定部(すなわち、文字枠)を特定して生成する。
画定部作成器101は、隣接ピクセルへの近接度に応じて、またエッジピクセルの方向情報に応じてエッジマップ中の各エッジピクセルをラベル付けるエッジピクセルラベラー101Aを少なくとも備える。
さらに、画定部作成器101は任意選択で、エッジにおける意図的ではない区切点および単一の連続したエッジへの、特定された区切点に関連する結合(再ラベル付けにより)エッジを特定する終点検出器101Bおよび終点リンカ01Cを備える。
ラベル付けられたエッジが使用されて、境界エリア画定部(候補枠とも呼ばれる)が作成される。
候補枠フィルタ102は、エッジ検出表現からの方向情報を使用して、各候補枠を通して投影された走査線に沿った点をマッチングして、文字の前景および背景を識別する位相解析器102Aを少なくとも備える。
さらに、文字枠フィルタ102は任意選択で、幾何学的形状解析器102Bおよびグレースケール解析器102Cを備える。
幾何学的形状解析器102Bは、アスペクト比が期待されるしきい値内にない場合、候補枠をフィルタリングして除外する。
言い換えれば、アスペクト比が、枠が文字列中の文字を表す可能性が低いようなものである場合、フィルタリングされる。
グレースケール解析器102Cは、元のデジタル画像のグレースケール版に対して統計学的解析を実行して、各枠の前景および背景のグレースケール分布を測定する。
分布を使用して、前景と背景の間のコントラストを示す。
十分なコントラストが存在する場合、枠は正の候補と考えられる。
候補枠フィルタ102は、正および負の候補枠の両方を生成する。
正および負両方の候補枠が、正の候補結合器103Aおよび「他の文字」要素検出器103Bを含む線画定部作成器103によって線画定部に結合される。
正の候補結合器103Aは、正の各候補周囲の所定のエリア内を探索して、他の正の候補を見つける。
正の候補がエリア内で見つけられた場合、線画定部に結合される。
「他の文字」要素検出器103Bは、負の候補を処理して、句読点等、文字以外の文字記号に対応する正の候補周囲に予め規定されたエリア内にある文字枠を識別する。
識別された「他の文字」候補は次に、対応する線画定部と結合される。
したがって、取り込み画像データから文字列を抜出するシステムおよび方法について述べた。
上記説明において、いくつかの特定の詳細について本発明の完全な理解を提供するために述べた。
しかし、こういった特定の詳細は本発明の実施に使用する必要がないことが当業者には明らかであろう。
さらに、例示として図示し説明した特定の実施形態は決して限定を意味するものではないことを理解されたい。
こういった実施形態の詳細への言及は特許請求の範囲を限定するように意図されていない。
走査文書内に見られる一般的な文字列および自然の画像の一例を示す。 自然環境に見られる文字列の取り込みデジタル画像の一例を示す。 自然環境の取り込み画像データから文字列を抜出する方法の第1の実施形態を示す。 本発明の一実施形態によるエッジ検出方法を示す。 本発明の一実施形態によるエッジ検出画定部を示す。 本発明の一実施形態によるエッジピクセルラベル付けを示す。 N連結ピクセルの概念を示し、ここでN=8である。 本発明による文字のエッジおよび対応する文字枠の一例を示す。 文字枠のエッジピクセルと交わるラスタ走査投影線を示す。 図6Aに示すエッジピクセル対の投影勾配ベクトルを示す。 本発明の一実施形態による候補文字枠をフィルタリングする方法を示す。 本発明の一実施形態によるグレースケール解析の方法を示す。 境界エリア枠の線および境界エリア枠との対応する関係を定義するデータ構造の一例を示す。 枠を含む同じ線内の候補枠についての予め規定された探索エリアを示す。 本発明の一実施形態による境界エリア枠を二値化する方法を示す。 近傍枠のラスタ走査から得られる交点およびエッジ変調二値化の実行に使用される文字枠を示す。 本発明の一実施形態による取り込みデジタル画像からテキストを抜出するシステムを示す。
符号の説明
12A,12B・・・自然な画像,
30・・・ローパスフィルタ,
31・・・エッジ検出,
32・・・しきい値フィルタ,
33A・・・二値エッジマップ,
33B・・・エッジ方向マップ,
100A・・・グレースケールコンバータ,
100B・・・エッジ検出器,
101・・・境界エリア画定部作成器,
101A・・・エッジピクセルラベラー,
101B・・・終点検出器,
101C・・・終点リンキング,
102・・・候補枠フィルタ,
102A・・・位相解析器,
102B・・・幾何学的解析器,
102C・・・グレースケール解析器,
103・・・線画定部作成器,
103A・・・正の候補枠結合器,
103B・・・他の文字要素検出器,
104・・・二値化器,

Claims (10)

  1. 少なくとも1つの文字列に対応する画像データを含む取り込み画像データを処理する方法であって、
    前記画像データ内のエッジを検出すること(20)であって、それによって単一ピクセル幅の関連する複数のエッジピクセルを有するエッジ表現を生成し、前記エッジ表現は少なくとも、各エッジピクセルの大きさ情報および方向情報を含むことと、
    ピクセルの連結性に応じて各エッジピクセルにエッジピクセルラベルを割り当てること(21)と、
    方向情報を使用するとともに、同様のエッジピクセルラベルに応じて、文字にそれぞれ対応する境界エリア画定部を作成すること(22)と、
    方向情報を使用して境界エリア画定部をフィルタリングすること(23)であって、文字前景情報および文字背景情報を識別することと、
    隣接する境界エリア画定部の互いの相対位置に応じて、フィルタリングされた前記隣接する境界エリア画定部を結合すること(24)であって、線画定部を形成することとと
    を含む方法。
  2. 前記エッジピクセルをラベルすることは、終点エッジピクセルを識別することに依存する
    請求項1記載の方法。
  3. 前記方向情報を使用してフィルタリングすることは、
    寸法補助線を使用して境界エリア画定部を走査することであって、エッジピクセル対および各エッジピクセル対の関連する勾配ベクトルを識別して、前記対の関連する前景情報および背景情報を評価すること
    をさらに含む
    請求項1記載の方法。
  4. 前記方向情報を使用してフィルタリングすることは、
    前記エッジピクセル対の前記勾配ベクトル情報を統計学的に解析することであって、それによって各境界エリア画定部に関連する前景の明暗を識別すること
    をさらに含む
    請求項3記載の方法。
  5. 前記フィルタリングすることは、
    前記境界エリア画定部の幾何学的特徴を解析すること
    をさらに含む
    請求項1記載の方法。
  6. 前記フィルタリングすることは、
    方向情報からエッジピクセル対を識別することであって、前記文字背景情報および文字前景情報を識別すること
    をさらに含む
    請求項1記載の方法。
  7. 前記フィルタリングすることは、
    前記境界エリア画定部のグレースケール特徴を解析することであって、前記文字背景情報および文字前景情報を識別すること
    をさらに含む
    請求項1記載の方法。
  8. 前記線画定部を形成することは、
    a)現在の境界エリア画定部を現在の線画定部に割り当てることと、
    b)前記現在の線付近にある予め画定されたエリアを探索することと、
    c)前記予め画定されたエリアに少なくとも重複する新しい境界エリアを見つけることと、
    d)前記新しい境界エリア画定部を前記現在の線画定部に結合することと、
    e)新しい境界エリアがなくなるまでb)〜d)を繰り返すことと
    を含む
    請求項1記載の方法。
  9. 各境界エリア画定部の前景および背景のピクセルセグメント全体を二値化することにより、各線画定部に関連する各境界エリア画定部を二値化すること
    をさらに含む請求項1記載の方法。
  10. 少なくとも1つの文字列に対応する画像データを含む取り込み画像データを処理するシステムであって、
    前記画像データ内のエッジを検出して、単一ピクセル幅の関連する複数のエッジピクセルを有するエッジ表現を生成するエッジ検出器(100B)であって、前記エッジ表現は少なくとも、各エッジピクセルの大きさ情報および方向情報を含むエッジ検出器と、
    ピクセルの連結性および方向情報に応じてエッジピクセルラベルを各エッジピクセルに割り当てるエッジピクセルラベラーを少なくとも備える境界エリア画定部作成器(101)と、
    方向情報を使用して境界エリア画定部をフィルタリングし、文字前景情報および文字背景情報を識別する境界エリア画定部フィルタ(102)と、
    隣接する境界エリア画定部の互いの相対位置に応じて、フィルタリングされた前記隣接する境界エリア画定部を結合して線画定部を形成する線画定部作成器(103)と
    を備えるシステム。
JP2003586825A 2002-04-19 2003-04-17 取り込み画像データから文字列を識別して抜出するシステムおよび方法 Expired - Fee Related JP4323328B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/126,151 US20030198386A1 (en) 2002-04-19 2002-04-19 System and method for identifying and extracting character strings from captured image data
PCT/US2003/012131 WO2003090155A1 (en) 2002-04-19 2003-04-17 System and method for identifying and extracting character strings from captured image data

Publications (2)

Publication Number Publication Date
JP2005523530A true JP2005523530A (ja) 2005-08-04
JP4323328B2 JP4323328B2 (ja) 2009-09-02

Family

ID=29214951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003586825A Expired - Fee Related JP4323328B2 (ja) 2002-04-19 2003-04-17 取り込み画像データから文字列を識別して抜出するシステムおよび方法

Country Status (6)

Country Link
US (1) US20030198386A1 (ja)
EP (1) EP1497787B1 (ja)
JP (1) JP4323328B2 (ja)
AU (1) AU2003221718A1 (ja)
DE (1) DE60303202T2 (ja)
WO (1) WO2003090155A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011501835A (ja) * 2007-09-19 2011-01-13 トムソン ライセンシング 画像をスケーリングするシステムおよび方法
KR101829459B1 (ko) * 2011-07-14 2018-02-14 엘지디스플레이 주식회사 영상처리방법과 이를 이용한 입체영상 표시장치
JP2018136927A (ja) * 2016-12-30 2018-08-30 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド マルチバイナリゼーション画像処理

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043079B2 (en) * 2002-04-25 2006-05-09 Microsoft Corporation “Don't care” pixel interpolation
US7392472B2 (en) * 2002-04-25 2008-06-24 Microsoft Corporation Layout analysis
US7024039B2 (en) * 2002-04-25 2006-04-04 Microsoft Corporation Block retouching
US7164797B2 (en) * 2002-04-25 2007-01-16 Microsoft Corporation Clustering
US7263227B2 (en) * 2002-04-25 2007-08-28 Microsoft Corporation Activity detector
US7711375B2 (en) * 2002-08-06 2010-05-04 Hang Liu Method and system for determining a location of a wireless transmitting device and guiding the search for the same
US20040096102A1 (en) * 2002-11-18 2004-05-20 Xerox Corporation Methodology for scanned color document segmentation
US7564969B2 (en) * 2003-04-01 2009-07-21 Sytex, Inc. Methodology, system and computer readable medium for detecting file encryption
US7561753B2 (en) * 2004-01-09 2009-07-14 The Boeing Company System and method for comparing images with different contrast levels
CN100369478C (zh) * 2004-02-18 2008-02-13 华亚微电子(上海)有限公司 基于方向性插值的图像边缘平滑方法
US20050204335A1 (en) * 2004-03-11 2005-09-15 Microsoft Corporation Affinity regions on visual design surfaces
CN100369049C (zh) * 2005-02-18 2008-02-13 富士通株式会社 灰度字符的精确分割装置及方法
US7487438B1 (en) * 2005-03-08 2009-02-03 Pegasus Imaging Corporation Method and apparatus for recognizing a digitized form, extracting information from a filled-in form, and generating a corrected filled-in form
US8098934B2 (en) * 2006-06-29 2012-01-17 Google Inc. Using extracted image text
US8031940B2 (en) 2006-06-29 2011-10-04 Google Inc. Recognizing text in images using ranging data
KR100833346B1 (ko) 2007-01-03 2008-05-28 (주)폴리다임 디스플레이 장치에 표시된 문자 이미지의 픽셀 단위 가로폭 측정 방법
US8228522B2 (en) * 2007-01-29 2012-07-24 Kabushiki Kaisha Toshiba Document data management apparatus to manage document data read and digitized by an image reading apparatus and a technique to improve reliability of various processing using document data
US8260057B2 (en) * 2007-07-12 2012-09-04 Ricoh Company, Limited Image processing apparatus that obtains a ruled line from a multi-value image
US8917935B2 (en) 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8509534B2 (en) 2010-03-10 2013-08-13 Microsoft Corporation Document page segmentation in optical character recognition
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8805095B2 (en) * 2010-12-03 2014-08-12 International Business Machines Corporation Analysing character strings
US8331670B2 (en) * 2011-03-22 2012-12-11 Konica Minolta Laboratory U.S.A., Inc. Method of detection document alteration by comparing characters using shape features of characters
JP2013070212A (ja) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd 画像処理装置、画像処理プログラム
WO2013085409A1 (ru) * 2011-12-08 2013-06-13 Общество С Ограниченной Ответственностью Базелевс-Инновации Способ анимации sms-сообщений
US8837830B2 (en) * 2012-06-12 2014-09-16 Xerox Corporation Finding text in natural scenes
CN102930262B (zh) * 2012-09-19 2017-07-04 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
US9025016B2 (en) * 2013-03-15 2015-05-05 Orcam Technologies Ltd. Systems and methods for audible facial recognition
US9058539B2 (en) 2013-04-16 2015-06-16 Canon Kabushiki Kaisha Systems and methods for quantifying graphics or text in an image
US20140314314A1 (en) * 2013-04-23 2014-10-23 Canon Kabushiki Kaisha Systems and methods for quantifying graphics or text in an image
US9520102B2 (en) * 2013-04-29 2016-12-13 International Business Machines Corporation Text extraction from graphical user interface content
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
US9087272B2 (en) * 2013-07-17 2015-07-21 International Business Machines Corporation Optical match character classification
US9495606B2 (en) 2014-02-28 2016-11-15 Ricoh Co., Ltd. Method for product recognition from multiple images
US9036083B1 (en) 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
IL237548B (en) * 2015-03-04 2020-05-31 Au10Tix Ltd Character categorization methods are adopted for use, for example, as a gateway to authentication systems
RU2603495C1 (ru) * 2015-06-16 2016-11-27 Общество с ограниченной ответственностью "Аби Девелопмент" Классификация изображений документов на основе параметров цветовых слоев
CN106709484B (zh) * 2015-11-13 2022-02-22 国网吉林省电力有限公司检修公司 数字式仪表的数字识别方法
CN106023191B (zh) * 2016-05-16 2018-11-27 山东建筑大学 一种基于结构特征的光学刻划字符边缘提取和边缘拟合方法
CN110532855B (zh) * 2019-07-12 2022-03-18 西安电子科技大学 基于深度学习的自然场景证件图像文字识别方法
WO2021087334A1 (en) 2019-11-01 2021-05-06 Vannevar Labs, Inc. Neural network-based optical character recognition
CN111027560B (zh) * 2019-11-07 2023-09-29 浙江大华技术股份有限公司 文本检测方法以及相关装置
US11721119B2 (en) * 2020-12-18 2023-08-08 Konica Minolta Business Solutions U.S.A., Inc. Finding natural images in document pages
CN112669302B (zh) * 2020-12-30 2023-07-28 北京市商汤科技开发有限公司 吊弦缺陷检测方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
US6005976A (en) * 1993-02-25 1999-12-21 Fujitsu Limited Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions
JP3345224B2 (ja) * 1995-03-06 2002-11-18 富士通株式会社 パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
US6366699B1 (en) * 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011501835A (ja) * 2007-09-19 2011-01-13 トムソン ライセンシング 画像をスケーリングするシステムおよび方法
US8351730B2 (en) 2007-09-19 2013-01-08 Thomson Licensing System and method for scaling images
KR101829459B1 (ko) * 2011-07-14 2018-02-14 엘지디스플레이 주식회사 영상처리방법과 이를 이용한 입체영상 표시장치
JP2018136927A (ja) * 2016-12-30 2018-08-30 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド マルチバイナリゼーション画像処理
JP6998198B2 (ja) 2016-12-30 2022-01-18 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド マルチバイナリゼーション画像処理

Also Published As

Publication number Publication date
DE60303202D1 (de) 2006-04-06
DE60303202T2 (de) 2006-08-10
US20030198386A1 (en) 2003-10-23
EP1497787B1 (en) 2006-01-11
AU2003221718A1 (en) 2003-11-03
WO2003090155A1 (en) 2003-10-30
EP1497787A1 (en) 2005-01-19
JP4323328B2 (ja) 2009-09-02

Similar Documents

Publication Publication Date Title
JP4323328B2 (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
Khotanzad et al. Contour line and geographic feature extraction from USGS color topographical paper maps
Cheung et al. An Arabic optical character recognition system using recognition-based segmentation
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
Aggarwal et al. A robust method to authenticate car license plates using segmentation and ROI based approach
WO2020061691A1 (en) Automatically detecting and isolating objects in images
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
US5113453A (en) Character recognition method and apparatus
IL98293A (en) A method for distinguishing between text and graphics
Tung et al. Binarization of uneven-lighting image by maximizing boundary connectivity
Velu et al. Automatic letter sorting for Indian postal address recognition system based on pin codes
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
US6901168B1 (en) Method for segmenting and identifying a document, in particular a technical chart
Sherkat et al. Use of colour for hand-filled form analysis and recognition
JP2001109887A (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
Ghaleb et al. Graph modeling based segmentation of handwritten Arabic text into constituent sub-words
Sambyal et al. Connected component based English character set segmentation
Bushofa et al. Segmentation and Recognition of Printed Arabic Characters.
JPH09305707A (ja) 画像抽出方式
JP2016151978A (ja) 画像処理装置及び画像処理プログラム
Yang et al. A skeleton based binarization approach for video text recognition
JP2002015283A (ja) 分離文字列統合方法および装置
JPH0981743A (ja) 文字・図形処理装置及び文字・図形処理方法
JP2001043312A (ja) 文書画像処理装置
Basavanna et al. Adaptive Histogram Analysis for Scene Text Binarization and Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080509

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080806

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090604

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees