JP4984756B2 - 文字列イメージを垂直に分離するプログラム、方法及び装置 - Google Patents
文字列イメージを垂直に分離するプログラム、方法及び装置 Download PDFInfo
- Publication number
- JP4984756B2 JP4984756B2 JP2006239515A JP2006239515A JP4984756B2 JP 4984756 B2 JP4984756 B2 JP 4984756B2 JP 2006239515 A JP2006239515 A JP 2006239515A JP 2006239515 A JP2006239515 A JP 2006239515A JP 4984756 B2 JP4984756 B2 JP 4984756B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- stroke
- separation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
=基準文字列の文字の数/基準文字列のイメージの幅 (1)
d=DEN×入力された文字列の幅−1, (2)
とする。
THstroke1=Nchar−1,
そうでなければ、
THstroke1=d, (3)
とする。
ここで、Cupperは、0と1との間で設定される係数であり、例えば、Cupper=0.66である。
ここで、Cbottomは、0と1との間で設定される係数であり、例えば、Cbottom=0.66である。
H1/H0<TH2 (5)
TH1及びTH2は、相対的位置ずれ及び相対的高さの閾値で、これは経験値である。
R=min_w×min_h/(W0×H0+W1×H1−min_w×min_h)
Rh=min_h/(H0+H1−min_h)
文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定工程と、
前記文字列イメージが複数の文字列を含むと判定された場合に文字列間のノイズを除去する文字列間ノイズ除去工程と、
を含んだことを特徴とする文字列イメージを垂直に分離する方法。
前記文字列イメージから文字列を分割する文字列分割工程と、
前記文字列分割工程によって分割された文字列が有効な文字列か有効でない文字列かを判定する有効文字列判定工程と、
前記有効文字列判定工程によって有効な文字列と判定された文字列イメージを出力する出力工程と、
を含んだことを特徴とする付記1に記載の文字列イメージを垂直に分離する方法。
前記有効文字列判定工程によって有効な文字列と判定された文字列が再分離可能な文字列か否かを判定する再分離判定工程と、
前記再分離判定工程によって再分離可能な文字列と判定された文字列を分離する文字列分離工程と、
をさらに含み、
有効な文字列の再分離ができなくなるまで、前記文字列分離工程、有効文字列判定工程、再分離判定工程及び文字列分割工程を繰り返すことによって、前記文字列分離工程により分離された文字列イメージに対する反復処理が行われ、
前記出力工程は、分離不可である有効な文字列イメージを出力することを特徴とする付記3に記載の文字列イメージを垂直に分離する方法。
前記文字列イメージのストロークヒストグラムを生成するストロークヒストグラム生成工程と、
前記ストロークヒストグラム生成工程によって生成されたストロークヒストグラムを探索して文字列を分割するストロークヒストグラム探索工程と、
を含み、
前記ストロークヒストグラム探索工程は、
所定の順序で前記文字列の始点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点を前記ストロークヒストグラムから探索する始点探索工程と、
前記始点探索工程とは逆の探索順序で、前記文字列の終点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点をストロークヒストグラムから探索する終点探索工程と、
を含んだことを特徴とする付記4に記載の文字列イメージを垂直に分離する方法。
前記始点と終点との間の最小のストローク値を有する中間点を探索する中間点探索工程をさらに含み、
前記再分離判定工程は、前記中間点に対応するストロークヒストグラムが第1のストローク閾値より小さなストローク値を有する場合、前記文字列が分離可能な文字列であると判定し、
前記文字列分離工程は、分離可能で有効な文字列イメージを2つの部分に分離し、1つの部分の上境界及び下境界は、前記始点及び中間点によって決定され、もう1つの部分の上境界及び下境界は、前記中間点及び終点によって決定されることを特徴とする付記5に記載の文字列イメージを垂直に分離する方法。
前記文字列イメージの文字列内の文字の数を計算し、前記文字列イメージ内に複数の文字列があれば、計算された文字数を最短の文字列の文字数と判定するイメージ文字列文字数計算工程と、
前記文字列が水平に分離不可であるか否かを判定する判定工程と、
前記判定工程により前記文字列が水平に分離不可である文字列であると判定された場合、文字密度及び前記イメージ文字列文字数計算工程で計算された文字数を用いて前記第1のストローク閾値を推定し、前記判定工程により前記文字列が水平に分離可能な文字列であると判定された場合、前記イメージ文字列文字数計算工程によって計算された文字数を用いて前記第1のストローク閾値を推定する閾値推定工程と、
によって推定されることを特徴とする付記5に記載の文字列イメージを垂直に分離する方法。
文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定手段と、
前記文字列イメージが複数の文字列を含むと判定された場合に文字列間のノイズを除去する文字列間ノイズ除去手段と、
を備えたことを特徴とする文字列イメージを垂直に分離する装置。
前記文字列イメージから文字列を分割する文字列分割手段と、
前記文字列分割手段によって分割された文字列が有効な文字列か有効でない文字列かを判定する有効文字列判定手段と、
前記有効文字列判定手段によって有効な文字列と判定された文字列イメージを出力する出力手段と、
を備えたことを特徴とする付記10に記載の文字列イメージを垂直に分離する装置。
前記有効文字列判定手段によって有効な文字列と判定された文字列が再分離可能な文字列か否かを判定する再分離判定手段と、
前記再分離判定手段によって再分離可能な文字列と判定された文字列を分離する文字列分離手段と、
をさらに備え、
前記文字列分離手段によって分離された文字列イメージが前記文字列分割手段に入力され、有効な文字列の再分離ができなくなるまで前記文字列分割手段、有効文字列判定手段、再分離判定手段及び文字列分離手段により反復処理が実行され、
前記出力手段は、分離不可である有効な文字列イメージを出力することを特徴とする付記12に記載の文字列イメージを垂直に分離する装置。
前記第1のストローク閾値を推定する第1ストローク閾値推定手段と、
前記文字列イメージのストロークヒストグラムを生成するストロークヒストグラム生成手段と、
前記ストロークヒストグラム生成手段によって生成されたストロークヒストグラムを探索し、前記文字列を分割するストロークヒストグラム探索手段と、
を備え、
前記ストロークヒストグラム探索手段は、
所定の順序で前記文字列の始点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点を前記ストロークヒストグラムから探索する始点探索手段と、
前記始点探索手段とは逆の探索順序で前記文字列の終点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点をストロークヒストグラムから探索する終点探索手段と、
を備えたことを特徴とする付記13に記載の文字列イメージを垂直に分離する装置。
前記始点と終点との間の最小のストローク値を有する中間点を探索する中間点探索手段をさらに備え、
前記再分離判定手段は、前記中間点に対応するストロークヒストグラムが第1のストローク閾値より小さなストローク値を有する場合、前記文字列が分離可能な文字列であると判定し、前記中間点に対応するストロークヒストグラムが第1のストローク閾値より小さなストローク値を有しない場合、前記文字列は分離が不可能な文字列であると判定し、
前記文字列分離手段は、前記分離可能で有効な文字列イメージを2つの部分に分離し、1つの部分の上境界及び下境界は、前記始点及び中間点によって決定され、もう1つの部分の上境界及び下境界は、前記中間点及び終点によって決定されることを特徴とする付記14に記載の文字列イメージを垂直に分離する装置。
前記文字列イメージの文字列内の文字の数を計算し、前記文字列イメージ内に複数の文字列があれば、計算された文字数を最短の文字列の文字数と判定するイメージ文字列文字数計算手段と、
前記文字列が水平に分離不可であるか否かを判定する判定手段と、
前記判定手段が前記文字列は水平に分離不可である文字列であると判定した場合、文字密度及び前記イメージ文字列文字数計算手段により計算された文字数を用いて前記第1のストローク閾値を推定し、前記判定手段が前記文字列は水平に分離可能な文字列であると判定した場合、前記イメージ文字列文字数計算手段により計算された文字数を用いて前記第1のストローク閾値を推定する閾値推定手段と、
を備えたことを特徴とする付記14に記載の文字列イメージを垂直に分離する装置。
水平に連結された2つ以上の文字列を分離する水平文字列分離工程と、
前記文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定工程、前記文字列イメージが複数の文字列を含むと判定された場合、文字列間のノイズを除去する文字列間ノイズ除去工程を含み、垂直に連結された2つ以上の文字列を分離する垂直文字列分離工程と、
前記垂直文字列分離工程及び前記水平文字列分離工程のうち後に行われる工程が、前記文字列の垂直分離または水平分離を行うか否かを判定する分離判定工程と、
をさらに含み、
前記分離判定工程により前記垂直文字列分離工程及び前記水平文字列分離工程のうち後に行われる工程が前記文字列の垂直分離または水平分離を行うと判定された場合、前記垂直文字列分離工程及び前記水平文字列分離工程のうち後に行われる工程によって分離される文字列がなくなるまで、分離された文字列イメージに対する前記文字列初期抽出工程、前記水平文字列分離工程、垂直文字列分離工程及び分離判定工程が反復されることを特徴とする指定文字列を抽出する方法。
前記文字列が間隔を有する分離不可である文字列か否かを検査する文字列分離型判定工程と、
前記文字列分離型判定工程により前記文字列の分離型が間隔を有する分離不可な文字列ではないと判定された場合に、分離間隔の閾値を推定する分離間隔閾値推定工程と、
前記分離間隔閾値推定工程によって推定された分離間隔の閾値に基づいて、水平文字列分離を行う水平文字列分離工程と、
を含んだことを特徴とする付記19に記載の指定文字列を抽出する方法。
前記文字列イメージから文字列を分割する文字列分割工程と、
前記文字列分割工程によって分割された文字列が有効な文字列か、有効でない文字列かを判定する有効文字列判定工程と、
前記有効文字列判定工程によって有効な文字列と判定された文字列イメージを出力する出力工程と、
を含んだことを特徴とする付記19に記載の指定文字列を抽出する方法。
前記有効文字列判定工程によって有効な文字列と判定された文字列が再分離可能な文字列か否かを判定する再分離判定工程と、
前記再分離判定工程によって再分離可能な文字列と判定された文字列を分離する文字列分離工程と、
をさらに含み、
有効な文字列の再分離ができなくなるまで、前記文字列分割工程、有効文字列判定工程、再分離判定工程及び文字列分離工程を繰り返すことによって、前記文字列分離工程により分離された文字列イメージに対する反復処理が行われ、
前記出力工程は、分離不可である有効な文字列イメージを出力することを特徴とする付記23に記載の指定文字列を抽出する方法。
前記文字列イメージのストロークヒストグラムを生成するストロークヒストグラム生成工程と、
前記ストロークヒストグラム生成工程によって生成されたストロークヒストグラムを探索し、前記文字列を分割するストロークヒストグラム探索工程を含み、
前記ストロークヒストグラム探索工程は、
所定の順序で前記文字列の始点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点を前記ストロークヒストグラムから探索する始点探索工程と、
前記始点探索工程とは逆の探索順序で前記文字列の終点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点をストロークヒストグラムから探索する終点探索工程と、
を含んだことを特徴とする付記23に記載の指定文字列を抽出する方法。
前記始点及び前記終点との間の最小のストローク値を有する中間点を探索する中間点探索工程をさらに含み、
前記再分離判定工程は、前記中間点に対応するストロークヒストグラムが第1のストローク閾値より小さなストローク値を有する場合、前記文字列が分離可能な文字列であると判定し、
前記文字列分離工程は、分離可能で有効な文字列イメージを2つの部分に分離し、1つの部分の上境界及び下境界は、前記始点及び中間点によって決定され、もう1つの部分の上境界及び下境界は、前記中間点及び終点によって決定されることを特徴とする付記25に記載の指定文字列を抽出する方法。
前記文字列イメージの文字列内の文字の数を計算し、前記文字列イメージ内に複数の文字列があれば、計算された文字数を最短の文字列の文字数と判定するイメージ文字列文字数計算工程と、
前記文字列が水平に分離不可であるか否かを判定する判定工程と、
前記判定工程により前記文字列が水平に分離不可である文字列であると判定された場合、文字密度及び前記イメージ文字列文字数計算工程で計算された文字数を用いて前記第1のストローク閾値を推定し、前記判定工程により前記文字列は水平に分離可能な文字列であると判定された場合、前記イメージ文字列文字数計算工程によって計算された文字数を用いて前記第1のストローク閾値を推定する閾値推定工程と、
によって推定されることを特徴とする付記25に記載の指定文字列を抽出する方法。
水平分離及び垂直分離の後、前記文字列の上/下境界のノイズを除去する文字列上/下境界位置調整工程と、
水平分離及び垂直分離の後、文字列から指定文字列を決定する指定文字列決定工程と、
をさらに含んだことを特徴とする付記19〜28のいずれか1つに記載の指定文字列を抽出する方法。
前記最も左側の文字を認識する最左側文字認識工程と、
前記最も右側の文字を認識する最右側文字認識工程と、
認識された前記最も左側の文字及び最も右側の文字がノイズ文字か否かを判定するノイズ文字判定工程と、
前記文字列から最も左側の文字及び/または最も右側の文字を除去するノイズ文字除去工程と、
を含んだことを特徴とする付記29に記載の指定文字列を抽出する方法。
前記第2のストローク閾値を設定する第2ストローク閾値設定工程と、
前記文字列イメージのストロークヒストグラムを生成するストロークヒストグラム生成工程と、
前記第2のストローク閾値に基づいて前記ストロークヒストグラムを探索し、前記上境界を得る上境界探索工程と、
前記上境界に対応するストローク値に基づいて、前記文字列の上境界の閾値を調整する上境界閾値調整工程と、
調整された上境界の閾値に基づいて、前記文字列の前記上境界を調整する上境界調整工程と、
前記第2のストローク閾値に基づいて前記ストロークヒストグラムを探索し、前記下境界を得る下境界探索工程と、
前記下境界に対応するストローク値に基づいて、前記文字列の下境界の閾値を調整する下境界閾値調整工程と、
調整された下境界の閾値に基づいて、前記文字列の前記下境界を調整する下境界調整工程と、
調整された上境界及び下境界に基づいて、前記文字列からノイズを除去するノイズ除去工程と、
を含んだことを特徴とする付記29に記載の指定文字列を抽出する方法。
指定文字列を含む複数の文字列からノイズ文字列を除去するノイズ文字列除去工程と、
ノイズ文字列が除去された文字列から、高さの重なりの割合が最大であり、長さが固定的ではない文字列、あるいは、領域の重なりの割合が最大であり、長さが固定された文字列を指定文字列として抽出する指定文字列抽出工程と、
を含んだことを特徴とする付記29に記載の指定文字列を抽出する方法。
水平に連結された2つ以上の文字列を分離する水平文字列分離手段と、
前記文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定手段、前記文字列イメージが複数の文字列を含むと判定された場合、文字列間のノイズを除去する文字列間ノイズ除去手段を備え、垂直に連結された2つ以上の文字列を分離する垂直文字列分離手段と、
前記垂直文字列分離手段及び前記水平文字列分離手段のうち後に機能する手段が、前記文字列への垂直分離または水平分離を行うか否かを判定する分離判定手段と、
を備え、
前記分離判定手段により前記垂直文字列分離手段及び前記水平文字列分離手段のうち後に機能する手段が前記文字列への垂直分離または水平分離を行うと判定された場合、分離された文字列イメージが前記文字列初期抽出手段に入力され、前記文字列初期抽出手段、水平文字列分離手段、垂直文字列分離手段及び分離判定手段はそれぞれ処理を実行し、前記文字列初期抽出手段、水平文字列分離手段、垂直文字列分離手段及び分離判定手段の各処理は、前記垂直文字列分離手段及び前記水平文字列分離手段のうち後に機能する手段によって分離される文字列がなくなるまで繰り返し行われることを特徴とする指定文字列を抽出する装置。
前記文字列が間隔を有する分離不可である文字列か否かを検査する文字列分離型判定手段と、
前記文字列分離型判定手段が前記文字列の分離型が間隔を有する分離不可な文字列ではないと判定した場合に、分離間隔の閾値を推定する分離間隔閾値推定手段と、
前記分離間隔閾値推定手段によって推定された分離間隔の閾値に基づいて、水平文字列分離を行う水平文字列分離手段と、
を備えたことを特徴とする付記34に記載の指定文字列を抽出する装置。
前記文字列が文字文字列を1つだけ含み、文字間の間隔が前記分離間隔の閾値より大きいと判定した場合に、前記文字列を分離することを特徴とする付記35に記載の指定文字列を抽出する装置。
前記文字列イメージから文字列を分割する文字列分割手段と、
前記文字列分割手段によって分割された文字列が有効な文字列か、有効でない文字列かを判定する有効文字列判定手段と、
前記有効文字列判定手段によって有効な文字列と判定された文字列イメージを出力する出力手段と、
を備えたことを特徴とする付記34に記載の指定文字列を抽出する装置。
前記有効文字列判定手段によって有効な文字列と判定された文字列が再分離可能な文字列か否かを判定する再分離判定手段と、
前記再分離判定手段によって再分離可能な文字列と判定された文字列を分離する文字列分離手段と、
をさらに備え、
有効な文字列の再分離ができなくなるまで、前記文字列分割手段、有効文字列判定手段、再分離判定手段及び文字列分離手段を繰り返すことによって、前記文字列分離手段により分離された文字列イメージに対する反復処理が行われることを特徴とする付記38に記載の指定文字列を抽出する装置。
第1のストローク閾値を推定する第1ストローク閾値推定手段と、
前記文字列イメージのストロークヒストグラムを生成するストロークヒストグラム生成手段と、
前記ストロークヒストグラム生成手段によって生成されたストロークヒストグラムを探索し、前記文字列を抽出するストロークヒストグラム探索手段と、
を備え、
前記ストロークヒストグラム探索手段は、
所定の順序で前記文字列の始点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点を前記ストロークヒストグラムから探索する始点探索手段と、
前記始点探索手段とは逆の探索順序で前記文字列の終点、すなわち、第1のストローク閾値より大きいストローク値を有する探索方向における第1の点をストロークヒストグラムから探索する終点探索手段と、
を備えたことを特徴とする付記38に記載の指定文字列を抽出する装置。
前記始点及び前記終点との間の最小のストローク値を有する中間点を探索する中間点探索手段をさらに備え、
前記再分離判定手段は、前記中間点に対応するストロークヒストグラムが第1のストローク閾値より小さなストローク値を有する場合、前記文字列が分離可能な文字列であると判定し、
前記文字列分離手段は、分離可能で有効な文字列イメージを2つの部分に分離し、1つの部分の上境界及び下境界は、前記始点及び中間点によって決定され、もう1つの部分の上境界及び下境界は、前記中間点及び終点によって決定されることを特徴とする付記40に記載の指定文字列を抽出する装置。
前記文字列イメージの文字列内の文字の数を計算し、前記文字列イメージ内に複数の文字列があれば、計算された文字数を最短の文字列の文字数と判定するイメージ文字列文字数計算手段と、
前記文字列が水平に分離不可であるか否かを判定する判定手段と、
前記判定手段が前記文字列は水平に分離不可である文字列であると判定した場合、文字密度及び前記イメージ文字列文字数計算手段により計算された文字数を用いて前記第1のストローク閾値を推定し、前記判定手段が前記文字列は水平に分離可能な文字列であると判定した場合、前記イメージ文字列文字数計算手段によって計算された文字数を用いて前記第1のストローク閾値を推定する閾値推定手段と、
を備えたことを特徴とする付記40に記載の指定文字列を抽出する装置。
水平分離及び垂直分離の後、前記文字列の上/下境界のノイズを除去する文字列上/下境界位置調整手段と、
水平分離及び垂直分離の後、文字列から指定文字列を決定する指定文字列決定手段と、
をさらに備えることを特徴とする付記34〜43のいずれか1つに記載の指定文字列を抽出する装置。
前記最も左側の文字を認識する最左側文字認識手段と、
前記最も右側の文字を認識する最右側文字認識手段と、
認識された前記最も左側の文字及び最も右側の文字がノイズ文字か否かを判定するノイズ文字判定手段と、
前記文字列から最も左側の文字及び/または最も右側の文字を除去するノイズ文字除去手段と、
を備えたことを特徴とする付記44に記載の指定文字列を抽出する装置。
前記第2のストローク閾値を設定する第2ストローク閾値設定手段と、
前記文字列イメージのストロークヒストグラムを生成するストロークヒストグラム生成手段と、
前記第2のストローク閾値に基づいて前記ストロークヒストグラムを探索し、前記上境界を得る上側境界探索手段と、
前記上境界に対応するストローク値に基づいて、前記文字列の上境界の閾値を調整する上境界閾値調整手段と、
調整された上境界の閾値に基づいて、前記文字列の前記上境界を調整する上境界調整手段と、
前記第2のストローク閾値に基づいて前記ストロークヒストグラムを探索し、前記下境界を得る下境界探索手段と、
前記下境界に対応するストローク値に基づいて、前記文字列の下境界の閾値を調整する下境界閾値調整手段と、
調整された下境界の閾値に基づいて、前記文字列の前記下境界を調整する下境界調整手段と、
調整された上境界及び下境界に基づいて、前記文字列からノイズを除去するノイズ除去手段と、
を備えたことを特徴とする付記44に記載の指定文字列を抽出する装置。
指定文字列を含む複数の文字列からノイズ文字列を除去するノイズ文字列除去手段と、
ノイズ文字列が除去された文字列から、高さの重なりの割合が最大であり、長さが固定的ではない文字列、あるいは、領域の重なりの割合が最大であり、長さが固定された文字列を指定文字列として抽出する指定文字列抽出手段と、
を備えたことを特徴とする付記44に記載の指定文字列を抽出する装置。
文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定手順と、
前記文字列イメージが複数の文字列を含むと判定された場合に文字列間のノイズを除去する文字列間ノイズ除去手順と、
をコンピュータに実行させることを特徴とする文字列イメージを垂直に分離するプログラム。
水平に連結された2つ以上の文字列を分離する水平文字列分離手順と、
前記文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定手順、前記文字列イメージが複数の文字列を含むと判定された場合、文字列間のノイズを除去する文字列間ノイズ除去手順を含み、垂直に連結された2つ以上の文字列を分離する垂直文字列分離手順と、
前記垂直文字列分離手順及び前記水平文字列分離手順のうち後に行われる手順が、前記文字列の垂直分離または水平分離を行うか否かを判定する分離判定手順と、
をさらにコンピュータに実行させ、
前記分離判定手順により前記垂直文字列分離手順及び前記水平文字列分離手順のうち後に行われる手順が前記文字列の垂直分離または水平分離を行うと判定された場合、前記垂直文字列分離手順及び前記水平文字列分離手順のうち後に行われる手順によって分離される文字列がなくなるまで、分離された文字列イメージに対する前記文字列初期抽出手順、前記水平文字列分離手順、垂直文字列分離手順及び分離判定手順が反復されることを特徴とする指定文字列を抽出するプログラム。
前記文字列が間隔を有する分離不可である文字列か否かを検査する文字列分離型判定手順と、
前記文字列分離型判定手順により前記文字列の分離型が間隔を有する分離不可な文字列ではないと判定された場合に、分離間隔の閾値を推定する分離間隔閾値推定手順と、
前記分離間隔閾値推定手順によって推定された分離間隔の閾値に基づいて、水平文字列分離を行う水平文字列分離手順と、
をコンピュータに実行させることを特徴とする付記51に記載の指定文字列を抽出するプログラム。
302 文字列初期抽出部
303 水平文字列分離部
304 垂直文字列分離部
305 ノイズ点除去判定部
307 文字列左/右境界位置調整部
308 文字列上/下境界位置調整部
309 指定文字列決定部
310 出力部
311 指定文字列記述情報記憶部
502 複数文字列判定部
503 文字列間ノイズ除去部
506 文字列高さ閾値推定部
507 第1ストローク閾値推定部507
601 文字列分割部
602 ストロークヒストグラム生成部
603 ストロークヒストグラム探索部
604 有効文字列判定部
605 再分離判定部
606 再分離部
901 数字文字列判定部
902 最左側文字認識部
903 最右側文字認識部
904 ノイズ文字判定部
905 単一文字高さ閾値推定部
906 単一文字幅閾値推定部
907 ノイズ文字除去部
1002 ストロークヒストグラム生成部
1003 第2ストローク閾値設定部
1004 始点探索部
1005 上境界閾値再推定部
1006 上境界位置調整部
1007 終点探索部
1008 下境界閾値再推定部
1009 下境界位置調整部
1010 ノイズ除去部
Claims (6)
- 文字列イメージを垂直に分離するプログラムであって、
文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定手順と、
前記文字列イメージが複数の文字列を含むと判定された場合に、前記文字列イメージの水平方向の各画素列のストローク部分の数を表すストロークヒストグラムを生成する生成手順と、
生成されたストロークヒストグラムの一方および他方側から順に第1のストローク閾値より大きい値を有する始点、終点を探索する探索手順と、
探索された始点と終点との間の最小のストローク値を有する点を中間点とし、中間点が第1のストローク閾値より小さい場合、前記文字列イメージを水平方向に始点から中間点、中間点から終点の2つの部分に分離する分離手順と、
をコンピュータに実行させることを特徴とする文字列イメージを垂直に分離するプログラム。 - 前記複数文字列判定手順が、前記文字列イメージの高さが文字列の高さの閾値よりも大きいか否かを判定し、前記文字列イメージの高さが文字列の高さの閾値より大きい場合、前記文字列イメージが複数の文字列を含むと判定し、前記文字列イメージの高さが文字列の高さの閾値より大きくない場合、前記文字列イメージが複数の文字列を含まないと判定することを特徴とする請求項1に記載の文字列イメージを垂直に分離するプログラム。
- 文字列イメージを垂直に分離する方法であって、
文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定工程と、
前記文字列イメージが複数の文字列を含むと判定された場合に、前記文字列イメージの水平方向の各画素列のストローク部分の数を表すストロークヒストグラムを生成する生成工程と、
生成されたストロークヒストグラムの一方および他方側から順に第1のストローク閾値より大きい値を有する始点、終点を探索する探索工程と、
探索された始点と終点との間の最小のストローク値を有する点を中間点とし、中間点が第1のストローク閾値より小さい場合、前記文字列イメージを水平方向に始点から中間点、中間点から終点の2つの部分に分離する分離工程と、
を含んだことを特徴とする文字列イメージを垂直に分離する方法。 - 前記複数文字列判定工程が、前記文字列イメージの高さが文字列の高さの閾値よりも大きいか否かを判定し、前記文字列イメージの高さが文字列の高さの閾値より大きい場合、前記文字列イメージが複数の文字列を含むと判定し、前記文字列イメージの高さが文字列の高さの閾値より大きくない場合、前記文字列イメージが複数の文字列を含まないと判定することを特徴とする請求項3に記載の文字列イメージを垂直に分離する方法。
- 文字列イメージを垂直に分離する装置であって、
文字列イメージが複数の文字列を含むか否かを判定する複数文字列判定手段と、
前記文字列イメージが複数の文字列を含むと判定された場合に、前記文字列イメージの水平方向の各画素列のストローク部分の数を表すストロークヒストグラムを生成する生成手段と、
生成されたストロークヒストグラムの一方および他方側から順に第1のストローク閾値より大きい値を有する始点、終点を探索する探索手段と、
探索された始点と終点との間の最小のストローク値を有する点を中間点とし、中間点が第1のストローク閾値より小さい場合、前記文字列イメージを水平方向に始点から中間点、中間点から終点の2つの部分に分離する分離手段と、
を備えたことを特徴とする文字列イメージを垂直に分離する装置。 - 前記複数文字列判定手段が、前記文字列イメージの高さが文字列の高さの閾値より大きいか否かを判定し、前記文字列イメージの高さが文字列の高さの閾値より大きい場合、前記文字列イメージが複数の文字列を含むと判定し、前記文字列イメージの高さが文字列の高さの閾値より大きくない場合、前記文字列イメージが複数の文字列を含まないと判定することを特徴とする請求項5に記載の文字列イメージを垂直に分離する装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510098628.0 | 2005-09-05 | ||
CNB2005100986280A CN100514355C (zh) | 2005-09-05 | 2005-09-05 | 指定文本行提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007073048A JP2007073048A (ja) | 2007-03-22 |
JP4984756B2 true JP4984756B2 (ja) | 2012-07-25 |
Family
ID=37858849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006239515A Expired - Fee Related JP4984756B2 (ja) | 2005-09-05 | 2006-09-04 | 文字列イメージを垂直に分離するプログラム、方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4984756B2 (ja) |
CN (1) | CN100514355C (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314608A (zh) * | 2010-06-30 | 2012-01-11 | 汉王科技股份有限公司 | 文字图像中行提取的方法和装置 |
CN102542279A (zh) * | 2010-12-23 | 2012-07-04 | 汉王科技股份有限公司 | 维哈柯文文本图像的行提取方法及装置 |
JP5624671B2 (ja) * | 2011-03-04 | 2014-11-12 | グローリー株式会社 | 文字列切出方法及び文字列切出装置 |
CN103106405B (zh) * | 2011-11-09 | 2017-05-03 | 佳能株式会社 | 用于文档图像的行分割方法及系统 |
JP6109020B2 (ja) * | 2013-09-10 | 2017-04-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文書の分割・結合方法、装置、プログラム。 |
CN106156715A (zh) * | 2015-04-24 | 2016-11-23 | 富士通株式会社 | 分析表格图像的布局的方法和设备 |
CN106295486B (zh) * | 2015-06-12 | 2019-11-05 | 富士通株式会社 | 文档图像的处理方法和处理装置 |
CN105447489B (zh) * | 2015-11-13 | 2018-11-16 | 浙江传媒学院 | 一种图片ocr识别系统的字符与背景粘连噪声消除方法 |
CN107180239B (zh) * | 2017-06-09 | 2020-09-11 | 科大讯飞股份有限公司 | 文本行识别方法及系统 |
CN109753953B (zh) * | 2017-11-03 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 图像中定位文本的方法、装置、电子设备和存储介质 |
CN109635718B (zh) * | 2018-12-10 | 2021-02-02 | 科大讯飞股份有限公司 | 一种文本区域划分方法、装置、设备及存储介质 |
JP6869394B1 (ja) * | 2020-03-23 | 2021-05-12 | 三菱電機Itソリューションズ株式会社 | 検証装置、検証方法、及び、検証プログラム |
CN113449620A (zh) * | 2021-06-17 | 2021-09-28 | 深圳思谋信息科技有限公司 | 基于语义分割的表格检测方法、装置、设备和介质 |
CN114973255B (zh) * | 2022-05-14 | 2024-09-10 | 云知声智能科技股份有限公司 | 一种单点文字识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04149685A (ja) * | 1990-10-09 | 1992-05-22 | Nec Corp | 接触文字切出し方法 |
JPH08329190A (ja) * | 1995-03-24 | 1996-12-13 | Fuji Xerox Co Ltd | 文字認識装置 |
JP2861860B2 (ja) * | 1995-04-28 | 1999-02-24 | 日本電気株式会社 | 宛名行抽出装置 |
JP2003281468A (ja) * | 2002-03-20 | 2003-10-03 | Toshiba Corp | 文字認識装置および文字認識方法 |
JP4111787B2 (ja) * | 2002-09-11 | 2008-07-02 | 株式会社リコー | 行切り出し装置、行切り出し方法、プログラム及び記録媒体 |
-
2005
- 2005-09-05 CN CNB2005100986280A patent/CN100514355C/zh not_active Expired - Fee Related
-
2006
- 2006-09-04 JP JP2006239515A patent/JP4984756B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN100514355C (zh) | 2009-07-15 |
JP2007073048A (ja) | 2007-03-22 |
CN1928891A (zh) | 2007-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4984756B2 (ja) | 文字列イメージを垂直に分離するプログラム、方法及び装置 | |
Ha et al. | Document page decomposition by the bounding-box project | |
EP1146478B1 (en) | A method for extracting titles from digital images | |
EP0843277A2 (en) | Page analysis system | |
CN105469026B (zh) | 针对文档图像的水平和垂直线检测和移除 | |
JP2000285139A (ja) | 文書マッチング方法、記述子生成方法、データ処理システム及び記憶媒体 | |
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
JPH0652354A (ja) | スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置 | |
JP2003132358A (ja) | 画像処理方法、装置およびシステム | |
JP5547226B2 (ja) | 画像処理装置、及び画像処理方法 | |
JP7244223B2 (ja) | 電子文書における強調テキストの識別 | |
US20150302598A1 (en) | Line segmentation method | |
US8705862B2 (en) | Image processing apparatus | |
Dori et al. | Segmentation and recognition of dimensioning text from engineering drawings | |
CN115223172A (zh) | 文本提取方法、装置及设备 | |
JP5171421B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
KR20160146458A (ko) | 문자영상 내의 개인정보 보호장치 및 방법 | |
CN112418220A (zh) | 一种单字检测方法、装置、设备及介质 | |
KR930002349B1 (ko) | 압축영상의 문자열 분리방법 | |
CN110298350B (zh) | 一种高效的印刷体维吾尔文单词分割算法 | |
KR20180071552A (ko) | 카메라 기반 도로 곡률 추정을 위한 차선 검출 방법 및 시스템 | |
JP4129898B2 (ja) | 文字サイズ推定方法および装置 | |
Arora et al. | Document image segmentation using dynamic thresholds and identification of each region type | |
JP2003030585A (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
JP6204076B2 (ja) | 文章領域読み取り順序判定装置、文章領域読み取り順序判定方法及び文章領域読み取り順序判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120403 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120416 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |