JP5229050B2 - 画像からの文書領域抽出装置、方法、及びプログラム - Google Patents
画像からの文書領域抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5229050B2 JP5229050B2 JP2009080901A JP2009080901A JP5229050B2 JP 5229050 B2 JP5229050 B2 JP 5229050B2 JP 2009080901 A JP2009080901 A JP 2009080901A JP 2009080901 A JP2009080901 A JP 2009080901A JP 5229050 B2 JP5229050 B2 JP 5229050B2
- Authority
- JP
- Japan
- Prior art keywords
- straight line
- contour
- area
- region
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
Description
コンパクトデジタルカメラや携帯電話で名刺や活字文章などが読み取られる利用シーンを考えると、撮影時に必要な文字情報だけを正確に撮影することは困難であり、画像中に不要な情報を含む背景まで写りこむ場合が多い。また、被写体に正対して撮影できないために透視歪みや回転歪みも画像上に発生する場合が多い。このような状況から生じる、撮影画像中の背景への認識対象以外の文字列や模様などの不要な情報の写りこみや、撮影画像に発生する透視歪みや回転歪み歪みが、文字認識精度を低下させる原因となっている。
領域統合処理部は、各分割領域について、分割領域の他の分割領域と接している画素と、その画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する。
文書領域抽出処理部は、抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する。
て併用することで、四角形領域としての文書領域を抽出することが可能となる。
図1は、文書領域抽出装置の実施形態の構成図である。この構成は、デジタルカメラやカメラを搭載した携帯端末や携帯電話などの機器内に実現することができる。また、図2は、図1の文書領域抽出装置が第1の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図2の200で示される部分が、図1の文書領域抽出装置が実行する処理部分である。なお、図2の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
まず、ユーザが、カメラ撮影部101にて、例えば机の上に置かれた名刺などの文書を含む画像を撮影する。この結果、カメラ撮影部101が画像データを出力し、その画像データは、画像データ記憶部102に記憶される。
ために、領域分割処理部103において、以下の詳細処理が実行される。
図3は、領域分割処理部103が実行する図2のステップS201の色情報による領域分割処理の詳細を示す動作フローチャートである。また、図16は、領域分割処理部103の動作を示す説明図、図17は、領域分割処理部103が実行するクラスタリング処理の動作説明図である。
色情報チャンネルによる色空間テーブルが用意され、画像内の各画素の色情報に基づいて投票が行われる。
例えば、色情報がYUVの3チャンネルからなり、各チャネルの段階を256段階とすると、色空間テーブルの大きさは256×256×256となる。この色空間テーブルに、画像内の画素がその色情報に基づいて投票される。例えば、対象画素の色情報がYUV=64,128,128である場合は、該当するテーブル内の要素(64,128,128)に1票が加算される。色空間テーブルは、必要に応じて色空間を間引きして、より小さいものを使用してもよい。
色空間テーブルの中で、最も票数の多い要素が探索の開始位置とされ、局所最小値が探索される。探索処理は以下のようになる。
ステップC2−1:色空間テーブル内の各要素にクラスタ番号が付与される。初期状態では各要素にはクラスタ番号は付与されていないとする。探索の開始位置とする要素(以下、探索要素と記す)に、クラスタ番号が付与される。例えば、最大の投票数を有する要素から探索が開始される場合にはその要素の番号が0番とされ、以降は1ずつ番号が増加させられる。
ステップC2−2:探索要素と色空間テーブル内のある軸に沿って、色空間内で隣接する要素(以下、隣接要素と記す)へのクラスタ番号の付与状態が調査される。
隣接要素にクラスタ番号が付与されていない場合は、探索要素の投票数と、隣接要素の投票数が比較される。その結果、隣接要素の投票数の方が少ない場合(例えば、探索要素の投票数が100で、隣接要素の投票数が90である場合)には、隣接要素にクラスタ番号が付与されて、隣接要素に探索の開始位置が移動し、ステップC2−2の処理が繰り返される。隣接要素の投票数の方が多い場合は、ステップC2−3へ進む。
調査される。
隣接要素の投票数の方が少ない場合は、探索の開始位置が隣接要素に移動されてクラスタ番号が付与され、ステップC2−2の処理が繰り返される。
戻された後の要素がステップC2−1の最初の処理対象として選択された要素でない場合は、ステップC2−3の処理が繰り返される。
戻された後の要素がステップC2−1の最初の処理対象要素として選択された要素である場合は、色空間テーブルの中でクラスタ番号が付与されていない要素の中で、最も票数の多い要素が探索開始位置とされる。そして、異なるクラスタ番号を用いて、ステップC2−1の処理から繰り返される。
全ての要素にラベルが付与された時点で、色空間テーブル要素へのクラスタ番号の付与処理が終了する。
色空間テーブル内のクラスタ番号が、画像内の各画素に反映させられる。これにより、同じ色情報を持つ画素は、画像内で隣接しているかどうかによらず同じクラスタ番号が付与される。
例えば、画素(XY=0,0)と画素(XY=5,10)が同じ色情報(YUV=64,128,128)である場合は、同じクラスタ番号、例えば(0x000001)が付与される。
(XY=0,0)につき、全体画像上でのその画素のクラスタ番号が0x000001、4分割画像上でのその画素のクラスタ番号が0x000002、9分割画像上でのその画素のクラスタ番号が0x000005であるとする。図3のステップS303では、この画素に対する各クラスタ番号に基づいて、新たな統合されたクラスタ番号として、画素毎に各分割結果のクラスタ番号を結合して得られる番号、例えば0x000001000002000005が割り振られる。このようにして、最終的な分割領域が得られる。
色情報によるクラスタリング処理では、画素の色情報を色空間へ投票した頻度分布に対して処理が実行される。この場合、画像内に局所的な色情報の偏りがある場合は、画像全体に対する色空間内の頻度分布と、部分画像に対する色空間内の頻度分布が大きく異なる場合がある。
このため、部分画像と全体画像の各クラスタリング結果が併用されることで、クラスタリングの誤り(不十分なクラスタリング)を抑止することが可能となる。
それらの領域を併合して同じラベルを付与する(図4のステップS401)。
ラベリング結果画像において、同一のラベル番号を持つ画素が1つの領域とされる。具体的には、これらの画素には、新たな同一のラベル番号が振り直される。
ステップM1の処理の後に得られるラベリング結果画像において、あるラベル番号を有する領域が処理対象領域として選択される。
AとPのU成分の差違=|192−190|=2
AとPのV成分の差違=|128−120|=8
AとQのY成分の差違=|128−125)=3
AとQのU成分の差違=|192−190|=2
AとQのV成分の差違=|128−125|=3
AとP,QとのY成分の差違の合計
=AとPのY成分の差違+AとQのY成分の差違=3+3=6
AとP,QとのU成分の差違の合計
=AとPのU成分の差違+AとQのU成分の差違=2+2=4
AとP,QとのV成分の差違の合計
=AとPのV成分の差違+AとQのV成分の差違=8+3=11
ステップM2にて算出された処理対象領域に接する隣接領域毎に、隣接画素の輪郭線長と、隣接画素に関する色情報の成分毎の差異の合計値を隣接画素の輪郭線長で除算して得られる色情報の成分毎の差異平均値が、それぞれ所定の閾値と比較される。この結果、隣接画素の輪郭線長が閾値より長く、かつ色情報の成分毎の差異平均値が閾値よりも小さい場合は、処理対象領域と隣接領域は同一の領域であると見なされ、2つの領域のラベル番号がどちらか一方の領域のラベル番号に統合される。
例えば、輪郭線長に対する閾値を10、色情報の成分毎の差異平均値に対する成分毎の閾値をYUV=5,5,5とした場合を考える。
全てのラベル番号の領域について、ステップM1からステップM3までの操作が繰り返し実行されることにより、領域統合が行われる。
領域統合の後、画像中央付近にあり、かつ面積が最大の領域が選択される。例えば、画像中心部の画素に対する重みが最大とされ、周辺に近づくにつれて重みが小さくされるような関数が用意される。この関数を使って、画像データ中の画素毎に、重みが算出される。ラベル番号毎に、そのラベル番号に属する画素の重みの合計が算出され、合計値が最大となるラベル番号の領域が、仮文書領域の粗抽出結果として選択される。
仮文書領域輪郭直線検出処理部105は、領域統合処理部104によって算出された仮文書領域の粗抽出結果において、隣接領域との境界画素を抽出する(図5のステップS501)。ここで、仮文書領域内部のテキストブロック(文字領域)との境界は対象外とされる。このテキストブロックは例えば、仮文書領域内にあって面積が所定の閾値以下である大きさを有し、周囲との色情報の差(成分毎又は各成分の合計値)が所定の閾値以上である領域として抽出することができる。
定の閾値より小さい投票数の点については、信頼性が低いと見なして輪郭直線候補としては抽出しない。これは、被写体の皺や破れなどで輪郭の直線性が低い場合などに対応する。また、文書領域が画像外にはみ出し、文書領域の境界が画像端となる場合も輪郭直線候補としては検出されないことになる。
次に、図2のステップS204の仮文書領域輪郭直線の検出処理の詳細について、図6の動作フローチャートに従って説明する。
仮文書領域輪郭直線検出処理部105は、ステップS604の判定がNOならば、評価値を算出していない輪郭直線候補を1つ選択する(図6のステップS605)。その後、仮文書領域輪郭直線検出処理部105は、ステップS603とステップS604を実行するこことにより、輪郭直線候補毎に、重なる長さと面積の評価値を算出する。
結果を得たか否かを判定する(図6のステップS607)。
ステップS607の判定がNOならば、仮文書領域輪郭直線検出処理部105は、ステップS601の処理に戻り、仮文書領域輪郭直線検出結果を得ていない新たな輪郭を選択して、ステップS602からステップS606までの処理を繰り返し実行する。
図1の制御部109は、図2のステップS205において、上述の詳細処理により仮文書領域輪郭直線検出処理部105が出力した仮文書領域輪郭直線検出結果が、四角形の4辺全てに対する輪郭直線を検出しているか否かを判定する。
テキストブロック輪郭直線検出処理部107はまず、領域統合処理部104が図2のステップS202にて算出している仮文書領域の粗抽出結果を入力する。そして、テキストブロック輪郭直線検出処理部107は、この入力した仮文書領域の外接矩形を求め、この外接矩形内をテキストブロック(文字領域)の探索範囲として設定する(図8のステップS801)。
右側の仮文書領域輪郭直線が得られなかった場合は、水平方向(左から右へ)のラスタスキャンが、外接矩形上端から下端に向かって実施される。この処理により、仮文書領域内のテキストブロックが抽出される。
このようにして、完全な四角形を形成しない文書領域も、適切に抽出することが可能となる。
図10は、図1の文書領域抽出装置が第2の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図10において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図10の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
第2の実施形態では、文書領域は文字や図形を除くとほぼ一様であるという前提から、制御部109が、図10のステップS206又はS208にて抽出された文書領域内にお
いて、文字領域を除いた画素に対する分散値を取得する(図10のステップS1001)。例えば、文書領域に含まれる画素の色情報(YUVチャネル値)の分散値が計算される。
図11は、図1の文書領域抽出装置が第3の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図11において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図11の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
第3の実施形態では、図1の制御部109が、図11のステップS206又はS208にて抽出された文書領域と共に、図11のステップS203又はS207にて抽出された輪郭直線候補又はテキストブロック輪郭直線候補を、表示装置上に明示する。表示装置は、例えばデジタルカメラや携帯電話の液晶表示画面である。そして、制御部109は、ユーザに確認を求めて、マウスやタッチパネルなどのポインティングデバイスによって、輪郭直線候補のうち適切なのものを選択可能とさせる(以上、図11のステップS1101)。この結果、ユーザは、文書領域を目視で確認でき、必要であれば、輪郭直線候補からより適切な直線を選択することが可能となる。なお、ユーザに、ポインティングデバイスを利用して、新規の直線を指定させてもよい。
輪郭直線が修正されておらずステップS1102の判定がNOとなると、制御部109は、制御部109は、ステップS206又はS208にて選択された輪郭直線が適切であると判断する。そして、制御部109は、文書領域を、後段の歪み補正や文字認識の処理のために出力する。
図12は、図1の文書領域抽出装置が第4の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図12において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図12の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
第4の実施形態は、文書領域の抽出結果に続いて実行される歪み補正処理の結果に基づいて、文書領域の抽出処理を再実行させることにより、文書領域の抽出精度を高めることができる実施形態である。
図13は、図1の文書領域抽出装置が第5の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図13において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図13の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
第5の実施形態は、文書領域の抽出結果に続いて実行される歪み補正処理及び文字認識処理の結果に基づいて、文書領域の抽出処理を再実行させることにより、文書領域の抽出精度を高めることができる実施形態である。
そして、制御部109が、文書領域を分割し(例えば4分割し)、各分割領域毎に、ステップS1302で得られた各分割領域内の文字認識率の平均値を算出する。そして、制御部109は、画像内での認識率に局所的な差があるか否かを判定する(図13のステップS1303)。
図23に示されるコンピュータは、CPU2301、メモリ2302、入力装置2303、出力装置2304、外部記憶装置2305、可搬記録媒体2309が挿入される可搬記録媒体駆動装置2306、及びネットワーク接続装置2307を有し、これらがバス2308によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。このコンピュータは、例えば携帯電話やデジタルカメラ等の電子機器に搭載することができる。
ログラムの保存に用いられる。
可搬記録媒体駆動装置2306は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体2309を収容するもので、外部記憶装置2305の補助の役割を有する。
上述した第1の実施形態から第5の実施形態までの文書領域抽出装置は、各実施形態に必要な機能を搭載したプログラムをCPU2301が実行することで実現される。そのプログラムは、例えば外部記憶装置2305や可搬記録媒体2309に記録して配布してもよく、或いはネットワーク接続装置2307によりネットワークから取得できるようにしてもよい。
(付記1)
入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置において、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理部と、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理部と
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理部と、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理部と、
を含むことを特徴とする文書領域抽出装置。
(付記2)
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理部と
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理部で四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理部と、を更に含み、
前記文書領域抽出処理部が、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする付記1に記載の文書領域抽出装置。
(付記3)
前記テキストブロック抽出処理部は、前記抽出された仮文書領域の内部に含まれる文字領域を前記仮文書領域の中心から探索し、該当する文字領域をテキストブロックとして抽出し、
前記テキストブロック輪郭線検出処理部は、該抽出されたテキストブロックの境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記テキストブロックと重なる長さと該各輪郭直線候補が前記テキストブロックを分断したときの分断部分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記テキストブロックを囲む各辺の輪郭に対応するテキストブロック輪郭直線を選択する、
ことを特徴とする付記2に記載の文書領域抽出装置。
(付記4)
前記文書領域抽出処理部は、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全て
に対して検出された場合は該4辺に対応する仮文書領域輪郭直線で囲まれる四角形の領域を前記文書領域として抽出し、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対しては検出されなかった場合は前記仮文書領域輪郭直線及び前記テキストブロック輪郭直線とを併せて得られる4本の輪郭直線で囲まれる四角形の領域を前記文書領域として抽出する、
ことを特徴とする付記2又は3の何れか1項に記載の文書領域抽出装置。
(付記5)
前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記2乃至4の何れか1項に記載の文書領域抽出装置。
(付記6)
前記文書領域抽出処理部が出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記2乃至5の何れか1項に記載の文書領域抽出装置。
(付記7)
前記文書領域抽出処理部にて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記1乃至6の何れか1項に記載の文書領域抽出装置。
(付記8)
前記文書領域抽出処理部が出力する文書領域に対して歪み補正処理、文字認識処理を実行し、該文字認識処理により得られる前記文書領域内の文字認識率を判定して得られる判定結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記1乃至7の何れか1項に記載の文書領域抽出装置。
(付記9)
前記領域分割処理部は、前記入力画像中の各画素の色情報に基づくクラスタリング処理を実行し、該クラスタリング処理により得られる各分割領域にそれぞれラベルを付与することにより、ラベリング結果画像を生成して出力し、
前記領域統合処理部は、前記ラベリング結果画像において、それぞれ異なるラベルが付与された隣接する分割領域間の色情報を評価し、該色情報の類似性が高い場合は前記隣接する仮文書領域を併合して同じラベルを付与し、該併合の結果得られる画像において、画像中央付近にあり領域サイズが所定の大きさ以上である分割領域を選択し、該分割領域を前記仮文書領域の抽出結果として出力する、
ことを特徴とする付記1乃至8の何れか1項に記載の文書領域抽出装置。
(付記10)
前記領域分割処理部は、前記入力画像に対応する全体画像と前記入力画像の一部を取り出した部分画像をそれぞれ生成し、該全体画像及び該各部分画像のそれぞれに対して前記クラスタリング処理を実行して前記各分割領域を算出し、その後、前記全体画像及び前記各部分画像のそれぞれに対して算出した前記各分割領域を統合し、該統合した各分割領域から前記ラベリング結果画像を生成する、
ことを特徴とする付記9に記載の文書領域抽出装置。
(付記11)
前記仮文書領域輪郭直線検出処理部は、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪郭直線候補が前記仮文書領域を分断したときの分断部分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
ことを特徴とする付記1乃至10の何れか1項に記載の文書領域抽出装置。
(付記12)
文書領域抽出装置が入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出方法であって、
前記文書領域抽出装置が
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
を実行することを特徴とする文書領域抽出方法。
(付記13)
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、を更に含み、
前記文書領域抽出処理ステップが、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする付記12に記載の文書領域抽出方法。
(付記14)
前記テキストブロック抽出処理ステップは、前記抽出された仮文書領域の内ステップに含まれる文字領域を前記仮文書領域の中心から探索し、該当する文字領域をテキストブロックとして抽出し、
前記テキストブロック輪郭線検出処理ステップは、該抽出されたテキストブロックの境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記テキストブロックと重なる長さと該各輪郭直線候補が前記テキストブロックを分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記テキストブロックを囲む各辺の輪郭に対応するテキストブロック輪郭直線を選択する、
ことを特徴とする付記13に記載の文書領域抽出方法。
(付記15)
前記文書領域抽出処理ステップは、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対して検出された場合は該4辺に対応する仮文書領域輪郭直線で囲まれる四角形の領域を前記文書領域として抽出し、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対しては検出されなかった場合は前記仮文書領域輪郭直線及び前記テキストブロック輪郭直線とを併せて得られる4本の輪郭直線で囲まれる四角形の領域を前記文書領域
として抽出する、
ことを特徴とする付記13又は14の何れか1項に記載の文書領域抽出方法。
(付記16)
前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至15の何れか1項に記載の文書領域抽出方法。
(付記17)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至16の何れか1項に記載の文書領域抽出方法。
(付記18)
前記文書領域抽出処理ステップにて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至16の何れか1項に記載の文書領域抽出方法。
(付記19)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理、文字認識処理を実行し、該文字認識処理により得られる前記文書領域内の文字認識率を判定して得られる判定結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至16の何れか1項に記載の文書領域抽出方法。
(付記20)
前記領域分割処理ステップは、前記入力画像中の各画素の色情報に基づくクラスタリング処理を実行し、該クラスタリング処理により得られる各分割領域にそれぞれラベルを付与することにより、ラベリング結果画像を生成して出力し、
前記領域統合処理ステップは、前記ラベリング結果画像において、それぞれ異なるラベルが付与された隣接する分割領域間の色情報を評価し、該色情報の類似性が高い場合は前記隣接する仮文書領域を併合して同じラベルを付与し、該併合の結果得られる画像において、画像中央付近にあり領域サイズが所定の大きさ以上である分割領域を選択し、該分割領域を前記仮文書領域の抽出結果として出力する、
ことを特徴とする付記12乃至19の何れか1項に記載の文書領域抽出方法。
(付記21)
前記領域分割処理ステップは、前記入力画像に対応する全体画像と前記入力画像の一ステップを取り出したステップ分画像をそれぞれ生成し、該全体画像及び該各ステップ分画像のそれぞれに対して前記クラスタリング処理を実行して前記各分割領域を算出し、その後、前記全体画像及び前記各ステップ分画像のそれぞれに対して算出した前記各分割領域を統合し、該統合した各分割領域から前記ラベリング結果画像を生成する、
ことを特徴とする付記20に記載の文書領域抽出方法。
(付記22)
前記仮文書領域輪郭直線検出処理ステップは、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪
郭直線候補が前記仮文書領域を分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
ことを特徴とする付記12乃至21の何れか1項に記載の文書領域抽出方法。
(付記23)
入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置として構成されるコンピュータに、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
を実行させるためのプログラム。
(付記24)
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、を更に含み、
前記文書領域抽出処理ステップが、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする付記23に記載のプログラム。
(付記25)
前記テキストブロック抽出処理ステップは、前記抽出された仮文書領域の内ステップに含まれる文字領域を前記仮文書領域の中心から探索し、該当する文字領域をテキストブロックとして抽出し、
前記テキストブロック輪郭線検出処理ステップは、該抽出されたテキストブロックの境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記テキストブロックと重なる長さと該各輪郭直線候補が前記テキストブロックを分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記テキストブロックを囲む各辺の輪郭に対応するテキストブロック輪郭直線を選択する、
ことを特徴とする付記24に記載のプログラム。
(付記26)
前記文書領域抽出処理ステップは、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対して検出された場合は該4辺に対応する仮文書領域輪郭直線で囲まれる四角形の領域を前記文書領域として抽出し、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対しては検出されなかった場合は前記仮文書領域輪郭直線及び前記テキストブロック輪郭直線とを併せて得られる4本の輪郭直線で囲まれる四角形の領域を前記文書領域として抽出する、
ことを特徴とする付記24又は25の何れか1項に記載のプログラム。
(付記27)
前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対
応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至26の何れか1項に記載のプログラム。
(付記28)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至27の何れか1項に記載のプログラム。
(付記29)
前記文書領域抽出処理ステップにて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至27の何れか1項に記載のプログラム。
(付記30)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理、文字認識処理を実行し、該文字認識処理により得られる前記文書領域内の文字認識率を判定して得られる判定結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至27の何れか1項に記載のプログラム。
(付記31)
前記領域分割処理ステップは、前記入力画像中の各画素の色情報に基づくクラスタリング処理を実行し、該クラスタリング処理により得られる各分割領域にそれぞれラベルを付与することにより、ラベリング結果画像を生成して出力し、
前記領域統合処理ステップは、前記ラベリング結果画像において、それぞれ異なるラベルが付与された隣接する分割領域間の色情報を評価し、該色情報の類似性が高い場合は前記隣接する仮文書領域を併合して同じラベルを付与し、該併合の結果得られる画像において、画像中央付近にあり領域サイズが所定の大きさ以上である分割領域を選択し、該分割領域を前記仮文書領域の抽出結果として出力する、
ことを特徴とする付記23乃至30の何れか1項に記載のプログラム。
(付記32)
前記領域分割処理ステップは、前記入力画像に対応する全体画像と前記入力画像の一ステップを取り出したステップ分画像をそれぞれ生成し、該全体画像及び該各ステップ分画像のそれぞれに対して前記クラスタリング処理を実行して前記各分割領域を算出し、その後、前記全体画像及び前記各ステップ分画像のそれぞれに対して算出した前記各分割領域を統合し、該統合した各分割領域から前記ラベリング結果画像を生成する、
ことを特徴とする付記31に記載のプログラム。
(付記33)
前記仮文書領域輪郭直線検出処理ステップは、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪郭直線候補が前記仮文書領域を分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
ことを特徴とする付記23乃至32の何れか1項に記載のプログラム。
102 画像データ記憶部
103 領域分割処理部
104 領域統合処理部
105 仮文書領域輪郭直線検出処理部
106 テキストブロック抽出処理部
107 テキストブロック輪郭直線検出処理部
108 文書領域抽出処理部
109 制御部
2301 CPU
2302 メモリ
2303 入力装置
2304 出力装置
2305 外部記憶装置
2306 可搬記録媒体駆動装置
2307 ネットワーク接続装置
2308 可搬記録媒体
Claims (7)
- 入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置において、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理部と、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理部と、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理部と、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理部と、
を含み、
前記仮文書領域輪郭直線検出処理部は、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪郭直線候補が前記仮文書領域を分断したときの分断部分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
ことを特徴とする文書領域抽出装置。 - 入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置において、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理部と、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理部と、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理部と、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理部と、
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理部と、
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理部で四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理部と、
を含み、
前記文書領域抽出処理部が、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする文書領域抽出装置。 - 前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする請求項2に記載の文書領域抽出装置。 - 前記文書領域抽出処理部が出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする請求項2又は3の何れか1項に記載の文書領域抽出装置。 - 前記文書領域抽出処理部にて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする請求項2乃至4の何れか1項に記載の文書領域抽出装置。 - 文書領域抽出装置が入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出方法であって、
前記文書領域抽出装置が、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと、
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、
を実行し、
前記文書領域抽出処理ステップでは、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする文書領域抽出方法。 - 入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置として構成されるコンピュータに、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと、
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、
を実行させ、
前記文書領域抽出処理ステップでは、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009080901A JP5229050B2 (ja) | 2009-03-30 | 2009-03-30 | 画像からの文書領域抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009080901A JP5229050B2 (ja) | 2009-03-30 | 2009-03-30 | 画像からの文書領域抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010231686A JP2010231686A (ja) | 2010-10-14 |
JP5229050B2 true JP5229050B2 (ja) | 2013-07-03 |
Family
ID=43047407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009080901A Expired - Fee Related JP5229050B2 (ja) | 2009-03-30 | 2009-03-30 | 画像からの文書領域抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5229050B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779513B2 (en) * | 2013-03-13 | 2017-10-03 | Rakuten, Inc. | Image processing device, image processing method, and image processing program |
US9122921B2 (en) * | 2013-06-12 | 2015-09-01 | Kodak Alaris Inc. | Method for detecting a document boundary |
CN106063247B (zh) | 2014-02-28 | 2019-11-26 | 奥林巴斯株式会社 | 图像处理装置、图像处理方法和图像处理程序 |
KR102284643B1 (ko) | 2014-03-24 | 2021-07-30 | 고쿠리츠 다이가쿠 호진 도호쿠 다이가쿠 | 저항 변화형 기억 소자의 데이터 기록 장치 |
JP6208094B2 (ja) | 2014-08-26 | 2017-10-04 | 株式会社東芝 | 情報処理装置、情報処理システム、情報処理方法及びそのプログラム |
JP6548920B2 (ja) | 2015-03-09 | 2019-07-24 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
JP2017021695A (ja) | 2015-07-14 | 2017-01-26 | 株式会社東芝 | 情報処理装置および情報処理方法 |
JP6909954B2 (ja) * | 2016-03-29 | 2021-07-28 | パナソニックIpマネジメント株式会社 | 加熱調理器 |
CN110134924B (zh) * | 2018-02-08 | 2023-07-28 | 佳能株式会社 | 重叠文本组件提取方法和装置、文本识别系统及存储介质 |
CN110827301B (zh) * | 2019-11-11 | 2023-09-26 | 京东科技控股股份有限公司 | 用于处理图像的方法和装置 |
CN110942064B (zh) * | 2019-11-25 | 2023-05-09 | 维沃移动通信有限公司 | 图像处理方法、装置和电子设备 |
CN112446356B (zh) * | 2020-12-15 | 2024-05-24 | 西北工业大学 | 基于多重极坐标的自然场景下任意形状文本的检测方法 |
CN114092684A (zh) * | 2021-11-17 | 2022-02-25 | 中国银联股份有限公司 | 一种文本校准方法、装置、设备及存储介质 |
CN116090417B (zh) * | 2023-04-11 | 2023-06-27 | 福昕鲲鹏(北京)信息科技有限公司 | 版式文档文本选择渲染方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3416058B2 (ja) * | 1998-07-28 | 2003-06-16 | 日本電信電話株式会社 | 濃淡画像の文字抽出方法及びそのプログラムを記録した記録媒体 |
WO2002017220A1 (fr) * | 2000-08-22 | 2002-02-28 | Akira Kurematsu | Procede d'extraction de zones de caracteres dans une image |
JP2002077566A (ja) * | 2000-08-23 | 2002-03-15 | Nec Microsystems Ltd | 画像補正装置 |
JP3733310B2 (ja) * | 2000-10-31 | 2006-01-11 | キヤノン株式会社 | 文書書式識別装置および識別方法 |
JP4598426B2 (ja) * | 2004-03-30 | 2010-12-15 | 富士通株式会社 | 境界抽出方法、プログラムおよびこれを用いた装置 |
-
2009
- 2009-03-30 JP JP2009080901A patent/JP5229050B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010231686A (ja) | 2010-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5229050B2 (ja) | 画像からの文書領域抽出装置、方法、及びプログラム | |
CN110046529B (zh) | 二维码识别方法、装置及设备 | |
CN106156761B (zh) | 面向移动终端拍摄的图像表格检测与识别方法 | |
Tian et al. | Rectification and 3D reconstruction of curved document images | |
EP2783328B1 (en) | Text detection using multi-layer connected components with histograms | |
KR101399709B1 (ko) | 모델-기반 디워핑 방법 및 장치 | |
JP4301775B2 (ja) | 2次元コード読み取り装置,2次元コード読み取り方法,2次元コード読み取りプログラム及び該プログラムの記録媒体 | |
US7813553B2 (en) | Image region detection method, recording medium, and device therefor | |
JP6089722B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
US20140119593A1 (en) | Determining pose for use with digital watermarking, fingerprinting and augmented reality | |
EP2974261A2 (en) | Systems and methods for classifying objects in digital images captured using mobile devices | |
CN102667810A (zh) | 数字图像中的面部识别 | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
JP6739937B2 (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
KR20130066819A (ko) | 촬영 이미지 기반의 문자 인식 장치 및 방법 | |
JP6542230B2 (ja) | 投影ひずみを補正するための方法及びシステム | |
CN115205113A (zh) | 一种图像拼接方法、装置、设备及存储介质 | |
JP5015097B2 (ja) | 画像処理装置、画像処理プログラム、コンピュータ読み取り可能な記録媒体、電子機器及び画像処理方法 | |
WO2020021879A1 (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
CN114511865A (zh) | 一种结构化信息的生成方法、装置和计算机可读存储介质 | |
CN112800824A (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
JP5010627B2 (ja) | 文字認識装置及び文字認識方法 | |
JP2019220069A (ja) | カード番号認識装置およびカード番号認識方法 | |
CN111599080B (zh) | 拼接纸币的检测方法、装置、金融机具设备及存储介质 | |
Guo et al. | A fast page outline detection and dewarping method based on iterative cut and adaptive coordinate transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |