JP5229050B2 - 画像からの文書領域抽出装置、方法、及びプログラム - Google Patents

画像からの文書領域抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP5229050B2
JP5229050B2 JP2009080901A JP2009080901A JP5229050B2 JP 5229050 B2 JP5229050 B2 JP 5229050B2 JP 2009080901 A JP2009080901 A JP 2009080901A JP 2009080901 A JP2009080901 A JP 2009080901A JP 5229050 B2 JP5229050 B2 JP 5229050B2
Authority
JP
Japan
Prior art keywords
straight line
contour
area
region
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009080901A
Other languages
English (en)
Other versions
JP2010231686A (ja
Inventor
伸之 原
明洋 皆川
裕 勝山
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009080901A priority Critical patent/JP5229050B2/ja
Publication of JP2010231686A publication Critical patent/JP2010231686A/ja
Application granted granted Critical
Publication of JP5229050B2 publication Critical patent/JP5229050B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Description

開示する技術は、文字認識を目的とした実世界撮影画像からの文書領域抽出技術に関する。
コンパクトデジタルカメラやカメラ機能を搭載した携帯電話が普及した現在では、実世界の文書や看板などの被写体を撮影し、その撮影画像から文字情報を取得し活用するための文字認識技術に期待が高まっている。
しかし、従来の文字認識処理において対象とされる画像は、スキャナなどの固定装置を利用した外乱のない環境で撮影された画像であった。
コンパクトデジタルカメラや携帯電話で名刺や活字文章などが読み取られる利用シーンを考えると、撮影時に必要な文字情報だけを正確に撮影することは困難であり、画像中に不要な情報を含む背景まで写りこむ場合が多い。また、被写体に正対して撮影できないために透視歪みや回転歪みも画像上に発生する場合が多い。このような状況から生じる、撮影画像中の背景への認識対象以外の文字列や模様などの不要な情報の写りこみや、撮影画像に発生する透視歪みや回転歪み歪みが、文字認識精度を低下させる原因となっている。
そこで、文字認識処理を行う前に、文字が書かれている領域(文書領域)を精度良く抽出し、さらに歪み補正を行うことで、文字認識処理の精度を向上させる技術が要請されている。即ち、歪みや認識対象以外の要素が文字認識に影響しないように、文字認識処理が実行される前に歪み補正処理と文書領域抽出処理が実行されることが望ましい。また、歪み補正処理は、画像変換処理であり画素数に比例して処理量が増加する処理である。このため、歪み補正処理は、文書領域抽出処理によって抽出された認識対象となる文書領域に限定されて実行されることが望ましい。
一般的な撮影画像中の文字認識を目的とする文字領域の抽出処理に関する第1の従来技術として、文書領域を抽出することなく、画素特徴量に基づいて画像全体の背景と文字を分離する技術が提案されている。
また、上記と同様な文字領域の抽出処理に関する第2の従来技術として、斜め方向から撮影された文書画像において発生する回転や透視歪みを補正することを目的とする、歪み除去変換技術が提案されている。この第2の従来技術では、撮影画像から抽出された複数の文字列の傾きと既知のカメラの焦点距離に基づいて、変換処理が実行されることにより、歪みが除去される。
更に文字領域の抽出処理に関する第3の従来技術として、画像の歪み補正や文字認識を目的とした領域抽出技術が提案されている。この第3の従来技術では、入力画像を変換して得られるエッジ画像から得られる直線に基づいて、背景領域と文書領域が分離され、或いはエッジ画像から得られる複数の直線によって矩形領域が区画されることにより、文書領域が抽出される。
上述の各従来技術に関連して、下記の先行技術文献が開示されている。
特開平9−16713号公報 特開平2002−334327号公報 特開平2004−96435号公報 特開平2006−107034号公報
しかし、第1の従来技術では、文字領域が抽出されることなく文字認識が実行される。このため、第1の従来技術は、背景部分の文字でない要素が文字であると誤認識されてしまう場合が発生するという問題点を有していた。また、第1の従来技術では、対象となる文書領域の文字情報を全体の文字認識結果から選択する必要もあり、その選択処理においても誤った選択がなされる場合が発生するという問題点を有していた。
次に、第2の従来技術では、文書領域ではない背景領域に文字や画像が存在する場合には、それらの文字等もいっしょに変換されてしまう。このような場合には、文書領域内の文字列だけを正しく抽出して変換処理を実行することが困難となり、誤変換が発生するという問題点を有していた。
更に、第3の従来技術では、手持ちカメラ等による一般的な撮影画像では、文書領域の輪郭直線のエッジ情報と共に、文書領域内の文字や画像要素、並びに背景部分の文字でない要素からもエッジ情報が多数取得される場合が多い。このような場合には、対象とする文書領域のみの輪郭直線を選択することが困難な場合があるという問題点を有していた。更に、背景と文書領域の識別ができない場合や文書領域の一部が画面外にある場合には、輪郭の一部が検出できない。このような場合には、対象となる文書領域を正しく抽出することが困難であるという問題点を有していた。
開示する技術が解決しようとする課題は、手持ちカメラ等による一般的な撮影画像から、文書領域を正しく抽出することにある。
上記課題を解決するために、開示する技術は、入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置として、以下の構成により実現される。
領域分割処理部は、入力画像中の各画素の色情報に基づいて入力画像を複数の分割領域に分割する。
領域統合処理部は、各分割領域について、分割領域の他の分割領域と接している画素と、その画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する。
仮文書領域輪郭直線検出処理部は、抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する。
文書領域抽出処理部は、抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する。
開示する技術によれば、抽出された仮文書領域の輪郭に直線が当てはめられることで、背景部分の要素に影響されることなく、また背景と文字領域の分離が部分的に失敗する場合でも、文字認識対象領域を四角形領域として高精度に背景から抽出することができる。更に、例えば仮文書領域の輪郭を抽出できない場合に、テキストブロック輪郭直線を求め
て併用することで、四角形領域としての文書領域を抽出することが可能となる。
また、開示する技術によれば、領域分割の際に過分割となった領域が領域統合処理によって統合されることで、文書領域内部の領域境界が不要に発生することを防ぐことができる。これにより、その後段で実行される仮文書領域輪郭直線候補算出処理では、文書領域内部の領域境界画素は算出精度の低下につながるため、これを防ぐことで輪郭直線候補の算出精度を向上させることが可能となる。
更に、開示する技術によれば、照明光の影響などによる輪郭の部分的な誤抽出が発生しても、文書領域が輪郭直線の当てはめによる四角形として抽出されることで、文書領域を矩形領域として正確に抽出することが可能となる。加えて、文書領域の輪郭が画面外に有る場合や背景と識別が困難な場合などで仮文書領域輪郭直線の抽出ができない場合でも、テキストブロック輪郭直線が併用されることで四角形としての文書領域を抽出することが可能となる。
文書領域抽出装置の実施形態の構成図である。 図1の文書領域抽出装置が第1の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。 色情報による領域分割処理の詳細を示す動作フローチャートである。 領域統合による仮文書領域及び背景領域の分離処理(仮文書領域の粗抽出処理)の詳細を示す動作フローチャートである。 輪郭直線候補の検出処理の詳細を示す動作フローチャートである。 仮文書領域輪郭直線の検出処理の詳細を示す動作フローチャートである。 4辺の仮文書領域輪郭直線に基づく文書領域抽出処理を示す動作フローチャートである。 テキストブロック輪郭直線の検出処理の詳細を示す動作フローチャートである。 文書領域輪郭直線とテキストブロック輪郭直線とに基づく文書領域抽出処理の詳細を示す動作フローチャートである。 図1の文書領域抽出装置が第2の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。 図1の文書領域抽出装置が第3の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。 図1の文書領域抽出装置が第4の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。 図1の文書領域抽出装置が第5の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。 第1の実施形態の動作説明図(その1)である。 第1の実施形態の動作説明図(その2)である。 領域分割処理部103の動作を示す説明図である。 領域分割処理部103が実行するクラスタリング処理の動作説明図である。 領域統合処理部104の動作を示す説明図である。 仮文書領域輪郭直線検出処理部105の動作を示す説明図(その1)である。 仮文書領域輪郭直線検出処理部105の動作を示す説明図(その2)である。 テキストブロック輪郭直線検出処理部107の動作を示す説明図(その1)である。 テキストブロック輪郭直線検出処理部107の動作を示す説明図(その2)である。 図1の文字領域抽出装置を実現できるコンピュータのハードウェア構成の一例を示す図である。 机の上に置かれた名刺の撮影画像の例を示す図である。 2値化画像の例を示す図である。 エッジ画像の例を示す図である。
以下、実施形態について詳細に説明する。
図1は、文書領域抽出装置の実施形態の構成図である。この構成は、デジタルカメラやカメラを搭載した携帯端末や携帯電話などの機器内に実現することができる。また、図2は、図1の文書領域抽出装置が第1の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図2の200で示される部分が、図1の文書領域抽出装置が実行する処理部分である。なお、図2の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
以下、図1の文書領域抽出装置の構成及び図2の文書領域抽出装置の動作フローチャートに基づく第1の実施形態について、以下に詳細に説明する。
まず、ユーザが、カメラ撮影部101にて、例えば机の上に置かれた名刺などの文書を含む画像を撮影する。この結果、カメラ撮影部101が画像データを出力し、その画像データは、画像データ記憶部102に記憶される。
次に、領域分割処理部103が、画像データ記憶部102から画像データを読み出して入力し、その画像データに対して、色情報に基づいて領域分割処理を行う(図2のステップS201)。
次に、領域統合処理部104が、領域分割処理部103での領域分割結果を統合し、仮文書領域と背景領域を分離し、仮文書領域を粗く抽出(粗抽出)する(図2のステップS202)。
次に、仮文書領域輪郭直線検出処理部105が、領域統合処理部104での仮文書領域の粗抽出結果を入力して、仮文書領域の端画素から輪郭直線候補を検出する(図2のステップS203)。
次に、仮文書領域輪郭直線検出処理部105が、ステップS203にて抽出された輪郭直線の候補を評価することにより、仮文書領域から輪郭直線を検出する(図2のステップS204)。以後、この輪郭直線を仮文書領域輪郭直線と呼ぶ。
続いて、制御部109は、仮文書領域輪郭直線検出処理部105において、仮文書領域輪郭直線が四角形の4辺全てに対して検出されたか否かを判定する(図2のステップS205)。
ステップS205で仮文書領域輪郭直線が四角形の4辺全てに対して検出されたと判定されたならば、文書領域抽出処理部108が、4辺からなる仮文書領域輪郭直線で囲まれる四角形領域を正式な出力用の文書領域として抽出出力する(図2のステップS206)。
ステップS205で仮文書領域輪郭直線が四角形の4辺全てに対して検出されてはいないと判定されたならば、テキストブロック抽出処理部106が、領域統合処理部104が粗抽出した仮文書領域から、テキストブロックを抽出する(図2のステップS207)。
続いて、テキストブロック輪郭直線検出処理部107が、テキストブロック抽出処理部106が抽出したテキストブロックに対する輪郭直線を検出する(図2のステップS207)。以後、この輪郭直線をテキストブロック輪郭直線と呼ぶ。
更に、文書領域抽出処理部108が、仮文書領域輪郭直線検出処理部105がステップS204にて検出した仮文書領域輪郭直線と、テキストブロック輪郭直線検出処理部107がステップS208にて検出したテキストブロック輪郭直線とを併合する。文書領域抽出処理部108は、この併合処理の結果得られる四角形領域を正式な出力用の文書領域として抽出し、その文書領域を出力する(図2のステップS208)。
以上のようにして、図1の文書領域抽出装置内の文書領域抽出処理部108から出力される文書領域は、文書領域抽出装置の後段に接続される特には図示しない歪み補正処理部に入力し、そこで歪み補正処理が実行される(図2のステップS209)。その歪み補正処理結果は、更に歪み補正処理部の後段に接続される特には図示しない文字認識処理部に入力し、そこで文字認識処理が実行される(図2のステップS210)。歪み補正処理や文字認識処理の結果が不十分な場合には、図1の制御部109は、仮文書領域輪郭直線検出処理部105の処理(図2のステップS204)に制御を戻し、輪郭直線候補からの仮文書領域輪郭直線の検出をやり直させる。この場合には例えば、新たな輪郭直線候補から仮文書領域輪郭直線が選択される。
図24は、第1の実施形態が対象とする撮像画像であって、手持ちのコンパクトデジタルカメラ又は携帯電話に搭載されているカメラ等の手持ちカメラによって撮影された、机の上に置かれた名刺の撮影画像の例を示す図である。また、図25は、図24に示される撮影画像に対して一般的な2値化処理を実行して得られる、2値化画像の例を示す図である。更に、図26は、図25に示される2値化画像に対して一般的なエッジ抽出処理を実行して得られる、エッジ画像の例を示す図である。手持ちカメラによる撮影に基づく文字認識処理では、一般的に、図26に示されるようなエッジ画像から、文字が存在する文字領域を抽出する必要がある。図26に例示されるエッジ画像では、文字領域は全体的に左に回転しており、背景に机の表面の模様に起因する様々な模様も写り込んでいる。このようなエッジ画像から、いかに正確に文字領域を抽出するかが、課題である。
第1の実施形態は、図14に示されるように、「文字認識対象文書のほかに机や付箋などの様々な要素が写り込んだ画像データ中の文書領域は矩形でかつ文字以外の部分は一様色である場合が多い」という事実を利用して動作する。
即ちまず、領域分割処理部103が色情報に基づく領域分割を実行することにより、仮文書領域1402を粗抽出する。このようにして色情報による領域分割が行われてから、図14の1403として示されるように、仮文書領域輪郭直線検出処理部105が、粗抽出された仮文書領域1402に対して直線を当てはめる処理を実行することで、仮文書領域輪郭直線を検出する。この処理により、正式な出力用の文書領域1404を四角形として精度良く背景から分離することができ、領域外の背景部分の要素が輪郭検出処理に影響することが抑止される。
この場合、図15の1501として示されるように、環境光などの影響による仮文書領域の部分的な突出や窪みが発生しても、色情報による分割された仮文書領域1402への直線1403の当てはめにより、正式な出力用の文書領域1404を四角形として精度良く近似できる。この結果、後段での歪み補正処理の精度と文字認識の精度が向上する。なお、図15で、図14と同じ部分には同じ番号が付されている。
仮文書領域輪郭直線検出処理部105での仮文書領域輪郭直線の検出精度を向上させる
ために、領域分割処理部103において、以下の詳細処理が実行される。
図3は、領域分割処理部103が実行する図2のステップS201の色情報による領域分割処理の詳細を示す動作フローチャートである。また、図16は、領域分割処理部103の動作を示す説明図、図17は、領域分割処理部103が実行するクラスタリング処理の動作説明図である。
まず、領域分割処理部103は、基本的な動作として、色情報に基づいたクラスタリングによる領域分割処理を実行する。この処理により、色情報に基づく分割によって過度の領域分割が発生した場合、隣接する分割領域のそれぞれの色情報が比較され、類似性が高い場合にはそれらの分割領域がクラスタリングにより併合される。このクラスタリング処理により、仮文書領域内のエッジ要素の発生が抑止され、不用なエッジ情報の影響が防止される。クラスタリング処理の詳細なアルゴリズムについては後述する。
上述のクラスタリング処理を基本として、領域分割処理部103はまず、画像データ記憶部102から読み出した入力画像データの全体について色情報に基づくクラスタリング処理を実行して分割領域を生成する(図3のステップS301)。例えば、図16に示される例では、入力画像データ1601の全体から分割領域1602が生成される。
これと併せて、領域分割処理部103は、画像データ記憶部102から読み出した入力画像データを例えば4つの部分画像データに分け、各部分画像データに対して色情報に基づくクラスタリング処理を個別に実行して、各部分分割領域を生成する(ステップS302)。図16の例では、入力画像データ1601を例えば4つに分割して得られる4つの部分画像データの各々から、各部分分割領域1603(#1〜#4)が生成される。なお、4分割部分画像というような1種類の部分画像群についてだけではなく、例えば9分割部分画像というような他の種類の部分画像群についても同時に処理が行われてもよい。
次に、領域分割処理部103は、全体画像に対する処理で得られた分割領域と、各部分画像に対する処理で得られた各部分分割領域とを統合して、最終的な分割領域を得る(図3のステップS303)。図16の例では、全体画像に対応する分割領域1602と各部分画像に対応する各部分分割領域1603(#1〜#4)とが統合されて、分割領域1604が得られる。ステップS302において、複数種類の部分画像群に対して処理が行われた場合には、複数種類の各部分分割領域が統合される。
そして、領域分割処理部103は、クラスタリングの結果、同じクラスに分類された領域毎に、それぞれ個別のラベルを付与し、ラベル結果画像を出力する(図3のステップS304)。ただし、同じクラスに属していても隣接していない領域には異なるラベルが付与されることで、領域分割が行われる。
図16の例では、入力画像データの全体に対する処理で得られた分割領域1602では、画面中央にある仮文書領域の左上角1605が背景との分離に失敗しているが、それ以外の3つの角や辺については背景との分離に成功している。一方、入力画像データを4分割して得た各部分画像データに対する処理で得られた各部分分割領域1603(#1〜#4)では、左上角1605の分離は成功しているが、上辺中央部1606の分離に失敗している。しかし、分割領域1602と各部分分割領域1603(#1〜#4)が統合され、その場合にどちらかの結果で分割された領域は全て分割されるように統合されることにより、環境光の影響などで文書領域が欠落してしまう可能性を回避することができる。
図3のステップS301及びS302における各クラスタリング処理としては、K−means法等の統計量に基づく手法をはじめとして、種々の手法が適用できる。ここでは、図17に模式的に示されるように、画素の色情報を色空間に投影した結果を用いて、投影結果の頻度分布の頂点(頻度の極大点)から谷(頻度の極小点)に向かって探索が行われ逐次的にクラスが決定される方式を用いることができる。これにより分布の頂点から谷までを1つのクラスとして決定することができる。この方式は、代表的なクラスを頻度の高いクラスから順に決定することができ、文書領域のような一様な領域の抽出に適している。なお、図17は、色空間を1次元で模式的に表現したものであるが、実際のクラスタリング処理は例えば3次元の色空間において実行される。
クラスタリングアルゴリズムの詳細を、以下のステップC1からステップC3までの処理として示す。
ステップC1
色情報チャンネルによる色空間テーブルが用意され、画像内の各画素の色情報に基づいて投票が行われる。
例えば、色情報がYUVの3チャンネルからなり、各チャネルの段階を256段階とすると、色空間テーブルの大きさは256×256×256となる。この色空間テーブルに、画像内の画素がその色情報に基づいて投票される。例えば、対象画素の色情報がYUV=64,128,128である場合は、該当するテーブル内の要素(64,128,128)に1票が加算される。色空間テーブルは、必要に応じて色空間を間引きして、より小さいものを使用してもよい。
このようにして、同じ色情報を持つ画素数に比例して、その色情報に対応する色空間テーブル内の要素への投票数が多くなる。
ステップC2
色空間テーブルの中で、最も票数の多い要素が探索の開始位置とされ、局所最小値が探索される。探索処理は以下のようになる。

ステップC2−1:色空間テーブル内の各要素にクラスタ番号が付与される。初期状態では各要素にはクラスタ番号は付与されていないとする。探索の開始位置とする要素(以下、探索要素と記す)に、クラスタ番号が付与される。例えば、最大の投票数を有する要素から探索が開始される場合にはその要素の番号が0番とされ、以降は1ずつ番号が増加させられる。

ステップC2−2:探索要素と色空間テーブル内のある軸に沿って、色空間内で隣接する要素(以下、隣接要素と記す)へのクラスタ番号の付与状態が調査される。
例えば、探索要素が(YUV=64,128,128)である場合に、隣接する要素がV軸に沿って増加する方向に選択されると、(64,128,129)の要素が選択される。
この隣接要素にクラスタ番号が付与済みの場合は、ステップC2−3の処理に進む。
隣接要素にクラスタ番号が付与されていない場合は、探索要素の投票数と、隣接要素の投票数が比較される。その結果、隣接要素の投票数の方が少ない場合(例えば、探索要素の投票数が100で、隣接要素の投票数が90である場合)には、隣接要素にクラスタ番号が付与されて、隣接要素に探索の開始位置が移動し、ステップC2−2の処理が繰り返される。隣接要素の投票数の方が多い場合は、ステップC2−3へ進む。
ステップC2−3:ステップC2−2で選択された軸に沿って反対方向の隣接要素(例えばV軸に沿って減少する方向(64,128,127))へのクラスタ番号の付与状態が
調査される。
その結果、隣接要素についてクラスタ番号が付与済みの場合は、異なる軸に沿って隣接する要素が調査される。例えば、U軸方向に沿って隣接する要素(64,127,128)、(64,129,128)が調査される。全ての隣接要素にクラスタ番号が付与済みの場合は、ステップC2−4に進む。
クラスタ番号が付与されていない隣接要素が存在する場合は、隣接要素の投票数と探索要素の投票数が比較される。
隣接要素の投票数の方が少ない場合は、探索の開始位置が隣接要素に移動されてクラスタ番号が付与され、ステップC2−2の処理が繰り返される。
隣接要素の投票数の方が多い場合は、異なる軸に沿って隣接する要素間で投票数が比較される。隣接要素の投票数が対象要素の投票数より少ない場合は、その隣接要素にクラスタ番号が付与され、更に隣接要素に探索の開始位置が移動されて、ステップC2−2の処理が繰り返される。全ての隣接要素の投票数が探索要素の投票数より多い場合は、ステップC2−4に進む。
ステップC2−4:現在の対象要素に移動する前の要素へ、探索開始位置が戻される。
戻された後の要素がステップC2−1の最初の処理対象として選択された要素でない場合は、ステップC2−3の処理が繰り返される。
戻された後の要素がステップC2−1の最初の処理対象要素として選択された要素である場合は、色空間テーブルの中でクラスタ番号が付与されていない要素の中で、最も票数の多い要素が探索開始位置とされる。そして、異なるクラスタ番号を用いて、ステップC2−1の処理から繰り返される。
全ての要素にラベルが付与された時点で、色空間テーブル要素へのクラスタ番号の付与処理が終了する。
ステップC3
色空間テーブル内のクラスタ番号が、画像内の各画素に反映させられる。これにより、同じ色情報を持つ画素は、画像内で隣接しているかどうかによらず同じクラスタ番号が付与される。
例えば、画素(XY=0,0)と画素(XY=5,10)が同じ色情報(YUV=64,128,128)である場合は、同じクラスタ番号、例えば(0x000001)が付与される。
以上のステップC1からC3によって示される色情報に基づくクラスタリング処理が、図3のステップS301においては、画像データ記憶部102から読み出した入力画像データの全体について実行される。また、図3のステップS302においては、画像データ記憶部102から読み出した入力画像データを分割して得られる各部分画像データに対して個別に実行される。
次に、図3のステップS303において領域分割処理部103が実行する、全体画像から得られる分割領域と各部分画像から得られる各部分分割領域の統合処理について説明する。ステップS301とS302の処理の結果、各ステップにて出力される画像データの各画素は、全体画像と各部分分割画像に対してそれぞれ付与されたクラスタ番号を持つ。例えば、ステップS302での分割を4分割と9分割の2種類とする。そして、或る画素
(XY=0,0)につき、全体画像上でのその画素のクラスタ番号が0x000001、4分割画像上でのその画素のクラスタ番号が0x000002、9分割画像上でのその画素のクラスタ番号が0x000005であるとする。図3のステップS303では、この画素に対する各クラスタ番号に基づいて、新たな統合されたクラスタ番号として、画素毎に各分割結果のクラスタ番号を結合して得られる番号、例えば0x000001000002000005が割り振られる。このようにして、最終的な分割領域が得られる。
最後に、図3のステップS304において領域分割処理部103が実行する、ラベル結果画像の出力処理について説明する。上述のようにしてステップS303にて各画素に統合されたクラスタ番号が付与された画像データにおいて、画像内で隣接する画素間で付与されているクラスタ番号が同一の画素であれば、それらの画素には同じラベル番号が割り振られる。ただし、クラスタ番号が同一の画素同士であっても、画像内で隣接していない画素同士である場合には、これらの画素には別のラベル番号が割り振られる。例えば、孤立領域に対しては、他の領域とクラスタ番号が同一でも別のラベル番号が割り振られる。このラベリング処理により、領域分割処理部103は、ラベリング結果画像を出力する。
上述のように第1の実施形態では、全体画像に対するクラスタリング処理(ステップS301)と各部分画像に対する各クラスタリング処理(ステップS302)が併用され各結果が統合される。その効果の概略については、図16を用いて前述した。
ここで、その効果について再度、クラスタリング処理の観点から説明する。
色情報によるクラスタリング処理では、画素の色情報を色空間へ投票した頻度分布に対して処理が実行される。この場合、画像内に局所的な色情報の偏りがある場合は、画像全体に対する色空間内の頻度分布と、部分画像に対する色空間内の頻度分布が大きく異なる場合がある。
例えば文書領域(対象とする紙面領域)が画像内の隅にあり文書領域周囲の背景部分が小さい場合、1枚の入力画像を分割して得られる各部分画像では、背景部分の画素数が多い部分画像と少ない部分画像とが存在する。
部分画像で背景部分の画素が文書画像内の画素に比べて非常に少ない場合、色空間内の頻度分布によっては、仮文書領域内の画素へのクラスタリング結果に背景部分の画素が誤って含まれる場合が起こり得る。
このような場合でも、全体画像であれば背景部分の画素が、望ましいクラスタリング結果を得られる程度に存在することが期待できる。
このため、部分画像と全体画像の各クラスタリング結果が併用されることで、クラスタリングの誤り(不十分なクラスタリング)を抑止することが可能となる。
図1の仮文書領域輪郭直線検出処理部105での仮文書領域輪郭直線の検出精度を向上させるために、上述の領域分割処理部103における詳細処理に続いて、図1の領域統合処理部104において、以下の詳細処理が実行される。
図4は、領域統合処理部104が実行する図2のステップS202の、領域統合による仮文書領域及び背景領域の分離処理(仮文書領域の粗抽出処理)の詳細を示す動作フローチャートである。また、図18は、領域統合処理部104の動作を示す説明図である。
領域統合処理部104は、領域分割処理部103が領域分割結果として出力したラベリング結果画像を入力する。領域統合処理部104は、このラベリング結果画像において、隣接する領域間でラベルが異なる場合は、各領域の色情報を評価し、類似性が高い場合は
それらの領域を併合して同じラベルを付与する(図4のステップS401)。
そして、領域統合処理部104は、ステップS401でのラベル併合の結果、画像中央付近で領域サイズ(領域の面積)が所定の大きさ以上の領域を仮文書領域の粗抽出結果として選択して出力する(図4のステップS402)。
もし上述の領域統合処理が行われない場合は、図18に示されるように、仮文書領域の粗抽出結果1801の内部に過分割された領域1802が存在する場合、輪郭境界が、背景領域との境界以外に仮文書領域1801の内部にも発生し、仮文書領域輪郭直線の検出精度と計算量に影響を与えてしてしまう。従って、上述の領域統合処理により、局所的な濃淡変化による誤統合が回避される。
上述のステップS401とS402の処理の詳細なアルゴリズムを、以下のステップM1からステップM5までの処理として示す。
ステップM1
ラベリング結果画像において、同一のラベル番号を持つ画素が1つの領域とされる。具体的には、これらの画素には、新たな同一のラベル番号が振り直される。
ステップM2
ステップM1の処理の後に得られるラベリング結果画像において、あるラベル番号を有する領域が処理対象領域として選択される。
処理対象領域が他の異なるラベル番号を持つ領域と接している場合は、相手のラベル番号毎に領域同士が接している部分の輪郭線長、即ち互いに接している画素の数の合計が算出される。例えば、ラベル番号#001を有する領域内の1つの画素Aが、ラベル番号#003を有する領域内の2つの画素に接している場合は、画素Aに対する輪郭線長は2となる。この処理が、処理対象の領域内の画素全てに対して実施される。例えば、処理対象領域であるラベル番号#001の領域に対して、ラベル番号#003と#004の領域が接している場合は、#003、#004の領域毎に輪郭線長が算出される。以下、処理対象領域に接している領域を隣接領域、処理対象領域内の画素に接している画素を隣接画素と呼ぶ。
続いて、処理対象領域が接する隣接領域毎(ラベル番号毎)に、接している画素同士の色情報の差異(絶対値)の合計が算出される。例えば、ラベル番号#001である処理対象領域内の画素A(YUV=128,192,128)に対して、ラベル番号#003の領域内の2つの隣接画素P(YUV=125,190,120)とQ(YUV=125,190,125)が存在するとする。この場合、画素Aと隣接画素Pの色情報の差違(絶対値)は、次のように計算される。
AとPのY成分の差違=|128−125|=3
AとPのU成分の差違=|192−190|=2
AとPのV成分の差違=|128−120|=8
同様に、画素Aと隣接画素Qの色情報の差違(絶対値)は、次のように計算される。
AとQのY成分の差違=|128−125)=3
AとQのU成分の差違=|192−190|=2
AとQのV成分の差違=|128−125|=3
従って、画素Aに対する隣接画素P,Qとの色情報の各差異(絶対値)の合計は、次のように計算される。
AとP,QとのY成分の差違の合計
=AとPのY成分の差違+AとQのY成分の差違=3+3=6
AとP,QとのU成分の差違の合計
=AとPのU成分の差違+AとQのU成分の差違=2+2=4
AとP,QとのV成分の差違の合計
=AとPのV成分の差違+AとQのV成分の差違=8+3=11
つまり、画素Aに対する隣接画素P,Qとの色情報の各差異(絶対値)の合計は、YUV=6,4,11となる。この合計処理が、1つの隣接領域における隣接画素全てについて実行され、色情報の成分毎の合計値が算出される。更に、この合計値が、処理対象領域が接する隣接領域毎(ラベル番号毎)に算出される。
以上のようにして、隣接領域毎(ラベル番号毎)に、隣接画素の輪郭線長と、隣接画素に関する色情報の差違の合計値が算出される。例えば、ラベル番号#001の処理対象領域について、ラベル番号#003の隣接領域に関する輪郭線長は20、色情報の差異の合計値はYUV=60,40,55といった如くである。また、ラベル番号#004の隣接領域に関する輪郭線長は30、色情報の差異の合計値はYUV=90,60,160といった如くである。
ステップM3
ステップM2にて算出された処理対象領域に接する隣接領域毎に、隣接画素の輪郭線長と、隣接画素に関する色情報の成分毎の差異の合計値を隣接画素の輪郭線長で除算して得られる色情報の成分毎の差異平均値が、それぞれ所定の閾値と比較される。この結果、隣接画素の輪郭線長が閾値より長く、かつ色情報の成分毎の差異平均値が閾値よりも小さい場合は、処理対象領域と隣接領域は同一の領域であると見なされ、2つの領域のラベル番号がどちらか一方の領域のラベル番号に統合される。
例えば、輪郭線長に対する閾値を10、色情報の成分毎の差異平均値に対する成分毎の閾値をYUV=5,5,5とした場合を考える。
そして今、ステップM2で例示したように、ラベル番号#001の処理対象領域について、ラベル番号#003の隣接領域に関する輪郭線長は20、色情報の差異の合計値はYUV=60,40,55であるとする。この場合、色情報の成分毎の差違平均値はYUV=60/20,40/20,55/20=3,2,2.75である。従って、輪郭線長20は閾値10よりも長く、かつ色情報の成分毎の差違平均値YUV=3,2,2.75は成分毎の閾値YUV=5,5,5よりも小さい。このため、ラベル番号#003の隣接領域は、比較条件を全て満たすことから、ラベル番号#001の処理対象領域とラベル番号#003の隣接領域は、同一の領域と見なされて統合される。2つの領域のラベル番号は例えば、若い番号の方に統合される。
一方、ステップM2で例示したように、ラベル番号#001の処理対象領域について、ラベル番号#004の隣接領域に関する輪郭線長は30、色情報の差異の合計値はYUV=90,60,160であるとする。この場合、色情報の成分毎の差違平均値はYUV=90/30,60/30,160/30=3,2,5.3である。従って、輪郭線長30は閾値10よりも長いが、色情報の成分毎の差違平均値YUV=3,2,5.3と成分毎の閾値YUV=5,5,5とを比較した場合にV成分が閾値よりも大きい。このため、ラベル番号#004の隣接領域は、比較条件の全ては満たさないことから、ラベル番号#001の処理対象領域とラベル番号#004の隣接領域は、同一の領域とは見なされず、統合は行われない。
ステップM4
全てのラベル番号の領域について、ステップM1からステップM3までの操作が繰り返し実行されることにより、領域統合が行われる。
ステップM5
領域統合の後、画像中央付近にあり、かつ面積が最大の領域が選択される。例えば、画像中心部の画素に対する重みが最大とされ、周辺に近づくにつれて重みが小さくされるような関数が用意される。この関数を使って、画像データ中の画素毎に、重みが算出される。ラベル番号毎に、そのラベル番号に属する画素の重みの合計が算出され、合計値が最大となるラベル番号の領域が、仮文書領域の粗抽出結果として選択される。
図1の領域統合処理部104における上述の詳細処理に続いて、図1の仮文書領域輪郭直線検出処理部105において、以下の詳細処理が実行される。
図5は、仮文書領域輪郭直線検出処理部105が実行する図2のステップS203の、輪郭直線候補の検出処理の詳細を示す動作フローチャートである。また、図6は、仮文書領域輪郭直線検出処理部105が実行する図2のステップS204の、仮文書領域輪郭直線の検出処理の詳細を示す動作フローチャートである。更に、図19及び図20は、仮文書領域輪郭直線検出処理部105の動作を示す説明図である。
まず、図2のステップS203の輪郭直線候補の検出処理の詳細について、図5の動作フローチャートに従って説明する。
仮文書領域輪郭直線検出処理部105は、領域統合処理部104によって算出された仮文書領域の粗抽出結果において、隣接領域との境界画素を抽出する(図5のステップS501)。ここで、仮文書領域内部のテキストブロック(文字領域)との境界は対象外とされる。このテキストブロックは例えば、仮文書領域内にあって面積が所定の閾値以下である大きさを有し、周囲との色情報の差(成分毎又は各成分の合計値)が所定の閾値以上である領域として抽出することができる。
次に、仮文書領域輪郭直線検出処理部105は、ステップS501で抽出した各境界画素を、極座標の2次元空間で表されるハフ(Hough)空間上の対応する座標に投票する(写像する)。ここでHough変換は、直線の検出や円の検出に用いられる。直線の検出の場合、元になる直角座標上の点(x、y)を角度θと距離γの極座標二次元空間に変換し、角度θと距離γごとに、その個数をメモリ配列上に加算する。個数が最大になった角度θと距離γの組み合わせを元の直角座標に戻したものが、最も直線らしい点の集まりとなる。すなわち直角座標上の直線が極座標上の1点になる。従って、個数を下げてゆくと、次の候補が順次得られる。実画像上で直線状に並ぶ画素に対応するハフ空間上の座標は、1点に集約されることが知られている。このため、ハフ空間上で投票数の多い座標値に対応する実際の画像上の直線が、文書領域の輪郭直線に対応する可能性が高い。そこで、仮文書領域輪郭直線検出処理部105は、ハフ空間上で所定の閾値以上の投票数を持つ点を、上位から所定の数だけ検出する。そして、仮文書領域輪郭直線検出処理部105は、各点に写像されている各境界画素群によって形成される各直線群を、文書領域に対応する四角形を構成する4辺の輪郭直線候補として算出する(以上、図5のステップS502)。
複数の輪郭直線候補を選択する理由は、文書領域周囲の背景の影響による輪郭画素の誤検出の影響から、最大の投票数の座標が最適な輪郭直線に対応するとは限らないためである。例えば、文書領域周囲の背景の影響としては、文書領域周囲の照明ムラによる境界の誤検出や、背景の模様や図形の一部を文書領域に誤って含めた場合などがある。
ステップS502において、仮文書領域輪郭直線検出処理部105は、ハフ空間上で所
定の閾値より小さい投票数の点については、信頼性が低いと見なして輪郭直線候補としては抽出しない。これは、被写体の皺や破れなどで輪郭の直線性が低い場合などに対応する。また、文書領域が画像外にはみ出し、文書領域の境界が画像端となる場合も輪郭直線候補としては検出されないことになる。
図19は、仮文書領域に対して輪郭直線候補が検出される例を示した図である。
次に、図2のステップS204の仮文書領域輪郭直線の検出処理の詳細について、図6の動作フローチャートに従って説明する。
この処理では、仮文書領域を構成する四角形の各辺毎に、輪郭直線候補が評価されて仮文書領域輪郭直線が検出される。輪郭直線候補の評価には、輪郭直線候補が仮文書領域と重なる(横切る)長さと、輪郭直線候補が仮文書領域を分割する面積が用いられる。
まず、仮文書領域輪郭直線検出処理部105は、仮文書領域を構成する四角形の輪郭のうち、仮文書領域輪郭直線の検出結果を得ていない1つの輪郭を選択し、それに対する輪郭直線候補を1つ選択する(図6のステップS601)。
次に、仮文書領域輪郭直線検出処理部105は、選択した輪郭直線候補が、仮文書領域と重なる長さを評価値の1つとして算出する(図6のステップS602)。重なる長さは、図20に示されるように、輪郭直線候補上にあり同時に仮文書領域に含まれる画素数を合計して得られる。
続いて、仮文書領域輪郭直線検出処理部105は、図20に示されるように、選択した輪郭直線候補が仮文書領域を分断して得られる2つの評価用領域の面積(画素数の合計)を算出し、面積が小さいほうを評価値の他の1つとして選択する(図6のステップS603)。
仮文書領域輪郭直線検出処理部105は、全ての輪郭直線候補に対して上記重なる長さと面積の評価値を算出したか否かを判定する(図6のステップS604)。
仮文書領域輪郭直線検出処理部105は、ステップS604の判定がNOならば、評価値を算出していない輪郭直線候補を1つ選択する(図6のステップS605)。その後、仮文書領域輪郭直線検出処理部105は、ステップS603とステップS604を実行するこことにより、輪郭直線候補毎に、重なる長さと面積の評価値を算出する。
仮文書領域輪郭直線検出処理部105は、ステップS604の判定がYESとなると、輪郭直線候補の中で、重なる長さの評価値が所定値以上で、かつ評価用領域の面積が最小となる輪郭直線候補を、選択中の輪郭に対する仮文書領域輪郭直線検出結果として決定する(図6のステップS606)。ここで、重なる長さの評価値が所定値以上となる輪郭直線候補が得られない場合には、選択中の輪郭については、輪郭直線の検出が不能である旨の仮文書領域輪郭直線検出結果を決定する。例えば、仮文書領域を構成する四角形の4辺中のある辺に対して、輪郭直線候補が3つ存在するとする。輪郭直線候補#1は、仮文書領域と重なる長さが50画素、評価用領域の面積が200画素であるとする。同様に、輪郭直線候補#2は、仮文書領域と重なる長さが10画素、評価用領域の面積が30画素であるとする。更に、輪郭直線候補#3は、仮文書領域と重なる長さが40画素、評価用領域の面積が180画素であるとする。このとき、仮文書領域と重なる長さの閾値を30画素とすると、輪郭直線候補#1と#3が閾値以上の長さとなり、両者の評価用領域の面積を比べると輪郭直線候補#3のほうが小さいことから、輪郭直線候補#3が仮文書領域輪郭直線検出結果として選択される。
仮文書領域輪郭直線検出処理部105は、全ての輪郭に対して仮文書領域輪郭直線検出
結果を得たか否かを判定する(図6のステップS607)。
ステップS607の判定がNOならば、仮文書領域輪郭直線検出処理部105は、ステップS601の処理に戻り、仮文書領域輪郭直線検出結果を得ていない新たな輪郭を選択して、ステップS602からステップS606までの処理を繰り返し実行する。
ステップS607の判定がYESとなったら、仮文書領域輪郭直線検出処理部105は、各辺に対する仮文書領域輪郭直線検出結果を出力して処理を終了する。
図1の制御部109は、図2のステップS205において、上述の詳細処理により仮文書領域輪郭直線検出処理部105が出力した仮文書領域輪郭直線検出結果が、四角形の4辺全てに対する輪郭直線を検出しているか否かを判定する。
前述したように、ステップS205の判定結果がYESならば、図1の文書領域抽出処理部108が、その4辺の仮文書領域輪郭直線検出結果からなる輪郭直線で囲まれる四角形領域を文書領域として抽出し出力する(図2のステップS206)。図7は、文書領域抽出処理部108による上記処理を示す動作フローチャートである。即ち、文書領域抽出処理部108は、仮文書領域輪郭直線検出処理部105が上述の詳細処理により出力した4本の仮文書領域輪郭直線検出結果を入力し、それらにより形成される四角形を文書領域として出力する(図7のステップS701)。
ステップS205の判定結果がNOならば、図1のテキストブロック抽出処理部106が、仮文書領域からテキストブロックを抽出し、更にテキストブロック輪郭直線検出処理部107が、テキストブロック輪郭直線を検出する(図2のステップS207)。そして、文書領域抽出処理部108が、このテキストブロック輪郭直線と、ステップS204にて検出されている一部の辺の仮文書領域輪郭直線検出結果とを併合し、その結果得られる四角形領域を文書領域として抽出し出力する(図2のステップS208)。
これらのステップS207及びS208の処理の詳細について、以下に説明する。図8は、テキストブロック輪郭直線検出処理部107が実行する図2のステップS207の、テキストブロック輪郭直線の検出処理の詳細を示す動作フローチャートである。また、図9は、文書領域抽出処理部108が実行する図2のステップS208の、仮文書領域輪郭直線とテキストブロック輪郭直線とに基づく文書領域抽出処理の詳細を示す動作フローチャートである。更に、図21及び図22は、テキストブロック輪郭直線検出処理部107の動作を示す説明図である。
まず、図2のステップS207のテキストブロック輪郭直線の検出処理の詳細について、図8の動作フローチャートに従って説明する。
テキストブロック輪郭直線検出処理部107はまず、領域統合処理部104が図2のステップS202にて算出している仮文書領域の粗抽出結果を入力する。そして、テキストブロック輪郭直線検出処理部107は、この入力した仮文書領域の外接矩形を求め、この外接矩形内をテキストブロック(文字領域)の探索範囲として設定する(図8のステップS801)。
次に、テキストブロック輪郭直線検出処理部107は、仮文書領域に含まれる画素で、他の領域(テキストブロック、背景領域)に隣接する画素を、水平垂直方向にラスタスキャンを行うことにより抽出する(図8のステップS802)。
次に、テキストブロック輪郭直線検出処理部107は、ステップS801で算出した外接矩形の中心から、図2のステップS204にて仮文書領域輪郭直線が得られなかった(検出に失敗した)輪郭の方向に、仮文書領域に含まれかつテキストブロックや背景領域などの他の領域と接する画素を検出する(図8のステップS802)。例えば、仮文書領域
右側の仮文書領域輪郭直線が得られなかった場合は、水平方向(左から右へ)のラスタスキャンが、外接矩形上端から下端に向かって実施される。この処理により、仮文書領域内のテキストブロックが抽出される。
次に、テキストブロック輪郭直線検出処理部107は、ステップS802にて検出された他の領域と接する画素の中で、仮文書領域の端点を除いて仮文書領域輪郭直線が得られなかった方向の画像端に近い画素を選択する(図8のステップS803)。例えば、図21に示されるように、仮文書領域の上側の仮文書領域輪郭直線2101、右側の仮文書領域輪郭直線2102、及び下側の仮文書領域輪郭直線2103は得られていて、左側の仮文書領域輪郭直線が得られなかった場合を考える。この場合は、水平方向(左から右へ)にラスタスキャンが行われ、仮文書領域の左端画素群2104を除いて最も画像左端に近い画素群2105及び2106が選択される。
次に、前述の図5のステップS502の場合と同様にして、テキストブロック輪郭直線検出処理部107は、ステップS803で選択された画素群を、ハフ空間上の対応する座標に投票する。続いて、テキストブロック輪郭直線検出処理部107は、ハフ空間上で所定の閾値以上の投票数を持つ点を、上位から所定の数だけ検出する。そして、テキストブロック輪郭直線検出処理部107は、各点に写像されている上記各選択画素群によって形成される各直線群を、テキストブロックの各辺に対応する輪郭直線候補として算出する(以上、図8のステップS804)。
最後に、テキストブロック輪郭直線検出処理部107は、上記輪郭直線候補を入力として、図6の動作フローチャートによって実現される処理と同様の処理を実行することにより、テキストブロック輪郭直線を算出する(図8のステップS805)。例えば、図21と同様の図22の例の場合、テキストブロック輪郭直線2201及び2202が得られる。
次に、図2のステップS208の、仮文書領域輪郭直線とテキストブロック輪郭直線とに基づく文書領域抽出処理の詳細について、図9の動作フローチャートに従って説明する。
まず、文書領域抽出処理部108は、仮文書領域に対応する四角形を構成する辺のうち、図2のステップS204にて仮文書領域輪郭直線が得られなかった全ての辺に対して、テキストブロック輪郭直線検出処理部107が検出したテキストブロック輪郭直線が存在するか否かを判定する(図9のステップS901)。
ステップS901の判定がYESならば、文書領域抽出処理部108は、図2のステップS204にて得られた仮文書領域輪郭直線と図2のステップ207にて得られたテキストブロック輪郭直線とで形成される四角形を、文書領域として出力する(図9のステップS902)。例えば、図22の例の場合、仮文書領域輪郭直線2101、2102、2103と、テキストブロック輪郭直線2201とで形成される領域が、文書領域として出力される。
このようにして、完全な四角形を形成しない文書領域も、適切に抽出することが可能となる。
一方、ステップS901の判定がNOとなった場合には、文書領域抽出処理部108は、仮文書領域を4つの輪郭直線で囲むことができず四角形としての文書領域の抽出は行えないため、文書領域輪郭直線とテキストブロック輪郭直線とそれぞれに対応する輪郭直線候補を出力する。この場合の出力の活用については、第3の実施形態の説明において後述する。
以上説明した図1の文書領域抽出装置の構成と図2の文書領域抽出装置の動作フローチャートに基づく第1の実施形態では、撮影画像が色情報に基づいて領域分割され、認識対象とする仮文書領域が粗抽出される。粗抽出された仮文書領域の輪郭に直線が当てはめられることで、背景部分の要素に影響されることなく、また背景と文字領域の分離が部分的に失敗する場合でも、文字認識対象領域を四角形領域として高精度に背景から抽出することができる。更に、仮文書領域の輪郭を抽出できない場合は、テキストブロック輪郭直線を求めて併用することで四角形領域としての文書領域を抽出することができる。
また、上述の第1の実施形態では、領域分割の際に過分割となった領域が領域統合処理によって統合されることで、文書領域内部の領域境界が不要に発生することを防ぐことができる。これにより、その後段で実行される仮文書領域の境界画素からの輪郭直線候補算出処理では、文書領域内部の領域境界画素は算出精度の低下につながるため、これを防ぐことで輪郭直線候補の算出精度を向上させることができる。
また、上述の第1の実施形態では、粗抽出された仮文書領域から輪郭直線候補が複数抽出される。そして、それぞれの輪郭直線候補に対して仮文書領域と重なる長さ(画素数)と仮文書領域の分断後の面積に着目し、仮文書領域と重なる長さが長くかつ文書画像を分断する面積が小さい直線候補が仮文書領域の境界線に沿っていると判断され、これらが評価値とされることで、最適な輪郭直線を選択することができる。
また、上述の第1の実施形態では、テキストブロックに関しても、仮文書領域の場合と同様にして、輪郭直線候補を複数抽出し、それぞれの輪郭直線候補に対して評価を行うことにより、最適なテキストブロック輪郭直線を選択することができる。
更に、上述の第1の実施形態では、照明光の影響などによる輪郭の部分的な誤抽出が発生しても、文書領域が輪郭直線の当てはめによる四角形として抽出されることで、文書領域を矩形領域として正確に抽出することができる。加えて、文書領域の輪郭が画面外に有る場合や背景と識別が困難な場合などで仮文書領域輪郭直線の抽出ができない場合でも、テキストブロック輪郭直線が併用されることで四角形としての文書領域を抽出することができる。
そして、上述の第1の実施形態では、照明光の影響などが原因で局所的な濃淡変化が発生し、全体画像における色情報に基づいた領域分割において文書領域に過分割が発生したような場合であっても、部分画像に対する領域分割処理が合わせて行われる。そして、全体画像と部分画像の領域分割結果が文書画像の一様性に基づいて統合される。これにより、文書領域の過分割を抑えることができる。
次に、図1の文書領域抽出装置の構成に基づく第2の実施形態について、以下に詳細に説明する。
図10は、図1の文書領域抽出装置が第2の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図10において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図10の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
図10の動作フローチャートが、図2の動作フローチャートと異なる部分は、図10の枠1000で囲まれた処理部分である。
第2の実施形態では、文書領域は文字や図形を除くとほぼ一様であるという前提から、制御部109が、図10のステップS206又はS208にて抽出された文書領域内にお
いて、文字領域を除いた画素に対する分散値を取得する(図10のステップS1001)。例えば、文書領域に含まれる画素の色情報(YUVチャネル値)の分散値が計算される。
図10のステップS206又はS208にて選択された輪郭直線が適切でなく背景に含まれるべき画素が文書領域に含まれてしまう場合は、上述の分散値が大きくなる。このため、制御部109は、ステップS1001で算出した分散値が所定の閾値以下であるか否かを、比較判定する(図10のステップS1002)。
分散値が閾値以下でステップS1002の判定がYESの場合には、制御部109は、ステップS206又はS208にて選択された輪郭直線が適切であると判断する。そして、制御部109は、文書領域を、後段の歪み補正や文字認識の処理のために出力する。
一方、分散値が閾値より大きくステップS1002の判定がNOの場合には、制御部109は、図10のステップS206又はS208にて選択された輪郭直線が適切でないと判断する。そして、制御部109は、図1の仮文書領域輪郭直線検出処理部105の処理(図10のステップS204)に制御を戻し、輪郭直線候補からの仮文書領域輪郭直線の検出をやり直させる。この結果、ステップS204では、未選択の輪郭候補直線から最も評価値の高い輪郭候補直線が選択される。
このように第2の実施形態では、文字領域のみが抽出された場合は文字領域の一様性から分散値は小さくなるが背景要素が誤って含まれる場合は分散値が高くなることを利用し、文書領域の抽出精度を向上させることが可能となる。
次に、図1の文書領域抽出装置の構成に基づく第3の実施形態について、以下に詳細に説明する。
図11は、図1の文書領域抽出装置が第3の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図11において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図11の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
図11の動作フローチャートが、図2の動作フローチャートと異なる部分は、図11の枠1100で囲まれた処理部分である。
第3の実施形態では、図1の制御部109が、図11のステップS206又はS208にて抽出された文書領域と共に、図11のステップS203又はS207にて抽出された輪郭直線候補又はテキストブロック輪郭直線候補を、表示装置上に明示する。表示装置は、例えばデジタルカメラや携帯電話の液晶表示画面である。そして、制御部109は、ユーザに確認を求めて、マウスやタッチパネルなどのポインティングデバイスによって、輪郭直線候補のうち適切なのものを選択可能とさせる(以上、図11のステップS1101)。この結果、ユーザは、文書領域を目視で確認でき、必要であれば、輪郭直線候補からより適切な直線を選択することが可能となる。なお、ユーザに、ポインティングデバイスを利用して、新規の直線を指定させてもよい。
次に、制御部109は、ユーザが輪郭直線候補を選択し直して輪郭直線を修正したか否かを判定する(図11のステップS1102)。
輪郭直線が修正されておらずステップS1102の判定がNOとなると、制御部109は、制御部109は、ステップS206又はS208にて選択された輪郭直線が適切であると判断する。そして、制御部109は、文書領域を、後段の歪み補正や文字認識の処理のために出力する。
輪郭直線が修正されてステップS1102の判定がYESとなると、制御部109は、図1の仮文書領域輪郭直線検出処理部105の処理(図11のステップS204)に制御を戻し、ユーザが選択した輪郭直線候補を含む仮文書領域輪郭直線の検出を再度実行させる。この結果、ステップS204では、ユーザの意向を反映した輪郭直線を選択することが可能となる。
なお、図11のステップS1101の表示処理は、特に、図11のステップ208にて、仮文書領域を4つの輪郭直線で囲むことができず四角形としての文書領域の抽出に失敗した場合(図9のステップS901の判定がNOとなった場合)に有効である。即ち、システムが文書領域を定めることができなかった場合に、ユーザの支援により、文書領域を決定することが可能となる。
文書領域抽出結果は、それ自体は意味を持たず、文書領域の抽出処理に続く歪み補正処理及び文字認識処理までの一連の処理の結果を出力してはじめて意味を持つ。従って、通常は文書領域抽出結果をユーザに明示する必要はない。しかし、文字認識処理までの一連の処理の中間結果として、文字認識に用いられた文書領域又はテキストブロックとその輪郭直線がユーザに明示されることにより、ユーザが文書領域の抽出結果を評価可能となる。従って、第3の実施形態により、文書領域の抽出精度にユーザの意向を反映させることが可能となり、続いて実行される歪み補正処理及び文字認識処理の精度も向上させることが可能となる。
続いて、図1の文書領域抽出装置の構成に基づく第4の実施形態について、以下に詳細に説明する。
図12は、図1の文書領域抽出装置が第4の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図12において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図12の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
図12の動作フローチャートが、図2の動作フローチャートと異なる部分は、図12の枠1200で囲まれた処理部分である。
第4の実施形態は、文書領域の抽出結果に続いて実行される歪み補正処理の結果に基づいて、文書領域の抽出処理を再実行させることにより、文書領域の抽出精度を高めることができる実施形態である。
文書領域の抽出が適切になされて、その文書領域に対して歪み補正処理が実行された場合、文書領域及びテキストブロックの輪郭直線は多くの場合、水平線または垂直線に平行になる。
そこで、第4の実施形態では、まず、図12のステップS206又はS208にて抽出された文書領域内に対して、特には図示しない歪み補正処理部によって歪み補正処理が実行される(図12のステップS1201)。具体的には、輪郭直線で囲まれた文書領域に対して、その4辺が直交するように画像が変形させられることにより、画像の透視歪みを補正する処理が実行される。
次に、領域分割処理部103によりステップS201と同様の領域分割処理が実行され、更に領域統合処理部104によりステップS202と同様の文書領域の粗抽出処理が実行されて、文書領域が再度粗抽出される。続いて、テキストブロック抽出処理部106によりステップS207と同様の処理が実行されて、再度抽出された文書領域からテキストブロックが抽出され、それを囲むテキストブロック輪郭直線が抽出される(以上、図12のステップS1202)。
そして、図1の制御部109は、仮文書領域輪郭直線と同様に、ステップS1202で抽出されたテキストブロック輪郭直線が、水平又は垂直に揃っているか否かを判定する(図12のステップS1203)。
テキストブロック輪郭直線が仮文書領域輪郭直線と同様に水平又は垂直に揃っておりステップS1203の判定がYESならば、制御部109は、文書領域の抽出及びそれに続くステップS1201での歪み補正処理が適切になされたと判断する。そして、制御部109は、文書領域を、後段の文字認識処理等のために出力する。
テキストブロック輪郭直線が仮文書領域輪郭直線と同様に水平又は垂直に揃っておらずステップS1203の判定がNOならば、制御部109は、文書領域の抽出が適切になされていないと判断する。そして、制御部109は、図1の仮文書領域輪郭直線検出処理部105の処理(図12のステップS204)に制御を戻し、輪郭直線候補からの仮文書領域輪郭直線の検出をやり直させる。この結果、ステップS204では、未選択の輪郭候補直線から最も評価値の高い輪郭候補直線が選択される。
文書領域に誤って背景領域が含まれる場合や逆に含まれるべき文書領域の一部が含まれていないような場合には、文書領域に対する歪み補正処理の後に文書領域の内部のテキストブロックに対して算出された輪郭直線が水平垂直線に対して傾きを持つ。第4の実施形態では、このような状態が検出され、輪郭直線候補から別の直線候補が選択されて文書領域抽出が再度実行させられることにより、文書領域の抽出精度を向上させることが可能となる。
最後に、図1の文書領域抽出装置の構成に基づく第5の実施形態について、以下に詳細に説明する。
図13は、図1の文書領域抽出装置が第5の実施形態として動作する場合における全体的な動作を示す動作フローチャートである。図13において、第1の実施形態における図2の動作フローチャートと同じステップには、同じステップ番号が付与されている。なお、図2の場合と同様に、図13の動作フローチャートの一連の流れの制御は、図1の制御部109が所定の制御プログラムを実行する動作として実現される。
図13の動作フローチャートが、図2の動作フローチャートと異なる部分は、図13の枠1300で囲まれた処理部分である。
第5の実施形態は、文書領域の抽出結果に続いて実行される歪み補正処理及び文字認識処理の結果に基づいて、文書領域の抽出処理を再実行させることにより、文書領域の抽出精度を高めることができる実施形態である。
抽出された文書領域に対して歪み補正処理が実行され、更に文字認識処理が実行された場合において、文書領域を分割して得られる特定の分割領域で文字認識率が低い場合は、近傍の輪郭直線の誤抽出の可能性が高いと判断できる。
そこで、第5の実施形態では、まず、図13のステップS206又はS208にて抽出された文書領域内に対して、特には図示しない歪み補正処理部によって歪み補正処理が実行される(図13のステップS1301)。具体的には、輪郭直線で囲まれた文書領域に対して、その4辺が直交するように画像が変形させられることにより、画像の透視歪みを補正する処理が実行される。
次に、特には図示しない文字認識処理部によって文字認識処理が実行される(図13のステップS1302)。
そして、制御部109が、文書領域を分割し(例えば4分割し)、各分割領域毎に、ステップS1302で得られた各分割領域内の文字認識率の平均値を算出する。そして、制御部109は、画像内での認識率に局所的な差があるか否かを判定する(図13のステップS1303)。
ステップS1303の判定がNOの場合には、制御部109は、文書領域の抽出が適切になされたと判断する。そして、制御部109は、文書領域を、後段の処理等のために出力する。
一方、例えば上述の分割領域の一部の文字認識率が他の分割領域に比べて低くステップS1303の判定がYESならば、制御部109は、近傍の輪郭直線の誤抽出の可能性が高いと判断する。これは例えば、背景領域の画素が誤って文書領域に含まれている場合や、正しい輪郭直線に対して傾きが有り文書領域の4辺が画像に対して水平垂直になっていないような場合である。この場合には、制御部109は、図1の仮文書領域輪郭直線検出処理部105の処理(図13のステップS204)に制御を戻し、輪郭直線候補からの仮文書領域輪郭直線の検出をやり直させる。この結果、ステップS204では、未選択の輪郭候補直線から最も評価値の高い輪郭候補直線が選択される。
このように第5の実施形態では、四角形として抽出された文書領域に対して歪み補正処理と文字認識処理が実行され、局所的な文字認識率の差が判定される。これにより、特定の輪郭部分について、輪郭直線候補から別の候補が選択されて文書領域の抽出処理が再度実行されることで、文書領域の抽出精度を向上させることが可能となる。
図23は、図1の文字領域抽出装置を実現できるコンピュータのハードウェア構成の一例を示す図である。
図23に示されるコンピュータは、CPU2301、メモリ2302、入力装置2303、出力装置2304、外部記憶装置2305、可搬記録媒体2309が挿入される可搬記録媒体駆動装置2306、及びネットワーク接続装置2307を有し、これらがバス2308によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。このコンピュータは、例えば携帯電話やデジタルカメラ等の電子機器に搭載することができる。
CPU2301は、当該コンピュータ全体の制御を行う。メモリ2302は、プログラムの実行、データ更新等の際に、外部記憶装置2305(或いは可搬記録媒体2309)に記憶されているプログラム又はデータを一時的に格納するRAM等のメモリである。CUP2301は、プログラムをメモリ2302に読み出して実行することにより、全体の制御を行う。
入力装置2303は、例えば、キーボード、マウス等及びそれらのインタフェース制御装置とからなる。入力装置2303は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU2301に通知する。
出力装置2304は、表示装置、印刷装置等及びそれらのインタフェース制御装置とからなる。出力装置2304は、CPU2301の制御によって送られてくるデータを表示装置や印刷装置に出力する。
外部記憶装置2305は、例えばハードディスク記憶装置である。主に各種データやプ
ログラムの保存に用いられる。
可搬記録媒体駆動装置2306は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体2309を収容するもので、外部記憶装置2305の補助の役割を有する。
ネットワーク接続装置2307は、例えばLAN(ローカルエリアネットワーク)又はWAN(ワイドエリアネットワーク)の通信回線を接続するための装置である。
上述した第1の実施形態から第5の実施形態までの文書領域抽出装置は、各実施形態に必要な機能を搭載したプログラムをCPU2301が実行することで実現される。そのプログラムは、例えば外部記憶装置2305や可搬記録媒体2309に記録して配布してもよく、或いはネットワーク接続装置2307によりネットワークから取得できるようにしてもよい。
以上の第1〜第5の実施形態に関して、更に以下の付記を開示する。
(付記1)
入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置において、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理部と、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理部と
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理部と、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理部と、
を含むことを特徴とする文書領域抽出装置。
(付記2)
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理部と
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理部で四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理部と、を更に含み、
前記文書領域抽出処理部が、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする付記1に記載の文書領域抽出装置。
(付記3)
前記テキストブロック抽出処理部は、前記抽出された仮文書領域の内部に含まれる文字領域を前記仮文書領域の中心から探索し、該当する文字領域をテキストブロックとして抽出し、
前記テキストブロック輪郭線検出処理部は、該抽出されたテキストブロックの境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記テキストブロックと重なる長さと該各輪郭直線候補が前記テキストブロックを分断したときの分断部分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記テキストブロックを囲む各辺の輪郭に対応するテキストブロック輪郭直線を選択する、
ことを特徴とする付記2に記載の文書領域抽出装置。
(付記4)
前記文書領域抽出処理部は、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全て
に対して検出された場合は該4辺に対応する仮文書領域輪郭直線で囲まれる四角形の領域を前記文書領域として抽出し、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対しては検出されなかった場合は前記仮文書領域輪郭直線及び前記テキストブロック輪郭直線とを併せて得られる4本の輪郭直線で囲まれる四角形の領域を前記文書領域として抽出する、
ことを特徴とする付記2又は3の何れか1項に記載の文書領域抽出装置。
(付記5)
前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記2乃至4の何れか1項に記載の文書領域抽出装置。
(付記6)
前記文書領域抽出処理部が出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記2乃至5の何れか1項に記載の文書領域抽出装置。
(付記7)
前記文書領域抽出処理部にて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記1乃至6の何れか1項に記載の文書領域抽出装置。
(付記8)
前記文書領域抽出処理部が出力する文書領域に対して歪み補正処理、文字認識処理を実行し、該文字認識処理により得られる前記文書領域内の文字認識率を判定して得られる判定結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
ことを特徴とする付記1乃至7の何れか1項に記載の文書領域抽出装置。
(付記9)
前記領域分割処理部は、前記入力画像中の各画素の色情報に基づくクラスタリング処理を実行し、該クラスタリング処理により得られる各分割領域にそれぞれラベルを付与することにより、ラベリング結果画像を生成して出力し、
前記領域統合処理部は、前記ラベリング結果画像において、それぞれ異なるラベルが付与された隣接する分割領域間の色情報を評価し、該色情報の類似性が高い場合は前記隣接する仮文書領域を併合して同じラベルを付与し、該併合の結果得られる画像において、画像中央付近にあり領域サイズが所定の大きさ以上である分割領域を選択し、該分割領域を前記仮文書領域の抽出結果として出力する、
ことを特徴とする付記1乃至8の何れか1項に記載の文書領域抽出装置。
(付記10)
前記領域分割処理部は、前記入力画像に対応する全体画像と前記入力画像の一部を取り出した部分画像をそれぞれ生成し、該全体画像及び該各部分画像のそれぞれに対して前記クラスタリング処理を実行して前記各分割領域を算出し、その後、前記全体画像及び前記各部分画像のそれぞれに対して算出した前記各分割領域を統合し、該統合した各分割領域から前記ラベリング結果画像を生成する、
ことを特徴とする付記9に記載の文書領域抽出装置。
(付記11)
前記仮文書領域輪郭直線検出処理部は、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪郭直線候補が前記仮文書領域を分断したときの分断部分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
ことを特徴とする付記1乃至10の何れか1項に記載の文書領域抽出装置。
(付記12)
文書領域抽出装置が入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出方法であって、
前記文書領域抽出装置が
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
を実行することを特徴とする文書領域抽出方法。
(付記13)
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、を更に含み、
前記文書領域抽出処理ステップが、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする付記12に記載の文書領域抽出方法。
(付記14)
前記テキストブロック抽出処理ステップは、前記抽出された仮文書領域の内ステップに含まれる文字領域を前記仮文書領域の中心から探索し、該当する文字領域をテキストブロックとして抽出し、
前記テキストブロック輪郭線検出処理ステップは、該抽出されたテキストブロックの境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記テキストブロックと重なる長さと該各輪郭直線候補が前記テキストブロックを分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記テキストブロックを囲む各辺の輪郭に対応するテキストブロック輪郭直線を選択する、
ことを特徴とする付記13に記載の文書領域抽出方法。
(付記15)
前記文書領域抽出処理ステップは、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対して検出された場合は該4辺に対応する仮文書領域輪郭直線で囲まれる四角形の領域を前記文書領域として抽出し、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対しては検出されなかった場合は前記仮文書領域輪郭直線及び前記テキストブロック輪郭直線とを併せて得られる4本の輪郭直線で囲まれる四角形の領域を前記文書領域
として抽出する、
ことを特徴とする付記13又は14の何れか1項に記載の文書領域抽出方法。
(付記16)
前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至15の何れか1項に記載の文書領域抽出方法。
(付記17)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至16の何れか1項に記載の文書領域抽出方法。
(付記18)
前記文書領域抽出処理ステップにて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至16の何れか1項に記載の文書領域抽出方法。
(付記19)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理、文字認識処理を実行し、該文字認識処理により得られる前記文書領域内の文字認識率を判定して得られる判定結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記13乃至16の何れか1項に記載の文書領域抽出方法。
(付記20)
前記領域分割処理ステップは、前記入力画像中の各画素の色情報に基づくクラスタリング処理を実行し、該クラスタリング処理により得られる各分割領域にそれぞれラベルを付与することにより、ラベリング結果画像を生成して出力し、
前記領域統合処理ステップは、前記ラベリング結果画像において、それぞれ異なるラベルが付与された隣接する分割領域間の色情報を評価し、該色情報の類似性が高い場合は前記隣接する仮文書領域を併合して同じラベルを付与し、該併合の結果得られる画像において、画像中央付近にあり領域サイズが所定の大きさ以上である分割領域を選択し、該分割領域を前記仮文書領域の抽出結果として出力する、
ことを特徴とする付記12乃至19の何れか1項に記載の文書領域抽出方法。
(付記21)
前記領域分割処理ステップは、前記入力画像に対応する全体画像と前記入力画像の一ステップを取り出したステップ分画像をそれぞれ生成し、該全体画像及び該各ステップ分画像のそれぞれに対して前記クラスタリング処理を実行して前記各分割領域を算出し、その後、前記全体画像及び前記各ステップ分画像のそれぞれに対して算出した前記各分割領域を統合し、該統合した各分割領域から前記ラベリング結果画像を生成する、
ことを特徴とする付記20に記載の文書領域抽出方法。
(付記22)
前記仮文書領域輪郭直線検出処理ステップは、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪
郭直線候補が前記仮文書領域を分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
ことを特徴とする付記12乃至21の何れか1項に記載の文書領域抽出方法。
(付記23)
入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置として構成されるコンピュータに、
前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
を実行させるためのプログラム。
(付記24)
前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと
前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、を更に含み、
前記文書領域抽出処理ステップが、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
を特徴とする付記23に記載のプログラム。
(付記25)
前記テキストブロック抽出処理ステップは、前記抽出された仮文書領域の内ステップに含まれる文字領域を前記仮文書領域の中心から探索し、該当する文字領域をテキストブロックとして抽出し、
前記テキストブロック輪郭線検出処理ステップは、該抽出されたテキストブロックの境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記テキストブロックと重なる長さと該各輪郭直線候補が前記テキストブロックを分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記テキストブロックを囲む各辺の輪郭に対応するテキストブロック輪郭直線を選択する、
ことを特徴とする付記24に記載のプログラム。
(付記26)
前記文書領域抽出処理ステップは、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対して検出された場合は該4辺に対応する仮文書領域輪郭直線で囲まれる四角形の領域を前記文書領域として抽出し、前記仮文書領域輪郭直線が前記仮文書領域を囲む4辺全てに対しては検出されなかった場合は前記仮文書領域輪郭直線及び前記テキストブロック輪郭直線とを併せて得られる4本の輪郭直線で囲まれる四角形の領域を前記文書領域として抽出する、
ことを特徴とする付記24又は25の何れか1項に記載のプログラム。
(付記27)
前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対
応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至26の何れか1項に記載のプログラム。
(付記28)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至27の何れか1項に記載のプログラム。
(付記29)
前記文書領域抽出処理ステップにて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至27の何れか1項に記載のプログラム。
(付記30)
前記文書領域抽出処理ステップが出力する文書領域に対して歪み補正処理、文字認識処理を実行し、該文字認識処理により得られる前記文書領域内の文字認識率を判定して得られる判定結果に基づいて、前記仮文書領域輪郭直線検出処理ステップ又は前記テキストブロック輪郭直線検出処理ステップの処理を再度実行させる制御を更に含む、
ことを特徴とする付記24乃至27の何れか1項に記載のプログラム。
(付記31)
前記領域分割処理ステップは、前記入力画像中の各画素の色情報に基づくクラスタリング処理を実行し、該クラスタリング処理により得られる各分割領域にそれぞれラベルを付与することにより、ラベリング結果画像を生成して出力し、
前記領域統合処理ステップは、前記ラベリング結果画像において、それぞれ異なるラベルが付与された隣接する分割領域間の色情報を評価し、該色情報の類似性が高い場合は前記隣接する仮文書領域を併合して同じラベルを付与し、該併合の結果得られる画像において、画像中央付近にあり領域サイズが所定の大きさ以上である分割領域を選択し、該分割領域を前記仮文書領域の抽出結果として出力する、
ことを特徴とする付記23乃至30の何れか1項に記載のプログラム。
(付記32)
前記領域分割処理ステップは、前記入力画像に対応する全体画像と前記入力画像の一ステップを取り出したステップ分画像をそれぞれ生成し、該全体画像及び該各ステップ分画像のそれぞれに対して前記クラスタリング処理を実行して前記各分割領域を算出し、その後、前記全体画像及び前記各ステップ分画像のそれぞれに対して算出した前記各分割領域を統合し、該統合した各分割領域から前記ラベリング結果画像を生成する、
ことを特徴とする付記31に記載のプログラム。
(付記33)
前記仮文書領域輪郭直線検出処理ステップは、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪郭直線候補が前記仮文書領域を分断したときの分断ステップ分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
ことを特徴とする付記23乃至32の何れか1項に記載のプログラム。
開示する技術は例えば、コンパクトデジタルカメラや携帯電話に搭載されるカメラを用いて名刺の文字を読取って認識し住所録に登録する機能をはじめとして、様々な文章を手持ち撮影し認識して文字コードとして取り込むアプリケーションに利用することができる。
101 カメラ撮影部
102 画像データ記憶部
103 領域分割処理部
104 領域統合処理部
105 仮文書領域輪郭直線検出処理部
106 テキストブロック抽出処理部
107 テキストブロック輪郭直線検出処理部
108 文書領域抽出処理部
109 制御部
2301 CPU
2302 メモリ
2303 入力装置
2304 出力装置
2305 外部記憶装置
2306 可搬記録媒体駆動装置
2307 ネットワーク接続装置
2308 可搬記録媒体

Claims (7)

  1. 入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置において、
    前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理部と、
    前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理部と
    前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理部と、
    前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理部と、
    を含み、
    前記仮文書領域輪郭直線検出処理部は、前記抽出された仮文書領域の境界画素から輪郭直線候補を複数算出し、該各輪郭直線候補が前記仮文書領域と重なる長さと該各輪郭直線候補が前記仮文書領域を分断したときの分断部分の面積とに基づく評価値を算出し、該評価値に基づいて前記輪郭直線候補から前記仮文書領域を囲む各辺の輪郭に対応する仮文書領域輪郭直線を選択する、
    ことを特徴とする文書領域抽出装置。
  2. 入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置において、
    前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理部と、
    前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理部と、
    前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理部と、
    前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理部と、
    前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理部と
    前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理部で四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理部と、
    含み、
    前記文書領域抽出処理部が、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
    を特徴とす文書領域抽出装置。
  3. 前記仮文書領域又は前記テキストブロック、該仮文書領域又は該テキストブロックに対応する前記輪郭直線候補、及び前記仮文書領域輪郭直線又は前記テキストブロック輪郭直線をユーザに表示し、該ユーザに前記各輪郭直線候補のうち所望のものを選択させ、又は新たな輪郭直線候補を指定させ、該選択又は指定の結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
    ことを特徴とする請求項2に記載の文書領域抽出装置。
  4. 前記文書領域抽出処理部が出力する文書領域に対して歪み補正処理を実行し、該歪み補正処理により得られる文書領域から前記テキストブロック輪郭直線を抽出し、該抽出されたテキストブロック輪郭直線と前記歪み補正処理の後の前記文書領域に対応する輪郭直線との傾き関係を比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
    ことを特徴とする請求項2又は3の何れか1項に記載の文書領域抽出装置。
  5. 前記文書領域抽出処理部にて抽出された文書領域の分散値を算出し、該分散値を所定の閾値と比較して得られる比較結果に基づいて、前記仮文書領域輪郭直線検出処理部又は前記テキストブロック輪郭直線検出処理部の処理を再度実行させる制御を更に含む、
    ことを特徴とする請求項乃至4の何れか1項に記載の文書領域抽出装置。
  6. 文書領域抽出装置が入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出方法であって、
    前記文書領域抽出装置が
    前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
    前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
    前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
    前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
    前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと、
    前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、
    を実行し
    前記文書領域抽出処理ステップでは、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
    を特徴とする文書領域抽出方法。
  7. 入力画像中の文字列を認識するために該文字列が含まれる文書領域を抽出する文書領域抽出装置として構成されるコンピュータに、
    前記入力画像中の各画素の色情報に基づいて該入力画像を複数の分割領域に分割する領域分割処理ステップと、
    前記各分割領域について、分割領域の他の分割領域と接している画素と、該画素に隣接する他の分割領域の画素との色情報の差異を予め設定した閾値と比較し、色情報の差異が予め設定した閾値よりも小さいと双方の分割領域を同一の領域と見なす領域統合を行うことにより、仮文書領域を抽出する領域統合処理ステップと、
    前記抽出された仮文書領域の輪郭を示す直線である仮文書領域輪郭直線を検出する仮文書領域輪郭直線検出処理ステップと、
    前記抽出された仮文書領域輪郭直線により囲まれる四角形の文書領域を抽出し出力する文書領域抽出処理ステップと、
    前記抽出された仮文書領域内の文字に相当する小領域を含む文字領域であるテキストブロックを抽出するテキストブロック抽出処理ステップと、
    前記抽出したテキストブロックにおいて、前記文書領域輪郭直線検出処理ステップで四角形を形成する仮文書領域輪郭直線が得られていない方向にラスタスキャンを行い、前記抽出された仮文書領域の端画素を除いて仮文書領域輪郭直線が得られていない方向に近い画素を選択し、該選択した画素をハフ変換して該テキストブロックの輪郭を示す直線であるテキストブロック輪郭直線を検出するテキストブロック輪郭直線検出処理ステップと、
    を実行させ
    前記文書領域抽出処理ステップでは、前記抽出された仮文書領域輪郭直線と前記テキストブロック輪郭直線により囲まれる四角形として、文書領域を抽出し出力すること、
    を特徴とするプログラム。
JP2009080901A 2009-03-30 2009-03-30 画像からの文書領域抽出装置、方法、及びプログラム Expired - Fee Related JP5229050B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009080901A JP5229050B2 (ja) 2009-03-30 2009-03-30 画像からの文書領域抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009080901A JP5229050B2 (ja) 2009-03-30 2009-03-30 画像からの文書領域抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010231686A JP2010231686A (ja) 2010-10-14
JP5229050B2 true JP5229050B2 (ja) 2013-07-03

Family

ID=43047407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009080901A Expired - Fee Related JP5229050B2 (ja) 2009-03-30 2009-03-30 画像からの文書領域抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5229050B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779513B2 (en) * 2013-03-13 2017-10-03 Rakuten, Inc. Image processing device, image processing method, and image processing program
US9122921B2 (en) * 2013-06-12 2015-09-01 Kodak Alaris Inc. Method for detecting a document boundary
CN106063247B (zh) 2014-02-28 2019-11-26 奥林巴斯株式会社 图像处理装置、图像处理方法和图像处理程序
KR102284643B1 (ko) 2014-03-24 2021-07-30 고쿠리츠 다이가쿠 호진 도호쿠 다이가쿠 저항 변화형 기억 소자의 데이터 기록 장치
JP6208094B2 (ja) 2014-08-26 2017-10-04 株式会社東芝 情報処理装置、情報処理システム、情報処理方法及びそのプログラム
JP6548920B2 (ja) 2015-03-09 2019-07-24 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2017021695A (ja) 2015-07-14 2017-01-26 株式会社東芝 情報処理装置および情報処理方法
JP6909954B2 (ja) * 2016-03-29 2021-07-28 パナソニックIpマネジメント株式会社 加熱調理器
CN110134924B (zh) * 2018-02-08 2023-07-28 佳能株式会社 重叠文本组件提取方法和装置、文本识别系统及存储介质
CN110827301B (zh) * 2019-11-11 2023-09-26 京东科技控股股份有限公司 用于处理图像的方法和装置
CN110942064B (zh) * 2019-11-25 2023-05-09 维沃移动通信有限公司 图像处理方法、装置和电子设备
CN112446356B (zh) * 2020-12-15 2024-05-24 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法
CN114092684A (zh) * 2021-11-17 2022-02-25 中国银联股份有限公司 一种文本校准方法、装置、设备及存储介质
CN116090417B (zh) * 2023-04-11 2023-06-27 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择渲染方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3416058B2 (ja) * 1998-07-28 2003-06-16 日本電信電話株式会社 濃淡画像の文字抽出方法及びそのプログラムを記録した記録媒体
WO2002017220A1 (fr) * 2000-08-22 2002-02-28 Akira Kurematsu Procede d'extraction de zones de caracteres dans une image
JP2002077566A (ja) * 2000-08-23 2002-03-15 Nec Microsystems Ltd 画像補正装置
JP3733310B2 (ja) * 2000-10-31 2006-01-11 キヤノン株式会社 文書書式識別装置および識別方法
JP4598426B2 (ja) * 2004-03-30 2010-12-15 富士通株式会社 境界抽出方法、プログラムおよびこれを用いた装置

Also Published As

Publication number Publication date
JP2010231686A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
JP5229050B2 (ja) 画像からの文書領域抽出装置、方法、及びプログラム
CN110046529B (zh) 二维码识别方法、装置及设备
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
Tian et al. Rectification and 3D reconstruction of curved document images
EP2783328B1 (en) Text detection using multi-layer connected components with histograms
KR101399709B1 (ko) 모델-기반 디워핑 방법 및 장치
JP4301775B2 (ja) 2次元コード読み取り装置,2次元コード読み取り方法,2次元コード読み取りプログラム及び該プログラムの記録媒体
US7813553B2 (en) Image region detection method, recording medium, and device therefor
JP6089722B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
US20140119593A1 (en) Determining pose for use with digital watermarking, fingerprinting and augmented reality
EP2974261A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
CN102667810A (zh) 数字图像中的面部识别
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JP6739937B2 (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
KR20130066819A (ko) 촬영 이미지 기반의 문자 인식 장치 및 방법
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
CN115205113A (zh) 一种图像拼接方法、装置、设备及存储介质
JP5015097B2 (ja) 画像処理装置、画像処理プログラム、コンピュータ読み取り可能な記録媒体、電子機器及び画像処理方法
WO2020021879A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
CN114511865A (zh) 一种结构化信息的生成方法、装置和计算机可读存储介质
CN112800824A (zh) 扫描文件的处理方法、装置、设备及存储介质
JP5010627B2 (ja) 文字認識装置及び文字認識方法
JP2019220069A (ja) カード番号認識装置およびカード番号認識方法
CN111599080B (zh) 拼接纸币的检测方法、装置、金融机具设备及存储介质
Guo et al. A fast page outline detection and dewarping method based on iterative cut and adaptive coordinate transform

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees