JP4614320B2 - 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体 - Google Patents

位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4614320B2
JP4614320B2 JP2004310092A JP2004310092A JP4614320B2 JP 4614320 B2 JP4614320 B2 JP 4614320B2 JP 2004310092 A JP2004310092 A JP 2004310092A JP 2004310092 A JP2004310092 A JP 2004310092A JP 4614320 B2 JP4614320 B2 JP 4614320B2
Authority
JP
Japan
Prior art keywords
area
character
designated area
image
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004310092A
Other languages
English (en)
Other versions
JP2006120097A (ja
Inventor
敏文 山合
利夫 宮澤
直宏 石丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004310092A priority Critical patent/JP4614320B2/ja
Publication of JP2006120097A publication Critical patent/JP2006120097A/ja
Application granted granted Critical
Publication of JP4614320B2 publication Critical patent/JP4614320B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体に関し、特に画像処理装置により読み込まれた定型に近い文書の画像の位置合わせ処理に関する。
既存の帳票処理では、すべて定型の帳票フォームを用いており、どのフォームにも固定の文字や罫線、枠やタイミングマークなどが存在している。このような帳票フォームの記入部分を処理する技術には、特許文献1や特許文献2がある。
特許文献1は、罫線の交差する十字点を利用して位置合わせする手法である。
また、特許文献2は、画像中の所定のマークを形状認識手法により抽出することによって、画像のずれを検出して補正する方法である。
しかし、これらの方法は、上述したように、位置合わせをする基準となる何らかの固定のマーク、罫線、枠、文字が必要となる。そのために、例えば、論文のタイトルのように、同じレイアウトで書かれているが、帳票フォームのように定型ではないものを大量に、高速に入力したいというような場合には使うことができない。
このようなレイアウト情報を利用して書誌的事項を的確に抽出する技術として、特許文献3や特許文献4がある。
特許文献3の技術は、入力画像に対して領域分割を行い、レイアウト構造に関する特徴抽出を行ってモデルを作成ものであり、予め作成されているモデルと一致したものに関して、所望の書誌事項が抽出できる。
また、特許文献4の技術は、テンプレート情報に、位置、大きさ、属性を保持し、認識対象画像からブロック領域を抽出して、抽出した領域の属性を判別し、テンプレート領域と重なりがあり、属性が同じ領域のブロックを求める領域とするものである。
特開平10−091783号公報 特開平4−261259号公報 特開平11−328306号公報 特開平11−203491号公報
しかしながら、特許文献3の方法は、論文誌の書誌事項を取ってくるような場合には非常に有効であるが、レイアウトで分類する必要のない場合には無駄な処理が多く、処理に時間がかかるという問題がある。特に、領域識別の性能に非常に依存するが、安定した領域分割結果を得るのは難しく、取得する位置以外のレイアウトが微妙に違っていると、別モデルを作成する必要がある。
特許文献4の方法でも同様に、ブロック領域抽出(領域分割)を行うことから処理が始まるので、領域分割の精度に依存する問題があり、安定した領域分割結果を得るのは難しい。
また、テンプレートと重なることを前提としているため、領域が1行しかない小さい領域などでは、極端に精度が落ちることになる。
当然ながら、特別な処理をしないで、テンプレートの位置のみを取ってくるだけでは、予め必要な領域を広めに指定しておかないとずれを吸収できないし、広く設定しすぎると、近接している他の必要のない部分が入り込んでくるのが課題となる。
本発明は、上述した実情を考慮してなされたもので、画像処理装置によって読み込まれた定型に近い文書の画像の所定位置にある文字行の位置合わせを行うことにより、所定位置の文字行を取得できるようにした位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体を提供することを目的とする。
上記の課題を解決するために、請求項1に記載の発明は、文書画像の指定領域をテンプレートとして保持する指定領域保持手段と、前記テンプレートを作るための画像から抽出した前記指定領域の内部及び周辺の特徴情報を保持する指定領域特徴保持手段と、位置合わせを行うために、入力した画像を正立させる回転補正手段と、位置合わせを行うために、前記指定領域保持手段に保持されたテンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げる探索範囲拡大手段と、前記探索範囲拡大手段により上下または左右に広がった範囲の中で、前記回転補正手段により正立させた画像の中から文字行を抽出する文字行抽出手段と、前記文字行抽出手段により抽出された文字行の特徴情報を抽出する文字行特徴抽出手段と、前記文字行特徴抽出手段により抽出された文字行の特徴情報と、前記指定領域特徴保持手段に保持された指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行として抽出する領域抽出手段とを備えることを特徴とする。
請求項2に記載の発明は、文書画像の指定領域をテンプレートとして保持する指定領域保持手段と、前記テンプレートを作るための画像から抽出した前記指定領域の内部及び周辺の特徴情報を保持する指定領域特徴保持手段と、位置合わせを行うために、前記指定領域保持手段に保持されたテンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げる探索範囲拡大手段と、入力された画像が90度の倍数だけ回転されていると仮定して、前記探索範囲の領域を考え得る最大の数だけ、90度の倍数回転させた回転領域を作成する回転領域作成手段と、前記回転領域作成手段で作成した範囲の中で、入力された画像の中から文字行を抽出する文字行抽出手段と、前記文字行抽出手段により抽出された文字行の特徴情報を抽出する文字行特徴抽出手段と、前記文字行特徴抽出手段により抽出された文字行の特徴情報と、前記指定領域特徴保持手段に保持された指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行および回転角度として抽出する領域抽出手段を備えることを特徴とする。
請求項3に記載の発明は、請求項1または2に記載の位置合わせ装置において、前記テンプレートを作るための画像を用いて、前記指定領域保持手段に保持された指定領域の内部及び周辺の特徴情報を抽出して前記指定領域特徴保持手段へ格納する指定領域特徴抽出手段を備えることを特徴とする。
請求項4に記載の発明は、請求項3に記載の位置合わせ装置において、前記指定領域の内部の特徴情報は、文字サイズ、文字矩形間距離の平均あるいは分散、指定領域内の文字行数、行間距離の平均あるいは分散、囲み枠に囲まれているか否かの情報の組み合わせであることを特徴とする。
請求項5に記載の発明は、請求項3に記載の位置合わせ装置において、前記指定領域の周辺の特徴情報は、指定領域の上に対して、最も近い行の文字サイズ、文字矩形間距離の平均あるいは分散、最も近い行との距離、あるいは、指定領域の下に対して、最も近い行の文字サイズ、文字矩形間距離の平均あるいは分散、最も近い行との距離、あるいは、指定領域の上下の行とどれだけ離れているか、あるいは、指定領域の上下左右の最も近接している罫線とどれだけ離れているか、の一つ以上の情報を含めることを特徴とする。
請求項6に記載の発明は、請求項1乃至5のいずれか一項に記載の位置合わせ装置において、前記領域抽出手段で最も特徴の類似していた文字行を判断する際に、テンプレート上の位置合わせ領域の重心と、文字行の重心位置のずれの度合いを類似度に加え、もともとの位置に近いものを選択しやすくしたことを特徴とする。
請求項7に記載の発明は、請求項1乃至5のいずれか一項に記載の位置合わせ装置において、前記領域抽出手段で一定値以上の類似した文字行がなかった場合に、入力された画像は前記指定領域保持手段に保持されたテンプレートに用いた画像と種類が違うものとして、リジェクト扱いにするようにしたことを特徴とする。
請求項8に記載の発明は、文書画像の指定領域をテンプレートとして保持すると共に、前記テンプレートを作るための画像から抽出した前記指定領域の内部及び周辺の特徴情報を保持したうえで、位置合わせを行うために、入力した画像を正立させ、前記テンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げ、前記上下または左右に広がった範囲の中で、前記正立した画像の中から文字行を抽出し、その文字行から抽出した特徴情報と、前記指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行として抽出することを特徴とする。
請求項9に記載の発明は、文書画像の指定領域をテンプレートとして保持すると共に、前記テンプレートを作るための画像から抽出して前記指定領域の内部及び周辺の特徴情報を保持したうえで、位置合わせを行うために、前記テンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げ、入力された画像が90度の倍数だけ回転されていると仮定して、前記探索範囲の領域を考え得る最大の数だけ、90度の倍数回転させた回転領域を作成し、前記回転領域の範囲の中で、入力された画像の中から文字行を抽出し、その文字行から抽出した特徴情報と、前記指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行および回転角度として抽出することを特徴とする。
請求項10に記載の発明は、コンピュータに、請求項1乃至7のいずれかに記載の位置合わせ装置の機能を実行させるためのプログラムであることを特徴とする。
請求項11に記載の発明は、請求項10に記載のプログラムを記録したコンピュータ読取可能な記録媒体であることを特徴とする。
本発明によれば、完全に定型ではない文書の特定の位置を、予め定められた処理を行うシステム、例えば、位置合わせして、論文のタイトル行だけを取ってきたい、あるいは報告書の著者だけを取ってきたい等のシステムで効果的に利用できる。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る位置合わせ装置の機能構成を示すブロック図である。同図において、位置合わせ装置は、回転補正手段10、探索範囲拡大手段20、文字行抽出手段30、文字行特徴抽出手段40、領域抽出手段50、指定領域保持手段70、指定領域特徴保持手段80を含んで構成される。
まず、位置合わせ装置で使用する2つのデータ記憶手段の構成について説明する。
指定領域保持手段70は、ほぼ定型の様式を持った文書のうち、典型的な画像をテンプレート画像として選定し、このテンプレート画像に対して、一つあるいはそれ以上の特定の位置にある領域の座標を保持するものであり、ハードディスクやメモリなどを用いて実現する(図2参照)。記憶されるデータは、領域ごとに、領域のタイプと領域の大きさを示す座標値を記憶する。領域のタイプとしては、例えば、領域の形が矩形、円形、楕円形等がある。
また、領域の大きさを示す座標値は、このタイプに依存した値をもつ。例えば、タイプが矩形の時には、矩形の左上隅の座標値、横幅の長さおよび縦幅の長さであり、円形の時には、中心点の座標と半径である。
位置合わせ装置は、文書画像が入力されると、この指定領域保持手段70に保持した領域の画像特性と似た領域を入力画像から抽出して、似た領域があった時には、テンプレートと同じ意味をもつ領域として抽出する。
指定領域特徴保持手段80は、テンプレート画像に対して、指定領域保持手段70に記憶されている指定領域ごとに、この指定領域の内部と外部(周辺)の特徴情報を記憶するものであり、ハードディスクやメモリなどを用いて実現する。
また、これらの特徴情報は、指定領域保持手段70に記憶されている各領域と対応させてもっているため、指定領域特徴保持手段80を特別に用意することなく、指定領域保持手段70と同じファイルなどを使っても構わない。
指定領域特徴保持手段80に記憶される指定領域の内部の特徴情報としては、次のような情報、あるいは一つ以上の情報の組み合わせからなる。
・文字サイズ情報(あるいは文字矩形サイズ情報)、
・文字矩形間距離の平均あるいは分散等の統計情報、
・指定領域内の文字行数の情報、
・行間距離の平均あるいは分散等の統計情報、及び、
・囲み枠に囲まれているか否かの情報など。
指定領域特徴保持手段80に記憶される指定領域の周辺の特徴情報としては、次のような情報、あるいは一つ以上の情報の組み合わせからなる。
・指定領域の上に対して、最も近い行の文字サイズ、文字矩形間距離の平均あるいは分散等の統計情報、最も近い行との距離、
・指定領域の下に対して、最も近い行の文字サイズ、文字矩形間距離の平均あるいは分散等の統計情報、最も近い行との距離、
・指定領域の上下の行とどれだけ離れているか、
・指定領域の上下左右の最も近接している罫線とどれだけ離れているか(空白がどれだけあるか)。
図3は、この指定領域特徴保持手段80を生成するときの構成を示すブロック図であり、同図において、指定領域保持手段70、指定領域特徴抽出手段90、指定領域特徴保持手段80とから構成される。
指定領域特徴抽出手段90は、次の手順により、各指定領域の特徴情報を得て、指定領域に対応させて指定領域特徴保持手段80へ格納する。
先ず、テンプレート画像を読み込む。次に、指定領域保持手段70に記憶された指定領域内の画像をこのテンプレート画像から抽出する。そして、この抽出された指定領域内の文字矩形をすべて抽出する。この後、この抽出した文字矩形のうち指定領域に接している文字矩形を除外して、残りの有効な文字矩形群から、以下の情報を取得する。
・隣接する文字矩形を統合してできる統合矩形の座標値(例えば、統合矩形の左上隅の座標値)と幅と高さ、
・文字矩形間距離の平均あるいは分散等の統計情報、
・指定領域内の文字行数、
・行間距離の平均あるいは分散等の統計情報、
・罫線枠で囲まれた領域であるか。
指定領域から、上下左右にそれぞれ(例えば、各4cm)拡大する(いまこの領域を領域aと呼ぶ)。領域aから罫線を抽出し、抽出された罫線のうち、統合矩形の重心に重なり、かつ統合矩形に最も近いものを上下左右各方向で探す。罫線が発見できた方向を保存するとともに、上下左右4方向そろっている場合は、それらが接続しているか確認し、接続していれば、罫線枠で囲まれた領域であるというフラグをONにする。
次に、指定領域の外部周辺に対して、次のような特徴情報を抽出する。
・指定領域の上に対して、最も近い行を識別して、その行の文字サイズ(文字矩形のサイズ)、文字矩形間距離の平均あるいは分散等の統計情報、最も近い行との距離を算出する。
・指定領域の下に対して、最も近い行を識別して、その文字サイズ(文字矩形のサイズ)、文字矩形間距離の平均あるいは分散等の統計情報、最も近い行との距離を算出する。
・指定領域の上下の行に対して、指定領域とその領域の上の行との距離、指定領域とその領域の下の行との距離を算出する。
・指定領域の近接している罫線に対して、指定領域とこの領域の上下左右の最も近接している罫線との距離(空白がどれだけあるか)を算出する。
そして、これらの情報を指定領域と対応付けて指定領域特徴保持手段80へ格納する。
一般に、ADF(オートドキュメントフィーダ)の性能や、紙の画像読み取り装置への置き方、紙への印刷時の精度などにより、指定領域の位置ずれが起こる。本発明の位置合わせ装置は、このように位置ずれが起きた画像を指定領域特徴保持手段80のデータを用いて位置合わせを行うようにする。
まず、回転補正手段10を用いて、画像読み取り装置から入力した画像を正立した画像を生成する。この回転補正手段10は、天地識別のような公知の技術を使用して、入力画像を正立させる。このようにすることで、処理時間は多少かかるが、文字は常に上を向いているとみなして以降の処理をすることができ、場合分けなどを考えなくて済む。
次に、指定領域保持手段70に保持されたテンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想されるマージン量(例えば、4〜5mm)だけ範囲を各指定領域に対して広げる(探索範囲拡大手段20)。このマージン量は、文字列が伸びる可能性のある方向にはさらに増やすようにする。
ここで、ADFの性能が悪いと分かっている場合には、その分だけマージン量を多めに設定するし、もしくは、ある指定領域に書かれる内容が他の記入内容でずれることが予想されていれば、さらに大きめにとるようにする。
このように広がった各探索範囲の中で、正立した画像から公知の技術により文字行を抽出する(文字行抽出手段30)。
抽出された文字行に対して、指定領域特徴抽出手段90と同様に、文字行の特徴情報を抽出する(文字行特徴抽出手段40)。
このようにして抽出された文字行の特徴情報と、指定領域特徴保持手段80に記憶されたテンプレートの指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を選択して、相違度を各特徴ごとに係数(各特徴を正規化するための値)をかけて加算しておき、相違度の低い行を指定領域に含まれる文字行として抽出する(領域抽出手段50)。
ここで、最も特徴の類似していた文字行を判断する際に、テンプレート画像上の指定領域(位置合わせ領域)の重心と文字行の重心の位置のずれの度合いを類似度に加え、元々の位置に近いものを選択するようにしてもよい。
また、指定領域特徴保持手段80には、抽出すべき最大行数などの情報や、閾値情報などを格納しておき、それに従った情報を抽出させるようにしてもよい。
さらに、指定領域に複数の文字行が入っている場合も考えられ、その場合には最も相違度の低い行の前後をみて、相違度の差が閾値を超えない行であれば同じ領域の行として抽出を行う。
また、類似した文字行がなかった場合に、入力された画像はテンプレート画像と種類が違うものとして、リジェクト扱いにする。
以上のように構成することにより、完全に定型ではない文書の特定の位置を、予め定められた処理を行うシステム、例えば、位置合わせして、論文のタイトル行だけを取ってきたい、あるいは報告書の著者だけを取ってきたい等のシステムで効果的に利用できる。
<第2の実施形態>
上述の第1の実施形態では、読み込んだ画像を正立させてから、位置合わせ処理を行っていたが、本実施形態2では、画像を正立させずにそのまま処理を進めていくようにした。
例えば、通常のA4、A3、B4、B5いう用紙サイズを使う限りでは、縦横比を考慮すると、0度か180度、もしくは90度か270度の2種類の方向だけ考えればよいことになる。以下説明を簡単にするため、90度か270度という状態であれば、90度だけ回転を行って、0度か180度(天地がひっくり返っている状態)の2種類へ集約するようにしておく。
図4は、本発明の第2の実施形態に係る位置合わせ装置の機能構成を示すブロック図である。同図において、位置合わせ装置は、探索範囲拡大手段20、回転領域作成手段60、文字行抽出手段30、文字行特徴抽出手段40、領域抽出手段50、指定領域保持手段70、指定領域特徴保持手段80を含んで構成される。
この位置合わせ装置のうち第1の実施形態と同様な機能については同じ符号を付してあり、機能説明については相違するところを中心に説明する。
第2の実施形態の場合は、画像読み取り装置から読み取った画像を、テンプレート画像と読み込んだ画像の縦横比を調べて、同じ縦横比となるように90度回転させた画像を作成する。
また、指定領域保持手段70に保持されたテンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想されるマージン量(例えば、4〜5mm)だけ範囲を各指定領域に対して広げる(探索範囲拡大手段20)。このマージン量は、文字列が伸びる可能性のある方向にはさらに増やすようにする。
ここで、ADFの性能が悪いと分かっている場合には、その分だけマージン量を多めに設定するし、もしくは、ある指定領域に書かれる内容が他の記入内容でずれることが予想されていれば、さらに大きめにとるようにする。
さらに、入力された画像が90度の倍数だけ回転されていると仮定して、探索範囲拡大手段20で求めた探索範囲の領域を、考え得る最大の数だけ、90度の倍数回転させた回転領域を作成する(回転領域作成手段60)。
例えば、位置ずれが起きると予想される量だけ広げた探索範囲の領域Aをもつと共に、領域Aを180度回転したときに得られる領域A’の座標値も計算する。すなわち、90度の回転は施されているため、0度と180度の2種類の領域を作るということである。
このように広がった各探索範囲の中で、読み込んだ画像(あるいは、90度回転した画像)から公知の技術により文字行を抽出する(文字行抽出手段30)。
抽出された文字行に対して、指定領域特徴抽出手段90と同様に、文字行の特徴情報を抽出する(文字行特徴抽出手段40)。
このようにして抽出された文字行の特徴情報と、指定領域特徴保持手段80に記憶されたテンプレートの指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を選択して、相違度を各特徴ごとに係数(各特徴を正規化するための値)をかけて加算しておき、相違度の低い行を指定領域に含まれる文字行および回転角度とし抽出する(領域抽出手段50)。
ここで、最も特徴の類似していた文字行を判断する際に、テンプレート画像上の指定領域(位置合わせ領域)の重心と文字行の重心の位置のずれの度合いを類似度に加え、もともとの位置に近いものを選択するようにしてもよい。
また、指定領域特徴保持手段80には、抽出すべき最大行数などの情報や、閾値情報などを格納しておき、それに従った情報を抽出させるという方法も考えられる。
さらに、指定領域に複数の文字行が入っている場合も考えられ、その場合には最も相違度の低い行の前後をみて、相違度の差が閾値を超えない行であれば同じ領域の行として抽出を行う。
また、類似した文字行がなかった場合に、入力された画像はテンプレート画像と種類が違うものとして、リジェクト扱いにする。
以上のように構成することにより、第1の実施形態と同様な効果をもたらすばかりでなく、文字が必ずしも正立していないという状態にはなるが、特徴抽出のような単純な処理を2倍〜4倍かけるだけで、天地識別のような非常に重い処理も必要とせず、文字認識をかけることなく、画像特徴から回転角度と必要な領域が分かる。
また、0度のテンプレート画像と180度回転させたテンプレート画像では片方でマッチする行が見つからないことは多々あり、その場合、天地識別のような処理をしなくても、天地方向まで同時にわかることになり、処理の軽減がはかれる。
本発明は、上述した実施形態のみに限定されたものではない。上述した実施形態の位置あわせ装置を構成する各機能をそれぞれプログラム化し、あらかじめCD−ROM等の記録媒体に書き込んでおき、コンピュータに搭載したCD−ROMドライブのような媒体駆動装置にこのCD−ROM等を装着して、これらのプログラムをコンピュータのメモリあるいは記憶装置に格納し、それを実行することによって、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
なお、プログラムを格納する記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリ等)、光媒体(例えば、DVD、MO、MD、CD等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
また、ロードしたプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
さらに、上述したプログラムが、機能拡張ボードや機能拡張ユニットに備わるメモリにロードされ、そのプログラムの実行によって、上述した実施形態の機能が実現される場合も含まれる。
市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等の通信網を介して接続されたサーバコンピュータの記憶装置に格納しておき、通信網を通じて他のコンピュータに転送することもできる。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。なお、コンピュータでは、可搬型の記録媒体上のプログラム、または転送されてくるプログラムを、コンピュータに接続した記憶装置にインストールし、そのインストールされたプログラムを実行することによって上述した実施形態の機能が実現される。
なお、上記説明した各実施形態に限定される必要はなく、特許請求の範囲に記載の範囲内であれば多種の変形や置換可能であることは言うまでもない。
本発明の実施形態1に係る位置合わせ装置の機能構成を示すブロック図。 テンプレート画像の中の指定した領域の例を示す図。 指定領域特徴保持手段を生成するときの構成を示すブロック図。 本発明の実施形態2に係る位置合わせ装置の機能構成を示すブロック図。
符号の説明
10 回転補正手段、20 探索範囲拡大手段、30 文字行抽出手段、40 文字行特徴抽出手段、50 領域抽出手段、60 回転領域作成手段、70 指定領域保持手段、80 指定領域特徴保持手段、90 指定領域特徴抽出手段

Claims (11)

  1. 文書画像の指定領域をテンプレートとして保持する指定領域保持手段と、前記テンプレートを作るための画像から抽出した前記指定領域の内部及び周辺の特徴情報を保持する指定領域特徴保持手段と、位置合わせを行うために、入力した画像を正立させる回転補正手段と、位置合わせを行うために、前記指定領域保持手段に保持されたテンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げる探索範囲拡大手段と、前記探索範囲拡大手段により上下または左右に広がった範囲の中で、前記回転補正手段により正立させた画像の中から文字行を抽出する文字行抽出手段と、前記文字行抽出手段により抽出された文字行の特徴情報を抽出する文字行特徴抽出手段と、前記文字行特徴抽出手段により抽出された文字行の特徴情報と、前記指定領域特徴保持手段に保持された指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行として抽出する領域抽出手段とを備えることを特徴とする位置合わせ装置。
  2. 文書画像の指定領域をテンプレートとして保持する指定領域保持手段と、前記テンプレートを作るための画像から抽出した前記指定領域の内部及び周辺の特徴情報を保持する指定領域特徴保持手段と、位置合わせを行うために、前記指定領域保持手段に保持されたテンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げる探索範囲拡大手段と、入力された画像が90度の倍数だけ回転されていると仮定して、前記探索範囲の領域を考え得る最大の数だけ、90度の倍数回転させた回転領域を作成する回転領域作成手段と、前記回転領域作成手段で作成した範囲の中で、入力された画像の中から文字行を抽出する文字行抽出手段と、前記文字行抽出手段により抽出された文字行の特徴情報を抽出する文字行特徴抽出手段と、前記文字行特徴抽出手段により抽出された文字行の特徴情報と、前記指定領域特徴保持手段に保持された指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行および回転角度として抽出する領域抽出手段を備えることを特徴とする位置合わせ装置。
  3. 請求項1または2に記載の位置合わせ装置において、前記テンプレートを作るための画像を用いて、前記指定領域保持手段に保持された指定領域の内部及び周辺の特徴情報を抽出して前記指定領域特徴保持手段へ格納する指定領域特徴抽出手段を備えることを特徴とする位置合わせ装置。
  4. 請求項3に記載の位置合わせ装置において、前記指定領域の内部の特徴情報は、文字サイズ、文字矩形間距離の平均あるいは分散、指定領域内の文字行数、行間距離の平均あるいは分散、囲み枠に囲まれているか否かの情報の組み合わせであることを特徴とする位置合わせ装置。
  5. 請求項3に記載の位置合わせ装置において、前記指定領域の周辺の特徴情報は、指定領域の上に対して、最も近い行の文字サイズ、文字矩形間距離の平均あるいは分散、最も近い行との距離、あるいは、指定領域の下に対して、最も近い行の文字サイズ、文字矩形間距離の平均あるいは分散、最も近い行との距離、あるいは、指定領域の上下の行とどれだけ離れているか、あるいは、指定領域の上下左右の最も近接している罫線とどれだけ離れているか、の一つ以上の情報を含めることを特徴とする位置合わせ装置。
  6. 請求項1乃至5のいずれか一項に記載の位置合わせ装置において、前記領域抽出手段で最も特徴の類似していた文字行を判断する際に、テンプレート上の位置合わせ領域の重心と、文字行の重心位置のずれの度合いを類似度に加え、もともとの位置に近いものを選択しやすくしたことを特徴とする位置合わせ装置。
  7. 請求項1乃至5のいずれか一項に記載の位置合わせ装置において、前記領域抽出手段で一定値以上の類似した文字行がなかった場合に、入力された画像は前記指定領域保持手段に保持されたテンプレートに用いた画像と種類が違うものとして、リジェクト扱いにするようにしたことを特徴とする位置合わせ装置。
  8. 文書画像の指定領域をテンプレートとして保持すると共に、前記テンプレートを作るための画像から抽出した前記指定領域の内部及び周辺の特徴情報を保持したうえで、位置合わせを行うために、入力した画像を正立させ、前記テンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げ、前記上下または左右に広がった範囲の中で、前記正立した画像の中から文字行を抽出し、その文字行から抽出した特徴情報と、前記指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行として抽出することを特徴とする位置合わせ方法。
  9. 文書画像の指定領域をテンプレートとして保持すると共に、前記テンプレートを作るための画像から抽出して前記指定領域の内部及び周辺の特徴情報を保持したうえで、位置合わせを行うために、前記テンプレート上の指定領域の範囲を基準として、位置ずれがおきると予想される量だけ上下または左右に範囲を広げ、入力された画像が90度の倍数だけ回転されていると仮定して、前記探索範囲の領域を考え得る最大の数だけ、90度の倍数回転させた回転領域を作成し、前記回転領域の範囲の中で、入力された画像の中から文字行を抽出し、その文字行から抽出した特徴情報と、前記指定領域の特徴情報とを比較し、最も特徴の類似していた文字行を当該指定領域に含まれる文字行および回転角度として抽出することを特徴とする位置合わせ方法。
  10. コンピュータに、請求項1乃至7のいずれか一項に記載の位置合わせ装置の機能を実行させるためのプログラム。
  11. 請求項10に記載のプログラムを記録したコンピュータ読取可能な記録媒体。
JP2004310092A 2004-10-25 2004-10-25 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体 Expired - Fee Related JP4614320B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004310092A JP4614320B2 (ja) 2004-10-25 2004-10-25 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004310092A JP4614320B2 (ja) 2004-10-25 2004-10-25 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2006120097A JP2006120097A (ja) 2006-05-11
JP4614320B2 true JP4614320B2 (ja) 2011-01-19

Family

ID=36537898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004310092A Expired - Fee Related JP4614320B2 (ja) 2004-10-25 2004-10-25 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4614320B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000067164A (ja) * 1998-08-26 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法及び装置並びにテンプレート作成プログラムを記録した記録媒体
JP2001312696A (ja) * 2001-03-30 2001-11-09 Nec Corp 文書分類装置、文字読み取り装置及び真贋判定装置、並びにこれらの方法
JP2002297638A (ja) * 2001-03-29 2002-10-11 Ricoh Co Ltd 文書画像からのタイトル抽出方法
JP2002324236A (ja) * 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
JP2004046295A (ja) * 2002-07-08 2004-02-12 Ricoh Co Ltd タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319824A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 帳票認識方法
JPH11316797A (ja) * 1998-03-06 1999-11-16 Matsushita Electric Ind Co Ltd 文書画像の領域識別方法および装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000067164A (ja) * 1998-08-26 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法及び装置並びにテンプレート作成プログラムを記録した記録媒体
JP2002297638A (ja) * 2001-03-29 2002-10-11 Ricoh Co Ltd 文書画像からのタイトル抽出方法
JP2001312696A (ja) * 2001-03-30 2001-11-09 Nec Corp 文書分類装置、文字読み取り装置及び真贋判定装置、並びにこれらの方法
JP2002324236A (ja) * 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
JP2004046295A (ja) * 2002-07-08 2004-02-12 Ricoh Co Ltd タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2006120097A (ja) 2006-05-11

Similar Documents

Publication Publication Date Title
US9201879B2 (en) Method, apparatus and system for generating a feature vector
KR102403964B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
JP3302147B2 (ja) 文書画像処理方法
US8238666B2 (en) Recognition of parameterised shapes from document images
JP4549997B2 (ja) 赤目検出装置、赤目検出方法、および赤目検出プログラム
JP2008084014A (ja) 画像領域検出方法、該プログラム、及び該装置
US11227153B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
EP1971951A2 (en) Automatic placement of an object on a page
JP2008171411A (ja) 動的なコネクタ解析のための方法及び装置
WO2010052830A1 (ja) 画像向き判定装置、画像向き判定方法及び画像向き判定プログラム
US7437017B2 (en) Image processing method
JP2011065643A (ja) 文字認識方法及び文字認識装置
JP3854024B2 (ja) 文字認識前処理装置及び方法並びにプログラム記録媒体
CN111626250B (zh) 文本图像的分行方法、装置、计算机设备及可读存储介质
US11210507B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
JP4614320B2 (ja) 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
JP5216631B2 (ja) 特徴量抽出装置
JP4603658B2 (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP3285686B2 (ja) 領域分割方法
JP3787377B2 (ja) 文書方向判定方法及び装置及び文字認識方法及び装置
JP4080157B2 (ja) 画像処理装置、画像処理方法、及び記録媒体
JP2015099536A (ja) 図表領域検出装置および図表領域検出方法
JP6547301B2 (ja) 情報処理装置及び情報処理プログラム
JP2009053827A (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071022

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees