JP2023036478A

JP2023036478A - 情報処理装置、プログラム、及び情報処理方法

Info

Publication number: JP2023036478A
Application number: JP2021143550A
Authority: JP
Inventors: 太郁由谷本; Takayoshi Tanimoto
Original assignee: RYOBI SYSTEMS CO Ltd
Current assignee: RYOBI SYSTEMS CO Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-03-14
Anticipated expiration: 2041-09-02
Also published as: JP7043667B1

Abstract

【課題】地積測量図から座標求積表を高精度に抽出する情報処理装置、プログラム及び情報処理方法を提供する。【解決手段】情報処理装置１０は、地積測量図の画像情報を記憶する記憶手段１００と、画像情報からオブジェクトを抽出するオブジェクト抽出手段１２０と、オブジェクトから罫線を抽出する罫線抽出手段１３０と、オブジェクトにおける表の構成を判定する表判定手段１４０と、表の構成に基づき前記地積測量図から座標求積表の情報を取得する情報取得手段１６１と、を備える。表判定手段１４０は、オブジェクトの特定領域に罫線が有るか否かを判定する。情報取得手段１６１は、特定領域に罫線が有ると判定された場合、当該罫線により区分された情報に基づいて座標求積表の情報を取得し、特定領域に罫線が無いと判定された場合、特定領域に配されている画像に基づき区分された情報に基づいて座標求積表の情報を取得する。【選択図】図５

Description

本発明は、座標求積表を取得可能な情報処理装置、プログラム、及び情報処理方法に関する。

従来から、土地は法務局において登記されており、法務局が地積測量図などの情報により管理している。
土地の諸税管理は、地方自治体に委ねられていることから、法務局から地方自治体に対し、地積測量図が提供される。
地積測量図は、土地の辺長、面積などの測量情報などを表した「座標求積表」や地図等により構成されている。
例えば、特許文献１には、表内の数値を読み取り、数値同士に一定の関係性を有することを判定することに基づいて座標求積表を自動認識する技術が開示されている。

特開２０２１－２８７９４号公報

しかしながら、座標求積表は、表内の数値に一定の関係性があるものの、表の構成や行列のパターンが多く不確定なため、認識の精度が低いことが課題であった。

本発明は、以上のような従来の技術が有する課題を解決するために提案されたものであり、地積測量図から座標求積表を高精度に取得可能な情報処理装置、プログラム、及び情報処理方法の提供を目的とする。

上記目的を達成するため本発明の情報処理装置は、地積測量図の画像情報を記憶する記憶手段と、前記画像情報からオブジェクトを抽出するオブジェクト抽出手段と、前記オブジェクトから罫線を抽出する罫線抽出手段と、前記オブジェクトにおける表の構成を判定する表判定手段と、前記表の構成に基づき前記地積測量図に含まれる座標求積表の情報を取得する情報取得手段と、を備え、前記表判定手段は、前記オブジェクトの特定領域に前記罫線が有るか否かを判定し、前記情報取得手段は、前記特定領域に罫線が有ると判定された場合、当該罫線により区分された情報に基づいて前記座標求積表の情報を取得し、前記特定領域に罫線が無いと判定された場合、前記特定領域に配されている画像に基づき区分された情報に基づいて前記座標求積表の情報を取得する構成としてある。
また、本発明は、上記のような情報処理装置において実行されるプログラムや情報処理方法として構成することもできる。

本発明によれば、地積測量図から座標求積表を高精度に取得することができる。

地積測量図の一例を示す図である。座標求積表の一例を示す図である。（ａ）は測量点行が罫線で区分されている場合、（ｂ）は測量点行が罫線で区分されていない場合を示す。（ａ）はフッターが測量点行と同じセル内に含まれ、かつ、他のセルにも含まれる座標求積表（罫線無し）の一例を示す図であり、（ｂ）はフッターが測量点行と同じセル内に含まれていない座標求積表（罫線無し）の一例を示す図である。本発明の情報処理装置のハードウェア構成図である。情報処理装置の機能ブロック図である。オブジェクト抽出を示す図である。二値化したオブジェクトにおける罫線抽出を示す図である。（ａ）は斜め補正前のオブジェクト、（ｂ）は斜め補正後のオブジェクトにおいて横罫線を抽出した場合、（ｃ）は横罫線の幅を縮めた場合、（ｄ）は縦罫線を抽出した場合を示す。行列等の特定を示す図である。罫線有りの場合のセル座標抽出を示す図である。罫線無しの場合の表判定を示す図である。（ａ）は特定領域における文字オブジェクトの抽出、（ｂ）は文字オブジェクトに基づく文字行の長さの特定、（ｃ）は文字行の長さに基づいて特定領域を特定する場合を示す。罫線無しの場合の表判定結果を示す図である。（ａ）はフッターが４行の場合、（ｂ）はフッターが３行の場合、（ｃ）はフッターが別セルに含まれている場合を示す。罫線無しの場合のセル座標抽出を示す図である。ヘッダーＯＣＲ処理を示す図である。セルＯＣＲ処理を示す図である。座標求積表の情報の出力結果の一例を示す図である。本発明に係る情報処理方法を示すフローチャートである。表判定方法を示すフローチャートである。特定領域（罫線有り）の特定方法を示すフローチャートである。特定領域（罫線無し）の特定方法を示すフローチャートである。地積測量図に含まれる様々なオブジェクトの一例である。（ａ）～（ｇ）は座標求積表以外の表を示す。座標求積表（罫線有り）の特種例を示す図である。罫線の線幅を縮めない場合に生ずる問題を示す図である。（ａ）は罫線が斜めでない場合を示す図であり、（ｂ）は罫線が斜めの場合を示す図である。（ａ）は罫線が斜めの場合に生ずる問題を示す図であり、（ｂ）は罫線の線幅を縮めることで問題を解決することを示す図である。

以下、本発明の情報処理装置の一実施形態について説明する。
本発明の情報処理装置は、地積測量図から高精度で座標求積表を取得できるように構成されている。

図１は、地積測量図の一例を示す図である。
同図に示すように、地積測量図は、土地面積の算出方法などを図表で表した座標求積表、それ以外の各種表、土地の地図、方位図、文字、外枠、ノイズなどの各種オブジェクトにより構成されている。
これらの各オブジェクトは、様々な大きさで構成されているところ、座標求積表は、所定の大きさの範囲内で構成されていることが判明した。
具体的には、地積測量図の帳票のサイズに対し、例えば、５％＜高さ＜１００％で、かつ、１０％＜横幅＜５０％が座標求積表の大きさであることが、本発明の発明者により解明された。

図２及び図３は、座標求積表の一例を示す図である。
同図に示すように、地積測量図は、基本的には、地番行、ヘッダー行、測量点行、及びフッターにより構成される。
地番行には、土地の地番が見出しとして記載される。
ヘッダー行には、測量点行における測量情報の見出しの情報が記載される。
見出し情報としては、Ｘ、Ｘ_ｎなどＸ座標列であることを示す見出し情報、Ｙ、Ｙ_ｎなどＹ座標列であることを示す見出し情報、Ｘ_ｎ＋１－Ｘ_ｎ－１など辺長であることを示す見出し情報、Ｙ_ｎ（Ｘ_ｎ＋１－Ｘ_ｎ－１）など各面積であることを示す見出し情報などが記載される。
測量点行には、ヘッダー行の見出しに対応した各測点における測量情報（Ｘ座標値及びＹ座標値、辺長、各面積等）が記載される。
フッターには、各測量点行における各面積の合計値（倍面積）、土地の面積（倍面積の１／２）及び地積等が記載される。

座標求積表は、図２（ａ）に示すように、測量点行の測量情報が罫線で区分されているもの（以降、「罫線有り」ともいう）と、図２（ｂ）に示すように、測量点行の測量情報が罫線で区分されていないもの（以降、「罫線無し」ともいう）との２つのタイプが存在することが、本発明の発明者により解明された。
また、以下の（１）及び（２）に示すように、「罫線有り」と「罫線無し」によって、それぞれ座標求積表の特徴があることが、本発明の発明者により解明された。

（１）座標求積表（罫線有り）
・地番行：２列１行の場合が多い。ただし、地番行がない場合もある。
・ヘッダー行：３列以上で構成される。表内で最大列数を構成する。測量点行の列数と同じ列数で構成される。１行で構成される。必ず存在する。
・測量点行：３列以上で構成される。ヘッダー行の列数と同じ列数で構成される。３行以上が必ず存在する。必ず、ヘッダー行の次の行から始まる。
・フッター：測量点行よりも列数が少ないことが多い。２行以上が必ず存在する。
（２）座標求積表（罫線無し）
・地番行：２列１行の場合が多い。ただし、地番行がない場合もある。
・ヘッダー行：３列以上で構成される。表内で最大列数を構成する。１行で構成される。必ず存在する。
・測量点行：１行１列である。必ずヘッダー行の次の行に配置される。フッターと同じセル内に構成される。なお、「セル」とは、罫線で区分された１マス（１枠）の領域のことである。
・フッター：測量点行と同じセル内に構成される。まれに、フッターが複数のセルに亘って構成される場合（図３（ａ）参照）や、測量点行とセルが同じセル内に配されずに分かれて構成される場合がある（図３（ｂ）参照）。

図４は、情報処理装置１０のハードウェア構成図である。
情報処理装置１０は、例えば、地方自治体に設置されて利用されるパーソナルコンピュータが相当する。
なお、情報処理装置１０は、パーソナルコンピュータに限らず、タブレット端末やスマートフォンであってもよく、地方自治体以外の場所で利用される態様でもよい。

情報処理装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、操作装置１４と、表示装置１５と、通信装置１６と、を備える。
プロセッサ１１は、プログラムを実行することにより、情報処理装置１０の各部を制御し、情報処理装置１０の機能を実現する処理を行う。プロセッサ１１には、例えばＣＰＵが用いられる。
メモリ１２は、コンピュータが読み取り可能な記録媒体であり、プロセッサ１１により実行されるプログラムを記憶する。メモリ１２には、例えばＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ及びＲＡＭ等が用いられる。
ストレージ１３は、コンピュータが読み取り可能な記録媒体であり、プロセッサ１１により用いられる各種のデータ及びプログラムを記憶する。ストレージ１３には、例えばハードディスクドライブ、フレキシブルディスク、ＵＳＢメモリ、フラッシュメモリ、ＳＳＤ等が用いられる。
操作装置１４は、情報処理装置１０の操作に用いられる。操作装置１４は、例えばパーソナルコンピュータにおけるキーボードやマウスが該当し、スマートフォンやタブレット端末においてはタッチパネルや各種操作ボタンなどが該当する。
表示装置１５は、例えば液晶ディスプレイが用いられており各種画面を表示する。表示装置１５は、タッチセンサと一体となってタッチパネルとして構成されてもよい。
通信装置１６は、図示しない通信ネットワークに接続され、通信ネットワークを介して外部装置とデータ通信を行うことができる。地積測量図は、電子ファイルとしてＬＧ－ＷＡＮ（Local Government - Wide Area Network：総合行政ネットワーク）を介して提供される場合、通信装置１６を介して地積測量図を取得（受信）する。

なお、本発明の情報処理装置は、プログラム（ソフトウェア）の命令によりコンピュータで実行される処理，手段，機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示す本発明に係る所定の処理や機能等を行わせることができる。すなわち、本発明における各処理や手段，機能は、プログラムとコンピュータとが協働した具体的手段によって実現される。
プログラムの全部又は一部は、例えば、磁気ディスク，光ディスク，半導体メモリ，その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。また、本発明に係る情報処理装置は、単一の情報処理装置（例えば一台のコンピュータ等）で構成することもでき、複数の情報処理装置（例えば複数台のコンピュータ群等）で構成することもできる。

図５は、情報処理装置１０の機能ブロック図である。
同図に示すように、情報処理装置１０は、記憶手段１００、前処理部１１０、オブジェクト抽出手段１２０、罫線抽出手段１３０、表判定手段１４０、ヘッダーＯＣＲ処理部１５０、及びセルＯＣＲ処理部１６０を備えている。

記憶手段１００は、ストレージ１３やメモリ１２において地積測量図の画像情報を記憶する。
地積測量図は、紙媒体に表記されているものをスキャンして得た画像情報が対象となる。
具体的には、通信装置１６を介して法務局から取得した地積測量図を記憶手段１００に記憶したり、ＵＳＢメモリなどの可搬記憶媒体を介して取得したものを記憶手段１００に記憶することもできる。
前処理部１１０は、記憶手段１００において記憶されている地積測量図の画像情報に対し二値化を行う。
二値化は、具体的には、地積測量図に含まれる各オブジェクトを白と黒の２色に変換するものであり、前処理部１１０は、二値化したオブジェクトにおいて、白と黒を反転する処理を実行する。
前処理の結果、座標求積表などの表、地図、方位図、文字、外枠、ノイズなどの各種オブジェクトが白で表され、オブジェクトの背景が黒で表される。

オブジェクト抽出手段１２０は、地積測量図の画像情報からオブジェクトを抽出する。オブジェクト抽出には、ラベリングという公知の画像処理技術を用いる。
ラベリングは、ひとつながりの画素全体を一オブジェクトとして抽出する。
これにより、座標求積表などの表、地図、方位図、文字、外枠、ノイズがオブジェクトとして抽出される。
また、オブジェクト抽出手段１２０は、各オブジェクトの中から特定の大きさのオブジェクトを座標求積表の可能性の高いオブジェクトとして抽出する。
図６は、オブジェクト抽出を示す図である。
同図に示すように、地積測量図には、様々な大きさのオブジェクトがあるところ、座標求積表は一定の大きさ（中程度の大きさ）を占めることから、大きさに関する閾値処理を行うことで座標求積表の候補を効率よく抽出することができる。
具体的には、地積測量図の帳票のサイズに対する縦方向及び横方向のオブジェクト比率を閾値としてそれぞれ指定する。
例えば、閾値を、５％＜高さ＜１００％、及び、１０％＜幅＜５０％と指定する。
これにより、座標求積表ではない小さいオブジェクトや大きいオブジェクトを効率よく排除でき、座標求積表のオブジェクトを含め、座標求積表である可能性の高いオブジェクトを効率よく抽出することができる。
なお、上記閾値は一例であり、任意値を指定することができる。

罫線抽出手段１３０は、オブジェクト抽出手段１２０により抽出されたオブジェクトから罫線を抽出する。
具体的には、オブジェクトから縦罫線と横罫線を抽出する。
図７は、オブジェクトからの罫線抽出を示す図である。
なお、説明の便宜上、図７及び図９は二値化した図を用いるが、それ以外の図は二値化されていない図を用いる。
図７（ａ）に示すように、まず、オブジェクトの傾きを修正する。
具体的には、オブジェクトの最小外接矩形に含まれる横罫線と水平罫線との間にα°の傾きがある場合は、オブジェクトをα°回転させて水平にする処理（斜め補正）を実行する。
これにより、表が斜めの場合に発生し易いノイズ（１本の罫線から発生する複数のピーク）を発生し難くすることができる。

図７（ｂ）に示すように、次に、横罫線を抽出する。
例えば、横方向に白の画素を計数し、最小外接矩形の横幅に対する閾値（例えば３５％）以上の部分を横罫線と判定する。
図７（ｃ）に示すように、横罫線は、線幅を縮めて、線１本に対して１ピクセルを設定することで線１本のデータとして管理する。
線幅を１ピクセル幅に縮めて管理したのは、地積測量図の帳票の罫線は、実際には数ピクセル分の線幅があり、そのままセルやその大きさを特定しようとすると、横罫線の上端と下端に分けて線データを捉える必要があり、そうすると処理負荷が大きくなるなど煩雑になるからである。
また、図２２に示すように、スキャン品質が悪いことが原因で、文字と罫線とが１ピクセル単位でつながっている場合がある（図中の矢印参照）ところ、このような場合に何ら措置をとらないと罫線とつながっている文字が罫線の一部と判定され、文字の欠損等が生じ得るからである。
特に、地積測量図の帳票が斜めにスキャンされた場合は、文字と罫線とがつながり易い問題がある。
これは、プログラム処理上、図２３（ａ）に示すように罫線が斜めでない場合には、元の線幅と同じ線幅（例えば１０ピクセル）の罫線として判定されるが、図２３（ｂ）に示すように罫線が斜めの場合には、その線幅よりも厚い線幅（例えば２０ピクセル）の罫線として判定される可能性があるからである（破線部参照）。
図２４（ａ）は、地積測量図に含まれる座標求積表が斜めの場合を示す図であり、図２４（ｂ）は、横罫線の線幅を縮めたことを示す図である。
なお、図２４における破線は、座標求積表が斜めでない場合における外枠を示す図である。
図２３（ｂ）に示す問題は、例えば、図２４（ａ）の矢印に示すように、数字「７」の上部が罫線と重なって「１」と誤って判定される問題として生じ得る。
このような問題に対し、図２４（ｂ）に示すように横罫線の線幅を縮めて管理することで、図中の矢印に示すように、数字と罫線とが重ならないように管理できるため、数字「７」を正確に数字「７」と判定することができる。
なお、本実施形態の情報処理装置１０は、斜め補正を行うため、線幅を縮めて管理しなくても罫線と文字とが重なる問題は生じ難いが、線幅を縮めて管理することで少なくとも図２２に示す問題を生じ難くすることができる。
また、例えば、横罫線と水平罫線との間の角度α°が所定値以上の場合には斜め補正を実行することで罫線と文字とが重なる問題の発生を防ぎ、前記角度α°が所定値未満の場合には線幅を縮めて管理することで罫線と文字とがつながる問題の発生を防ぐようにもできる。

これにより、横罫線と横罫線との間に挟まれた領域を「行」と判定することができる。
なお、閾値を３５％としたのは、短めの横罫線でも表の横幅に対して４０％位の長さがあり、他方、１２％位の長さのノイズ罫線が発生する場合があるからである。
次に、図７（ｄ）に示すように、判定した行ごとに縦罫線を抽出する。
例えば、縦方向に輝度が２５５の画素を計数し、最小外接矩形の縦幅に対する閾値（例えば９０％）以上の部分を縦罫線と判定する。
これにより、縦罫線と縦罫線との間に挟まれた領域を「列」と判定することができる。
縦罫線における閾値を横罫線における閾値より高く設定したのは、縦方向には、ノイズが残っていることが多く、このノイズを除去するためである。
なお、本実施形態の前処理部１１０は、地積測量図に含まれる各オブジェクトを「白（画素：２５５）」と「黒（画素：０）」の二値に変換し、これを白黒反転することを例示したが、これに限るものではない。
例えば、「白」と「黒」に代え、「０」と「１」や「true」と「false」などに二値化し、これを反転してもよい。
この場合、罫線抽出手段１３０は、反転後の二値のうち、白に対応する値に基づいて罫線を抽出すればよい。

表判定手段１４０は、オブジェクトにおける表の構成を判定する。
例えば、表全体の行列の特定、測量点行に対応する特定領域Ｔにおける罫線の有無の判定、当該判定結果に基づく特定領域Ｔの判定などを実行する。
表判定手段１４０は、行列特定手段１４１、ヘッダー行特定手段１４２、セル座標抽出部（罫線有り）１４３、文字行特定手段１４４、特定領域判定手段１４５、及びセル座標抽出部（罫線無し）１４６を備えている。

行列特定手段１４１は、オブジェクトにおいて表を構成する各領域の行列を特定する。
具体的には、罫線により区分された領域であるセルの行列数を特定する。
例えば、図８（ａ）に示す座標求積表（罫線有り）のオブジェクトＲ１からは「２列×１行、４列×５行、３列×３行」の行列を特定し、図８（ｂ）に示す座標求積表（罫線無し）のオブジェクトＲ２からは「１列×１行、６列×１行、１列×１行」の行列を特定することができる。

ヘッダー行特定手段１４２は、行列特定手段１４１により特定された行列のうち、列数が最大である最初の行をヘッダー行と特定する。
ヘッダー行は、列数が最大となり、かつ、最初（最上部）に配置される行であるからである。
また、ヘッダー行特定手段１４２は、３列以上の行をヘッダー行と特定する。
２列未満のヘッダー行は存在しないからである。
例えば、図８（ａ）、（ｂ）においては、２行目の行がヘッダー行と特定される。
なお、本実施形態の情報処理装置１０では、地番行の特定は実行しないが、地番行の特定を実行してもよい。
例えば、ＯＣＲ処理により文字「地番」を含む領域を地番行と判定して、地番行に基づいてヘッダー行を判定したり、文字「地番」を含むオブジェクトを座標求積表のオブジェクトＲとして抽出することができる。

測量点行に対応する特定領域Ｔに罫線が有るか否かを判定する。
具体的には、ヘッダー行の次に、ヘッダー行の列数と同じ列数の行がある場合、当該行を測量点行と推定し、当該行からなる領域を特定領域Ｔと判定し、当該特定領域Ｔには罫線が有ると判定する。
また、ヘッダー行の次に、１列の行が１行ある場合、当該１行の領域は特定領域Ｔとフッター領域Ｆにより構成される特別領域Ｔ_ｆと判定し、当該特別領域Ｔ_ｆや特定領域Ｔには罫線が無いと判定する。
また、ヘッダー行の次の行が３列以上か１列かの判定を加えて、特定領域Ｔの判定や特定領域Ｔに罫線が有るか否かを判定することもできる。
例えば、ヘッダー行の次の行が３列以上の行である場合は、ヘッダー行の次以降にヘッダー行と同じ列数の行からなる領域を特定領域Ｔと判定し、当該特定領域Ｔには罫線が有ると判定したり、ヘッダー行の次の行が１列の行である場合には、当該１行の領域を特別領域Ｔ_ｆと判定し、当該特別領域Ｔ_ｆや特定領域Ｔには罫線が無いと判定することができる。

なお、ヘッダー行の次の行が２列の場合、座標求積表のオブジェクトＲではないと判定する。
これは、測量点行が２列の座標求積表は存在しないからである。つまり、この場合、オブジェクトは座標求積表以外のオブジェクトであるため、処理対象から除外するか、処理を終了する。

特定領域Ｔに罫線が有ると判定された場合、セル座標抽出部（罫線有り）１４３がセル座標の抽出を実行する。
具体的には、オブジェクトＲ１において、横罫線と縦罫線との交点の座標を、各領域（セル）を特定可能なセル座標の情報として取得する。
図９は、罫線有りの場合のセル座標抽出を示す図である。
例えば、１番上の横罫線のＹ座標（ｙ１）と２番目の横罫線のＹ座標（ｙ２）を取得すると共に、１番左の縦罫線のＸ座標（ｘ１）と２番目の縦罫線のＸ座標（ｘ２）を取得する。
これにより、１行目・１列目のセルを特定可能な座標として、例えば、当該セルの左上座標（ｘ１，ｙ１）と右下座標（ｘ２，ｙ２）とを抽出できる。
図９は、１行目・１列目のセルを特定可能なセル座標を抽出したことを示す図である。
この処理を繰り返すことでオブジェクトＲ１のセル座標を抽出することができ、すべてのセルの行列構成を特定することができる。

特定領域Ｔに罫線が無いと判定された場合、文字行特定手段１４４が、特別領域Ｔ_ｆに配されている文字オブジェクト（文字画像）に基づいて文字行を特定する。
具体的には、図１０（ａ）に示すように、特別領域Ｔ_ｆに対するラベリングに基づき、閾値（例えば５％）以下の大きさのオブジェクトを文字オブジェクトとして抽出する。
閾値を５％以下としたのは、実際の座標求積表においては、４列未満のセルは確認されておらず、１つのセルにおいては、横方向に２０文字以上配されていることが確認されているので、１文字当たりの横幅が５％を超えることがないからである。
このため、文字オブジェクトの外接矩形の横幅の積算値が閾値以下でない場合（例えば、少なくとも５％超、好ましくは１０％以上の場合）に文字行があると認識することができる。
図１０（ｂ）には、文字オブジェクトの外接矩形の横幅の積算値を左端部から帯状に表した図を加えている。
この図に示すように、特定領域Ｔにおける文字行の長さは、フッター領域Ｆにおける文字行の長さよりも長いのが明らかである。
これは、測量点行には、Ｘ座標値、Ｙ座標値の数値文字が配されるほか、辺長や面積の数値文字が配されるのに対し、フッターには、面積などの求積結果の数値文字のみが配されるからである。
したがって、図１０（ｃ）に示すように、特別領域Ｔ_ｆにおける文字行の長さに基づいて、特別領域Ｔ_ｆを特定領域Ｔとフッター領域Ｆとに判別することができる（特定領域判定手段）。

このように、特定領域判定手段１４５は、特別領域Ｔ_ｆに配されている文字行の長さに基づいて特定領域Ｔを判定する。以下、その具体的な処理方法について詳細に説明する。
まず、特別領域Ｔ_ｆに配されている文字オブジェクトの外接図形（矩形画像）の幅を積算することで各文字行の長さを求める。
そして、特別領域Ｔ_ｆの最端部から複数行における文字行の長さに基づいて特定領域Ｔを判定する。
具体的には、特別領域Ｔ_ｆの最後の行から２～４行における文字行の長さに基づいて特定領域Ｔとフッター領域Ｆの判別を行う。５行目を除いたのは、５行以上のフッターは存在しないからである。
例えば、特別領域Ｔ_ｆの最後の行から４行目が「短い」場合は、当該４行目がフッター領域Ｆの行と判定する。
この場合、図１１（ａ）に示すように、特別領域Ｔ_ｆの最初の行～最後の行から５行目の行が特定領域Ｔであり、最後の行から４行目の行～最後の行がフッター領域Ｆであると判定される。
「短い」か「長い」かは、特別領域Ｔ_ｆにおいて、例えば最初から１～３行目の各行の長さの中央値（第１中央値）と、最後から１～３行目の各行の長さの中央値（第２中央値）とを求め、文字行の長さが第２中央値よりも第１中央値に近い場合は「長い」と判定し、文字行の長さが第１中央値よりも第２中央値に近い場合は「短い」と判定する。
１～３行目の中央値を判定基準としたのは、最初の１行目は地番情報（例えば図１１（ｃ）に示す「１０７２」）などの長めの文字オブジェクトが配されることで長くなり易く、最後の１行目は短めの文字オブジェクト（例えば図１１（ｃ）に示す「〃」）が配されることで短くなり易いからであり、また、いずれの１行目もノイズが入り易く、その影響を排除するためである。

特別領域Ｔ_ｆの最後の行から４行目が「長く」、且つ、３行目が「短い」場合は、図１１（ｂ）に示すように、特別領域Ｔ_ｆの最初の行～最後の行から４行目の行までが特定領域Ｔと判定し、特別領域Ｔ_ｆの最後の行から３行目の行～最後の行までがフッター領域Ｆと判定することができる。

罫線無しの場合であっても、図１１（ｃ）に示すように、測量点行とフッターとが罫線で区分される場合もある。
このような場合、特別領域Ｔ_ｆは特定領域Ｔのみで構成されるため、文字行の長さに差異は生じにくい。
このような事象を勘案し、例えば、第１中央値と第２中央値との差が小さい場合は、特別領域Ｔ_ｆにはフッター領域Ｆが含まれず、すべて特定領域Ｔであると判定する。
例えば、第１中央値と第２中央値との比率が１に近い場合（例えば０．７５以上の場合）、特別領域Ｔ_ｆは特定領域Ｔと判定する。
具体的には、第１中央値がオブジェクトの横幅に対し２３％の長さで、第２中央値がオブジェクトの横幅に対し１８％の場合、第１中央値（２３％）×０．７５＝１７．２５となり、第２中央値（１８％）の方が１７．２５よりも長いので特別領域Ｔ_ｆは特定領域Ｔと判定する。
これにより、図１１（ｃ）に示すように、特定領域Ｔとフッター領域Ｆとが罫線で区分されている場合、つまり、フッターが含まれない場合の特定領域Ｔを精度良く判定することができる。

特定領域Ｔに罫線が無いと判定された場合には、セル座標抽出部（罫線無し）１４６は、特定領域Ｔに罫線が仮想的にあるものとみなして仮想的なセルのセル座標を抽出する。
具体的には、図１２（ａ）に示すように、縦罫線はヘッダー行の縦罫線の延長線を仮想縦罫線として設定し、横罫線は、図１２（ｂ）に示すように、文字行と文字行との中間点に基づく仮想横罫線を設定する。
そして、横罫線と縦罫線との交点の座標を、仮想的な各領域（セル）を特定可能なセル座標の情報として取得する。
例えば、１番上の横罫線のＹ座標（ｙ１）と２番目の横罫線のＹ座標（ｙ２）を取得すると共に、１番左の縦罫線のＸ座標（ｘ１）と２番目の縦罫線のＸ座標（ｘ２）を取得する。
これにより、１行目・１列目の仮想セルを特定可能な座標として、例えば、当該仮想セルの左上座標（ｘ１，ｙ１）と右下座標（ｘ２，ｙ２）とを抽出できる。
この処理を繰り返すことでオブジェクトＲ２の仮想セル座標を抽出することができ、すべての仮想セルの行列構成を特定することができる。

ヘッダーＯＣＲ処理部１５０は、ヘッダー文字検出手段１５１と、座標列特定手段１５２と、を備える（図５参照）。
ヘッダー文字検出手段１５１は、ヘッダー行において特定文字の検出を行う。
座標列特定手段１５２は、ヘッダー行において特定文字が検出されたことに基づき特定領域における座標列を特定する。
具体的には、ヘッダー行に対してＯＣＲ処理を実行することで、ヘッダー行に配されている文字オブジェクトから文字情報を読み取る。
そして、文字情報として文字「Ｘ」が配されたセル（仮想セルを含む）のうち、最初（最左）のセルを「Ｘ座標列」と判定する。
また、Ｘ座標列の次（右側）のセルを「Ｙ座標列」と判定する。
これにより、図１３（ａ）に示すように文字「Ｘ」が２列目にある場合、図１３（ｂ）に示すように３列目にある場合、図１３（ｃ）に示すように４列目にある場合のいずれについても対応して「Ｘ座標列」及び「Ｙ座標列」を特定することができる。
なお、特定文字は、文字「Ｘ」に限るものではなく、他の文字を特定文字とすることもできる。
例えば、特定文字を文字「Ｙ」とし、文字「Ｙ」が配された最初のセルを「Ｙ座標列」として抽出し、そのセルの前（左側）のセルを「Ｘ座標列」と判定してもよい。

セルＯＣＲ処理部１６０は、情報取得手段１６１を備える（図５参照）。
情報取得手段１６１は、オブジェクトの表の構成に基づき地積測量図に含まれる座標求積表の情報を取得する。
具体的には、情報取得手段１６１は、情報取得手段と特定領域Ｔに罫線が有ると判定された場合、当該罫線により区分された情報に基づいて座標求積表の情報を取得し、特定領域Ｔに罫線が無いと判定された場合、特定領域Ｔに配されている画像に基づき区分された情報に基づいて座標求積表の情報を取得する。
すなわち、ヘッダーＯＣＲ処理部１５０により判定されたＸ座標列及びＹ座標列のセル（仮想セルを含む）に対しＯＣＲ処理を実行することで、Ｘ座標列及びＹ座標列の各セルに配されている文字オブジェクトから文字情報を読み取ってＸ座標値及びＹ座標値を取得する。

例えば、図１４（ａ）に示す座標求積表（罫線有り）のオブジェクトＲ１については、特定領域ＴのＸ座標列及びＹ座標列の文字情報を読み取ることで、第１行のＸ座標値及びＹ座標値として「－168557.745」及び「－40513．833」を取得し、第２行のＸ座標値及びＹ座標値として「－168568.941」及び「－40504．243」を取得し、第３行のＸ座標値及びＹ座標値として「－168567.073」及び「－40501．322」を取得し、第４行のＸ座標値及びＹ座標値として「－168554.995」及び「－40510．059」を取得することができる。
また、図１４（ｂ）に示す座標求積表（罫線無し）のオブジェクトＲ２については、特定領域ＴのＸ座標列及びＹ座標列の文字情報を読み取ることで、第１行のＸ座標値及びＹ座標値として「－75134.133」及び「－37730．320」を取得し、第２行のＸ座標値及びＹ座標値として「－75138.911」及び「－37732．736」を取得し、第３行のＸ座標値及びＹ座標値として「－75144.856」及び「－37718．389」を取得し、第４行のＸ座標値及びＹ座標値として「－75137.105」及び「－37717．455」を取得することができる。

これにより、図１４（ａ）に示すオブジェクトＲ１を含む地積測量図からは、図１５（ａ）に示す座標求積表の測量情報を出力することができ、図１４（ｂ）に示すオブジェクトＲ２を含む地積測量図からは、図１５（ｂ）に示す座標求積表の測量情報を出力することができる。
出力態様としては、取得した座標求積表の情報をストレージ１３等に出力して記憶・保存したり、表示装置１５に出力して表示させることができる。
なお、辺長や面積（測量点行及びフッターの面積）は、Ｘ座標値及びＹ座標値に基づき算出して取得したり、出力することができる。

次に、座標求積表の取得方法について図１６～図１９を参照しながら説明する。
図１６は、座標求積表の取得方法の全体の流れを示すフローチャートである。
図１７は、表判定方法を示すフローチャートである。
図１８は、特定領域（罫線有り）の処理方法を示すフローチャートである。
図１９は、特定領域（罫線無し）の処理方法を示すフローチャートである。

図１６に示すように、まず、地積測量図の画像を取得する（Ｓ１）。
具体的には、通信装置１６等を介して地積測量図の画像を取得したり、取得した地積測量図の画像を記憶手段１００に記憶することにより取得する。
次に、前処理を実行する（Ｓ２）。
具体的には、前処理部１１０が地積測量図の画像情報に対し二値化及び白黒反転を実行する。
次に、オブジェクトを抽出する（Ｓ３）。
具体的には、オブジェクト抽出手段１２０が、地積測量図の中から所定の大きさのオブジェクトを座標求積表の可能性のあるオブジェクトとして取得する。
次に、罫線を抽出する（Ｓ４）。
具体的には、罫線抽出手段１３０がオブジェクトから罫線を抽出する。
次に、表判定を実行する（Ｓ５）。
具体的には、表判定手段１４０が罫線に基づいて表の構成を判定する。

図１７に示すように、表判定では、まず、行列特定手段１４１が、セルの行列を特定する（Ｓ２１）。
次に、ヘッダー行特定手段１４２が、列数が最初に最大となる行で、かつ、３列以上の行をヘッダー行と特定する（Ｓ２２）。
次に、ヘッダー行の次の行が１列又は３列以上であることを判定する（Ｓ２３）。
Ｓ２３において、３列以上の場合（Ｓ２３－３列以上）、特定領域Ｔに罫線が有ると判定する（Ｓ２４）。
ただし、表の行数が６行未満の場合、その表のオブジェクトは座標求積表ではないとして除外する（Ｓ２５）が、それ以外は、特定領域（罫線有り）の処理を実行する（Ｓ２６）。

図１８に示すように、特定領域（罫線有り）の処理は、ヘッダー行の次以降で、ヘッダー行と同じ列数の行を特定領域Ｔと特定する（Ｓ３１）。
ただし、特定領域Ｔの行が３行未満の場合、座標求積表ではないとしてそのオブジェクトは除外する（Ｓ３２）。
次に、特定領域Ｔの列数よりも列数が少ない行をフッターと判定する（Ｓ３３）。
ただし、フッターの行が２行未満の場合、座標求積表ではないとしてそのオブジェクトは除外する（Ｓ３４）。
この結果、座標求積表（罫線有り）のオブジェクトＲ１から特定領域Ｔが特定される。

Ｓ２３において、１列の場合（Ｓ２３－１列）、特定領域Ｔに罫線が無いと判定する（Ｓ２７）。
ただし、表の行数が２行未満の場合、その表のオブジェクトは座標求積表ではないとしてオブジェクトを除外する（Ｓ２８）が、それ以外は、特定領域（罫線無し）の処理を実行する（Ｓ２９）。

図１９に示すように、特定領域（罫線無し）の処理は、ヘッダー行の次の１行（特別領域Ｔ_ｆ）内における文字オブジェクトを抽出し（Ｓ４１）、当該文字オブジェクトの横幅を積算して文字行の長さを算出し（Ｓ４２）、当該文字行の長さに基づいて特定領域Ｔを特定する（Ｓ４３）。
なお、特定領域（罫線無し）の処理においても、特定領域（罫線有り）の処理（Ｓ３２、Ｓ３４参照）と同様、特定領域Ｔやフッターの行数が少ない場合に、そのオブジェクトを除外することができる。
この結果、座標求積表（罫線無し）のオブジェクトＲ２から特定領域Ｔが特定される。

図１６に戻り、次に、特定領域Ｔにおける罫線の有無に応じたセル座標抽出を実行する（Ｓ６～Ｓ８）。
罫線が有る場合（Ｓ６－有）、セル座標抽出（罫線有り）を実行し（Ｓ７）、罫線が無い場合（Ｓ６－無）、セル座標抽出（罫線無し）を実行する（Ｓ８）。
セル座標抽出（罫線有り）は、罫線の交点に対応するセル座標を抽出する。これにより、各セルの行列を特定する。
セル座標抽出（罫線無し）は、仮想的罫線の交点に対応する仮想セル座標を抽出する。これにより、各仮想セルの行列を特定する。

次に、ヘッダーＯＣＲ処理部１５０は、ヘッダー行に対しＯＣＲ処理を実行する（Ｓ９）。
これにより、特定領域ＴにおけるＸ座標列とＹ座標列とを特定する。
次に、セルＯＣＲ処理部１６０は、特定領域ＴのＸ座標列及びＹ座標列のセルに対しＯＣＲ処理を実行する（Ｓ１０）。
これにより、座標求積表の情報として、Ｘ座標値及びＹ座標値を取得することができる。
そして、結果出力を実行する（Ｓ１１）。
具体的には、取得した座標求積表の情報をストレージ１３等に出力して記憶・保存したり、表示装置１５に出力して表示させることができる。

以上のように、本発明の情報処理装置１０においては、地積測量図の画像情報を記憶する記憶手段１００と、前記画像情報からオブジェクトを抽出するオブジェクト抽出手段１２０と、前記オブジェクトから罫線を抽出する罫線抽出手段１３０と、前記オブジェクトにおける表の構成を判定する表判定手段１４０と、前記表の構成に基づき前記地積測量図に含まれる座標求積表の情報を取得する情報取得手段１６１と、を備え、表判定手段１４０は、前記オブジェクトの特定領域Ｔに罫線が有るか否かを判定し、情報取得手段１６１は、特定領域Ｔに罫線が有ると判定された場合、当該罫線により区分された情報に基づいて前記座標求積表の情報を取得し、特定領域Ｔに罫線が無いと判定された場合、特定領域Ｔに配されている画像に基づき区分された情報に基づいて前記座標求積表の情報を取得する構成としている。
具体的には、本発明の情報処理装置１０は、ヘッダー行において特定文字を検出するヘッダー文字検出手段１５１と、ヘッダー行において特定文字が検出されたことに基づき特定領域Ｔの座標列を特定する座標列特定手段１５２とを有するヘッダーＯＣＲ処理部１５０を備え、情報取得手段１６１は、前記座標列の情報に基づき座標求積表の情報を取得するようにしている。
このような構成の情報処理装置１０によれば、地積測量図から座標求積表を高精度に取得することができる。

例えば、図２（ａ）や（ｂ）に示すように測量点行の情報が罫線で区分されている場合や区分されていない場合でも、これらの表の特徴を認識して情報を正確に取得するようにしている。
また、測量点行の情報が罫線で区分されていない場合、測量点行とフッターとが同じセル内に配置していることが多いが（図２（ｂ））、測量点行及びフッターにおける文字行の長さの違いから測量点行（特定領域Ｔ）を特定することで、座標求積表の情報を高精度に取得できるようにしている。

また、図２及び図３に示すようにフッターの行数が異なる場合、図３（ａ）に示すようにフッターが複数のセルに亘って構成される場合、図３（ｂ）に示すように測量点行とセルが同じセル内に配されずに分かれて構成される場合があるが、本発明によれば、このような表の構成の違いにも対応して正確に座標求積表の情報を取得できる。

また、座標求積表の大きさは、オブジェクトの中でも中程度であることに着目し、比較的大きいオブジェクトや小さいオブジェクト、行数や列数が少ないものを除外している。
また、フッターが無いものは座標求積表ではないため除外するようにしている。
例えば、図２０（ａ）、（ｂ）に示す「基準点等の名称及び座標値」は、表の大きさが小さく、フッターがないことを理由に除外され、図２０（ｃ）に示す「地番リスト」は、ヘッダー行、特定領域Ｔ、フッターを特定することができないことを理由に除外され、図２０（ｄ）、（ｅ）に示す「境界標等の凡例」や図２０（ｆ）、（ｇ）に示す「その他」は、表の大きさが小さく、行数が少ないことを理由に除外される。

以上のように、本発明によれば、地積測量図から座標求積表の可能性の高いオブジェクトを抽出したうえで上述の座標求積表の取得処理を実行することから、表の構成や行列数のパターンの違いがあったとしてもこれに対応して座標求積表の情報を高精度に取得することができる。

以上、本発明の情報処理装置、プログラム、及び情報処理方法について、好ましい実施形態を示して説明したが、本発明は、前述した実施形態にのみ限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、図２１は、フッターの列数がヘッダー行の列数と同じである座標求積表（罫線有り）の特種な例であり、上述の情報処理装置１０によれば、ヘッダー行の列数と同じ列数の行を特定領域Ｔと特定して情報を取得するため、フッターの情報を測量点行の情報と誤って取得するという問題が生じる。
このような問題に鑑み、罫線有りの場合でも、罫線無しの場合と同様の処理を重ねて実行することでフッター領域Ｆを除く領域を特定領域Ｔとして特定できるため、当該特定した特定領域Ｔの情報に基づいて、座標求積表の情報を間違いなく取得することができる。

本発明は、地積測量図からの座標求積表を自動的に取得・出力する場合に好適に利用可能である。

１０情報処理装置
１００記憶手段
１１０前処理部
１２０オブジェクト抽出手段
１３０罫線抽出手段
１４０表判定手段
１４１行列特定手段
１４２ヘッダー行特定手段
１４３セル座標抽出部（罫線有り）
１４４文字行特定手段
１４５特定領域判定手段
１４６セル座標抽出部（罫線無し）
１５０ヘッダーＯＣＲ処理部
１５１ヘッダー文字検出手段
１５２座標列特定手段
１６０セルＯＣＲ処理部
１６１情報取得手段
Ｒ座標求積表のオブジェクト
Ｒ１座標求積表（罫線有り）のオブジェクト
Ｒ２座標求積表（罫線無し）のオブジェクト
Ｔ特定領域
Ｔ_ｆ特別領域
Ｆフッター領域

上記目的を達成するため本発明の情報処理装置は、地積測量図の画像情報を記憶する記憶手段と、前記画像情報からオブジェクトを抽出するオブジェクト抽出手段と、前記オブジェクトから罫線を抽出する罫線抽出手段と、前記オブジェクトにおける表の構成を判定する表判定手段と、前記表の構成に基づき前記地積測量図に含まれる座標求積表の情報を取得する情報取得手段と、を備え、前記表判定手段は、前記オブジェクトの特定領域に前記罫線が有るか否かを判定し、前記情報取得手段は、前記特定領域に罫線が有ると判定された場合、当該罫線により区分された情報に基づいて前記座標求積表の情報を取得し、前記特定領域に罫線が無いと判定された場合、前記特定領域に配されている画像に基づき区分された情報に基づいて前記座標求積表の情報を取得し、前記特定領域に罫線が無いと判定された場合、前記特定領域を含む特別領域に配されている文字画像に基づいて前記特定領域を判定する特定領域判定手段と、前記特別領域に配されている文字画像に基づいて文字行を特定する文字行特定手段と、を備え、前記特定領域判定手段は、前記特別領域の最端部の行から複数行における文字行の長さに基づいて前記特定領域を判定する構成としてある。
また、本発明は、上記のような情報処理装置において実行されるプログラムや情報処理方法として構成することもできる。

Claims

地積測量図の画像情報を記憶する記憶手段と、
前記画像情報からオブジェクトを抽出するオブジェクト抽出手段と、
前記オブジェクトから罫線を抽出する罫線抽出手段と、
前記オブジェクトにおける表の構成を判定する表判定手段と、
前記表の構成に基づき前記地積測量図に含まれる座標求積表の情報を取得する情報取得手段と、を備え、
前記表判定手段は、
前記オブジェクトの特定領域に前記罫線が有るか否かを判定し、
前記情報取得手段は、
前記特定領域に罫線が有ると判定された場合、当該罫線により区分された情報に基づいて前記座標求積表の情報を取得し、
前記特定領域に罫線が無いと判定された場合、前記特定領域に配されている画像に基づき区分された情報に基づいて前記座標求積表の情報を取得する
ことを特徴とする情報処理装置。
前記特定領域に罫線が無いと判定された場合、前記特定領域を含む特別領域に配されている文字画像に基づいて前記特定領域を判定する特定領域判定手段を備えた
ことを特徴とする請求項１に記載の情報処理装置。
前記特別領域に配されている文字画像に基づいて文字行を特定する文字行特定手段を備え、
前記特定領域判定手段は、
前記特別領域の最端部の行から複数行における文字行の長さに基づいて前記特定領域を判定する
ことを特徴とする請求項２に記載の情報処理装置。
前記文字行の長さは、前記特別領域に配されている文字画像の外接図形の横幅を積算して求める
ことを特徴とする請求項３に記載の情報処理装置。
前記オブジェクトにおける表の行列を特定する行列特定手段と、
前記行列のうち、列数が最大である最初の行をヘッダー行と特定するヘッダー行特定手段と、を備え、
前記表判定手段は、
前記ヘッダー行の次に、前記ヘッダー行の列数と同じ列数の行がある場合、当該行からなる前記特定領域に罫線が有ると判定し、
前記ヘッダー行の次に、１列の行が１行ある場合、当該１行からなる前記特定領域に罫線が無いと判定する
ことを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
前記ヘッダー行において特定文字を検出するヘッダー文字検出手段と、
前記ヘッダー行において特定文字が検出されたことに基づき前記特定領域の座標列を特定する座標列特定手段と、を備え、
前記情報取得手段は、
前記座標列の情報に基づき前記座標求積表の情報を取得する
ことを特徴とする請求項５に記載の情報処理装置。
前記オブジェクト抽出手段は、
特定の大きさのオブジェクトを前記座標求積表の可能性のあるオブジェクトとして抽出する
ことを特徴とする請求項１～６のいずれか１項に記載の情報処理装置。
情報処理装置のコンピュータを、
地積測量図の画像情報を記憶する記憶手段、
前記画像情報からオブジェクトを抽出するオブジェクト抽出手段、
前記オブジェクトから罫線を抽出する罫線抽出手段、
前記オブジェクトにおける表の構成を判定する表判定手段、
前記表の構成に基づき前記地積測量図に含まれる座標求積表の情報を取得する情報取得手段、として機能させ、
前記表判定手段は、
前記オブジェクトの特定領域に前記罫線が有るか否かを判定し、
前記情報取得手段は、
前記特定領域に罫線が有ると判定された場合、当該罫線により区分された情報に基づいて前記座標求積表の情報を取得し、
前記特定領域に罫線が無いと判定された場合、前記特定領域に配されている画像に基づき区分された情報に基づいて前記座標求積表の情報を取得する
ことを特徴とするプログラム。
地積測量図の画像情報を記憶するステップと、
前記画像情報からオブジェクトを抽出するステップと、
前記オブジェクトから罫線を抽出するステップと、
前記オブジェクトにおける表の構成を判定するステップと、
前記表の構成に基づき前記地積測量図に含まれる座標求積表の情報を取得するステップと、を有し、
前記表を判定するステップは、
前記オブジェクトの特定領域に前記罫線が有るか否かを判定し、
前記座標求積表の情報を取得するステップは、
前記特定領域に罫線が有ると判定された場合、当該罫線により区分された情報に基づいて前記座標求積表の情報を取得し、
前記特定領域に罫線が無いと判定された場合、前記特定領域に配されている画像に基づき区分された情報に基づいて前記座標求積表の情報を取得する
ことを特徴とする情報処理方法。