JP3878174B2 - レコード抽出方法、レコード抽出装置、及びレコード抽出プログラム - Google Patents

レコード抽出方法、レコード抽出装置、及びレコード抽出プログラム Download PDF

Info

Publication number
JP3878174B2
JP3878174B2 JP2003418914A JP2003418914A JP3878174B2 JP 3878174 B2 JP3878174 B2 JP 3878174B2 JP 2003418914 A JP2003418914 A JP 2003418914A JP 2003418914 A JP2003418914 A JP 2003418914A JP 3878174 B2 JP3878174 B2 JP 3878174B2
Authority
JP
Japan
Prior art keywords
cell
analysis
text
image
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003418914A
Other languages
English (en)
Other versions
JP2005182224A (ja
Inventor
徹 中島
Original Assignee
株式会社ア−キテック
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ア−キテック filed Critical 株式会社ア−キテック
Priority to JP2003418914A priority Critical patent/JP3878174B2/ja
Publication of JP2005182224A publication Critical patent/JP2005182224A/ja
Application granted granted Critical
Publication of JP3878174B2 publication Critical patent/JP3878174B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

本発明は、CAD(Computer-Aided Design)ソフトウエアで作成された図面データによる表現物から、当該表現物の構成要素を自動積算する技術に関するものであって、特に、建築図面に配置された様々な建築部材のシンボルについて、それらの詳細情報(部材の種類、サイズ、構造、仕上げ方法、単価等)を当該シンボルや識別子等に関連づけたデータベースのレコードとして保存する技術に関するものである。
従来、CADシステムは、例えば、コンピュータを用いて建築物の図面を作成し、作成された図面データを基に使用される建築部材の積算が行われている。具体的には、当該建築物の階層毎に積算区分を決め、それら積算区分毎に予め登録した詳細情報を参照しつつソフトウエアによる形状モデルの作成が行われ、当該形状モデルに基づき積算結果が導かれていく。
なかには、特許文献1に開示されている様に、形状モデル、積算区分、および属性情報の設定等に関して各々変更・修正の自由度を高くする目的で案出された自動積算装置も紹介されてはいるが、その様な装置においても、前記の如く前記積算区分に含まれる建築部材の詳細情報を予め登録しておく必要がある。
特開2003−50828号公報
前記詳細情報は、従来、紙上に手書きで記入された図書形式のものであった。書式は、特に定まった形式が制定されてはいないものの、慣例による一応の書式をもって記されており、多くの場合は縦横のマトリクス状に配置された表形式が用いられていた。また、項目名(ラベル)及びその配置順にも特に定めはなく、当業者が理解できる文言、絵図(断面図)、或いは数値等を用いて表記されていた。近年では、前記紙面による詳細情報に変わって、CADにより単純な線及びテキストの表示データで詳細情報を画像として表現する画像データファイルが作成され、いったん紙面にプリントアウトして用いられている。
しかしながら、前記詳細情報を積算装置等に利用する場合には、オペレータが前記紙上の詳細情報に記されたラベルの意味や情報を解釈しながら所望のレコードを逐一入力していくという極めて煩雑な作業が伴っていた。
一方では、前記詳細情報を入力する為の特定の入力プログラムも紹介され、手書きに比べて作業性も向上してはいるものの、その様な入力プログラムで作成された詳細情報のデータファイルは、そのフォーマットが各社、各国で様々に乱立しており、部材仕様、画像データで示された部材に含まれるオブジェクトの項目フォーマットも、有効項目やリレーション等、各社、各国で蓄積されたノウハウを反映した構成となっている。
従って、この様な入力プログラムで作成されたデータファイルには汎用性が無く、当該データファイル対応の積算装置等を利用しない限り、従来と同様にいったん紙面にプリントアウトして上記の如く煩雑な入力作業を行わなければならなかった。
本発明はこのような事情に鑑みてなされたものであって、煩雑な入力作業を伴うことなく所望の詳細情報を入力することが出来るレコード抽出方法、レコード抽出装置、及びレコード抽出プログラムの提供を目的とする。
上記課題を解決する為になされた本発明によるレコード抽出方法は、建築部材の識別符号及び詳細情報が組となった複数のレコードをマトリクス状に配列した画像をディスプレイ画面に出力する為の線及びテキストの表示データからなる画像データファイルをコンピュータに保存する基礎情報登録ステップと、前記画像データファイルに記録された表示データを画像化して前記コンピュータのディスプレイ画面に出力する画像表示ステップと、前記ディスプレイ画面の画像上に解析領域を設定し当該解析領域に含まれる線及びテキストの表示データを前記画像データファイルから抽出してコンピュータに保存する領域指定ステップと、前記解析領域に含まれるテキストの表示データから基点キーワードを検出しコンピュータに保存する基点検出ステップと、前記基点キーワードの配置位置を基点として前記解析領域に含まれる線の表示データから罫線及びラベルキーワードを検出しそれらの線の表示データをコンピュータに保存するセル分布解析ステップと、前記罫線で仕切られた各セルに表示されたテキストのデータからラベルキーワードを検出すると共に、前記罫線で仕切られた各セルに対し、当該セルに表示する情報内容を定義する為のセル分類マークを前記ラベルキーワードの配置に基づいて与え、当該セル分類マークの分布情報をコンピュータに保存するセル情報定義ステップと、前記ラベルキーワードの配置に基づき罫線で仕切られたセル群をレコード単位で区分けすると共に、当該区分け情報をコンピュータに保存するレコード分布解析ステップと、前記セルに表示された線又はテキストの表示データを前記セル分類マークに基づいて解析し、当該解析結果である線及びテキストの基礎データを、各部材の識別子とともに前記レコード毎にコンピュータに保存し部材データファイルを作成するセル情報解析ステップと、をコンピュータにより行うことを特徴とする。
上記課題を解決する為になされた本発明によるレコード抽出装置は、コンピュータで構成された、建築部材の識別符号及び詳細情報が組となった複数のレコードをマトリクス状に配列した画像をディスプレイ画面に出力する為の線及びテキストの表示データからなる画像データファイルを取り入れる基礎情報登録手段、前記画像データファイルに記録された表示データを画像化して前記コンピュータのディスプレイ画面に出力する画像表示手段、前記ディスプレイ画面の画像上に解析領域を設定し当該解析領域に含まれる線及びテキストの表示データを前記画像データファイルから抽出する領域指定手段、前記解析領域に含まれるテキストの表示データから基点キーワードを検出し、前記基点キーワードの配置位置を基点として前記解析領域に含まれる線の表示データから罫線を検出し、前記罫線で仕切られた各セルに表示されたテキストのデータからラベルキーワードを検出すると共に、前記罫線で仕切られた各セルに対し、当該セルに表示する情報内容を定義する為のセル分類マークを前記ラベルキーワードの配置に基づいて与え、及び前記ラベルキーワードの配置に基づき罫線で仕切られたセル群をレコード単位で区分けするセル解析手段、及び前記セルに表示された線又はテキストの表示データを前記分類マークに基づいて解析し、当該解析結果である線及びテキストの基礎データを、各部材の識別子とともに前記レコード毎に記録してなる部材データファイルを作成するセル情報解析手段、を具備することを特徴とする。
上記課題を解決する為になされた本発明によるレコード抽出プログラムは、コンピュータに、建築部材の識別符号及び詳細情報が組となった複数のレコードをマトリクス状に配列した画像をディスプレイ画面に出力する為の線及びテキストの表示データからなる画像データファイルを取り入れる基礎情報登録手段、前記画像データファイルに記録された表示データを画像化して前記コンピュータのディスプレイ画面に出力する画像表示手段、前記ディスプレイ画面の画像上に解析領域を設定し当該解析領域に含まれる線及びテキストの表示データを前記画像データファイルから抽出する領域指定手段、前記解析領域に含まれるテキストの表示データから基点キーワードを検出し、前記基点キーワードの配置位置を基点として前記解析領域に含まれる線の表示データから罫線を検出し、前記罫線で仕切られた各セルに表示されたテキストのデータからラベルキーワードを検出すると共に、前記罫線で仕切られた各セルに対し、当該セルに表示する情報内容を定義する為のセル分類マークを前記ラベルキーワードの配置に基づいて与え、及び前記ラベルキーワードの配置に基づき罫線で仕切られたセル群をレコード単位で区分けするセル解析手段、及び前記セルに表示された線又はテキストの表示データを前記分類マークに基づいて解析し、当該解析結果である線及びテキストの基礎データを、各部材の識別子とともに前記レコード毎に記録してなる部材データファイルを作成するセル情報解析手段、として機能させることを特徴とする。
尚、ここで言う前記画像データファイルとは、コンピュータグラフィクス技術により描かれる画像をディスプレイ画面に表現する為のファイルであって、当該画像を構成する線及びテキストの表示データから成り、且つ前記線及びテキストの表示データとそれによって表現される建築部材の形状或いは罫線又は各種キーワードとしての意味づけが、コンピュータ画像により視覚的に把握できること以外に何等なされていないものである。
前記線の表示データとは、コンピュータ画像を構成する単位要素である線分や円等の態様や配置位置等を現す座標或いはベクトルや関数等であって、前記テキストの表示データとは、テキストをコンピュータ画像として表現すべく、ラベルキーワードや情報表示等のキャラクタ群、或いはそれらの態様や配置位置等を現す座標或いはベクトルや関数等である。
一方、前記部材データファイルとは、CADソフトウエア等の機能によりコンピュータで行われる種々の処理における参照を目的としたデータファイルであって、コンピュータ画像を構成する線及びテキストの態様のみを示す基礎データからなり、各部材の識別子に関連づけて当該部材の詳細情報を記録したものである。
前記線の基礎データとは、コンピュータ画像を構成する単位要素である線分や円等の態様のみを現す座標或いはベクトルや関数等であって、前記テキストの基礎データとは、ラベルキーワードや情報表示等のキャラクタ群、或いはそれらの態様を現す座標或いはベクトルや関数等である。
前記ラベルキーワードとは、各種表において、その行又は列を呈して並ぶセルに表示(記入)されている情報が共通して持つ情報の種類を定義すべくディスプレイ画面に表現された表示であって、当該ラベルキーワードに前記基点キーワードも含まれる。前記情報内容を定義するとは、コンピュータ画像として表示された一覧表としての機能上は、各セルに表示される情報内容の種類を特定することであり、レコード抽出装置としての機能の上では、前記セル情報解析ステップにおいて具体的な解析処理を決定する際に目安を設けることである。
今日存在する種々のCADソフトウエアにおいて最も汎用性の高いファイル形式として知られているのがDXFファイルである。当該DXFファイルは、線画を描く為の最低限のルールだけを定め、種々の装飾情報を極力排除した線及びテキストの表示データからなるファイルの一つであって、今日も、この様な形式のファイルを介して種々のCADソフトウエア間の画像データのやり取りが可能となっている。本願発明によるレコード抽出方法等は、にこの種の基礎的線画データとテキストデータからなる前記画像データファイルを解析して所望部材のレコードを前記既存の詳細情報から自動的に抽出しデータベースとして用い得るファイルを形成することができる。
而して、本願発明の構成をCADソフトウエア等に適用することによって、従来の煩雑な入力作業は不要となる他、いったん作成した所望部材のレコード群たる画像データファイルは、各社、各国のソフトウエア製作企業のCADソフトウエアの改変に対しても、長期間改変の必要が無い安定したソフトウエア資産として用いることが可能となる。
以下、本発明によるレコード抽出方法及び装置並びにプログラムを図面に基づき説明する。
以下に説明する前記レコード抽出装置の例はCAD装置の一機能手段として構成され、コンピュータが、そのコンピュータにインストールされたレコード抽出プログラムに基づく制御指令により、建築部材としての意味づけが何等なされていない画像データからなる画像データファイルの一部又は全部を、建築部材毎にその識別子(以下、部材識別子14と記す。)と詳細情報とを関連づけた基礎データからなる部材データファイルに変換すべく種々の機能手段として稼働するものである。
図1は、本発明によるレコード抽出装置の機能構成の一例を示したものである。
当該レコード抽出装置は、建築部材の識別子及び詳細情報が組となった複数のレコード1(図20参照)をマトリクス状に配列した画像をディスプレイ画面に出力する為の線及びテキストの表示データからなる画像データファイル2を取り入れる基礎情報登録手段9、前記画像データファイル2に記録された表示データを画像化して前記コンピュータのディスプレイ画面に出力する画像表示手段10、前記ディスプレイ画面の画像上に解析領域3を設定し当該解析領域3に含まれる線及びテキストの表示データを前記画像データファイル2から抽出する領域指定手段11、前記解析領域3に含まれるテキストの表示データから基点キーワード4を検出し、前記基点キーワード4の配置位置を基点として前記解析領域3に含まれる線の表示データから罫線を検出し、前記罫線で仕切られた各セル6に表示されたテキストのデータからラベルキーワード5を検出すると共に、前記罫線で仕切られた各セル6に対し、当該セル6に表示する情報内容を定義する為のセル分類マーク7を前記ラベルキーワード5の配置に基づいて与え、前記ラベルキーワード5の配置に基づき罫線で仕切られたセル群をレコード単位で区分けするセル解析手段12、及び前記セル6に表示された線又はテキストの表示データを前記セル分類マーク7に基づいて解析し、当該解析結果である線及びテキストの基礎データを、各建築部材の部材識別子14とともに前記レコード毎に記録してなる部材データファイル8を作成するセル情報解析手段13を具備するものである。
以下、前記各機能手段が行う具体的な処理をフローチャートを示しつつ説明する。
前記基礎情報登録手段9は、編集手段16と移動・複製手段17とで構成される。前記編集手段16は、前記CAD装置の編集機能をマウスやキーボード等の入力装置の操作による制御指令をもって稼働させ、線及びテキスト、並びにそれらの表示位置及び表示形態といった線画を描く最低限の表示データを含んだDXFファイルからなる画像データファイル2を作成する。一方、前記移動・複製手段17は、前記CAD装置のデータ読込機能を前記入力装置の操作による制御指令をもって稼働させ、各種記録媒体から前記DXFファイルからなる既存の画像データファイル2を読み出し記憶手段15にデータベースとして保存するものである。
当該例における画像データファイル2には、部材識別子14と、外形寸法(例えば、B×D)等の部材仕様、並びに使用される階層、断面形状や配筋状態の画像、及び主筋や帯筋の仕様等からなる詳細情報を一組のレコード1として複数のレコード1を一覧表として表示する表示データが記録されており、画面上では前記部材識別子14及び前記詳細情報を関連づける表示態様が採られてはいるものの、前記表示を構成する線画やテキストそれぞれのデータ間の関連づけはなされていないものである。
当該例における一覧表は、縦に並んだ複数の一覧ブロック18で構成されているが、当該一覧ブロック18は、図15の如く一単位(1部材分)の情報群たるレコード1の集まりで構成され、当該レコード1は個々に情報が与えられるセル6を以て構成される。前記一覧ブロック18、レコード1、及びセル6は、それぞれ罫線によって仕切られ、それらの最小単位であるセル6には、それぞれ表示される情報内容の定義が与えられている。
また、当該例では、各一覧ブロック18における各セル6の位置関係及びそれぞれの定義を定める為に、当該一覧ブロック18の基点を、基点キーワード4の配置位置と定めている。当該基点キーワード4は、コンピュータの記憶手段15に予め保存されたキーワードデータベース19に登録されているラベル(以下、登録ラベルと記す。)として認識されるラベルキーワード5の一つであるが、当該例においては、“符号”というラベルキーワード5を基点キーワード4とする。
各一覧ブロック18にあっては、上記の如く前記登録ラベルとして認識されている基点キーワード4の下に、同じく登録ラベルとして認識される複数のキーワード(“B×D”,“階”,“主筋”,“帯筋”等)を縦一列に配置すると共に、各ラベルキーワード5の右横に位置する全てのセル6に対して、それらの左端に配置されたラベルキーワード5に対応した登録ラベルが意味する情報である旨の定義を与えた表として構成されている。
前記画像データファイル2がコンピュータに登録され(基礎情報登録ステップ)、前記入力装置の操作によって当該画像データファイル2の内容を表示する旨の制御指令をレコード抽出装置が受けると、前記CAD装置の表示機能が画像表示手段10となって、当該画像データファイル2を記憶手段15の作業領域に読み込んで保持する(画像データファイル読込ステップ)と共に、前記画像データファイル2に基づき前記レコード1の一覧表をディスプレイ画面に出力する(画像表示ステップ)。
前記領域指定手段11は、マウス等により前記ディスプレイ画面上でのカーソルの位置を決定するクリック操作、或いはカーソルを移動させるドラッグ操作をもって行われる領域指定を受けて建築部材を検出すべき解析領域3を図15に示した矩形枠の如く特定し、コンピュータの記憶手段15の作業領域に保存する(領域指定ステップ)他、当該領域指定ステップでの領域指定操作によって有効な解析領域3が指定されたか否かを検証する(領域検査ステップ)。
前記領域検査ステップでは、当該解析領域3(例えば、図15の操作に対する図16の領域)内に抽出可能な前記レコード1が存在するか否かを検証する。有効な解析領域3が存在しない場合には、前記画像データファイル2に基づいて描かれた一覧表の全体を解析領域3とし、前記有効な解析領域3が存在する場合には、前記指定領域のみを解析領域3処理として処理を行う(図3参照)。
有効な解析領域3の判定基準は、予め、解析領域3の有効面積(ピクセル値でも良いし、実寸に換算しても良い。)の上限閾値と下限閾値を定めておき、当該上限閾値より小さく下限閾値よりも大きい面積を持つ領域が指定された場合に、当該解析領域3を有効な解析領域3であると判定するものである。尚、当該例の様に指定領域が矩形となる場合には、縦横各辺の長さについて上限閾値と下限閾値を定めておき、各辺が当該上限閾値より小さく下限閾値よりも大きい領域が指定された場合に、当該解析領域3を有効な解析領域3であると判定しても良い。
以下、前記解析領域3内に存在する部材(この例では柱)のレコード1を抽出してリストアップする一連の処理(以下、リストアップ処理と記す。)を詳細に説明する。
当該例におけるリストアップ処理は、前記解析領域3に含まれるテキストの表示データから基点キーワード4を検出しコンピュータに保存する基点検出ステップと、前記基点キーワード4の配置位置を基点として前記解析領域3に含まれる線の表示データから罫線を検出しそれらの線の表示データをコンピュータに保存するセル分布解析ステップと、前記罫線で仕切られた各セル6に表示されたテキストのデータからラベルキーワード5を検出すると共に、前記罫線で仕切られた各セル6に対し、当該セル6に表示する情報内容を定義する為のセル分類マーク7を前記ラベルキーワード5の配置に基づいて与え、当該セル分類マーク7の分布情報をコンピュータに保存するセル情報定義ステップと、前記ラベルキーワード5の配置に基づき罫線で仕切られたセル群をレコード単位で区分けすると共に、当該区分け情報をコンピュータに保存するレコード分布解析ステップと、前記セル6に表示された線又はテキストの表示データを前記セル分類マーク7に基づいて解析し、当該解析結果である線及びテキストの基礎データを、各建築部材の部材識別子14とともに前記レコード毎にコンピュータに保存し部材データファイル8を作成するセル情報解析ステップとからなる。
前記基点検出ステップ、セル分布解析ステップ、セル情報定義ステップ、及びレコード分布解析ステップは、前記セル解析手段12によって行われ、先ず、前記解析領域3内において解析の基点を検索する処理を行う(基点検出ステップ)。この処理は、上記の如く、前記解析領域3内に存在するテキストを、前記画像データファイル2の情報に基づいて検出し、個々に前記基点となる基点キーワード4と一致するものが存在するか否かを判定する。前記基点キーワード4を見つけることが出来なければ当該解析領域3内にリストアップ可能な一覧ブロック18が存在しないとして前記リストアップ処理は終了するが、当該基点キーワード4を検出した場合には前記リストアップ処理を継続する。
上記の如く基点キーワード4を検出すると、セル解析手段12はセル分布解析ステップに移り(図4参照)、図16の如く当該基点キーワード4のテキスト領域の中心部を始点とし、当該解析領域3の右端を終点とする画面のX軸(横軸)に沿ったX走査線分を設定し、当該X走査線とディスプレイ画面上に出力された罫線である線分を前記画像データファイル2に含まれる表示データを参照して検索し前記記憶手段15の作業領域に保持する(Y罫線の検出)。
更に、検出した線分との交点を導き、当該交点が2点以下であれば、当該一覧ブロック18内にリストアップ可能な前記レコード1が存在しないとして前記リストアップ処理は終了するが、当該交点が3点以上存在する場合には前記罫線ピッチとして当該交点座標を記憶手段15の作業領域に保持する(Y罫線ピッチの検出)。
そして、当該交点が3点以上存在することを条件として、更に、当該基点キーワード4のテキスト領域の中心を始点とし、当該解析領域3の下端を終点とする画面のY軸(縦軸)に沿ったY走査線分を設定し、当該Y走査線とディスプレイ画面上に出力された罫線である線分を前記画像データファイル2に含まれるデータを参照して検索し前記記憶手段15の作業領域に保持する(X罫線の検出)。
更に、検出した線分との交点を導き、当該交点が2点以下であれば、当該一覧ブロック内にリストアップ可能なレコード1が存在しないとして前記リストアップ処理は終了するが、当該交点が3点以上存在する場合には前記罫線ピッチとして交点座標を記憶手段15の作業領域に保持する(X罫線ピッチの検出)。
更に、前記セル解析手段12は、記憶手段15に保持された前記Y罫線ピッチ及びX罫線ピッチに基づいて、X罫線とY罫線との交点座標、即ち、罫線に囲まれた複数の矩形セル6の端点座標を導き、前記記憶手段15の作業領域に保持する。最後に以上の処理で保持した矩形セル6の端点座標をそれぞれセル領域の外縁を示す情報として記憶手段15に保存する。これら一連の処理により、図17の如く前記解析領域3内の罫線イメージが作成できることとなり、以降、前記端点座標に囲まれたセル領域に基づいて各セルに対する種々の処理が行われることとなる(セルの検出)。
続いて、前記セル解析手段12による処理は、前記セル情報定義ステップに移り、前記解析領域3における左端の縦一列にならぶ全てのセル(ラベルセル6a)6について各ラベルセル6a内に存在するテキストを前記画像データファイル2の情報に基づいて検出する(図5参照)。
当該ラベルセル6a内のテキストを検出する処理においては、先ず、当該ラベルセル6aについて前記端点座標を取得し、当該端点座標に囲まれる一つのラベルセル6a内に複数のテキストがあれば、それらのテキストをX軸に沿った順に連結し当該テキストデータからスペースデータを除去するといった前処理を行う。そして、前処理を終えたテキストデータについて、個々に前記登録ラベルとして認識し得るラベルキーワード(登録ラベルと一致、若しくは登録ラベルと認識する為に不可欠なテキストを具備するワード)5が存在するか否かをキーワードデータベース19の登録ラベルと比較して判定する(ラベルキーワードの検出)。
当該判定の結果、前記ラベルキーワード5を検出した場合には、検出した各ラベルキーワード5に対応した登録ラベルに割り当てられているセル分類マーク7を前記記憶手段15における作業領域の当該ラベルセル6aに割り当てられた領域に保持する(等価的なイメージとしては図18参照。)と共に、それぞれのX軸方向(右方向)に横並びで存在するセル6に割り当てられた全ての作業領域に同じセル分類マーク7をコピーし、同じ行に存在するセル6に表示される情報内容に対して同じ定義を与えるべくそれぞれのセル6に割り当てられた領域に保持する(セルの定義)。上記処理によって、前記セル分類マーク7の分布状態がコンピュータに保存されることとなる。
具体的には、キーワードデータベース19を参照しつつ、例えば、検出したテキストの中に“階”又は“F”などのラベルキーワードがある場合には、それらを前記一覧ブロック18の登録ラベルに含まれる建築物の“階層名”として定義し、当該定義を与えられたセル6に“2”といった特定のセル分類マーク7を与える等の処理であって、当該処理によって、各セル6に表示された情報内容を、当該装置の用いられる分野或いは用途における所定の意味合いと捉えるべく、前記セル分類マーク7(図21では識別子と記してある)を個々に割り当てるものである。
次に、前記セル解析手段12は、レコード分布解析ステップに移り、一覧ブロック18の横方向の区切り、即ち、各レコード1の縦横各方向における始端セル6Tと終端セル6Lに、例えば図19の如くレコード毎の境界を示すマークを与える処理を行う(境界の検索)。当該例では、一つのレコード1の領域内に単数又は複数のセル6が縦横に整列して存在することを前提とした処理が為されており、ここで示す例は、特に、各レコード1内において図20の如く縦一列のセル構成となっているので、最も左に配置されたセル6が最も右に配置されたセル6ともなる。
また、当該例では一覧ブロック18の左端に配置されたレコード1から右端に配置されたレコード1へ順に処理を行っていき、更に、当該各レコード1においては、最も上に配置されたセル6から最も下に配置されたセル6へ順に境界検索の処理を行っていき、更に、当該レコード1内において上下方向の同位に位置するセル6については、最も左に配置されたセル6から最も右に配置されたセル6へ順に境界検索の処理を行っていく。
各セル6についての処理は、先ず、前記セル分類マーク7が、当該例において縦方向の最も上に位置する“符号”というラベルキーワード5に割り当てられた“0”であるか否かを判定し、“0”である場合には、その前の処理が行われたセル6が直上に配置された一覧ブロック18における縦方向の前記終端セル6Lであると判断し、“縦終端”マークと後記縦カウント数を前記記憶手段15における作業領域の当該直上のセル6に割り当てられた領域に保持する。そして、セル分類マーク7を判定したセル6にあっては、“縦始端”マークとインクリメントされた縦カウント数を前記記憶手段15における作業領域の当該セル6に割り当てられた領域に保持し次(直下)のセル6の判定に移る。
次のセル6が存在する場合には、更に前記セル分類マーク7が“0”であるか否かを判定し、“0”である場合には、上記処理を行うが、“0”でない場合には、次のセル6の判定に移るのみの処理を繰り返す。そして、次のセル6が存在しない場合には、“縦終端”マークと縦カウント数を前記記憶手段15における作業領域の当該セル6に割り当てられた領域に保持して当該レコード1内の直横(右)のセル6の処理に移る(図6参照)。
当該横方向への処理においては、先ず、当該セル6に十分な横幅があるか否かを判定する。この例では、各レコード1の境界に目視困難な境界セルが設けてあることから(境界を示す印は、この手法以外にも適宜設定すれば良い)、当該境界セルが存在する場合には、この境界セルを検出したものとして、直前の処理が行われたセル6が直左に配置された一覧ブロック18における横方向の前記終端セル6Lであると判断し、直左のセル6に“横終端”マークと横カウント数を、前記記憶手段15における作業領域の当該直左セル6に割り当てられた領域に保持する。そして、セル分類マーク7を判定したセル6にあっては、“横始端”マークとインクリメントした横カウント数を前記記憶手段15における作業領域の当該セル6に割り当てられた領域に保持し次(直右)のセル6の判定に移る。
次のセル6が存在する場合には、更に当該セル6が境界セルであるか否かを判定し、境界セルである場合には、上記処理を行うが、境界セルでない場合には、次のセル6の判定に移るのみの処理を繰り返す。そして、次のセル6が存在しない場合には、“横終端”マークと横カウント数を前記記憶手段15における作業領域の当該セル6に割り当てられた領域に保持してレコード毎の境界検索の処理を終了する(図7参照)。
更に、各レコード1についてのセル情報の解析処理に先だって各レコード1に属するセル群を特定する(セル群の括り)。当該例では、各レコード1において一列毎に最も上に配置されたセル6から最も下に配置されたセル6へ順に当該レコード1を構成するセル6の特定を行っていき、更に、当該レコード1内において最も左に配置された列から最も右に配置された列へと順に前記セル群を構成するセル6の特定を行っていく。
各セル6について行う前記処理においては、先ず、既にセル情報の解析を終えたか否かを後記“取得済”マークの有無を以て判定する。未解析セルである場合には、当該セル6が含まれるレコード1の前記縦横カウント数を取得し、同じ縦横カウント数を持つ区分け情報(“縦始端”、“横始端”、“縦終端”、“横終端”のマーク)に囲まれた矩形領域に含まれる全てのセル6(図19参照。)を当該レコード1に属するセル6として採取し記憶手段15の作業領域に保持する。この様に、レコード1としての括りが可能であった場合には、当該レコード分布解析ステップを終了して次のセル情報解析ステップへ進み、不可能であった場合には、前記セル解析手段12による一連の処理を終了する。
上記の如くセル6の定義並びにレコード1の区画が明確にされると、続いて、前記セル情報解析手段13による各セル情報の解析処理をレコード毎に行う。当該セル情報解析ステップにあっても、各レコード1において一列毎に最も上に配置されたセル6から最も下に配置されたセル6へ順に処理を行っていき、当該レコード1内において最も左に配置された列から最も右に配置された列へと順に処理を行っていく。そして、解析すべきセル6が無くなった時点で終了することとなる。
この処理は、まず、予め前記セル定義ステップにおいて各セル6に割り振られたセル分類マーク7を取得し、前記セル情報解析手段13によって、当該セル分類マーク(“0”、“1”、“2”、“3”、“4”等)毎に異なる解析処理を行いその都度その解析結果を記憶手段15の作業領域に保持するものである(図8参照)。
例えば、前記セル分類マーク7が“0”の場合には、そのセル6内に記載されたテキスト(符号)を、当該レコード1の建築素材を表す部材識別子14として取得し、前記記憶手段15における当該部材識別子14に割り当てられた作業領域に保持する処理を行う(図9参照)。
また、前記セル分類マーク7が柱の断面寸法として定義する“1”の場合は、そのセル6内に記載されたテキストを取得し、そのテキスト中に“×”が存在するか否かを判定する。そのテキスト中に“×”が存在する場合には、“×”の前後の文字列と分離して、前に付いていた文字列を柱の断面幅とし、後に付いていた文字列を断面高として記憶手段15の当該断面幅或いは断面高に割り当てられた作業領域にそれぞれ保持する。一方、“×”が存在しなかった場合には、当該テキストを他の形で表した断面寸法(円柱の直径など)として記憶手段15の当該断面寸法に割り当てられた作業領域に保持する処理を行う(図10参照)。
前記セル分類マーク7が柱の断面画像として定義する“2”である場合には、セル分類マーク7が“1”である先の解析処理において、断面寸法が断面幅×断面高として保存されたか、それとも、他の形で断面寸法が保存されたかを判定する。その結果、前者と判定された場合には、当該寸法からなる矩形領域内に中心を持つ全ての円のデータ(矩形領域内での相対座標及び径等)を主筋の配置情報として記憶手段15の当該配置情報に割り当てられた作業領域に保持し、後者と判定された場合には、当該寸法からなる円領域内に中心を持つ全ての円のデータ(円領域内での相対座標及び径等)を主筋の配置情報として記憶手段15の当該配置情報に割り当てられた作業領域に保持する処理を行う(図11参照)。
尚、前記矩形領域の検出に際しては、例えば図12に示す様に、前記画像データファイル2に基づいて前記断面高寸法の垂直線分を検索し、当該垂直線分を見つけた際には、当該線分の表示データ(以下、線分情報と記す。)を記憶手段15の作業領域に保持すると共に、当該垂直線分の上端点をその(左)端点として共有し前記断面幅寸法の水平線分を検索する。当該水平線分を見つけた際には、当該線分情報を記憶手段15の作業領域に保持すると共に、当該水平線分の右端点をその(上)端点として共有し前記断面高寸法の垂直線分を検索し、当該垂直線分を見つけた際には、当該線分情報を記憶手段15の作業領域に保持すると共に、当該垂直線分の下端点をその(右)端点として共有し前記断面幅寸法の水平線分を更に検索して、当該水平線分を見つけた場合に当該矩形領域の検出処理を終了する(矩形領域の検出)。
前記セル分類マーク7が主筋の仕様として定義する“3”である場合には、セル6内にあるテキストを前記画像データファイル2に基づいて取得し、当該テキスト中に“−”が含まれているか否かを判定する。そのテキスト中に“−”が存在する場合には、“−”の前後の文字列と分離して、前に付いていた文字列を主筋の本数とし、後に付いていた文字列を主筋の径として記憶手段15のそれぞれに割り当てられた作業領域に保持する処理を行う。一方、“−”が存在しなかった場合には、主筋は存在しないものとして当該セル6についての解析処理を終了する(図13参照)。
前記セル分類マーク7が帯筋の仕様として定義する“4”である場合には、セル6内にあるテキストを前記画像データファイル2に基づいて取得し、当該テキスト中に“−”が含まれているか否かを判定する。そのテキスト中に“−”が存在する場合には、“−”の前後の文字列と分離して、前に付いていた文字列を帯筋の形状として記憶手段1の当該帯筋の形状に割り当てられた作業領域に保持する。更に、後に付いていた文字列中に“@”が含まれているか否かを判定し、含まれている場合には、“@”の前後の文字列と分離して、前に付いていた文字列を鉄筋径とし、後に付いていた文字列を帯筋の配設ピッチとして記憶手段15のそれぞれに割り当てられた作業領域に保持する処理を行う。一方、“−”が存在しなかった場合、並びに“@”が存在しなかった場合には、当該セル6についての解析処理を終了する(図14参照)。
上記の如く、解析領域3に含まれる各レコード1の各セル6について、上記の如くセル分類マーク7に応じた解析処理を行い、解析を終えてセル情報を記憶手段15に保持し終えたセルについては、その都度“取得済”マークを各セル6に割り当てられた作業領域に書き込む。
最後に、前記セル分類マーク7が“2”と定義され最も左端に位置するラベルセル6aに表示されたラベルキーワード5から階番号を取得し、当該階番号が付された部材識別子14に、上記のごとく“0”、“1”、“2”、“3”、“4”それぞれのセル分類マーク7に応じて得られ、且つ前記記憶手段15の各々に割り当てられた領域に保持されている解析結果を繋げた単位レコードデータとして、上記一連のセル情報解析処理の解析対象となった一つのレコード1に含まれる全てのセル情報を記憶手段15に保存する。
この様に、解析領域の指定によって定められた処理すべき一覧ブロック18に対して、前記セル分布解析ステップから上記セル情報解析ステップに至る一連の処理を順次行い、当該解析領域に含まれる全てのレコード1について同様の処理を終えることで、前記画像データファイル2からリストアップしたい部材を絞り込んだ部材データファイル8が構成されることとなる。
建築物の積算等に用いる詳細情報を入力する特定のソフトウエアを、各社、各国それぞれのCADソフトウエアについて開発していくとすれば、今日配給されている各種ソフトウエアの度重なる拡張で生じている弊害と同様に、入力、計算、出力の各処理を拡張するために膨大なプログラマの労力と時間、並びに費用を費やすこととなるのみならず、ソフトウエアの拡張の度にそのデータファイルにラベルとリレーションが追加され、やがて、煩雑なリレーションを持ったデータは柔軟さを失い、社会の進歩から取り残されてしまう。
本願発明の様に、画像データファイルのなかでも決して排除されることの無い根幹となる情報のみからなるものを有効に利用する手法によれば、さらに発展途上にあって変更、拡張が必至であるCADソフトウエアの開発においても、堅苦しい制約が取り払われ、労力、時間、及び開発費が大きく節減され、より実用的なソフトウエア開発に寄与すると考えられる。また、当該画像データファイルの情報を画像化して、当該画像上において解析領域3を設定する手法によっても、種々のデータを得る際の効果的なヒューマンインターフェースが提供できる。
本発明によるレコード抽出装置の機能構成例を示すブロック図である。 本発明によるレコード抽出装置が行う処理の一例を示すフローチャートである。 本発明によるレコード抽出装置が行う領域指定ステップ並びに領域検査ステップでの処理の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル分布解析ステップでの処理の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報定義ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うレコード分布解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うレコード分布解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報解析ステップでの処理の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置が行うセル情報解析ステップでの処理の一部の一例を示すフローチャートである。 本発明によるレコード抽出装置における画像表示の一例を示すものである。 図15における解析領域を抜粋したものに走査線を書き加えたものである。 図15における解析領域から得た罫線イメージを示したものである。 図15における解析領域から得た罫線イメージにセル分類マークを与え等価的にイメージ化して示したものである。 図15における解析領域から得た罫線イメージに縦始端マーク、横始端マーク、縦終端マーク、及び横終端マークを与え等価的にイメージ化して示したものである。 図15における解析領域から1レコード分の罫線を抜粋して示したものである。 本発明によるレコード抽出装置で用いられたキーワードデータベースの一例を等価的にイメージ化して示したものである。
符号の説明
1 レコード,2 画像データファイル,3 解析領域,
4 基点キーワード,5 ラベルキーワード,
6 セル,6a ラベルセル,6T 始端セル,6L 終端セル,
7 セル分類マーク,8 部材データファイル,
9 基礎情報登録手段,10 画像表示手段,
11 領域指定手段,12 セル解析手段,13 セル情報解析手段,
14 部材識別子,15 記憶手段,
16 編集手段,17 移動・複製手段,
18 一覧ブロック,19 キーワードデータベース,

Claims (3)

  1. 建築部材の識別符号及び詳細情報が組となった複数のレコード(1)をマトリクス状に配列した画像をディスプレイ画面に出力する為の線及びテキストの表示データからなる画像データファイル(2)をコンピュータに保存する基礎情報登録ステップと、
    前記画像データファイル(2)に記録された表示データを画像化して前記コンピュータのディスプレイ画面に出力する画像表示ステップと、
    前記ディスプレイ画面の画像上に解析領域(3)を設定し当該解析領域(3)に含まれる線及びテキストの表示データを前記画像データファイル(2)から抽出してコンピュータに保存する領域指定ステップと、
    前記解析領域(3)に含まれるテキストの表示データから基点キーワード(4)を検出しコンピュータに保存する基点検出ステップと、
    前記基点キーワード(4)の配置位置を基点として前記解析領域(3)に含まれる線の表示データから罫線を検出しそれらの線の表示データをコンピュータに保存するセル分布解析ステップと、
    前記罫線で仕切られた各セル(6)に表示されたテキストのデータからラベルキーワード(5)を検出すると共に、前記罫線で仕切られた各セル(6)に対し、当該セル(6)に表示する情報内容を定義する為のセル分類マーク(7)を前記ラベルキーワード(5)の配置に基づいて与え、当該セル分類マーク(7)の分布情報をコンピュータに保存するセル情報定義ステップと、
    前記ラベルキーワード(5)の配置に基づき罫線で仕切られたセル(6)群をレコード(1)単位で区分けすると共に、当該区分け情報をコンピュータに保存するレコード分布解析ステップと、
    前記セル(6)に表示された線又はテキストの表示データを前記セル分類マーク(7)に基づいて解析し、当該解析結果である線及びテキストの基礎データを、各部材の識別子とともに前記レコード(1)毎にコンピュータに保存し部材データファイル(8)を作成するセル情報解析ステップと、
    をコンピュータにより行うレコード抽出方法。
  2. コンピュータで構成された、
    建築部材の識別符号及び詳細情報が組となった複数のレコード(1)をマトリクス状に配列した画像をディスプレイ画面に出力する為の線及びテキストの表示データからなる画像データファイル(2)を取り入れる基礎情報登録手段(9)、
    前記画像データファイル(2)に記録された表示データを画像化して前記コンピュータのディスプレイ画面に出力する画像表示手段(10)、
    前記ディスプレイ画面の画像上に解析領域(3)を設定し当該解析領域(3)に含まれる線及びテキストの表示データを前記画像データファイル(2)から抽出する領域指定手段(11)、
    前記解析領域(3)に含まれるテキストの表示データから基点キーワード(4)を検出し、前記基点キーワード(4)の配置位置を基点として前記解析領域(3)に含まれる線の表示データから罫線を検出し、前記罫線で仕切られた各セル(6)に表示されたテキストのデータからラベルキーワード(5)を検出すると共に、前記罫線で仕切られた各セル(6)に対し、当該セル(6)に表示する情報内容を定義する為のセル分類マーク(7)を前記ラベルキーワード(5)の配置に基づいて与え、前記ラベルキーワード(5)の配置に基づき罫線で仕切られたセル(6)群をレコード(1)単位で区分けするセル解析手段(12)、及び
    前記セル(6)に表示された線又はテキストの表示データを前記セル分類マーク(7)に基づいて解析し、当該解析結果である線及びテキストの基礎データを、各部材の識別子とともに前記レコード(1)毎に記録してなる部材データファイル(8)を作成するセル情報解析手段(13)、
    を具備するレコード抽出装置。
  3. コンピュータに、
    建築部材の識別符号及び詳細情報が組となった複数のレコード(1)をマトリクス状に配列した画像をディスプレイ画面に出力する為の線及びテキストの表示データからなる画像データファイル(2)を取り入れる基礎情報登録手段(9)、
    前記画像データファイル(2)に記録された表示データを画像化して前記コンピュータのディスプレイ画面に出力する画像表示手段(10)、
    前記ディスプレイ画面の画像上に解析領域(3)を設定し当該解析領域(3)に含まれる線及びテキストの表示データを前記画像データファイル(2)から抽出する領域指定手段(11)、
    前記解析領域(3)に含まれるテキストの表示データから基点キーワード(4)を検出し、前記基点キーワード(4)の配置位置を基点として前記解析領域(3)に含まれる線の表示データから罫線を検出し、前記罫線で仕切られた各セル(6)に表示されたテキストのデータからラベルキーワード(5)を検出すると共に、前記罫線で仕切られた各セル(6)に対し、当該セル(6)に表示する情報内容を定義する為のセル分類マーク(7)を前記ラベルキーワード(5)の配置に基づいて与え、前記ラベルキーワード(5)の配置に基づき罫線で仕切られたセル(6)群をレコード(1)単位で区分けするセル解析手段(12)、及び
    前記セル(6)に表示された線又はテキストの表示データを前記セル分類マーク(7)に基づいて解析し、当該解析結果である線及びテキストの基礎データを、各部材の識別子とともに前記レコード(1)毎に記録してなる部材データファイル(8)を作成するセル情報解析手段(13)、
    として機能させるレコード抽出プログラム。
JP2003418914A 2003-12-17 2003-12-17 レコード抽出方法、レコード抽出装置、及びレコード抽出プログラム Expired - Lifetime JP3878174B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003418914A JP3878174B2 (ja) 2003-12-17 2003-12-17 レコード抽出方法、レコード抽出装置、及びレコード抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003418914A JP3878174B2 (ja) 2003-12-17 2003-12-17 レコード抽出方法、レコード抽出装置、及びレコード抽出プログラム

Publications (2)

Publication Number Publication Date
JP2005182224A JP2005182224A (ja) 2005-07-07
JP3878174B2 true JP3878174B2 (ja) 2007-02-07

Family

ID=34780966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003418914A Expired - Lifetime JP3878174B2 (ja) 2003-12-17 2003-12-17 レコード抽出方法、レコード抽出装置、及びレコード抽出プログラム

Country Status (1)

Country Link
JP (1) JP3878174B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7268115B1 (ja) 2021-11-09 2023-05-02 西松建設株式会社 配筋リスト読取装置、リスト読取装置、配筋リスト読取方法及びプログラム

Also Published As

Publication number Publication date
JP2005182224A (ja) 2005-07-07

Similar Documents

Publication Publication Date Title
JP3425408B2 (ja) 文書読取装置
US7149347B1 (en) Machine learning of document templates for data extraction
US7561734B1 (en) Machine learning of document templates for data extraction
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
US9811193B2 (en) Text entry for electronic devices
CN101676838B (zh) 输入装置
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
US20140324904A1 (en) Similar design structure search device and similar design structure search method
JPS61267177A (ja) 文書画像追加情報の蓄積方法
CN103198502A (zh) 数字漫画编辑器及方法
JP4588037B2 (ja) ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP2005216203A (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
JP5446877B2 (ja) 目次構造特定装置
US6421461B1 (en) Pattern recognition apparatus which compares input pattern feature and size data to registered feature and size pattern data, an apparatus for registering feature and size data, and corresponding methods and memory media therefor
JP2008108114A (ja) 文書処理装置および文書処理方法
JP3878174B2 (ja) レコード抽出方法、レコード抽出装置、及びレコード抽出プログラム
JP3922396B2 (ja) レイアウト装置および表示装置
JP3878173B2 (ja) 図面作成方法、図面作成装置、及び図面作成プログラム
JP2695784B2 (ja) 文章を検索・表示する方法
JP4256841B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
KR102642259B1 (ko) Ai 학습용 데이터 가공 장치
JPH0689330A (ja) 画像ファイリングシステム
JP4734551B2 (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061101

R150 Certificate of patent or registration of utility model

Ref document number: 3878174

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151110

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250