JPH11191112A - テンプレートによる文字抽出方法 - Google Patents

テンプレートによる文字抽出方法

Info

Publication number
JPH11191112A
JPH11191112A JP9367187A JP36718797A JPH11191112A JP H11191112 A JPH11191112 A JP H11191112A JP 9367187 A JP9367187 A JP 9367187A JP 36718797 A JP36718797 A JP 36718797A JP H11191112 A JPH11191112 A JP H11191112A
Authority
JP
Japan
Prior art keywords
character
data
template
character extraction
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9367187A
Other languages
English (en)
Inventor
Hiroyuki Kato
弘之 加藤
Minoru Murata
稔 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ebara Corp
Original Assignee
Ebara Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ebara Corp filed Critical Ebara Corp
Priority to JP9367187A priority Critical patent/JPH11191112A/ja
Publication of JPH11191112A publication Critical patent/JPH11191112A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 少なくとも文字列のテキストを持った文書デ
ータや図面データからなる文字抽出対象データから容易
に所望の文字情報を抽出することができるテンプレート
による文字抽出方法を提供する。 【解決手段】 少なくとも文字列のテキストを持った文
書データや図面データからなる文字抽出対象データと、
文字抽出対象データ内の所望の文書データや図面データ
中の文字を抽出したい指定領域を1又は複数箇所指定す
るとともに各指定領域にそれぞれ所定の指定領域名称を
付与してなるテンプレートを保存しておくテンプレート
情報ファイルと、抽出した文字を保存する文字抽出ファ
イルとを用意しておく。文字抽出対象データ中の所望の
文書データや図面データから、テンプレート情報ファイ
ル中の所望のテンプレートの指定領域内にある文字情報
を抽出し、これを指定領域名称毎に分類して文字抽出フ
ァイルに保存する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、少なくとも文字列
のテキストを持った文書データや図面データからなる文
字抽出対象データから所望の文字情報を容易に抽出でき
るテンプレートによる文字抽出方法に関するものであ
る。
【0002】
【従来の技術】デジタル化されたデータの中に少なくと
も文字列のテキストを持った文書データや図面データ内
から、ある特定領域内にある文字を抽出する方法として
従来、抽出しようとする文字列に文書データや図面デー
タを作成する時点で予め属性情報を設定しておき、特殊
な文字抽出用のプログラムを使うことで、前記文書デー
タや図面データの中から予め設定した属性と合致する文
字列を抽出するという抽出方法があった。
【0003】
【発明が解決しようとする課題】しかしながら上記従来
の方法の場合、文書データや図面データを作成する時点
で属性情報を設定しなければならないことや、文字抽出
のためのプログラムを個別に作成せざるを得ないことな
ど、複雑な作業が必要で煩雑であった。
【0004】本発明は上述の点に鑑みてなされたもので
ありその目的は、少なくとも文字列のテキストを持った
文書データや図面データからなる文字抽出対象データか
ら容易に所望の文字情報を抽出することができるテンプ
レートによる文字抽出方法を提供することにある。
【0005】
【課題を解決するための手段】上記問題点を解決するた
め本発明は、少なくとも文字列のテキストを持った文書
データや図面データからなる文字抽出対象データと、前
記文字抽出対象データ内の所望の文書データや図面デー
タ中の文字を抽出したい指定領域を1又は複数箇所指定
するとともに各指定領域にそれぞれ所定の指定領域名称
を付与してなるテンプレートを保存しておくテンプレー
ト情報ファイルと、抽出した文字を保存する文字抽出フ
ァイルとを用意し、前記文字抽出対象データ中の所望の
文書データや図面データから、前記テンプレート情報フ
ァイル中の所望のテンプレートの指定領域内にある文字
情報を抽出し、これを指定領域名称毎に分類して文字抽
出ファイルに保存するように電子計算機を用いて処理す
るように構成した。
【0006】つまり本発明によれば、テンプレート情報
ファイル中の所定のテンプレートに文字を抽出したい領
域を指定領域として設定するだけで、文字抽出対象デー
タとなる文書データや図面データを作成する時点では何
ら属性情報を設定していなくても、テンプレートの指定
領域内にある文字情報が後になっても容易に抽出でき
る。
【0007】特に定形化した文書データ・図面データに
対しては、文字抽出対象データ中に多数保存された文書
データ・図面データの内の所望の文書データや図面デー
タを指定すると共に、テンプレート情報ファイルに多数
保存されたテンプレート(何れにも「テンプレート名
称」が付与されている)の内の所望のテンプレートを指
定することにより、簡単に所望の文書データや図面デー
タ中の特定領域の文字列の抽出が可能になり、更には別
途用意するデータベースの指定箇所へ格納することがで
きる。
【0008】また多量の定形文書データや図面データか
ら特定の位置にある有用な情報を所望のテンプレートで
抽出してデータベースを作成することができれば、文書
データや図面データ情報の二次利用が大幅に向上する。
即ち例えば図面データの表題欄には、図名,図番,設計
者名,日付等の情報が含まれているが、これらをテンプ
レートで抽出することができれば、未整理で放置してあ
った多量の図面ファイルについても、後からでも容易に
有用情報を取り出すことができる。
【0009】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて詳細に説明する。ここで図10は本発明に用い
る電子計算機の一例を示す概略ブロック図である。同図
に示す電子計算機は少なくとも、CPU10と主記憶装
置20とチャネル30と入出力装置40と外部記憶装置
50とを具備しており、入出力装置40のキーボードや
マウスやディスプレー等において下記する各種情報の入
出力を行なうと共に、本発明に用いるプログラムや各種
ファイルのデータは外部記憶装置50に記憶され、必要
に応じて主記憶装置20に転送される。なお電子計算機
の構成は種々の構成が考えられ、この構成のみに限定さ
れるものではない。
【0010】そして本実施形態においては、図1に示す
ように文字抽出対象データと、テンプレート情報ファイ
ルとを用いて、文字抽出対象データ中の所望の文字情報
を抽出し、これを文字抽出ファイルに保存するように構
成した。
【0011】ここでまず文字抽出対象データは、例えば
同様の様式(定型様式)に乗っ取って作成された多数の
文書データや図面データなどである。即ち例えば図2に
示すような所定形式となっている書類(文書A)であ
り、客先名として例えば「AAAAA」、注文番号とし
て例えば「BBBBB」、製品名として「CCCC
C」、発注日として「DDDDD」と定形事項が記載さ
れ、その下に所望の文書が記載されたものである。
【0012】この文字抽出対象データ中の文書データや
図面データは、位置情報を備え持ったデジタル化(狭義
に表現すると、ポータブル・ドキュメント・フォーマッ
ト形式化)された文書データや図面データである。この
文書データや図面データには多様な情報がデジタル化さ
れて記録されているが、例えば図11に示すように、各
種情報とともに、文字データの部分には、文字列の左上
の座標(X1,Y1)と、文字列のテキスト「ABC
D」と、文字のサイズと、文字列の角度「θ」と、文字
に指定されているフォントと、文字と文字との間隔
「s」と、文字の色のデータが含まれている。
【0013】次に図3はテンプレートの概略作成フロー
図である。同図に示すようにテンプレートを作成するに
はまず、記憶されている文字抽出対象データファイル中
から例えば図2に示す文書データ(文書A)を1つ呼び
出してディスプレーに閲覧表示する(ステップ1)。
【0014】次に該画面上で抽出したい文字の領域(指
定領域)を指定する(ステップ2)。該指定が終了する
と、この指定領域に対する指定領域名称を問いかけて該
名称を入力させる(ステップ3)。この指定領域と指定
領域名称の入力は指定したい指定領域の数だけ繰り返し
行なわれる(ステップ4)。
【0015】以上の指定の全てが終了すると、次にこの
テンプレート全体の名称であるテンプレート名称を問い
かけて該テンプレート名称を入力させる(ステップ
5)。
【0016】そしてこのテンプレートデータをテンプレ
ート情報ファイルに転送して記憶する(ステップ6)。
【0017】具体的にいえば図4に示すように、対角線
方向に点(x1,y1)と点(x2,y2)を指定する
ことによって指定領域を指定した後、指定領域名称とし
て例えば「客先」を入力する。
【0018】次に同様に対角線方向に点(x3,y3)
と点(x4,y4)を指定することによって指定領域を
指定した後、指定領域名称として例えば「注番」を入力
する。
【0019】次に同様に対角線方向に点(x5,y5)
と点(x6,y6)を指定することによって指定領域を
指定した後、指定領域名称として例えば「製品名」を入
力する。
【0020】次に同様に対角線方向に点(x7,y7)
と点(x8,y8)を指定することによって指定領域を
指定した後、指定領域名称として例えば「発注日」を入
力する。
【0021】そしてテンプレート名称を例えば「受注書
類A」とし、このテンプレートデータをテンプレート情
報ファイルに転送して記憶するのである。
【0022】ここでテンプレート情報として転送される
データの内容は以下の通りである。 1つのテンプレート名称 1又は複数の領域名称 各領域名称毎の領域範囲の対角座標値〔例えば(x
1,y1),(x2,y2)等〕
【0023】上記テンプレート情報の保存形態は、図5
(a)に示すように各テンプレート名称毎に単独ファイ
ルを作成して保存するか、或いは図5(b)に示すよう
に複数のテンプレート名称に含まれるデータ全てを1つ
のファイルとして作成して保存する2つの形態がある。
【0024】次に図6(a),(b)は前記テンプレー
ト情報ファイルを利用して前記文字抽出対象データから
文字抽出を行なう文字抽出操作フローを示す図である。
【0025】テンプレートを用いて文字抽出対象の文書
データや図面データから文字抽出を行なう操作方法には
以下の2通りがある。
【0026】図6(a)に示すように、文字抽出対象
データファイルから所望の文書データ又は図面データを
ディスプレーに閲覧表示し(ステップ1)、該表示状態
のまま、使用するテンプレート名称と抽出後の文字デー
タを保存する文字抽出ファイル名称とを入力し(ステッ
プ2,3)、文字抽出処理を行なった後に(ステップ
4)、該抽出文字データを前記文字抽出ファイル名称と
ともに文字抽出ファイルに転送・保存する(ステップ
5)方法。
【0027】図6(b)に示すように、文書データや
図面データを閲覧表示しないまま、文字抽出対象データ
ファイル中の抽出対象となる1又は複数のファイル名称
と、所望の使用するテンプレート名称と、抽出後の文字
データを保存する文字抽出ファイル名称とを入力し(ス
テップ1,2,3)、文字抽出処理を行なった後に(ス
テップ4)、該抽出文字データを文字抽出ファイル名称
とともに文字抽出ファイルに転送・保存する(ステップ
5)方法。いわゆるバッチ処理方法である。
【0028】ここで図7は前記図6(a),(b)それ
ぞれのステップ4における文字抽出処理の処理フロー図
である。同図に示すように文字抽出を行なうには、まず
テンプレート情報ファイルから指定されたテンプレート
名称のテンプレートに設定されている1又は複数の指定
領域名称と各指定領域の対角座標値を読み込む(ステッ
プ1)。次に図6(a)の場合はディスプレーに閲覧表
示されている文書データや図面データを取り込む、或い
は図6(b)のバッチ処理の場合には文字抽出対象デー
タファイルから指定された1又は複数のファイル名称の
文書データや図面データを取り込む(ステップ2)。そ
して該取り込んだ文書データや図面データから指定領域
の対角座標値内にある文字列を抽出する(ステップ
3)。
【0029】抽出される文字抽出データは以下の通りで
ある。 文字抽出ファイル名称 指定領域名称とその指定領域で抽出された文字列(指
定領域の数の分だけ)
【0030】例えば、図8に示すような同一形式の多数
の文書A,B,C,・・・のデータが文字抽出対象デー
タとして記憶装置に入力されていたとして、前記図4に
示すテンプレート(テンプレート名称「受注書類A」)
を使用して文字抽出を行なうと、図9に示すように、各
文書A,B,C,・・・からそれぞれ必要とする文字デ
ータが文字抽出ファイルに、文字抽出ファイル名称「抽
出事項A」のファイルとして得られる。
【0031】
【発明の効果】以上詳細に説明したように本発明によれ
ば、テンプレートに文字を抽出したい領域を指定領域と
して指定するという簡単な操作をするだけで、文字抽出
対象データとなる文書データや図面データを作成する時
点では何らこれらに属性情報を設定していなくても、該
テンプレートに保存した指定領域内にある文字情報が後
になっても容易に抽出できるという優れた効果を有す
る。
【図面の簡単な説明】
【図1】本発明の一実施形態にかかる文字抽出処理の概
略図である。
【図2】文字抽出対象データの一例を示す図である。
【図3】テンプレートの概略作成フロー図である。
【図4】テンプレートの指定領域入力方法の具体例を示
す図である。
【図5】テンプレート情報の保存形態を示す図である。
【図6】文字抽出操作フローを示す図である。
【図7】文字抽出処理の処理フロー図である。
【図8】文字抽出対象データの一例を示す図である。
【図9】文字抽出データの一例を示す図である。
【図10】本発明に用いる電子計算機の一例を示す概略
ブロック図である。
【図11】文字データの内容を示す図である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも文字列のテキストを持った文
    書データや図面データからなる文字抽出対象データと、 前記文字抽出対象データ内の所望の文書データや図面デ
    ータ中の文字を抽出したい指定領域を1又は複数箇所指
    定するとともに各指定領域にそれぞれ所定の指定領域名
    称を付与してなるテンプレートを保存しておくテンプレ
    ート情報ファイルと、 抽出した文字を保存する文字抽出ファイルとを用意し、 前記文字抽出対象データ中の所望の文書データや図面デ
    ータから、前記テンプレート情報ファイル中の所望のテ
    ンプレートの指定領域内にある文字情報を抽出し、これ
    を指定領域名称毎に分類して文字抽出ファイルに保存す
    るように電子計算機を用いて処理することを特徴とする
    テンプレートによる文字抽出方法。
JP9367187A 1997-12-25 1997-12-25 テンプレートによる文字抽出方法 Pending JPH11191112A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9367187A JPH11191112A (ja) 1997-12-25 1997-12-25 テンプレートによる文字抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9367187A JPH11191112A (ja) 1997-12-25 1997-12-25 テンプレートによる文字抽出方法

Publications (1)

Publication Number Publication Date
JPH11191112A true JPH11191112A (ja) 1999-07-13

Family

ID=18488691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9367187A Pending JPH11191112A (ja) 1997-12-25 1997-12-25 テンプレートによる文字抽出方法

Country Status (1)

Country Link
JP (1) JPH11191112A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085187A (ja) * 2001-09-11 2003-03-20 Canon Inc 文書登録システム、方法、プログラム及び記憶媒体
JP2005242912A (ja) * 2004-02-27 2005-09-08 Ntt Data Corp 電子文書処理装置、電子文書処理方法および電子文書処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934903A (ja) * 1995-07-18 1997-02-07 Nri & Ncc Co Ltd ファイル検索装置
JPH09212514A (ja) * 1996-01-31 1997-08-15 Ricoh Co Ltd 文書処理装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934903A (ja) * 1995-07-18 1997-02-07 Nri & Ncc Co Ltd ファイル検索装置
JPH09212514A (ja) * 1996-01-31 1997-08-15 Ricoh Co Ltd 文書処理装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085187A (ja) * 2001-09-11 2003-03-20 Canon Inc 文書登録システム、方法、プログラム及び記憶媒体
JP2005242912A (ja) * 2004-02-27 2005-09-08 Ntt Data Corp 電子文書処理装置、電子文書処理方法および電子文書処理プログラム

Similar Documents

Publication Publication Date Title
US20140215297A1 (en) File formats and methods for representing documents
JPH0689324A (ja) フォーム確立ツールキットおよびフォーム確立方法
JPS59220867A (ja) 機械設計の部品デ−タ処理方式
JPH11191112A (ja) テンプレートによる文字抽出方法
JP2003196264A (ja) ウエブページ作成方法、ウエブページ作成プログラム及びウエブページ作成装置
JP2000029677A (ja) 画面構成自動生成装置
JP2001297080A (ja) 読取支援装置
JPH0827843B2 (ja) 図形内文字列編集方法
JP2000172704A (ja) 文書処理装置及び文書校正方法
JP3674905B2 (ja) 文書編集装置
JP4334987B2 (ja) 領域指定機能およびデータ切り出し機能を備えたdtp編集装置
JP4617015B2 (ja) 文書表示装置、文書表示方法ならびに、プログラム
JP4031449B2 (ja) ファイル作成プログラム、およびその記憶媒体
JPH1166232A (ja) 帳票定義方法
JP4737659B2 (ja) 表組データベースシステムおよび表組データ作成装置
JP2534685B2 (ja) 情報表示方法
JP2889052B2 (ja) 文字書体処理方法および装置
JP2001056837A (ja) 文書認識方法および記録媒体
JP2645174B2 (ja) フィールド表示機能を有する電子計算機
JPH11203279A (ja) かな漢字変換装置、かな漢字変換方法、及び記憶媒体
JPH067399Y2 (ja) エディットデータ出力装置
JP2921975B2 (ja) 手書き文書作成装置
JP2009003496A (ja) 帳票データ変換装置
JPH03269665A (ja) 文字原図および文字フォント管理方式
JPS61229161A (ja) 文書作成編集装置