JPH0883285A - 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置 - Google Patents

文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置

Info

Publication number
JPH0883285A
JPH0883285A JP6218868A JP21886894A JPH0883285A JP H0883285 A JPH0883285 A JP H0883285A JP 6218868 A JP6218868 A JP 6218868A JP 21886894 A JP21886894 A JP 21886894A JP H0883285 A JPH0883285 A JP H0883285A
Authority
JP
Japan
Prior art keywords
attribute information
character
area
image data
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6218868A
Other languages
English (en)
Inventor
Masateru Yamaoka
正輝 山岡
Kazumi Iwane
和巳 岩根
Michihiro Sato
道弘 佐藤
Osamu Iwaki
修 岩城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP6218868A priority Critical patent/JPH0883285A/ja
Publication of JPH0883285A publication Critical patent/JPH0883285A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 スキャナを用いて読み取った画像データから
検索キー等の属性情報を伴う文字コードを容易確実に生
成して登録作業に要する時間の短縮を図る文書データベ
ース登録システムの前処理装置を提供する。 【構成】 画像獲得部11によって画像蓄積部12に蓄
積された画像データについて、文字認識処理を行う前
に、領域属性付与部13で当該画像データの文字領域に
属性情報を付与する。具体的には、領域枠形成部133
により形成された領域枠によって文字領域を指定し、こ
の指定領域の位置情報と属性情報ファイル135から任
意に選択した属性情報とを対応付けるとともに、この対
応情報を対応情報ファイル134に格納しておく。そし
て上記領域枠にて特定される文字領域に対して文字認識
部14で文字認識処理を施し、その認識結果と該当する
属性情報とを同時に出力し、属性情報を伴う文字コード
を得る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学的読取手段等で読
取った既存文書の画像データを所定の文字領域に分割し
て文字認識処理を行い、その結果得られた文字コードに
当該文字の属性情報を付与してデータベースに登録する
システムの前処理装置に関する。
【0002】
【従来の技術】既存文書を光学的読取手段で読取って文
字認識処理を行い、認識された文字コードをデータベー
スへ登録する文書データベース登録システムが知られて
いる。図6は、この種の従来の文書データベース管理シ
ステムにおいて、上記文字コードを生成するための前処
理装置のブロック図であり、符号21は画像獲得部、2
2は画像メモリを含む画像蓄積部、23は読取領域指定
部、24は文字認識部、25は文字認識結果確認修正
部、26は属性付与部、27はデータベースに対するデ
ータ形式変換及び登録処理等を行う出力部である。
【0003】画像獲得部21は、紙文書等の既存文書を
例えばスキャナで読み取って電子化し、これにより得ら
れた画像データを画像蓄積部22に蓄積する。読取領域
指定部23は、画像蓄積部22に蓄積された画像データ
を文書画像文字認識部24における文字認識に適する領
域、例えば文字フォントや文字サイズの均一な領域に分
割する。これは、画像データ中に、縦書きや横書き、明
朝体やゴシック体などのフォントが混在していたり、さ
まざまなサイズのフォントが混在している領域を一度に
文字認識することは認識率低下の原因になるため、これ
を防ぐ目的で文字認識処理に適した領域に画像データを
分割するものである。文字認識部24では、読取領域指
定部23で分割された領域ごとに文字を切出し、これに
所定の認識処理を施して文字コード、即ちテキストデー
タに変換する。文字認識結果確認修正部25では、文字
認識部24における処理結果に誤りがある場合に、この
誤ったテキストデータを修正する。属性付与部26で
は、文字認識結果確認修正部25から出力されるテキス
トデータにデータベース登録及び検索時に必要となるキ
ー、即ち当該文書の属性を表す属性情報を付与する。例
えば紙文書によく見られる「標題」、「著者名」などが
これらの属性情報に相当する。その後、出力部27を経
てテキストデータがデータベース(図示省略)に登録さ
れる。
【0004】このように、従来の文書データベース登録
システムの前処理装置では、文書画像の獲得、読取領域
の指定(画像データ分割)、文字認識後の確認修正、テ
キストデータへの属性情報の付与という作業をこの順に
行っていた。
【0005】
【発明が解決しようとする課題】上述のように、文書デ
ータベース登録システムの前処理装置では、文字認識処
理において高い認識率を得るために、オペレータが事前
に文字認識処理に適した領域を指定して画像データを分
割する必要がある。通常、この作業では、図やイラスト
領域等、文字認識を要しない領域の指定も伴う。さら
に、このようにして得られたテキストデータに対して、
データベース検索時に必要となる属性情報を付与する作
業を要する。
【0006】しかしながら、上述のような作業手順で既
存文書をテキストデータに変換し、データベースへ登録
していたのでは、少なくとも画像データにおける文字領
域の指定時、文字認識処理結果の確認修正時、及びテキ
ストデータへの属性情報付与時に、オペレータの判断が
必要となるため、登録作業に時間がかかる問題があっ
た。また、属性情報の付与に際し、オペレータによる属
性情報の確認あるいは付与ミスが発生する問題もあっ
た。
【0007】本発明の課題は、上記問題点に鑑み、属性
情報を伴う文字コードを容易確実に生成する方法及びこ
の方法を用いて上記登録作業に要する時間の短縮を図る
文書データベース登録システムの前処理装置を提供する
ことにある。
【0008】
【課題を解決するための手段】上記目的を達成する本発
明の文字コードの生成方法は、既存文書を画像データに
変換して画像蓄積手段に蓄積し、蓄積した画像データ上
の文字領域に文字認識処理を施して、前記文書上の文字
の属性を表す所定の属性情報を伴う文字コードを生成す
る方法において、予めメモリに記憶した複数の属性情報
から特定のものを選択し、この選択した属性情報に対応
する前記画像データ上の文字領域を指定するステップ
と、指定した各文字領域の位置情報に当該属性情報を対
応付けるステップと、前記位置情報により特定される画
像データの文字領域に対して文字認識処理を施して当該
属性情報を伴う文字コードを生成出力するステップと、
を有することを特徴とする。
【0009】また、本発明の文書データベース登録シス
テムの前処理装置は、既存文書を画像データに変換して
取り込む画像データ獲得手段と、取り込んだ画像データ
を蓄積する画像蓄積手段と、前記文書上の文字の属性を
表す属性情報を格納した属性情報ファイルと、前記蓄積
した画像データを前記属性情報ファイルより選択した特
定の属性情報に対応する文字領域に分割し、この文字領
域に当該属性情報を付与する属性情報付与手段と、前記
文字領域に対して前記文字認識処理を施して属性情報を
伴う文字コードを生成する文字コード生成手段と、を有
することを特徴とする。
【0010】この前処理装置において、属性情報付与手
段は、例えば、前記画像データの文字上に特定の属性情
報に対応する領域枠を形成する領域枠形成手段と、形成
した領域枠の位置情報と当該属性情報とを対応付けて格
納し、前記文字認識処理の際に該当する属性情報を読み
出す対応情報格納手段とを有する。
【0011】
【作用】本発明では、画像獲得手段によって画像蓄積手
段に蓄積された画像データについて文字認識処理を行う
前に、当該画像データの分割領域、即ち文字領域に属性
情報を付与する。具体的には、領域枠形成手段により形
成された領域枠によって上記文字領域を指定し、この指
定領域の位置情報と属性情報ファイルから任意に選択し
た属性情報とを対応付けるとともに、この対応情報を対
応情報格納手段に格納しておく。そして上記領域枠(位
置情報)にて特定される文字領域に対して文字認識処理
を施し、その認識結果と該当する属性情報とを同時に出
力する。これにより属性情報を伴う文字コードが得られ
る。
【0012】
【実施例】次に、図面を参照して本発明の実施例を説明
する。図1は、本発明の一実施例に係る文書データベー
ス登録システムの前処理装置の機能ブロック図である。
【0013】この前処理装置は、画像獲得部11、画像
蓄積部12、領域属性付与部13、文字認識部14、文
字認識結果確認修正部15、及び出力部16から成る。
また、領域属性付与部13は、属性情報付与部131、
領域枠指定部132、領域枠形成部133、対応情報フ
ァイル134、及び属性情報ファイル135を少なくと
も有している。
【0014】画像獲得部11では、従来システムと同様
に、既存文書をスキャナ等で読み込み、これを画像デー
タの形で画像蓄積部12に蓄積する。領域属性付与部1
3では、属性情報ファイル135から特定のものを選択
するとともに、選択した属性情報に対応する文字領域枠
を領域枠形成部133で形成する。更に、領域枠指定部
132で画像蓄積部12の所定部位に領域枠を指定して
画像データの分割を行い、その結果得られた領域枠(文
字領域枠)に対して属性情報付与部131が当該属性情
報を付与する。具体的には、当該属性情報を領域枠の位
置情報に対応付け、その対応情報を、対応情報ファイル
134に格納しておく。文字認識部14では、領域属性
付与部13で指定された文字領域枠について文字認識処
理を施し、文字コードの一つであるテキストデータを出
力する。このとき、当該文字領域枠には前記選択した属
性情報が対応しているのでこれを上記テキストデータと
ともに出力する。文字認識結果確認修正部15では、文
字認識結果であるテキストデータに誤りがあるときはこ
れを修正して出力部16に導く。出力部16では、従来
システムと同様、属性情報が付与されたテキストデータ
を文書データベース登録システムに出力する。
【0015】次に、図2〜図5を参照して上記前処理装
置の処理手順を具体的に説明する。図2は、上記前処理
装置における全体的な処理手順を示すフローチャートで
あり、Sは処理ステップを表す。図2を参照すると、ま
ず、スキャナ等の入力デバイスを用いて既存文書から電
子的な画像データを獲得し(S101)、これを図示し
ない表示制御手段を用いてディスプレイ等に表示する
(S102)。領域属性付与部13では、この表示され
た画像データについて領域指定を行い、この領域に対し
て特定の属性情報を付与する(S103)。この領域指
定は、例えばオペレータがディスプレイ上の画像データ
を実際に確認しながらマウス等を用いて属性情報に対応
する領域を上述の文字領域枠で指定することで行う。
【0016】図3は、この領域属性付与部13における
処理の説明図であり、30は表示された画像データ、3
1は属性指定テーブル、32はマウス等により指定され
る文字領域枠である。属性指定テーブル31に登録され
た個々の属性情報と文字領域枠32の位置情報とは予め
対応付けられている。図示の例では、「標題」の属性情
報に対して「文書構造解析とその応用について」という
文字領域が指定された様子が示されている。他の属性情
報についても同様の要領で領域指定が行われる。
【0017】この処理により、例えば図4に示すよう
に、各属性情報のそれぞれに対応する領域領域枠32の
位置情報、即ち、水平方向始点座標値、垂直方向始点座
標値、水平方向の長さ、垂直方向の高さの数値データが
特定され、これが対応情報ファイル134に格納され
る。
【0018】このような数値データで特定される画像デ
ータの各文字領域に対して図2のS104〜S108の
処理を実行する。まず、文字領域画像を表示し(S10
4)、表示された文字領域に対して文字切出しを実行し
て文字認識を行う(S105)。文字認識の結果は必ず
しも正しいとは限らないので、文字認識結果を表示し
(S106)、誤っている文字があるときは、これを修
正する(S107)。修正されたテキストデータを、S
103で対応付けた属性情報と共に出力部16のメモリ
(図示省略)に格納する(S108)。全領域に対する
文字認識及び認識結果の修正が終了しているか否かをチ
ェックし(S109)、まだ終了していない領域がある
場合には、次の領域を表示し(S110)、S105以
降の処理を繰り返す。全領域に対する処理が終了してい
る場合には、S103で対応付けた属性情報とS108
で格納された文字コードとを共に出力する(S11
1)。
【0019】図5は、上記処理に基づき、属性情報を文
章記述言語SGML(Standard Generalized Markup La
nguage)(ISO8879,JISX4151)で記述した出力例を示し
ている。この例では、S103で対応付けられた属性情
報を、開始タグ、終了タグとして使用している。なお、
属性情報の言語体系は任意であって良いのは勿論であ
る。
【0020】このように、本実施例の前処理装置では、
オペレータが関与するのは文字領域枠32を用いた領域
指定と文字認識結果の修正のみであり、しかも領域指定
の際に属性情報との対応付けが自動的にとられ、以後の
文字認識処理においてもこの属性情報が保持された状態
となっているので、文字認識結果であるテキストデータ
に既に属性情報が付与されており、文書データベースへ
登録する際の前処理作業の大幅な効率化が図れる。ま
た、文字認識処理の前に属性情報が付与されることか
ら、例えば、「住所」などの属性情報が付与された文字
領域に対しては予めそれに応じた適切な字種の限定など
を施した文字認識を行うことが可能となり、文字認識率
の向上と修正作業の軽減が図れる。さらに、一人のオペ
レータが、例えば「住所」などの同一属性情報が付与さ
れた文字領域の文字認識結果の確認と修正を担当するよ
うなシステム構成をとることができ、確認修正ミスが大
幅に軽減される効果も期待できる。
【0021】なお、以上は、本発明の文字コード生成方
法を文書データベース登録システムの前処理装置に適用
した場合の説明であるが、この方法は、文書データベー
ス登録システムのみならず、属性情報を伴う文字コード
を必要とするシステム全般に適用することが可能であ
る。
【0022】
【発明の効果】以上の説明から明らかなように、本発明
の文字コード生成方法によれば、画像データについて文
字認識処理を行う前に、当該画像データの分割領域、即
ち文字領域に属性情報が付与され、文字領域枠にて特定
される文字領域に対して文字認識処理を施した結果と該
当する属性情報とが同時に出力されるので、属性情報を
伴う文字コードが容易に得られる効果があり、これに要
していた従来の作業を省略することができる。
【0023】また、本発明の文書データベース登録シス
テムの前処理装置によれば、画像獲得手段により画像蓄
積手段に蓄積された画像データについて文字認識処理を
行う前に、領域枠形成手段で形成した領域枠によって文
字領域が指定され、この指定領域の位置情報と任意に選
択した属性情報とが対応付けられた後に上記文字認識処
理が行われるので、認識結果である文字コードと該当す
る属性情報とが同時に出力される効果があり、文書デー
タベース登録システムの前処理に要する時間が短縮化さ
れ、従来の問題点が解消される。
【図面の簡単な説明】
【図1】本発明の一実施例に係る文書データベース登録
システムの前処理装置の機能ブロック図。
【図2】本実施例の前処理装置の全体的な処理手順図。
【図3】本実施例の構成要素である領域属性付与部にお
ける処理の説明図。
【図4】上記領域属性付与部における処理の結果、生成
される数値データの説明図。
【図5】本実施例により出力されるテキストデータの一
例を示す説明図。
【図6】従来の文書データベース登録システムの前処理
装置の機能ブロック図。
【符号の説明】
11,21 画像獲得部 12,22 画像蓄積部 13 領域属性付与部 131 属性情報付与部 132 領域枠指定部 133 領域枠形成部 134 対応情報ファイル 135 属性情報ファイル 14,24 文字認識部 15,25 文字認識結果出力部 16,27 出力部 23 読取領域指定部 26 従来の属性付与部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 岩城 修 東京都江東区豊洲三丁目3番3号 エヌ・ ティ・ティ・データ通信株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 既存文書を画像データに変換して画像蓄
    積手段に蓄積し、蓄積した画像データ上の文字領域に文
    字認識処理を施して、前記文書上の文字の属性を表す所
    定の属性情報を伴う文字コードを生成する文字コード生
    成方法において、 予めメモリに記憶した複数の属性情報から特定のものを
    選択し、この選択した属性情報に対応する前記画像デー
    タ上の文字領域を指定するステップと、 指定した各文字領域の位置情報に当該属性情報を対応付
    けるステップと、 前記位置情報により特定される画像データの文字領域に
    対して文字認識処理を施して当該属性情報を伴う文字コ
    ードを生成出力するステップと、 を有することを特徴とする文字コード生成方法。
  2. 【請求項2】 既存文書を画像データに変換して取り込
    む画像獲得手段と、 取り込んだ画像データを蓄積する画像蓄積手段と、 前記文書上の文字の属性を表す属性情報を格納した属性
    情報ファイルと、 前記蓄積した画像データを前記属性情報ファイルより選
    択した特定の属性情報に対応する文字領域に分割し、こ
    の文字領域に当該属性情報を付与する属性情報付与手段
    と、 前記文字領域に対して前記文字認識処理を施して属性情
    報を伴う文字コードを生成する文字コード生成手段と、 を有することを特徴とする文書データベース登録システ
    ムの前処理装置。
  3. 【請求項3】 前記属性情報付与手段は、 前記画像データの文字上に特定の属性情報に対応する領
    域枠を形成する領域枠形成手段と、 形成した領域枠の位置情報と当該属性情報とを対応付け
    て格納し、前記文字認識処理の際に該当する属性情報を
    読み出す対応情報格納手段と、 を有することを特徴とする請求項2記載の文書データベ
    ース登録システムの前処理装置。
JP6218868A 1994-09-13 1994-09-13 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置 Pending JPH0883285A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6218868A JPH0883285A (ja) 1994-09-13 1994-09-13 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6218868A JPH0883285A (ja) 1994-09-13 1994-09-13 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置

Publications (1)

Publication Number Publication Date
JPH0883285A true JPH0883285A (ja) 1996-03-26

Family

ID=16726570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6218868A Pending JPH0883285A (ja) 1994-09-13 1994-09-13 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置

Country Status (1)

Country Link
JP (1) JPH0883285A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
JPH10307816A (ja) * 1997-05-08 1998-11-17 Just Syst Corp 構造化文書処理装置、構造化文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US7958458B2 (en) 2003-01-28 2011-06-07 Fujitsu Limited Method for supporting data linkage between applications

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
JPH10307816A (ja) * 1997-05-08 1998-11-17 Just Syst Corp 構造化文書処理装置、構造化文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US7958458B2 (en) 2003-01-28 2011-06-07 Fujitsu Limited Method for supporting data linkage between applications

Similar Documents

Publication Publication Date Title
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP3425408B2 (ja) 文書読取装置
JP3139521B2 (ja) 自動言語決定装置
US20030004991A1 (en) Correlating handwritten annotations to a document
EP0768612A2 (en) Method and apparatus for generating structured document
JPH0798765A (ja) 方向検出方法および画像解析装置
JPS63155386A (ja) 帳票デ−タ読取装置
CN112084748A (zh) 一种文本比对方法
CN102110108B (zh) 一种对小样文件的处理方法及装置
US20010016068A1 (en) Electronic document generating apparatus, electronic document generating method, and program thereof
JPH0883285A (ja) 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置
US20020181779A1 (en) Character and style recognition of scanned text
JPH103483A (ja) 情報検索装置
JPH0991371A (ja) 文字表示装置
US20040019854A1 (en) Dynamically configurable page numbering system
JPH11203412A (ja) 文書画像処理装置、文書画像処理方法及び文書画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN117349472B (zh) 基于xml文档的索引词提取方法、装置、终端及介质
CN117236282B (zh) 基于xml数据的智能排版方法、装置、终端及介质
JP2682873B2 (ja) 表形式文書の認識装置
JP2899446B2 (ja) 光学的文字読取装置
JPH1063649A (ja) タグ付加文書作成方法および装置
JPS6154569A (ja) 文書画像処理方式
JP2606560B2 (ja) 文書画像記憶装置
JP3164086B2 (ja) 手書き文字フォント作成方法及びそれを適用した手書き文字情報処理装置