JPH0981672A - 文書読取装置 - Google Patents

文書読取装置

Info

Publication number
JPH0981672A
JPH0981672A JP7260855A JP26085595A JPH0981672A JP H0981672 A JPH0981672 A JP H0981672A JP 7260855 A JP7260855 A JP 7260855A JP 26085595 A JP26085595 A JP 26085595A JP H0981672 A JPH0981672 A JP H0981672A
Authority
JP
Japan
Prior art keywords
layout
data
processing
level
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7260855A
Other languages
English (en)
Inventor
Tetsuo Nakamura
哲夫 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7260855A priority Critical patent/JPH0981672A/ja
Publication of JPH0981672A publication Critical patent/JPH0981672A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 レイアウトデータを有効利用し、レイアウト
処理の効率を向上させる。 【解決手段】 レイアウトメモリ4には、文書の領域、
行、文字レベルのレイアウトデータが格納されている。
処理レベル制御部12aは、オペレータが指定した処理
レベルをレイアウト処理部3に伝える。レイアウト処理
部3は、指定された処理レベルに従って、レイアウトメ
モリ4に格納されている既知レイアウトデータを参照し
て、読取対象の文書の画像データをレイアウト解析す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書上に記録され
た文字とイメージ(文字以外の図形、絵画、写真および
罫線等)を読み取る文書読取装置に関し、特に、レイア
ウトデータの利用に関する。
【0002】
【従来の技術】一般に、文書読取装置で用いるレイアウ
トデータは、文書全体のデータに対して、文字や画像の
領域、領域内の行、更に行内の文字といったレベルに分
けることができる。
【0003】従来、この種の文書読取装置では、レイア
ウトデータを決まったレベルで利用していた。例えば、
特開平4−326487号公報等に示すように、領域と
文字(行を含む)レベルのレイアウトデータを利用する
ものや、特開平5−258098号公報等に示すよう
に、領域レベルのレイアウトデータを利用するものがあ
った。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の文書読取装置のように、レイアウトデータを決まっ
たレベルで利用する方法では、予め決められたレベルの
組合せを満足する組合せ以外には適用できなかった。例
えば、特開平4−326487号公報等に示す領域と文
字レベルを利用するものでは、領域については参照する
レイアウトデータと同様であるが、行、文字が異なる文
書では適用できない。また、特開平5−258098号
公報等に示すような領域レベルを利用するものでは、
行、文字が同一な文書に、行、文字レベルのレイアウト
データを利用することができなかった。
【0005】このような点から、既知のレイアウトデー
タを有効に利用することができると共に、正確、かつ、
高速にレイアウトデータを作成することのできる文書読
取装置の実現が望まれていた。
【0006】
【課題を解決するための手段】本発明は、前述の課題を
解決するために次の構成を採用する。 〈請求項1の構成〉読取対象となる文書の画像データに
おいて、領域レベルと、文字領域内の行レベルと、行内
の文字レベルのうち、いずれかのレベルのレイアウトデ
ータを格納するレイアウトメモリと、読取対象となる文
書の画像データが入力された場合、レイアウトデータに
対する、領域、行、文字のどのレベルを利用してレイア
ウト処理を行うかの指定を受けて、レイアウト解析にお
ける処理レベル指定を行う処理レベル制御部と、レイア
ウトデータに対して、処理レベル制御部からのレベル指
定に基づいた処理レベルのレイアウト解析を行い、文字
認識対象データとして出力するレイアウト処理部とを備
えたことを特徴とするものである。
【0007】〈請求項1の説明〉一般に、レイアウトデ
ータは、領域レベルと、文字領域内の行レベルと、行内
の文字レベルといったようにレベル分けできる。レイア
ウトメモリには、既知レイアウトデータとして、例え
ば、文字レベルのレイアウトデータが格納されている。
【0008】レイアウト処理を行う場合、レイアウト解
析やレイアウト参考解析といった処理種類の指定を行う
と共に、レイアウト参考解析やレイアウト識別+レイア
ウト参考解析を指定する場合は、処理レベルを指定す
る。これにより、レイアウト処理部は、その処理レベル
でのレイアウト識別やレイアウト参考解析を行う。
【0009】従って、例えば、ある文書で、領域、行、
文字の全てのレベルで既知レイアウトと一致する場合、
処理レベルを文字と指定することで、適切なレイアウト
参考解析、レイアウト識別を行うことができる。このよ
うに、既知レイアウトデータを有効に利用できると共
に、レイアウト未知の文書としてレイアウト解析を行う
といったことがないため、高速なレイアウトデータ作成
処理を行うことができる。
【0010】また、レイアウトデータの保存は、レイア
ウトデータを参照するレイアウト参考解析やレイアウト
識別の処理のレベルが明確であれば、そのレイアウトデ
ータのレベルを制限することも可能である。例えば、レ
イアウト処理で領域レベルしか処理対象としない場合
は、既知のレイアウトデータも領域レベルのみとし、行
と文字レベルのデータを保存しないようにすることもで
きる。
【0011】〈請求項2の構成〉請求項1記載の文書読
取装置において、任意のレイアウトデータをレイアウト
メモリに格納する場合、レイアウト解析の処理モードの
データを付加するか否かの指示を行う処理モード制御部
と、レイアウト解析を行う場合、参照するレイアウトデ
ータの処理モードに従って行うと共に、処理モード制御
部よりレイアウト解析の処理モードのデータを付加する
よう指示された場合、レイアウト解析結果としてのレイ
アウトデータに処理モードを付加してレイアウトメモリ
に格納するレイアウト処理部とを備えたことを特徴とす
るものである。
【0012】〈請求項2の説明〉処理モードは、例え
ば、領域抽出では一般/新聞、行切り出しでは和文/英
文、文字切り出しでは和文/英文といったモードであ
る。既知レイアウトデータは、このような処理モードの
データも付加されて格納されている。レイアウト処理部
は、既知レイアウトデータを用いてレイアウト解析を行
う場合、その既知レイアウトデータに付加されている処
理モードに従って行う。例えば、一般に、漢字に対して
英文モードでレイアウト解析を行うと、その漢字の偏と
旁を分離して切り出してしまうが、和文モードで指定す
ることによって、適切なレイアウト参考解析、レイアウ
ト識別を行うことができる。
【0013】
【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。 《具体例1》 〈構成〉図1は、本発明の文書読取装置の具体例1の構
成を示すブロック図である。図の装置は、画像入力部
1、画像メモリ2、レイアウト処理部3、レイアウトメ
モリ4、文字認識部5、認識メモリ6、結果出力部7、
プリンタ8、出力メモリ9、表示部10、操作部11、
総合制御部12からなる。また、画像入力部1〜結果出
力部7および総合制御部12は、それぞれデータバス1
3を介して接続されており、画像入力部1、レイアウト
処理部3、文字認識部5、結果出力部7および総合制御
部12は制御バス14を介して接続されている。
【0014】画像入力部1は、イメージスキャナ等から
構成され、読取対象の文書を光学的に走査し、文書上に
記録された文字とイメージを光電変換により画像信号に
変換し、更に、この画像信号を二値の画像データに変換
するよう構成されている。あるいは、画像入力部1は、
画像ファイルや通信回線を介して他システムから画像デ
ータを得ることもできる。画像メモリ2は、画像入力部
1から出力される二値の画像データを格納するメモリで
ある。
【0015】レイアウト処理部3は、レイアウトメモリ
4に格納されたレイアウトデータに対して、処理レベル
制御部12aからのレベル指定に基づいた処理レベルの
レイアウト解析を行い、文字認識対象データとして出力
する機能を有している。即ち、レイアウト処理部3は、
画像メモリ2内の画像データから領域を抽出し、それぞ
れの領域を文字とイメージに識別する。更に、文字領域
について、文字領域から行を切り出し、行から文字を切
り出す(レイアウト解析と称す)。上記の領域、行、文
字の処理結果でレイアウトデータを構成する。また、レ
イアウト処理部3は、後述するレイアウトメモリB(4
b)内の一つの既知レイアウトデータを参照して、画像
メモリ2内の画像データをレイアウト参考解析し、レイ
アウトメモリB(4b)内の複数の既知レイアウトデー
タを参照して、画像メモリ2内の画像データをレイアウ
ト識別する機能を有している。
【0016】レイアウトメモリ4は、読取対象となる文
書の画像データにおいて、領域レベルと、文字領域内の
行レベルと、行内の文字レベルのうち、いずれかのレベ
ルのレイアウトデータを格納するメモリであり、また、
レイアウト処理部3から出力されるレイアウトデータを
格納するものである。そして、レイアウトメモリ4は、
レイアウトメモリA(4a)、レイアウトメモリB(4
b)からなり、レイアウトメモリA(4a)は、レイア
ウト処理したレイアウトデータを格納し、レイアウトメ
モリB(4b)は既知レイアウトデータを格納するメモ
リである。
【0017】文字認識部5は、レイアウトメモリA(4
a)内のレイアウトデータと、画像メモリ2内の画像デ
ータとから、この画像データの文字画像を認識して文字
コードに変換し、この文字コードを認識データとする機
能を有している。更に、文字認識部5は、この認識デー
タを知識処理して修正することもできる。また、認識メ
モリ6は、文字認識部5から出力される認識データを格
納するメモリである。
【0018】結果出力部7は、画像メモリ2内の画像デ
ータと、レイアウトメモリA(4a)内のレイアウトデ
ータと、認識メモリ6内の認識データと(画像データ、
レイアウトデータ、認識データの少なくても一つ)から
文書データを作成し、この文書データを出力メモリ9に
格納、または、プリンタ8で印刷する機能を有してい
る。更に、出力メモリ9を介して、他の文書処理システ
ム{ワープロ、DTPシステム、文書管理システム等
(尚、これらは図示せず)}に文書データを渡したり、
または、通信により他の文書処理システムに文書データ
を渡すこともできる。
【0019】表示部10(CRT等)と操作部11(キ
ーボード、マウス等)は、画像入力部1、レイアウト処
理部3、文字認識部5、および結果出力部7の処理の開
始・終了指示、処理結果(画像データ、レイアウトデー
タ、及び認識データ)の表示およびその確認・修正等の
オペレータと文書読取装置とのインタフェースをとるも
のである。
【0020】総合制御部12は、上記の各部、各メモリ
の動作全体を制御するもので、処理レベル制御部12a
を備えている。この処理レベル制御部12aは、読取対
象となる文書の画像データが入力された場合、レイアウ
トデータに対する、操作部11から入力された、領域、
行、文字のどのレベルを利用してレイアウト処理を行う
かの指定を受けて、レイアウト処理におけるレベル指定
をレイアウト処理部3に対して行う機能を有している。
【0021】〈動作〉図2は、上記文書読取装置の処理
フローチャートである。先ず、ステップS1において、
画像入力部1により画像入力を行う。このステップS1
は、画像入力部1により、読取対象の入力文書を光学的
に走査し、文書上に記録された文字、およびイメージを
光電変換により画像信号に変換し、更にこの画像信号を
ディジタル二値の画像データ変換する。そして、総合制
御部12は、この画像データを表示部10に画像表示さ
せる。オペレータはこの画像表示により、操作部11を
使ってこの画像データを確認する。ここで、もし画像デ
ータが不良ならば再度画像入力を行う。そして、総合制
御部12は、確認後の画像データを画像メモリ2に格納
する。
【0022】画像入力が終了すると、レイアウト処理部
3がレイアウト処理を行う(ステップS2)。このレイ
アウト処理とは、オペレータの選択を受けた総合制御部
12の処理レベル制御部12aの指示に基づき、画像メ
モリ2内の画像データに対してレイアウト解析、また
は、この画像データに対してレイアウトメモリB(4
b)内の既知レイアウトデータを参照してレイアウト参
考解析、またはレイアウト識別+レイアウト参考解析を
行い、画像データのレイアウトデータを作成する処理で
ある。そして、このレイアウトデータをレイアウトメモ
リA(4a)に格納する。尚、このステップS2の詳細
については後述する。
【0023】レイアウト処理が終了すると、文字認識部
5により文字認識を行う(ステップS3)。この文字認
識処理は、文字認識部5により、レイアウトメモリA
(4a)内のレイアウトデータに従い、画像メモリ2内
の画像データの文字画像を、文字認識部5内にある標準
的な文字の認識特徴を格納した認識辞書を用いた認識処
理により文字コードに変換し、この文字コードを認識デ
ータとする。そして、総合制御部12は、表示部10に
認識メモリ6内の認識データを文字表示させ、レイアウ
トメモリA(4a)内のレイアウトデータに従って、画
像メモリ2内の画像データを画像表示し、オペレータが
操作部11を使ってこの文字表示と画像表示を比較して
認識データを確認・修正する。この認識データを認識メ
モリ6に格納する。
【0024】文字認識が終了すると、結果出力部7によ
り読取結果を出力する(ステップS4)。この結果出力
とは、結果出力部7により、画像メモリ2内の画像デー
タと、レイアウトメモリA(4a)内のレイアウトデー
タと、認識メモリ6内の認識データとから文書データを
作成し、この文書データを出力メモリ9に格納、また
は、プリンタ8で印刷するものである。
【0025】次に、上述したステップS2のレイアウト
処理を詳細に説明する。図3は、レイアウト処理を説明
するための処理フローチャートである。先ず、オペレー
タが処理種類を選択する(ステップS1)。即ち、表示
部10と操作部11を使ったオペレータの指示により、
処理種類を「レイアウト解析」、「レイアウト参考解
析」、「レイアウト識別+レイアウト参考解析」から選
択する。そして、「レイアウト解析」を選択した場合は
ステップS2、「レイアウト参考解析」を選択した場合
はステップS3、「レイアウト識別+レイアウト参考解
析」を選択した場合はステップS6にそれぞれ進む。
【0026】ステップS2では、既知レイアウトデータ
を参照せずに入力文書をレイアウト未知の文書としてレ
イアウト解析する。このレイアウト解析は、レイアウト
処理部3により、画像メモリ2内の画像データから黒画
素の周辺分布ヒストグラムを利用する方法、または、ラ
ンレングスを利用する方法等を用いて領域を抽出し、各
領域の幾何学的特徴により、領域を文字とイメージとに
判別する。更に、文字領域の画像データから周辺分布ヒ
ストグラム、またはランレングスを使って行を切り出
し、行から文字を切り出し、レイアウトデータを作成す
る。
【0027】ステップS3〜S5では、一つの既知レイ
アウトデータを参照して入力文書をこのレイアウトデー
タと同様なレイアウトの文書としてレイアウト参考解析
する。即ち、このレイアウト参考解析では、先ず、表示
部10と操作部11を使ったオペレータの指示により、
参照レイアウトデータ(このレイアウトデータを表示部
10に表示する)を指定すると共に、領域、行、文字の
処理レベルを選択指定すると、総合制御部12の処理レ
ベル制御部12aは、この選択指定を受け、これらの選
択結果をレイアウト処理部3に伝える(ステップS3、
S4)。
【0028】レイアウト処理部3は、処理レベル制御部
12aからの選択結果に従い、選択したレイアウトメモ
リB(4b)内の既知のレイアウトデータを参照して、
画像メモリ2内の画像データに対して、選択したレベル
のレイアウト参考解析を行い、この画像データのレイア
ウトデータを作成する(ステップS5)。処理レベルを
領域と指定したとき、領域のレイアウトデータは参考解
析により作成できるが、残りの行、文字のレイアウトデ
ータは、既知レイアウトデータを参照せずに、上述した
ステップS2のレイアウト解析と同様に、行切り出し、
文字切り出しを行って作成する。同様に、処理レベルを
行と指定したとき、文字のレイアウトデータは、レイア
ウト解析と同様に、文字切り出しを行って作成する。
尚、レイアウト参考解析は、例えば、特開平7−289
34号等に記載されている既知のレイアウト情報を参照
して領域抽出する方法により実現し、行、文字のレベル
の処理も領域と同様に(一つの領域に対して一つの属性
を指定して)処理する。
【0029】ステップS6〜S8では、複数の既知レイ
アウトデータを参照して入力文書のレイアウトがどの既
知レイアウトと一致するものかを決定する(レイアウト
識別)。このレイアウト識別としては、先ず、表示部1
0と操作部11を使ったオペレータの指示により複数の
参照レイアウトデータ(この複数のレイアウトデータを
表示部10に表示する)と、領域、行、文字の処理レベ
ルとを選択する。これにより、総合制御部12の処理レ
ベル制御部12aは、この選択結果をレイアウト処理部
3に伝える(ステップS6、S7)。レイアウト処理部
3は、受け取った選択結果に従い、選択したレイアウト
メモリB(4b)内の複数の既知レイアウトデータを参
照して、画像メモリ2内の画像データに対して、選択し
た処理レベルのレイアウト識別を行い、一致するレイア
ウトデータを決定する(ステップS8)。尚、このレイ
アウト識別については、例えば、特開平7−28935
号等に記載されている既知のレイアウト識別方法により
実現する。
【0030】そして、行、文字のレベルの処理も、領域
と同様に処理する。即ち、行の類似度の算出の前に文字
領域のズレを補正し、文字の類似度の算出の前に行のズ
レを補正し、類似度を算出する。そして、文字レベルの
類似度=(領域の類似度+行の類似度+文字の類似度)
÷3、行レベルの類似度=(領域の類似度+行の類似
度)÷2とする。また、このとき領域、行、文字の類似
度に重み付けをしてもよい。
【0031】ステップS8のレイアウト識別後は、識別
したレイアウトデータを参照してステップS5のレイア
ウト参考解析を行い、画像メモリ2内の画像データのレ
イアウトデータを作成する。
【0032】その後は、ステップS9に移行し、このス
テップS9では、オペレータによりレイアウトデータを
確認・修正する。即ち、総合制御部12により、ステッ
プS2またはステップS5で作成したレイアウトデータ
と、画像メモリ2内の画像データを表示部10に重ねて
表示し、オペレータは、この表示データに対して操作部
11を用い、そのレイアウトデータの確認・修正を行
う。レイアウトデータの確認・修正処理が終了すると、
総合制御部12は、確認・修正後のレイアウトデータを
レイアウトメモリA(4a)に格納する。
【0033】また、オペレータがこのレイアウトデータ
を既知レイアウトデータとして保存したい場合、レイア
ウト処理部3はそのレイアウトデータをレイアウトメモ
リB(4b)に格納する(ステップS11、S12)。
【0034】〈効果〉以上のように具体例1によれば、
レイアウト参考解析、レイアウト識別において、その処
理のレベルを入力文書のレイアウトと既知レイアウトデ
ータに合わせて、領域、行、文字に選択して設定できる
ので、レイアウトデータを有効利用して、より正確に、
かつ高速にレイアウトデータを作成できる。
【0035】図4は、具体例1の効果を説明するレベル
指定の説明図である。図中、100は文書の既知レイア
ウトを示し、101〜103は、それぞれ文書例であ
る。例えば、入力文書101は、領域、行、文字の全て
のレベルで、既知レイアウト100と一致するので、処
理レベルを「文字」と指定すれば適切にレイアウト参考
解析、レイアウト識別できる。しかし、ここで処理レベ
ルを「行、領域」と指定した場合、それぞれ文字、行と
文字の既知レイアウトを有効に利用できない。
【0036】また、入力文書102は、領域、行のレベ
ルで既知レイアウト100と一致するが、文字レベルは
一致しない。このため、処理レベルを「行」と指定すれ
ば適切にレイアウト参考解析、レイアウト識別できる。
しかし、レベルを「文字」と指定したのでは、文字レベ
ルで誤りが発生し、一方、処理レベルを「領域」と指定
したのでは行の既知レイアウトを有効に利用できない。
【0037】更に、入力文書103は領域のレベルで既
知レイアウト100と一致するが、行、文字レベルは一
致しないので、レベルを「領域」と指定すれば適切にレ
イアウト参考解析、レイアウト識別できる。しかし、レ
ベルを「行、文字」と指定したのではそれぞれ文字レベ
ル、行と文字レベルで誤りが発生する。
【0038】このように、種々のレイアウトの文書10
1〜103に対して、本具体例1では、その処理レベル
を任意に設定できるため、上述した効果を得ることがで
きるのである。
【0039】《具体例2》 〈構成〉図5は、本発明の文書読取装置における具体例
2の構成図である。具体例2において、上記具体例1と
異なるのは、総合制御部12に処理モード制御部12b
が設けられた点と、レイアウト処理部3aの機能が異な
る点である。即ち、処理モード制御部12bは、任意の
レイアウトデータをレイアウトメモリ4に格納する場
合、レイアウト解析の処理モードのデータを付加するか
否かの指示を行う機能を備えている。また、レイアウト
処理部3aは、処理モード制御部12bからの指示に基
づき、レイアウト解析の処理モードデータを付加してレ
イアウトメモリ4に格納する機能を備えると共に、レイ
アウト解析を行う場合、参照する既知レイアウトデータ
の処理モードに従ってその処理を行う機能を有してい
る。
【0040】〈動作〉ここでは、図3のフローチャート
を用いて、具体例2と具体例1の異なる部分を説明す
る。ここで説明しない部分は、具体例1と同一である。
【0041】具体例2において、具体例1のステップS
12で既知レイアウトデータとして保存するときに、レ
イアウトデータと共にレイアウト解析の処理モードデー
タを保存する。また、ステップS5のレイアウト参考解
析、ステップS8のレイアウト識別で、レイアウト解析
と同様な処理をするときに、ステップS12で保存した
処理モードに従って処理する。
【0042】ステップS8のレイアウト識別では、参照
する複数の既知レイアウトの処理モードが異なるとき、
レイアウト処理部3aは、これを処理モード制御部12
bに通知する。処理モード制御部12bは、表示部10
に警告を表示して、処理を終了するか、改めてオペレー
タが処理モードを指定して処理を継続するかの判断を促
し、オペレータはこれに対して操作部11を使って指示
を行う。
【0043】また、上記の処理モードは、例えば、領域
抽出では一般/新聞、行切り出しでは和文/英文、文字
切り出しでは和文/英文といったモードである。
【0044】〈効果〉以上説明したように、具体例2に
よれば、レイアウト参考解析、レイアウト識別で、領域
抽出、行切り出し、文字切り出しする場合、既知のレイ
アウトデータと共に、保存した処理モードデータに従っ
て処理を行うため、既知レイアウトに合った適切な処理
モードで処理できる。従って、適切なレイアウト参考解
析、レイアウト識別ができる。
【0045】図6は、具体例2の効果を説明するための
文字切り出しの処理モードによる違いを示す図である。
例えば、図中(a)の文字画像を文字切り出しする場
合、和文モードで文字切り出しすると、(b)に示すよ
うに正しく切り出せる、しかしながら、英文モードで文
字切り出しすると、(c)に示すように、漢字の偏と旁
を分離して切り出してしまう。このため、既知レイアウ
トの文字が、(b)和文モードで切り出した文字のレイ
アウトと一致するものであっても、レイアウト処理で英
文モードで切り出した場合、既知レイアウトと一致しな
くなってしまう。本具体例では、このような場合、適切
な処理モードを指定することができるため、上述した効
果が得られるのである。
【0046】〈利用形態〉具体例1において、ステップ
S12におけるレイアウトデータの保存では、レイアウ
トデータを参照するレイアウト参考解析やレイアウト識
別の処理のレベルが明確ならば、レイアウトメモリB
(4b)に保存するレイアウトデータのレベルを制限し
てもよい。例えば、レイアウト処理で、領域レベルしか
処理対象としないことが分かっていれば、既知のレイア
ウトデータとして保存するときに領域レベルのデータだ
けで行と文字レベルのデータは保存しない。これによ
り、レイアウトデータサイズを小さくでき、メモリ容量
を有効に利用することができる。
【0047】また、具体例1、2において、読取対象を
表とするとき、レイアウトデータの構成を領域と行の間
にセルを入れて対応することもできる。図7は、この状
態の説明図であり、表を含んだレイアウトデータの例を
示す図である。ここで、セルとは、表内の区画された領
域を指し、このセル内に行、文字が含まれているもので
ある。このように構成することにより、表を含む文書に
ついても、そのレイアウトデータを有効に利用すること
ができ、適切なレイアウト参考解析、レイアウト識別を
行うことができる。
【0048】
【発明の効果】以上説明したように、請求項1に記載の
文書読取装置によれば、レイアウトデータを有効利用し
て、より正確、かつ高速にレイアウトデータを作成する
ことができる。また、請求項2記載の文書読取装置によ
れば、更に、適切なレイアウト処理を行うことができ
る。
【図面の簡単な説明】
【図1】本発明の文書読取装置の具体例1の構成を示す
ブロック図である。
【図2】本発明の文書読取装置の処理フローチャートで
ある。
【図3】本発明の文書読取装置のレイアウト処理を説明
するための処理フローチャートである。
【図4】本発明の文書読取装置における具体例1の効果
を説明するためのレベル指定の説明図である。
【図5】本発明の文書読取装置における具体例2の構成
図である。
【図6】本発明の文書読取装置における具体例2の効果
を説明するための文字切り出しの処理モードによる違い
を示す図である。
【図7】表を含んだレイアウトデータの例を示す図であ
る。
【符号の説明】
1 画像入力部 2 画像メモリ 3、3a レイアウト処理部 4 レイアウトメモリ 10 表示部 11 操作部 12a 処理レベル制御部 12b 処理モード制御部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 読取対象となる文書の画像データにおい
    て、領域レベルと、文字領域内の行レベルと、行内の文
    字レベルのうち、いずれかのレベルのレイアウトデータ
    を格納するレイアウトメモリと、 読取対象となる文書の画像データが入力された場合、前
    記レイアウトデータに対する、領域、行、文字のどのレ
    ベルを利用してレイアウト処理を行うかの指定を受け
    て、レイアウト解析における処理レベル指定を行う処理
    レベル制御部と、 前記レイアウトデータに対して、前記処理レベル制御部
    からのレベル指定に基づいた処理レベルのレイアウト解
    析を行い、文字認識対象データとして出力するレイアウ
    ト処理部とを備えたことを特徴とする文書読取装置。
  2. 【請求項2】 請求項1記載の文書読取装置において、 任意のレイアウトデータをレイアウトメモリに格納する
    場合、レイアウト解析の処理モードのデータを付加する
    か否かの指示を行う処理モード制御部と、 レイアウト解析を行う場合、参照するレイアウトデータ
    の処理モードに従って行うと共に、前記処理モード制御
    部よりレイアウト解析の処理モードのデータを付加する
    よう指示された場合、レイアウト解析結果としてのレイ
    アウトデータに処理モードを付加して前記レイアウトメ
    モリに格納するレイアウト処理部とを備えたことを特徴
    とする文書読取装置。
JP7260855A 1995-09-13 1995-09-13 文書読取装置 Pending JPH0981672A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7260855A JPH0981672A (ja) 1995-09-13 1995-09-13 文書読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7260855A JPH0981672A (ja) 1995-09-13 1995-09-13 文書読取装置

Publications (1)

Publication Number Publication Date
JPH0981672A true JPH0981672A (ja) 1997-03-28

Family

ID=17353693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7260855A Pending JPH0981672A (ja) 1995-09-13 1995-09-13 文書読取装置

Country Status (1)

Country Link
JP (1) JPH0981672A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム

Similar Documents

Publication Publication Date Title
US6466694B2 (en) Document image processing device and method thereof
US6693718B1 (en) Image processing apparatus and method for processing a color image, and storage medium storing program code of the method
US20040267734A1 (en) Document search method and apparatus
US7305619B2 (en) Image processing method, device and storage medium therefor
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
JP2835178B2 (ja) 文書読取装置
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH0981672A (ja) 文書読取装置
JPH0991371A (ja) 文字表示装置
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JP4501731B2 (ja) 画像処理装置
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
JPH07262317A (ja) 文書処理装置
JP2000187704A (ja) 文字認識装置及びその方法及び記憶媒体
JP2002049890A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH0830725A (ja) 画像処理装置及び方法
JPH11187231A (ja) 画像検索装置及び画像検索方法
JP3265014B2 (ja) 対訳処理機能付き複写装置
JP2023123124A (ja) 文書分割装置および文書分割判定方法とプログラム
JPH11203410A (ja) 画像処理方法及び装置及びその記憶媒体
JPS61198376A (ja) 光学的文字読取装置
JPS6327990A (ja) 文字認識方法
JPH1011530A (ja) 画像入出力方法及び装置