JPH0676105A - 文書認識システム - Google Patents

文書認識システム

Info

Publication number
JPH0676105A
JPH0676105A JP4252283A JP25228392A JPH0676105A JP H0676105 A JPH0676105 A JP H0676105A JP 4252283 A JP4252283 A JP 4252283A JP 25228392 A JP25228392 A JP 25228392A JP H0676105 A JPH0676105 A JP H0676105A
Authority
JP
Japan
Prior art keywords
document image
image data
document
parameter
correct answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4252283A
Other languages
English (en)
Inventor
Hiroichi Takayanagi
博一 高柳
Takashi Ishikawa
孝 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pentel Co Ltd
Original Assignee
Pentel Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pentel Co Ltd filed Critical Pentel Co Ltd
Priority to JP4252283A priority Critical patent/JPH0676105A/ja
Publication of JPH0676105A publication Critical patent/JPH0676105A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【目的】 文章領域と図領域のどちらか一方もしくはそ
の双方を有する文書の画像デ−タに対する構造認識など
に用いられるパラメータに対し、その値を互いに類似し
た構造を持つ文書画像データ群から学習を行わせること
により推定する。 【構成】 「学習モード」において、互いに類似した構
造を持つ文書画像データ群から求めたパラメータの値の
正解範囲から、そのパラメータの最適値を推定する機能
を備えている。 【効果】 「学習モード」において、互いに類似した構
造を持つ文書画像データ群から求めたパラメータの値の
正解範囲から、そのパラメータの最適値を推定すること
により、構造認識などをより効果的に行うことができ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像として入力し
た文書をコ−ド化して出力する文書自動入力装置に関す
るものである。
【0002】
【従来の技術】従来、この種の文書認識装置において
は、文書の構造認識などに用いられるパラメータは固定
であるか、もしくは操作者が指定していた。
【0003】
【発明が解決しようとする課題】上記従来技術において
は、固定されたパラメータからはずれた文書に対しては
認識処理が行えない、もしくはパラメータを操作者がい
ちいち指定しなくてはならないなどの問題があった。
【0004】本発明の目的は、文書の画像データに対す
る構造認識などに用いられるパラメータに対し、その値
を固定もしくは操作者が指定するのではなく、互いに類
似した構造を持つ文書画像データ群から学習を行わせる
ことにより、当該文書画像データ群およびそれに相当す
る構造を持つ他の文書画像データに対する当該パラメー
タの最適値を推定することにある。
【0005】
【課題を解決するための手段】本発明は、従来の問題点
に鑑みなされたものであって、文章領域と図領域のどち
らか一方もしくはその両方の属性を有する領域を持つ文
書の画像デ−タを入力として、当該文書画像データから
まとまった文章領域や図の領域を表現するブロックを抽
出し、当該文書画像データの構造を認識し、あるブロッ
クが文章領域と図領域とのどちらの属性を持つものであ
るかを判定もしくは両者を区別し、文章領域の内容に対
応する文字列デ−タおよび図領域の内容に対応する画像
デ−タを出力する文書認識システムにおいて、文書画像
の構造認識に用いるなんらかのパラメータに対して、そ
の値を決定する「学習モード」を全体的な処理の流れと
は別に持ち、その「学習モード」において、当該文書画
像データに対してまず当該パラメータの値を初期値に設
定して構造認識処理を行い、その結果が正解であるかど
うかを操作者によって教授され、正解でない場合には当
該パラメータの値を変更して再度構造認識処理を行い、
一方正解である場合には当該パラメータの値を自動的に
変えながら複数回構造認識処理を繰り返して正解を得る
ための当該パラメータの正解下限値および正解上限値を
求め、当該文書画像データと類似の構造を持つ他の文書
画像データから予め求めて蓄積されている正解下限値お
よび正解上限値のデータと併せて正解下限値および正解
上限値の分布を求め、その分布から当該文書画像データ
およびそれに相当の構造を持つ他の文書画像データに対
する当該パラメータの正解範囲を推定し、その正解範囲
から最適値を決定し、および/または複数種の異なった
構造の文書画像データに対して別個に最適化されたパラ
メータを保持しており、それらを処理の対象とする文書
によって切り換えて使用する機能を備えている文書認識
システムを提案するものである。
【0006】
【作用】本発明によれば、文章領域と図領域のどちらか
一方もしくはその双方を有する文書に対し、当該文書画
像の構造認識を行う際に、構造認識に用いるなんらかの
パラメータに対して、予め、当該文書画像データと類似
する構造を持つ複数の文書画像データから、それぞれの
文書画像データに対する構造認識処理によって正解を得
るための当該パラメータの正解下限値および正解上限値
を求め、当該文書画像データ群の正解下限値および正解
上限値の分布を求める。そのデータに、「学習モード」
において、当該文書画像データから求めた正解下限値お
よび正解上限値を併せた分布より当該文書画像データ群
に対する当該パラメータの正解範囲およびその最適値を
推定する。この値に設定された当該パラメータを用いる
ことにより、当該文書画像の構造認識をより効果的に行
うことができる。
【0007】
【実施例】本発明の一実施例を添付図面を参照して説明
する。図1は本発明を適用した文書自動入力装置であ
る。一点鎖線で示した文書自動入力装置1は、イメ−ジ
スキャナ、複写機の入力部分からデ−タを入力した文書
画像デ−タから、文章領域もしくは図領域の候補となる
ブロックを抽出し、文書画像の構造を認識する構造認識
工程2、抽出されたブロックが文章領域であるのか図領
域であるのかを決定する領域の分類工程3、文章領域と
判定されたブロック内の文字認識を行う文字認識工程
4、および文字コ−ドデ−タファイル5、および図と判
定されたブロック内に含まれる画像デ−タを納める画像
デ−タファイル6から構成される。
【0008】図1のブロック図と図2のフロ−チャ−ト
とで、全体の処理を説明する。イメ−ジスキャナ、複写
機の入力部分から文書画像デ−タを入力し(ステップ
1)、この入力された文書画像デ−タから、構造認識工
程2で、文章領域もしくは図領域の候補となるブロック
を抽出、文書画像の構造を認識し(ステップ2)、この
抽出されたブロックが文章領域であるのか図領域である
のかを領域の分類工程3で決定する(ステップ3)。領
域の分類工程3で、文章領域と判定されたブロックは文
字認識工程4へ印加され、この文字認識工程4で文字認
識を行う(ステップ4)。ステップ4で文字認識が行わ
れた結果生成された文字コ−ドデ−タは、文字コ−ドデ
−タファイル5に格納される(ステップ5)。ステップ
3で画像デ−タと認識されたデ−タは、画像デ−タファ
イル6に格納される(ステップ6)。
【0009】領域の分類工程3においては、例えば分類
の対象となるブロック内に含まれる黒画素連の外接矩形
の大きさの分布を求めることによって、そのブロックが
文章領域であるか図領域であるかを統計的に判定するな
どの手法を用いて分類を行う。
【0010】次に、構造認識工程2(ステップ2)につ
いて説明する。まず対象の文書画像から黒画素連を抽出
し、それぞれの画素連についてその外接矩形を算出す
る。次にそれら外接矩形に基づいて基本矩形を定義する
が、それは以下のようなものである。 (1)ある外接矩形について、それが他の外接矩形と互
いに重複する部分を持つ場合には、それらを統合し、両
者の矩形を囲む矩形を基本矩形として定義する。またこ
のようにして生成された基本矩形が更に他の外接矩形と
互いに重複する部分を持つ場合には、そのような外接矩
形が存在しなくなるまで統合を行う。 (2)ある外接矩形について、それが他の外接矩形と互
いに重複する部分を持たない場合には、それをそのまま
基本矩形とする。
【0011】上記のようにして求めた基本矩形を元にし
て、その大きさや、また基本矩形間の距離などを利用し
て、当該文書画像データからまとまった文章領域や図の
領域を表現するブロックを抽出し、文書構造を認識す
る。
【0012】以下に、構造認識工程に含まれるパラメー
タの「学習モード」について図3を参照しながら説明す
る。実際に図2に示すような処理の流れに従って文書認
識処理を行う際にはパラメータは固定であり、パラメー
タについての学習および最適化は「学習モード」におい
てのみ行われる。図3の参照符号7が入力データであ
る。ステップ7においてパラメータを初期値に設定す
る。次にステップ8において構造認識処理を施し、その
結果として出力データ8を得る。ステップ9において、
構造認識処理を施した結果が正解である(操作者にとっ
て望ましいものである)かどうかを操作者が判断する。
その判断に従ってステップ10において条件分岐を行
い、結果が正解でなかった場合には操作者がステップ1
1において当該パラメータの値を変更し、再度構造認識
処理を施して結果の判定を行う。一方結果が正解であっ
た場合にはステップ12に移り、そこにおいて当該パラ
メータの正解範囲の推定を行う。次にステップ13にお
いて当該パラメータの最適化を行い、最後にステップ1
4において当該パラメータを最適化の結果として得た値
に更新する。
【0013】ステップ12のパラメータの正解範囲の推
定、ステップ13のパラメータの最適化、およびステッ
プ14のパラメータの更新とは以下のようなものであ
る。まずステップ12のパラメータの正解範囲の推定に
おいては、ステップ9における判定によって正解を与え
ると分かっている当該パラメータの値から、例えばその
値を徐々に減少させてゆき、その度に構造認識処理を施
し、正解であると分かっている結果と異なる結果を生じ
るまでこれを繰り返す。そして正解を生じる当該パラメ
ータの最小の値を正解下限値と設定する。次に逆に値を
徐々に増加させてゆき、その度に構造認識処理を施し
て、やはり正解であると分かっている結果と異なる結果
を生じるまでこれを繰り返す。一方、これまでに当該文
書画像に類似する構造を持つ文書画像デ−タに対して求
めた正解下限値および正解上限値のデ−タは、それぞれ
数値デ−タの集まりとしてファイルの中に納められてい
る。またこのファイル中には、当該パラメ−タの現時点
での最適値も納められている。ここで、当該ファイル中
に納められている正解下限値およびおよび正解上限値の
デ−タをシステムに読み込み、それらのデ−タに新しく
求められた正解下限値および正解上限値のデ−タを併
せ、更に、それらの正解下限値および正解上限値のデー
タがそれぞれ正規分布をしていると仮定し、それぞれに
対して分布の平均値および標準偏差を求める。
【0014】そして正解下限値に対してはその平均値μ
lおよび標準偏差σlを用いて、 μl+3×σl・・・・・式1 によって求められる値を当該パラメータの正解範囲の下
限値とし、一方正解上限値に対してはその平均値μuお
よび標準偏差σuを用いて、 μu−3×σu・・・・・式2 によって求められる値を当該パラメータの正解範囲の上
限値とする。以上によって、互いに類似の構造を持つ文
書画像データ群につき、あるパラメータに対して、それ
が正解を与える値の範囲の統計的な推定を行った。もし
ここで、上記のようにして求められた正解範囲の下限値
が正解範囲の上限値よりも大きかった場合には、正解範
囲が存在しないことになる。このような場合には、分布
を求めた文書画像データ群中において、当該パラメータ
が表す特徴における類似度が互いにそれほど大きくなか
ったことを示すと思われるので、当該文書データ群を再
度分類し直すなどの作業が必要になる。
【0015】次に、ステップ13のパラメータの最適化
においては、ステップ12のパラメータの正解範囲の推
定において求めた正解範囲の例えば中心を、新たに当該
パラメータの値とする。ステップ14のパラメータの更
新においては、新しく求められた正解下限値および正解
上限値のデータを、当該文書画像に類似する構造を持つ
文書画像データ群に対して求めた正解下限値および正解
上限値のデータが納められているファイル中に新たに追
加して書き込み、また当該ファイル中に納められている
当該パラメータの値を新しく求められた値で更新する。
【0016】以上説明を行った、あるパラメータの正解
下限値および正解上限値、またパラメータの最適化され
た推定値は、互いに類似した構造を持つ文書画像データ
群のそれぞれに対して保持されており、ある文書画像が
与えられたときに、それと類似した構造を持つ文書画像
データ群から求めたパラメータの推定値を用いて構造認
識処理を行ったり、またその文書画像データから当該パ
ラメータの正解下限値および正解上限値を求めて、それ
を用いて当該パラメータに対する学習をより進めさせる
ことができる。
【0017】
【発明の効果】以上説明を行ったように、本発明によれ
ば、文章領域と図領域のどちらか一方もしくはその双方
を有する文書に対し、当該文書画像の構造認識を行う際
に、構造認識に用いるなんらかのパラメータに対して、
予め、当該文書画像データと相当する構造を持つ複数の
文書画像データから、それぞれの文書画像データに対す
る構造認識処理によって正解を得るための当該パラメー
タの正解下限値および正解上限値を求め、当該文書画像
データ群の正解下限値および正解上限値の分布を求め
る。そのデータに、「学習モード」において、当該文書
画像データから求めた正解下限値および正解上限値を併
せた分布から当該文書画像データ群に対する当該パラメ
ータの正解範囲を推定し、その最適値を決定する。この
値に設定された当該パラメータを用いることにより、当
該文書画像の構造認識をより効果的に行うことができ
た。
【図面の簡単な説明】
【図1】 本発明を適用した文書自動入力装置
【図2】 全体処理のフロ−チャ−ト
【図3】 「学習モード」における処理のフローチャー
【符号の説明】
1 文書自動入力装置 2 ブロック抽出工程 3 領域の分類工程 4 文字認識工程 5 文字コ−ドデ−タファイル 6 画像デ−タファイル 7 学習モードにおける構造認識処理への入力画像デー
タ 8 学習モードにおける構造認識処理からの出力データ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文章領域と図領域のどちらか一方もしく
    はその両方の属性を有する領域を持つ文書の画像デ−タ
    を入力として、当該文書画像データからまとまった文章
    領域や図の領域を表現するブロックを抽出し、当該文書
    画像データの構造を認識し、あるブロックが文章領域と
    図領域とのどちらの属性を持つものであるかを判定もし
    くは両者を区別し、文章領域の内容に対応する文字列デ
    −タおよび図領域の内容に対応する画像デ−タを出力す
    る文書認識システムにおいて、文書画像の構造認識に用
    いるなんらかのパラメータに対して、その値を決定する
    学習モードを全体的な処理の流れとは別に持ち、その学
    習モードにおいて、当該文書画像データに対してまず当
    該パラメータの値を初期値に設定して構造認識処理を行
    い、その結果が正解であるかどうかを操作者によって教
    授され、正解でない場合には当該パラメータの値を変更
    して再度構造認識処理を行い、一方正解である場合には
    当該パラメータの値を自動的に変えながら複数回構造認
    識処理を繰り返して正解を得るための当該パラメータの
    正解下限値および正解上限値を求め、当該文書画像デー
    タと類似の構造を持つ他の文書画像データから予め求め
    て蓄積されている正解下限値および正解上限値のデータ
    と併せて正解下限値および正解上限値の分布を求め、そ
    の分布から当該文書画像データおよびそれに相当の構造
    を持つ他の文書画像データに対する当該パラメータの正
    解範囲を推定し、その正解範囲から最適値を決定し、お
    よび/または複数種の異なった構造の文書画像データに
    対して別個に最適化されたパラメータを保持しており、
    それらを処理の対象とする文書によって切り換えて使用
    する機能を備えていることを特徴とする文書認識システ
    ム。
JP4252283A 1992-08-27 1992-08-27 文書認識システム Pending JPH0676105A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4252283A JPH0676105A (ja) 1992-08-27 1992-08-27 文書認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4252283A JPH0676105A (ja) 1992-08-27 1992-08-27 文書認識システム

Publications (1)

Publication Number Publication Date
JPH0676105A true JPH0676105A (ja) 1994-03-18

Family

ID=17235101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4252283A Pending JPH0676105A (ja) 1992-08-27 1992-08-27 文書認識システム

Country Status (1)

Country Link
JP (1) JPH0676105A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105836A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 論理構造抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105836A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 論理構造抽出装置

Similar Documents

Publication Publication Date Title
US7319799B2 (en) Method of recognizing and indexing documents
JP2667435B2 (ja) 領域抽出方法
EP0843277A2 (en) Page analysis system
US20020015525A1 (en) Image processor for character recognition
JPH0721319A (ja) 自動アジア言語決定装置
EP1017011A2 (en) Block selection of table features
JP4077919B2 (ja) 画像処理方法及び装置及びその記憶媒体
KR0167616B1 (ko) 화상 처리 장치 및 방법
JP2926066B2 (ja) 表認識装置
JPH0676105A (ja) 文書認識システム
JP3852218B2 (ja) 画像処理方法および画像処理装置
JPS62271080A (ja) 画像情報の文字・図形分離方法
JP3020662B2 (ja) 文字行切り出し装置及び文字認識装置
JPH06301775A (ja) 画像処理方法、画像識別方法および画像処理装置
JPH0581474A (ja) 文字列抽出方法および文字領域検出方法
KR100334624B1 (ko) 클러스터링기반문서영상분할방법
KR970002424B1 (ko) 후보문자분류방법
JP4409678B2 (ja) 罫線抽出方式
JPH0520455A (ja) 画像処理方法
JPH0652353A (ja) 文書認識システム
JPH07152862A (ja) 文字認識用の文字切り出し装置
JP2002074265A (ja) テロップパターン認識装置
JPH03219384A (ja) 文字認識装置
JPH06162106A (ja) 電子ファイリングシステム
JPH1117936A (ja) 宛名領域抽出方法および装置