JPH07168910A - 文書レイアウト解析装置及び文書フォ−マット識別装置 - Google Patents

文書レイアウト解析装置及び文書フォ−マット識別装置

Info

Publication number
JPH07168910A
JPH07168910A JP6050866A JP5086694A JPH07168910A JP H07168910 A JPH07168910 A JP H07168910A JP 6050866 A JP6050866 A JP 6050866A JP 5086694 A JP5086694 A JP 5086694A JP H07168910 A JPH07168910 A JP H07168910A
Authority
JP
Japan
Prior art keywords
document
vector
area
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6050866A
Other languages
English (en)
Inventor
Masateru Yamaoka
正輝 山岡
Kazumi Iwane
和巳 岩根
Osamu Iwaki
修 岩城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP6050866A priority Critical patent/JPH07168910A/ja
Publication of JPH07168910A publication Critical patent/JPH07168910A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 文書画像データの項目領域を識別する知識ベ
ース型の文書レイアウト解析装置において、知識ベース
を改良して識別精度を向上させる。 【構成】 参照用文章の基準項目領域を参照ベクトルに
変換してこれを参照ベクトル格納部5に格納しておく。
識別対象となる未知文書は、画像入力部1で画像データ
に変換され、基本矩形領域抽出部2で複数の矩形領域に
分割され、各矩形領域毎に特徴ベクトル化される。項目
領域識別部6ではこれら特徴ベクトルに最も適応する参
照ベクトルを各々参照ベクトル格納部5から抽出し、こ
れを各矩形領域に対応付ける。これにより未知文書の項
目領域の識別が容易となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書を光学的読取手段
等で読み取ってデータベースを構築する知識ベース型シ
ステムに係り、特に、複数の項目領域を有する文書の画
像データから知識ベースを用いて各項目領域を識別する
文書レイアウト解析装置、及び入力された文書がどのフ
ォーマット種の文書であるかを識別する文書フォーマッ
ト識別装置に関する。
【0002】
【従来の技術】文書画像中の論理構成要素、即ち、文章
の「本文」、「標題」、「あらまし」、「みだし」、
「著者」、「頁番号」等の項目領域を抽出する際に、文
書の記述内容とそのレイアウト方法との関係性(以下、
レイアウト規則と呼ぶ)に着目し、このレイアウト規則
を知識として用いることにより上記各項目領域の識別を
行う文書レイウト解析装置が知られている。この場合、
レイアウト規則は文書ごとに異なるから、これを知識ベ
ースとして扱い、知識ベース型のシステムを構築するの
が一般的である。この文書レイアウト解析装置は、例え
ば「山下、天野:モデルに基づいた文書画像のレイアウ
ト解析,電子情報通信学会論文誌,vol.J75-D-II,No.1
0,pp1637-1681,1992」等に開示されている。
【0003】従来の文書レイアウト解析装置では、知識
ベースをプロダクション・ルール(IF−THEN型の
生成規則)やフレームモデル等で記述し、推論エンジン
によって入力文書画像から得られた画像特徴と知識ベー
スとのマッチングを行うことで特定の知識を表現してい
た。
【0004】また、文書画像を光学文字読み取り装置
(OCR)等で読み取る場合、上記のような各項目のレ
イアウト情報が予め得られていると、各文書画像に対し
て再度上記のようなレイアウト解析を行う必要がなくな
るので、認識処理時間を短縮することができる。
【0005】特に、帳票等においては文書画像中におい
ては、売上高や請求金額等に関する一部の項目領域のみ
が認識対象となる。従って、レイアウト情報が予め得ら
れていると、文書画像中において読み取り対象となる項
目領域のみを限定して読み取り処理を行うことができ、
処理時間が短縮される。更に、読み取り対象となる項目
領域を誤判定することもないので、認識精度も高くな
る。
【0006】このように、文書画像のレイアウト情報が
予め得られていると有利な点が多いので、処理対象とな
る文書のレイアウト配置(フォーマット)の種別を識別
する装置が求められている。現在、このような文書フォ
ーマット識別手法として、例えば予めフォーマット種を
登録しておくとともに、処理対象となる文書画像を入力
するたびに、そのフォーマット種をオペレータ等がマニ
ュアル指定する手法が用いられている。
【0007】しかし、この手法ではオペレータ等が人為
的にフォーマット種を入力する必要があり、自動識別を
行うことはできない。そこで、入力するすべての文書の
共通する位置に文書のフォーマット種を識別するための
記号等をあらかじめ印刷し、これを文書の光学的読み取
りに先だって認識する文書フォーマット識別手法が用い
られている。
【0008】また、表フィールドで構成される帳票に関
しては、表フィールドの数や位置、大きさに関する特徴
を用いた手法が特願平1−49800号公報(帳票識別
装置)に開示されている。
【0009】
【発明が解決しようとする課題】しかしながら、従来の
文書レイアウト解析装置では、知識ベースの記述形式が
ルールやモデル形式であり、厳密な数値データとして記
述することが困難なので、画像特徴と知識ベースとのマ
ッチングの最適化処理による識別精度の向上に一定の限
界があり、これに代わる知識ベースの形態が望まれてい
た。
【0010】また、従来の文書フォーマット識別手法で
は、入力文書の固定位置に識別のための記号等を予め印
刷し、これを文書の認識に先だって認識している。しか
しながら、このような手法では、識別記号が印刷されて
いない既存の文書や識別記号等の印刷ができない文書の
フォーマットを識別することができなかった。
【0011】更に、表フィールドから構成される帳票に
関しては、表フィールドの数や位置、大きさに関する特
徴を用いた手法が用いられているが、表フィールドのな
い一般文書に関してはこのような手法は適用できなかっ
た。
【0012】本発明は、上記背景に鑑みて創案したもの
で、所定レイアウトの文字領域を対象として、項目領域
を抽出するための知識ベースを参照用文書データを用い
て獲得する際に、その知識ベースを数値データとして表
すことで、上記識別精度の向上を図り得る文書レイアウ
ト解析装置を提供することを目的としている。本発明の
他の目的は、文書画像を解析してそのフォーマット種を
識別する文書フォーマット識別装置を提供することにあ
る。
【0013】
【課題を解決するための手段】本発明は、文書の項目領
域のレイアウトの規則性が、画像データから抽出した矩
形領域の画像特徴として表れる点、及びこれら画像特徴
が本来的にベクトルにより数値化される点に着目し、
「本文」、「標題」、「あらまし」のような記述内容表
示や頁番号等の基準項目領域に対してそれぞれの画像特
徴を表す参照ベクトルを知識ベースとして用意すると共
に、識別対象となる文字領域を複数の矩形領域に分割
し、各矩形領域における特徴ベクトルと上記各参照ベク
トルとを比較して領域毎の識別を行うようにしたもので
ある。
【0014】即ち、本発明が提供する文書レイアウト解
析装置は、文章の記述内容表示や頁番号等の複数種類の
項目領域を有する文書を画像データに変換して取り込
み、この画像データと予め保持された前記文書のレイア
ウト知識とを参照して当該文書の前記項目領域の識別を
行う文書レイアウト解析装置において、前記取り込んだ
画像データから複数の文字領域を検出して各文字領域の
画像特徴をベクトル化するベクトル生成手段と、予めレ
イアウトが判明している参照用文書の基準項目領域の画
像特徴を前記ベクトル生成手段で参照ベクトルに変換
し、これら参照ベクトルを前記レイアウト知識として格
納する参照ベクトル格納手段と、識別対象となる未知文
書中の複数の文字領域の画像特徴を前記ベクトル生成手
段で特徴ベクトルに変換し、これら特徴ベクトルに各々
最も適応する参照ベクトルを未知文書の当該文字領域の
項目領域に対応付ける項目領域識別手段と、を有するこ
とを特徴とする。
【0015】また、本発明が提供する文書フォーマット
識別装置は、入力された文書画像を画像データに変換し
て取り込む文書画像入力手段と、前記取り込んだ画像デ
ータから、その画像特徴を表すベクトルを生成するベク
トル生成手段と、それぞれ対応するフォーマットの特徴
を表す参照ベクトルを格納する参照ベクトル格納手段
と、識別対象となる未知文書の画像特徴を前記ベクトル
生成手段で特徴ベクトルに変換し、この特徴ベクトルに
最も適応する参照ベクトルに対応するフォーマット種を
検出し、検出されたフォーマット種を前記未知文書のフ
ォーマットとして選択するフォーマット種識別手段と、
を有することを特徴とする。
【0016】上記各装置において、個々の特徴ベクトル
と参照ベクトルとの適応性基準としては、例えば、ユー
クリッド距離が最も小さくなる参照ベクトルを最も適応
する参照ベクトルとする。
【0017】これらの構成において、前記ベクトル生成
手段は、例えば、前記取り込んだ画像データから文字画
素の連結毎に外接する矩形領域を抽出し、その間隔が所
定の閥値以下となる隣接矩形領域に対しては各矩形領域
を内包する最小の矩形領域に統合することで前記画像デ
ータを複数の矩形領域に分割するとともに、分割された
各矩形領域の画像特徴をそれぞれベクトル化するもので
ある。また、特定の矩形領域のみを抽出して該領域の画
像特徴をベクトル化するものであっても良い。
【0018】更に、前記参照ベクトル格納手段は、同一
種類の複数の項目領域の特徴ベクトルの線形判別分析処
理を含む前処理を行う前処理手段と、項目領域毎の特徴
ベクトルの平均ベクトルを演算する演算手段とを有し、
この平均ベクトルを参照ベクトルとして格納する構成で
あっても良い。この構成によれば、前処理手段によって
有効な画像特徴のみが取り出されるので処理が的確且つ
迅速になるとともに、ベクトルが平均化されるから参照
ベクトルがより客観的なものとなり、未知文書の項目領
域の識別の信頼性が高まる。
【0019】なお、特徴ベクトルとしては、例えば各矩
形領域の大きさや座標等の数値を構成要素とするベクト
ルを用いる。これらの値は文書のレイアウトに直結する
値であり、レイアウトを特徴ベクトルという数値によっ
て定量化することができる。
【0020】
【作用】本発明の文書レイアウト解析装置においては、
参照ベクトル格納手段にて「本文」、「標題」、「あら
まし」等の基準項目領域の画像特徴を表す参照ベクト
ル、又はフォーマットの特徴を表す参照ベクトルを予め
格納する。
【0021】ベクトル生成手段は、入力された未知文書
の画像データにおける文字領域を複数の矩形領域に分割
し、各分割された矩形領域の画像特徴をベクトル化す
る。分割の要領としては、例えば、画像データから文字
画素の連結毎に外接する矩形領域を抽出し、その間隔が
所定の閥値以下となる隣接矩形領域に対しては各矩形領
域を内包する最小の矩形領域に統合することで上記画像
データを複数の矩形領域に分割する。
【0022】この閾値を小さく設定すると、各矩形領域
が文字の1つ1つに対応し、閾値を大きく設定すると、
各矩形領域が文字列に対応するようになる。これら矩形
領域は、座標等の数値によって表されるので、未知文書
のレイアウトやフォーマットというあいまいな情報が、
ベクトルという厳密な数値情報として表され、客観的に
評価できるようになる。
【0023】項目識別手段では、各矩形領域から生成さ
れた特徴ベクトル毎に各々最も適応する参照ベクトルを
求め、各参照ベクトルに対応する基準項目領域を当該矩
形領域に対応付ける。これにより未知文書の項目領域の
識別が容易になる。同様に、フォーマット識別手段で
は、未知文書の画像データから生成された特徴ベクトル
毎に各々最も適応する参照ベクトルを求め、各参照ベク
トルに対応するフォーマット種を未知文書に対応付け
る。これにより未知文書のフォーマット種の識別が容易
になる。
【0024】
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。 (第1実施例)図1は本発明の第1実施例に係る文書レ
イアウト解析装置のブロック構成図である。図1におい
て、1は画像入力部、2は基本矩形領域抽出部、3は特
徴ベクトル抽出部、4は参照ベクトル生成部、5は参照
ベクトル格納部、6は項目領域識別部、7は項目領域出
力部である。
【0025】この実施例においては、図2の手順で、
「本文」、「標題」、「あらまし」等の基準項目領域の
レイアウトが既知である参照用文書を用いて各基準項目
領域毎に参照ベクトルを生成するとともに、図3の手順
で、上記参照用文書と同一のレイアウト規則によって印
刷された入力文書(未知文書)の文字領域の項目領域の
識別を行う。図2及び図3において、Sは各処理ステッ
プを表す。
【0026】まず、図1及び図2に基づいて参照ベクト
ルの生成過程について説明する。本実施例では、画像入
力部1にて上記参照用文書を1頁づつ走査し、メモリ
(図示省略)に2値のデジタル画像として格納する(S
21)。基本矩形領域抽出部2では、デジタル画像とし
て格納された参照用文書の画像データから、基本矩形領
域を抽出する(S22)。ここで、基本矩形領域とは、
入力画像の黒画素連結成分に外接する矩形を求め、互い
に重なり合う矩形をそれぞれ1つに統合することによっ
て得られる領域の意である。図4にこの基本矩形領域の
一例を示す。特徴ベクトル抽出部3では、図4に示すよ
うな各基本矩形領域の画像特徴をベクトル化(特徴ベク
トル)し、これを参照ベクトル生成部4に出力する(S
23)。
【0027】図5に本実施例による画像特徴の一例を示
す。図5を参照すると、この画像特徴は、例えば、基本
矩形領域の位置(2次元座標)とその幅及び高さ、該基
本矩形領域が含まれる行の高さとその行の上下の各行間
隔、該基本矩形領域が含まれる行の用紙左端、右端まで
のマージン(左マージン、右マージン)で、特徴ベクト
ルは、これらの9個の数値を要素とする。
【0028】参照ベクトル生成部4では、各基本矩形領
域がとの項目領域に所属するかを決定するとともに、各
項目領域に対してそれぞれ所属する基本矩形領域の特徴
ベクトルの平均ベクトルを算出して参照ベクトル格納部
5に出力する(S24)。本実施例においては、参照用
文書において各項目領域に対応する基本矩形領域をそれ
ぞれマン・マシンによって指示する。また、平均ベクト
ルをそれぞれ算出する前に、すべての特徴ベクトルを用
いて線形判別分析を行うことにより、後述する未知文書
の基本矩形領域の項目の識別精度が向上する。
【0029】この線形判別分析を行った特徴ベクトル空
間の一例を図6に示す。図6において、横軸は線形判別
分析を行った結果の第一軸、縦軸は線形判別分析を行っ
た結果の第二軸を示し、各点はそれぞれ各項目に対応す
る平均ベクトルの位置を示している。
【0030】次に、図1及び図3を参照して未知文書の
項目領域の識別過程を説明する。参照ベクトル生成時と
同様、画像入力部1に未知文書を1ページづつ入力し、
メモリに2値のデジタル画像として格納する(S3
1)。基本矩形領域抽出部2では、デジタル画像として
格納された入力画像から、基本矩形領域を抽出する(S
32)。特徴ベクトル抽出部3では、各基本矩形領域の
画像特徴を抽出し、特徴ベクトルを項目領域識別部6に
出力する(S33)。項目領域識別部6では、基本矩形
領域の特徴ベクトルと参照ベクトル格納部5に格納され
た各参照ベクトルとの距離をそれぞれ計算し、最も距離
の近い参照ベクトルに対応する項目をその基本矩形領域
の項目ラベルとする。そして、各基本矩形領域及びその
項目ラベルを項目領域出力部7に出力する。(S3
4)。図7に「あらまし」領域としてラベル付けされた
基本矩形領域を示す。
【0031】項目領域出力部7は、項目ラベルが共通す
る基本矩形領域を含み、かつ他の項目ラベルが付けられ
た基本矩形領域を含まないように領域を設定して出力す
る。このように項目領域を決定することで、未知文書に
対してレイアウト解析を容易に行うことができる。特
に、線形判別分析を行うことで、項目領域を高い精度で
識別することができる。
【0032】なお、この実施例においては基本入力画像
の黒画素連結成分に外接する矩形を求め、互いに重なり
合う矩形をそれぞれ1つに統合することによって得られ
る領域を基本矩形領域としている。図7に示されるよう
に、このように定められた基本矩形領域は、通常1文字
分に対応するが、隣接する基本矩形領域間の距離が予め
定められた閥値よりも小さい基本矩形領域を統合するこ
とによって得られる領域を基本矩形領域としてもよい。
この場合、適切な値の閥値を用いることにより、基本矩
形領域を行、あるいは複数行のブロックに対応させるこ
とができる。このように基本矩形領域を定めることで、
1文字毎の項目領域の識別を行う場合よりも迅速な識別
が可能になる。
【0033】(第2実施例)図8は、本発明の第2実施
例に係る文書フォーマット識別装置のブロック構成図で
ある。図8において、81は画像入力部、82は文字列
領域抽出部、83は特徴ベクトル抽出部、84は参照ベ
クトル生成部、85は参照ベクトル格納部、86はフォ
ーマット種識別部、87はフォーマット種出力部であ
る。
【0034】この実施例においては、図9に示す手順に
より、フォーマット種が既知である参照用文書を用いて
そのフォーマット種に対応する参照ベクトルを生成して
おく。このように各フォーマット種に対応する参照ベク
トルを生成した後に、図10の手順で、フォーマット種
が未知の文書のフォーマット種を識別する。図9及び図
10において、Sは各処理ステップを表す。
【0035】まず、図8及び図9に基づいて、図11に
示される参照用文書から参照ベクトルを生成する過程に
ついて説明する。この実施例では、画像入力部81にて
上記参照用文書を走査し、メモリ(図示省略)に二値の
デジタル画像として格納する(S91)。文字列領域抽
出部82では、デジタル画像として格納された参照用文
書の画像データから、文字列に相当する文字列領域を抽
出する(S92)。この文字列領域は、例えば、文書画
像データから黒画素の連結成分を抽出し、さらに、入力
文書が横書きの場合は水平方向、入力文書が縦書きの場
合は垂直方向に一定値以下の距離をもつ黒画素の連結成
分を統合して矩形を抽出することにより得られる。この
場合には抽出された矩形が文字列領域となる。
【0036】例えば図11に示す入力画像から抽出され
る文字列領域を図12に示す。特徴ベクトル抽出部83
では、図12に示されるような各文字列領域における文
字列の位置や大きさ等に関する画像特徴をベクトル(特
徴ベクトル)化し、参照ベクトル生成部84に出力する
(S93)。
【0037】次に、すべての参照用画像を入力したかど
うかを検出し、未入力の参照用画像がある場合にはS9
1に戻り、未入力の参照用画像を入力する。すべての参
照用画像の入力が終了していれば、次のステップに進む
(S94)。参照ベクトル生成部84では、各参照用文
書の特徴ベクトルを線形変換し、得られたベクトルに対
してフォーマット種ごとに平均ベクトルを求める。そし
て、得られた平均ベクトルをそのフォーマット種の参照
ベクトルとして(S95)、参照ベクトル格納部85に
格納する(S96)。
【0038】ここで用いる線形変換行列は、第1実施例
と同様に線形判別分析によっても求めれことができ、こ
れにより後述するフォーマット種が未知である文書の識
別精度が向上する。
【0039】以下に、特徴ベクトルの一算出例を述べ
る。文字列領域抽出部82の出力から特徴ベクトルを算
出するために、図13に示すように、入力文書画像の左
上端を原点、水平方向をx軸、垂直方向をy軸とする座
標系を考える。
【0040】文字列抽出部83から出力された文字列領
域に相当する矩形の左上端のx座標をsx、y座標をs
y、右下端のx座標をex、y座標をeyとする。さら
に、文字列領域に相当する矩形領域内に含まれる黒連結
矩形の領域の面積の和が文字列に相当する矩形領域の面
積に占める割合をdnstとする。各文字列領域それぞ
れについて、これら5つの値を成分とする5次元ベクト
ルを算出する。さらに、フォーマット種が同一である文
字列領域のベクトルから平均ベクトルを算出し、これを
入力文書の特徴ベクトルとする。従って、この例におい
ては特徴ベクトルは、5次元のベクトルとなる。
【0041】次に、図8及び図10を参照してフォーマ
ット種が未知である文書の項目領域の識別過程を説明す
る。
【0042】参照ベクトル生成時と同様、文書画像入力
部81にフォーマットが未知の文書を1ページづつ入力
し、メモリに2値のデジタル画像として格納する(S1
01)。文字列領域抽出部82では、デジタル画像とし
て格納された入力画像から、文字列領域を抽出する(S
102)。特徴ベクトル抽出部83では、各文字列領域
の画像特徴を抽出し、特徴ベクトルをフォーマット種識
別部86に出力する(S103)。
【0043】フォーマット種識別部86では、文字列領
域の特徴ベクトルと参照ベクトル格納部85に格納され
た各参照ベクトルとの距離をそれぞれ計算し、最も距離
の近い参照ベクトルに対応するフォーマット種をその文
書のフォーマット種として識別し(S104)、その結
果をフォ−マット種出力部87へ出力する(S10
5)。このようにして、未知文書のフォーマット種を容
易に識別することができる。特に、入力文書の特徴ベク
トルを線形変換し、各参照ベクトルとのユークリッド距
離を個別に算出し、最も距離の短い参照ベクトルに対応
するフォーマット種を識別結果とすることで、認識精度
を向上することができる。
【0044】
【発明の効果】以上詳細に説明したように、本発明によ
れば、従来、厳密な数値データとして扱うことが困難で
あったレイアウト情報やフォーマット情報を、文書の画
像特徴を表す特徴ベクトル、参照ベクトル、矩形領域と
して数値化して扱うことができるので、識別精度が従来
に比べて格段に向上する効果がある。
【0045】特に、本発明の文書レイアウト解析装置に
おいては、特定の項目領域のみを選択的に抽出して該領
域の画像特徴をベクトル化できるので、文書紙面全体の
レイアウト解析が不要となり、実用上の効率化が図れる
効果もある。
【0046】更に、文書フォーマット識別装置において
は、文書の種類を識別するために記号等をあらかじめ印
刷することなく文書の種類を識別することが可能となる
ので、あらかじめ文書の種類を識別するための記号等が
印刷されていない文書の種類の識別が可能となる効果が
ある。従って、既存の文書をコンピュータ等に電子化し
て自動入力する際に、入力処理の効率化が図れるように
なる。
【図面の簡単な説明】
【図1】本発明の文書レイアウト解析装置のブロック構
成例を示す図。
【図2】参照ベクトルの生成過程を示すフローチャー
ト。
【図3】入力文書の項目領域の抽出過程を示すフローチ
ャート。
【図4】入力文書の基本矩形領域の一例の説明図。
【図5】基本矩形領域の画像特徴の説明図。
【図6】基本矩形領域の特徴ベクトル空間の一例の説明
図。
【図7】未知文書から抽出された「あらまし」領域にラ
ベル付けされた基本矩形領域の一例を示す説明図。
【図8】本発明の文書フォーマット識別装置のブロック
構成例を示す図。
【図9】参照ベクトルの生成過程を示すフローチャー
ト。
【図10】入力文書のフォーマット種の識別過程を示す
フローチャート。
【図11】入力文書の一例の説明図。
【図12】入力文書から抽出した文字列領域の説明図。
【図13】特徴ベクトルの算出手法の説明図。
【符号の説明】
1 画像入力部 2 基本矩形領域抽出部 3 特徴ベクトル抽出部 4 参照べクトル生成部 5 参照ベクトル格納部 6 項目領域識別部 7 項目領域出力部 81 画像入力部 82 文字列領域抽出部 83 特徴ベクトル抽出部 84 参照ベクトル生成部 85 参照ベクトル格納部 86 フォーマット種識別部 87 フォーマット種出力部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文章の記述内容表示や頁番号等の複数種
    類の項目領域を有する文書を画像データに変換して取り
    込み、この画像データと予め保持された前記文書のレイ
    アウト知識とを参照して当該文書の前記項目領域の識別
    を行う文書レイアウト解析装置において、 前記取り込んだ画像データから複数の文字領域を検出し
    て各文字領域の画像特徴をベクトル化するベクトル生成
    手段と、 予めレイアウトが判明している参照用文書の基準項目領
    域の画像特徴を前記ベクトル生成手段で参照ベクトルに
    変換し、これら参照ベクトルを前記レイアウト知識とし
    て格納する参照ベクトル格納手段と、 識別対象となる未知文書中の複数の文字領域の画像特徴
    を各々前記ベクトル生成手段で特徴ベクトルに変換し、
    個々の特徴ベクトルに最も適応する前記参照ベクトルを
    各々当該文字領域に対応付ける項目領域識別手段と、を
    有することを特徴とする文書レイアウト解析装置。
  2. 【請求項2】 請求項1記載の文書レイアウト解析装置
    において、 前記ベクトル生成手段は、 前記取り込んだ画像データの文字領域から文字画素の連
    結毎に外接する矩形領域を抽出し、その間隔が所定の閥
    値以下となる隣接矩形領域に対しては各矩形領域を内包
    する最小の矩形領域に統合することで前記文字領域を複
    数の矩形領域に分割するとともに、分割された各矩形領
    域の画像特徴をそれぞれベクトル化することを特徴とす
    る文書レイアウト解析装置。
  3. 【請求項3】 請求項2記載の文書レイアウト解析装置
    において、 前記ベクトル生成手段は、特定の矩形領域のみを選択的
    に抽出し、該矩形領域の画像特徴をベクトル化すること
    を特徴とする文書レイアウト解析装置。
  4. 【請求項4】 請求項1ないし3のいずれかの項記載の
    文書レイアウト解析装置において、 前記参照ベクトル格納手段は、同一種類の複数の項目領
    域の特徴ベクトルの線形判別分析処理を含む前処理を行
    う前処理手段と、項目領域毎の特徴ベクトルの平均ベク
    トルを演算する演算手段とを有し、この平均ベクトルを
    前記参照ベクトルとして格納することを特徴とする文書
    レイアウト解析装置。
  5. 【請求項5】 入力された識別対象文書を画像データに
    変換して取り込む文書画像入力手段と、 前記取り込んだ画像データから、その頁単位の画像特徴
    を表すベクトルを生成するベクトル生成手段と、 異なる文書フォーマット種の特徴をそれぞれ表す複数の
    参照ベクトルを格納する参照ベクトル格納手段と、 識別対象となる未知文書の画像特徴を前記ベクトル生成
    手段で特徴ベクトルに変換し、この特徴ベクトルに最も
    適応する参照ベクトルを前記参照ベクトル格納手段から
    選択抽出し、抽出した参照ベクトルに対応するフォーマ
    ット種を前記未知文書のフォーマット種として識別する
    フォーマット種識別手段と、を有することを特徴とする
    文書フォーマット識別装置。
  6. 【請求項6】 請求項5記載の文書フォーマット識別装
    置において、 前記ベクトル生成手段は、 前記取り込んだ画像データから文字列領域を全て検出し
    て各文字列領域の画像特徴をそれぞれベクトル化し、得
    られた各ベクトルから前記画像特徴を表す特徴ベクトル
    を生成することを特徴とする文書フォーマット識別装
    置。
  7. 【請求項7】 請求項6記載の文書フォーマット識別装
    置において、 前記ベクトル生成手段は、 前記取り込んだ画像データから文字画素を検出するとと
    もに、文字画素の連結毎に外接する矩形領域を抽出し、
    その間隔が所定の閥値以下となる隣接矩形領域に対して
    は各矩形領域を内包する最小の矩形領域に統合すること
    で前記文字列領域を検出することを特徴とする文書フォ
    ーマット識別装置。
  8. 【請求項8】 請求項5乃至7のいずれかの項記載の文
    書フォーマット識別装置において、 予めフォーマット種が判明している参照文書の画像特徴
    を前記ベクトル生成手段で特徴ベクトルに変換し、同一
    フォーマット種の特徴ベクトルから該フォーマット種に
    対応する参照ベクトルを生成する参照ベクトル生成手段
    を有し、生成した参照ベクトルを前記参照ベクトル格納
    手段に格納することを特徴とする文書フォーマット識別
    装置。
  9. 【請求項9】 請求項8記載の文書フォーマット識別装
    置において、 前記参照ベクトル生成手段は、 同一フォーマット種の複数の文書の特徴ベクトルの線形
    判別分析処理を含む前処理を行う前処理手段と、 各フォーマット種毎の特徴ベクトルの平均ベクトルを演
    算する演算手段とを有し、この平均ベクトルを前記参照
    ベクトルとして生成することを特徴とする文書フォーマ
    ット識別装置。
JP6050866A 1993-10-19 1994-03-22 文書レイアウト解析装置及び文書フォ−マット識別装置 Pending JPH07168910A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6050866A JPH07168910A (ja) 1993-10-19 1994-03-22 文書レイアウト解析装置及び文書フォ−マット識別装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-260570 1993-10-19
JP26057093 1993-10-19
JP6050866A JPH07168910A (ja) 1993-10-19 1994-03-22 文書レイアウト解析装置及び文書フォ−マット識別装置

Publications (1)

Publication Number Publication Date
JPH07168910A true JPH07168910A (ja) 1995-07-04

Family

ID=26391347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6050866A Pending JPH07168910A (ja) 1993-10-19 1994-03-22 文書レイアウト解析装置及び文書フォ−マット識別装置

Country Status (1)

Country Link
JP (1) JPH07168910A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099508B2 (en) 2001-11-29 2006-08-29 Kabushiki Kaisha Toshiba Document identification device, document definition method and document identification method
JP2008033393A (ja) * 2006-07-26 2008-02-14 Hitachi Software Eng Co Ltd ダイジェスト作成装置、ダイジェスト作成方法、およびプログラム
CN100430957C (zh) * 2005-11-22 2008-11-05 富士施乐株式会社 图像处理装置、方法
JP2008305088A (ja) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム
JP2010026667A (ja) * 2008-07-17 2010-02-04 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
US8027550B2 (en) 2007-03-30 2011-09-27 Sharp Kabushiki Kaisha Image-document retrieving apparatus, method of retrieving image document, program, and recording medium
JP2021033756A (ja) * 2019-08-27 2021-03-01 トッパン・フォームズ株式会社 画像解析装置、画像解析方法、及びプログラム
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099508B2 (en) 2001-11-29 2006-08-29 Kabushiki Kaisha Toshiba Document identification device, document definition method and document identification method
CN100430957C (zh) * 2005-11-22 2008-11-05 富士施乐株式会社 图像处理装置、方法
JP2008033393A (ja) * 2006-07-26 2008-02-14 Hitachi Software Eng Co Ltd ダイジェスト作成装置、ダイジェスト作成方法、およびプログラム
US8027550B2 (en) 2007-03-30 2011-09-27 Sharp Kabushiki Kaisha Image-document retrieving apparatus, method of retrieving image document, program, and recording medium
JP2008305088A (ja) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム
JP2010026667A (ja) * 2008-07-17 2010-02-04 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2021033756A (ja) * 2019-08-27 2021-03-01 トッパン・フォームズ株式会社 画像解析装置、画像解析方法、及びプログラム
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN115588202B (zh) * 2022-10-28 2023-08-15 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统

Similar Documents

Publication Publication Date Title
Luo et al. Moran: A multi-object rectified attention network for scene text recognition
CN110046529B (zh) 二维码识别方法、装置及设备
US7970213B1 (en) Method and system for improving the recognition of text in an image
US5048099A (en) Polygon-based method for automatic extraction of selected text in a digitized document
Caldeira et al. Industrial optical character recognition system in printing quality control of hot-rolled coils identification
JPH08235341A (ja) ドキュメントファイリング装置および方法
Tribak et al. QR code recognition based on principal components analysis method
US20080222113A1 (en) Image search method, apparatus, and program
Den Hartog et al. Knowledge-based interpretation of utility maps
CN113326797A (zh) 一种pdf文档提取的表格信息转换为结构化知识的方法
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN112883926A (zh) 表格类医疗影像的识别方法及装置
JPH06301781A (ja) コンピュータによるパターン認識のためのイメージ変換方法及び装置
WO2021051527A1 (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
CN111881923A (zh) 一种基于特征匹配的票据要素提取方法
JPH07168910A (ja) 文書レイアウト解析装置及び文書フォ−マット識別装置
CN112396047B (zh) 训练样本生成方法、装置、计算机设备和存储介质
CN114067339A (zh) 图像识别方法及其装置、电子设备、计算机可读存储介质
CN113033559A (zh) 一种基于目标检测的文本检测方法及装置、存储介质
JPH11272800A (ja) 文字認識装置
US11335108B2 (en) System and method to recognise characters from an image
Peng et al. Document image matching based on component blocks
CN114202761B (zh) 一种基于图片信息聚类的信息批量提取方法
Ahmed Signage recognition based wayfinding system for the visually impaired