JP2000090117A - 文書画像の論理要素抽出方法、装置および記録媒体 - Google Patents

文書画像の論理要素抽出方法、装置および記録媒体

Info

Publication number
JP2000090117A
JP2000090117A JP11187533A JP18753399A JP2000090117A JP 2000090117 A JP2000090117 A JP 2000090117A JP 11187533 A JP11187533 A JP 11187533A JP 18753399 A JP18753399 A JP 18753399A JP 2000090117 A JP2000090117 A JP 2000090117A
Authority
JP
Japan
Prior art keywords
logical
document
model
layout
logical element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11187533A
Other languages
English (en)
Inventor
Tsukasa Kouchi
司 幸地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11187533A priority Critical patent/JP2000090117A/ja
Publication of JP2000090117A publication Critical patent/JP2000090117A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書の論理要素を、そのレイアウト情報を記
述した論理モデルとマッチングにより抽出する際に、論
理要素毎のレイアウト特徴の変動量の履歴を参照して効
果的な学習を行い、論理モデルや諸設定を更新すること
によって論理要素の抽出精度を向上させる。 【解決手段】 レイアウト特徴抽出手段103は、入力
文書画像を領域などの要素に分割し、文書レイアウト構
造に関する特徴を検出する。論理モデル検出手段104
は、複数のモデルの中から処理対象文書タイプに一致す
るモデルを検出し、論理要素抽出手段105は、検出さ
れた論理モデルを用いて文書画像から論理要素を抽出す
る。学習処理手段106は、抽出された論理要素のレイ
アウト特徴の変動量を求め、これを履歴として格納す
る。更新判定手段108は、履歴を参照し、変動量が所
定のしきい値以上であるとき論理モデルを更新する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像の論理要
素を抽出する文書画像の論理要素抽出方法、装置および
論理要素抽出処理プログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】例えば、電子図書館、文書ファイリング
システム、データベースなどを構築する場合に、文書画
像の論理構造を認識し、書誌事項を自動的に抽出するこ
とが要求されると共に、文書画像の種類を認識し、自動
的に適当なフォルダに分類する技術も要求される。
【0003】従来、この種の文書処理装置としては、例
えば、特開平8−287189号公報に記載された技術
がある。この装置では、利用者が予め書誌事項の抽出ル
ールを設定し、さらに予め設定された複数の文字列パタ
ーンとのマッチングにより文書構造の認識を行ってい
る。しかし、上記した装置では、文字認識のためのコス
トがかかり、また文書毎に抽出ルールを作り直す必要が
ある。
【0004】文書の論理構造を認識する他の方法として
は、特開平5−159101号公報に記載された文書論
理構造認識および文書内容認識のための装置および方法
がある。上記した装置および方法では、文書画像の要素
間の関係と構造モデルとの整合性を調べ、該当する構造
モデルの論理構造要素の属性パラメータとして文書画像
の用紙の内容を認識する。そのために、文書要素をノー
ド、要素間の配置関係をリンクするようなグラフ構造の
構造モデルも用いて文書構造認識を行っているが、この
ような構造モデルは全要素間の相対位置関係で定義され
ているため、その作成に手間がかかり、かつ、ある1つ
の要素を誤認識した場合に、他の残りのすべての要素認
識に対して誤認識を発生させる可能性が大きいという問
題がある。
【0005】
【発明が解決しようとする課題】そこで、このような問
題を解決する手法として、本出願人は先に、文書をデジ
タル画像として入力し、該文書画像から前記文書のレイ
アウト特徴を検出し、複数の論理モデルの中から、前記
入力文書のレイアウト特徴に一致する論理モデルを検出
し、該検出された論理モデルを用いて前記文書画像から
論理要素を抽出し、抽出された論理要素におけるレイア
ウト特徴が所定のいきい値以上変動しているとき、前記
文書画像を用いて前記論理モデルを更新する文書画像の
論理要素抽出方法を提案した(特願平10−14578
1号)。
【0006】上記提案した方法は、入力文書のレイアウ
ト特徴が所定のしきい値以上変動しているとき、参照し
ているモデルを更新して論理要素の抽出精度の向上を図
っている。しかし、変動が相当に大きいときには、抽出
結果にノイズが多く含まれる可能性があり、かつ、ある
論理要素に全くレイアウト的な変動がない場合でも、そ
れを検出することが難しく、その結果、抽出結果にノイ
ズが含まれてしまう可能性もある。
【0007】本発明の目的は 文書の論理要素を、その
レイアウト情報を記述した論理モデルとマッチングによ
り抽出する際に、論理要素毎のレイアウト特徴の変動量
の履歴を参照して効果的な学習を行い、論理モデルや諸
設定を更新することによって論理要素の抽出精度を向上
させた文書画像の論理要素抽出方法、装置および記録媒
体を提供することにある。
【0008】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書をデジタル画像とし
て入力し、該文書画像から前記文書のレイアウト特徴を
検出し、複数の論理モデルの中から、前記入力文書のレ
イアウト特徴に一致する論理モデルを検出し、該検出さ
れた論理モデルを用いて前記文書画像から論理要素を抽
出する文書画像の論理要素抽出方法であって、前記論理
要素を抽出する際に、論理モデルにおけるレイアウト特
徴の変動量の履歴を参照し、該レイアウト特徴の変動量
が所定のしきい値以上であるとき、前記論理モデルを更
新することを特徴としている。
【0009】請求項2記載の発明では、前記レイアウト
特徴の変動量は、前記モデルの論理要素と、前記抽出さ
れた最適候補の論理要素について、座標、文字サイズ、
フォントを含むレイアウト特徴を比較したときのレイア
ウト特徴距離値ベクトルであることを特徴としている。
【0010】請求項3記載の発明では、前記論理モデル
の更新は、レイアウト特徴の変動の許容範囲を拡大する
ように更新することを特徴としている。
【0011】請求項4記載の発明では、前記レイアウト
特徴の変動量が所定のしきい値以上であるとき、前記論
理モデルをマルチテンプレート化することを特徴として
いる。
【0012】請求項5記載の発明では、文書をデジタル
画像として入力し、該文書画像から前記文書のレイアウ
ト特徴を検出し、複数の論理モデルの中から、前記入力
文書のレイアウト特徴に一致する論理モデルを検出し、
該検出された論理モデルを用いて前記文書画像から論理
要素を抽出する文書画像の論理要素抽出方法であって、
前記論理要素を抽出する際に、論理モデルにおけるレイ
アウト特徴の変動量の履歴を参照し、該レイアウト特徴
の変動量が所定のしきい値未満であるとき、前記論理要
素の抽出の確信度と該論理要素に隣接する類似領域情報
と該論理要素の文書印字範囲に対する相対座標を基に、
前記論理モデルを更新し、所定のパラメータを更新する
ことにより、論理要素抽出結果のノイズを除去すること
を特徴としている。
【0013】請求項6記載の発明では、前記論理モデル
の更新は、レイアウト特徴の変動の許容範囲を縮小する
ように更新し、前記所定のパラメータの更新は、確信度
の高い抽出候補を選択するためのしきい値の更新である
ことを特徴としている。
【0014】請求項7記載の発明では、文書をデジタル
画像として入力する手段と、該文書画像から前記文書の
レイアウト特徴を検出する手段と、複数の論理モデルの
中から、前記入力文書のレイアウト特徴に一致する論理
モデルを検出する手段と、該検出された論理モデルを用
いて前記文書画像から論理要素を抽出する手段と、該抽
出された論理要素を基に前記論理モデルのレイアウト特
徴の変動量を検出する手段と、該変動量の履歴を格納す
る手段と、前記論理要素の抽出時に前記論理モデルのレ
イアウト特徴の変動量の履歴を参照する手段と、該レイ
アウト特徴の変動量が所定のしきい値以上であるとき、
前記論理モデルを更新する手段とを備えたことを特徴と
している。
【0015】請求項8記載の発明では、文書をデジタル
画像として入力する機能と、該文書画像から前記文書の
レイアウト特徴を検出する機能と、複数の論理モデルの
中から、前記入力文書のレイアウト特徴に一致する論理
モデルを検出する機能と、該検出された論理モデルを用
いて前記文書画像から論理要素を抽出する機能と、論理
要素を抽出する際に、前記論理モデルにおけるレイアウ
ト特徴の変動量の履歴を参照する機能と、該レイアウト
特徴の変動量が所定のしきい値以上であるとき、前記論
理モデルを更新、またはマルチテンプレート化する機能
をコンピュータに実現させるためのプログラムを記録し
たコンピュータ読み取り可能な記録媒体であることを特
徴としている。
【0016】請求項9記載の発明では、文書をデジタル
画像として入力し、該文書画像から前記文書のレイアウ
ト特徴を検出し、複数の論理モデルの中から、前記入力
文書のレイアウト特徴に一致する論理モデルを検出し、
該検出された論理モデルを用いて前記文書画像から論理
要素を抽出する際に、過去の入力文書画像と論理モデル
とのレイアウト特徴毎のマッチング結果を保持した履歴
を参照し、前記履歴から算出された論理要素の変動量が
所定のしきい値以上であるとき、前記論理モデルを更新
する文書画像の論理要素抽出方法であって、前記論理要
素の変動量は、前記論理要素の各レイアウト特徴毎の変
動量から算出することを特徴としている。
【0017】請求項10記載の発明では、文書をデジタ
ル画像として入力し、該文書画像から前記文書のレイア
ウト特徴を検出し、複数の論理モデルの中から、前記入
力文書のレイアウト特徴に一致する論理モデルを検出
し、該検出された論理モデルを用いて前記文書画像から
論理要素を抽出する際に、過抽出されたノイズを削減す
るための指標である、論理要素のノイズ削減可能性指標
が所定のしきい値以上であるとき、前記モデルを更新
し、所定のパラメータを更新することにより、論理要素
抽出結果のノイズを除去する文書画像の論理要素抽出方
法であって、前記論理要素のノイズ削減可能性指標は、
請求項9記載の論理要素の変動量と、論理要素の印字範
囲に対する相対座標から求まる指標と、論理要素の隣接
類似領域情報から求まる指標を基に算出することを特徴
としている。
【0018】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 〈実施例1〉実施例1では、ランダムに入力される文書
画像の種類を自動識別して、文書画像から論理要素を自
動抽出する。同一種類の複数の文書画像から連続的に論
理要素を抽出する際に、抽出された論理要素におけるレ
イアウト特徴の変動量を履歴として保存することによ
り、論理要素の抽出精度の向上を図る。また、履歴を参
照して、論理モデルを更新し、諸設定を更新することに
より、論理要素抽出結果のノイズを除去する。
【0019】図1は、本発明の実施例1の構成を示す。
図において、101は入力文書、102は文書をデジタ
ル画像として入力するための画像入力手段、103は入
力された文書画像を複数の要素に分割し、分割された要
素などから文書レイアウト構造に関する特徴を抽出する
レイアウト特徴抽出手段、104は処理対象文書に対し
て適切な論理モデルを検出する論理モデル検出手段、1
05は論理モデルを用いて文書画像から論理要素を抽出
する論理要素抽出手段、106はレイアウト特徴の変動
量を検出する学習処理手段、107は変動量の履歴を保
存する履歴情報格納手段、108は履歴情報を参照して
論理モデルを更新するか否かを判定する論理モデル更新
判定手段、109は抽出結果を出力する抽出結果出力手
段、110は論理モデル作成用のサンプル画像、111
はサンプル画像から抽出対象の要素に書誌事項名と属性
を指定し論理モデルを作成する論理モデル作成手段、1
12は論理モデルを管理する論理モデル管理データベー
ス、113は抽出結果を保持する文書データベース、1
14は論理モデルの精度向上を図るために論理モデルを
更新する論理モデル更新手段である。
【0020】まず、本発明の全体の処理について概要を
説明する。
【0021】画像入力手段102は入力文書101を読
み取り、デジタル文書画像を得る。次いで、レイアウト
特徴抽出手段103は、入力文書画像を領域、行に分割
し、さらに文字サイズや文字間隔を求めるために文字を
切り出す。また、領域や行など要素の座標や文字の大き
さ、インデント、フォント、コラム情報など文書レイア
ウト構造に関する特徴を求める。なお、入力される文書
画像は複数のページからなる場合もあるが、例えば、入
力文書が論文の場合には、表紙と本文で構成されてい
て、通常、書誌事項が記載されているのは第1ページで
あるので、それ以外の本文ページについて処理する必要
はない。また、入力文書画像は、入力条件により上下左
右に余白を持つ場合があるが、分割された要素の座標値
として、文書を構成する印字領域に対する相対的な位置
情報を用いるので、文書入力条件による悪影響を回避す
ることができる。さらに、縦書き文書にも精度良く対応
するため文書の行方向を求めるが、文字を認識する必要
はない。文書画像の分割結果は、メモリに保存したり、
あるいはファイル(例えばタグつきコードファイル)に
書き出してもよい。
【0022】続いて、論理モデル検出手段104は、論
理モデル管理データベース112に登録されている異る
複数の論理モデルの中から処理対象文書タイプと一致す
る論理モデルを検出する。一致する論理モデルがないと
きは、入力文書は未定義文書であると判定する。
【0023】論理モデルの検出は、論理モデルに指定さ
れたレイアウト特徴を検出し、処理対象文書のレイアウ
ト特徴との類似度を用いて行う。類似度が一定値以上で
あり、第1候補と第2候補との類似度の差が十分に大き
いとき、求める論理モデルであると判定する。
【0024】論理要素抽出手段105では、論理モデル
検出手段104で検出された論理モデルを用いて、文書
画像から書誌事項に相当する領域を抽出する。これは、
論理モデルの辞書に格納された書誌事項領域と、文書画
像の各候補領域とのマッチングによって書誌事項を抽出
する。すなわち、書誌事項領域と各候補領域について、
レイアウト特徴(領域の位置、文字サイズ、行数など)
毎に類似度を求め、類似度が上位となる候補領域(例え
ば、第1候補から第3候補)を抽出する。
【0025】学習処理手段106は、1枚づつ入力され
る処理対象文書に対して、抽出された論理要素のレイア
ウト特徴の変動量を逐次的に検出して、要素ごとにその
変動量の履歴を履歴情報格納手段107に保持する。ま
た、履歴を参照して、ノイズ削減可能性指標を検出す
る。論理モデル更新判定手段108は、検出されたレイ
アウト特徴変動量が所定のしきい値以上であると判定し
たとき、論理モデル更新手段114はレイアウト特徴の
許容範囲を拡大するように前記論理モデルを更新する。
また、必要に応じて、論理モデル更新手段114は該論
理モデルをマルチテンプレート化する。
【0026】さらに、論理モデル更新判定手段108が
履歴を参照し、レイアウト特徴変動量が、一定以内の小
さな変動量しか持たず、ノイズ削減可能性指標が所定値
以上であると判定したとき、論理モデル更新手段114
はレイアウト特徴の許容範囲を縮小するように前記論理
モデルを更新し、諸設定を更新する。これにより、論理
要素抽出結果のノイズを除去する。
【0027】論理モデル更新判定手段108の判定の結
果、更新しないときは、抽出結果出力手段109は、上
記したように抽出された書誌事項の候補領域を文書デー
タベース113に出力する。
【0028】論理モデル作成手段111は、複数の要素
に分割されたモデルとなるサンプル文書画像110に対
して、ユーザが抽出したい要素に書誌事項名を与え、次
いで、属性を与える。属性としては、例えば該要素の最
大行数を与える。属性は補助的な特徴として処理される
ので必ずしも指定する必要はない。論理モデルは、指定
された領域の書誌事項名と属性とレイアウト特徴とを組
み合わせて作成し、論理モデル管理データベース112
に出力する。この論理モデルは、文書構造、例えば各要
素間をグラフ化する構造などを必要としないので作成や
保守が簡単である。
【0029】図14は、論理モデルの例を示す。論理モ
デルは、図14に示すようにタグつきコードで記述さ
れ、論理モデル管理データベース112に格納される。
図において、第1行にはSGML(文書の論理構造を記
述する文法)の場合は、DTD(文書型定義)等を定義
する。第2行目に印字領域範囲や領域数など文書全体に
関する情報を記述する。第3行目以降から実際に文書デ
ータを記述する。〈area〉タグには属性として先頭
から順に、書誌事項名、最大行数、行数、座標値、文字
サイズ、フォント値、文字ピッチなどユーザ指定情報と
レイアウト特徴を記述する。
【0030】図2は、本発明に係る学習処理の全体の処
理フローチャートである。以下、図2を参照して本発明
の特徴である学習処理について詳述する。
【0031】まず、学習処理手段106は、入力文書の
論理要素と論理モデル間のレイアウト的な差異を表す指
標として、レイアウト特徴の変動量を検出する(ステッ
プ201)。変動量の定義および検出方法については後
述する。検出された変動量は、学習対象となる論理要素
ごとにそれぞれ履歴情報として履歴情報格納手段107
に追加保存される(ステップ202)。論理要素を抽出
する際に、過去の履歴に遡って該論理要素の変動量を検
出し(ステップ203)、同時に、要素抽出結果からの
ノイズ量削減を目的としたノイズ削減可能性指標(N
i)を検出する(ステップ204)。
【0032】更新判定手段108による判定の結果、変
動量が所定のしきい値以上であることが判明すれば(ス
テップ205)、該当するレイアウト特徴の変動の許容
範囲を拡大する方向(例えば、文字サイズのポイント数
を9pから13pに拡大する)で論理モデルを更新する
(ステップ206)。逆に変動量が上記しきい値未満で
あれば、変動の許容範囲を縮小(例えば、文字サイズの
ポイント数を10pから8pに縮小)するようにモデル
を更新すればよいが、実際にこれを行うには少し注意が
必要である。なぜならば、一般に変動量を検出すること
は容易であるが、変動していないことを予想するのは難
しい。特に、学習サンプル数が少ない場合には、安易に
モデルのレイアウト特徴変動の許容範囲を縮小すると悪
影響が生じる可能性がある。
【0033】そこで、ノイズ削減可能性指標(Ni)を
設定し、この指標を基に少ないサンプル数でも効果的に
レイアウト特徴変動検出の信頼を高めることができる。
Niが検出され(ステップ207)、Niが所定のしき
い値以上であるとき(ステップ208)、論理モデルの
レイアウト特徴変動の許容範囲を縮小するようにモデル
を更新し(ステップ209)、該論理要素に対する要素
抽出結果からノイズ量を削減するために、要素抽出のた
めの諸設定を厳しく設定し直す(ステップ210)。
【0034】まず、履歴情報について説明する。図3
は、履歴情報の作成を説明する図である。前述したよう
に、ある入力文書に適切なモデルとしてモデルαが選択
されている。このモデルαには要素Aの座標、文字サイ
ズなど、要素Bの座標、文字サイズなど、要素Cの座
標、文字サイズなどが記述されている。入力文書とモデ
ルとのマッチングを行い、論理要素を抽出し、その抽出
結果をデータベースに出力する。また、マッチング結果
を要素毎に変動の履歴として保存する。各要素の変動履
歴には、入力文書番号毎に、変動+その他の情報が記述
される。新文書は各履歴の末尾に追加される。
【0035】図4は、論理要素の変動履歴の詳細を示
す。文書番号に対応して、座標、文字サイズ、文字ピッ
チ、インデント、フォントなどからなるレイアウト特徴
の変動量が記録される。
【0036】次に、レイアウト特徴の変動量について説
明する。図5は、論理要素eのレイアウト特徴の変動量
を求める処理フローチャートである。以下、図5を参照
して論理モデルとの照合に基づく論理要素eのレイアウ
ト特徴の変動量の検出方法について説明する。
【0037】入力文書から論理要素eに相当する候補行
を抽出する(ステップ501)。次いで、抽出された複
数の候補行の中から最も論理要素に近い行lを1つ選択
する(ステップ502)。eとlのレイアウト特徴各次
元を比較したレイアウト特徴距離値ベクトルd(e、
l)が求める変動である(ステップ506〜506)。 d(e、l)=(d0,d1,...,dm) ベクトルd(e,l)の各元は、適当な方法で正規化さ
れているとする。
【0038】レイアウト特徴の変動量検出の具体例を図
6を用いて説明する。図6において、抽出対象となる論
理要素「1997年10月7日」をeとし、eの最有力
候補行lを「平成10年5月」とする。
【0039】これらを座標や文字サイズ、フォントなど
のレイアウト特徴f0,f1,...,fmを用いて表
す場合、
【数1】 となり、eとlのレイアウト特徴各次元を比較したレイ
アウト特徴距離値ベクトルd(e,l)が、求めるeの
レイアウト特徴の変動量である。
【数2】
【0040】図7は、レイアウト特徴の変動量と履歴の
関係を説明する図である。処理対象の入力文書(例えば
文書番号No.2)は、特徴抽出の結果、例えば論理要
素l1からl5から構成されているものとする。また選
択されたモデルβには、要素A、B、Cの座標、文字サ
イズなどが記述されている。座標として、各要素の始点
(左上)、終点(右下)の座標値が記録され、文字サイ
ズとしてポイント数が記録されている。この例では、モ
デルの要素Aが入力文書のl1に相当し、Bがl3に、
Cがl4に相当するものとする。
【0041】マッチングの結果、要素Aとして、候補l
1とl2が抽出されたとする。そして、複数の候補の
内、第1候補(l1)を最適候補として選択する。学習
処理手段は、要素Aの各レイアウト特徴と要素l1の各
レイアウト特徴とを比較して前述したベクトルを得る。
このベクトルが要素Aの変動量として、履歴に記録され
る。この例では、正解行l1を選択しているので、変動
量、つまり各次元の値が小さい。
【0042】本発明は、ユーザが指定した書誌事項を、
絶対座標の単なる位置合せではなく、様々なレイアウト
特徴の特性を考慮した方法で抽出することにより、文書
内の幅広い変動に対応することができる。しかしなが
ら、大きな文書内変動を持つ書誌事項に対して、上記の
方法で論理モデルに定義されたレイアウト特徴変動の許
容幅を拡大しすぎると、逆に抽出結果にノイズが多く含
まれてしまう可能性が高くなる。そこで、大きな文書内
変動を持つ書誌事項を精度よく抽出するために、ここで
は、入力文書が、所定の条件を満たすレイアウト特徴の
変動量を持つ書誌事項を含む場合には、一つの文書タイ
プが複数のモデルを持つ「マルチテンプレート」方式を
適用する。
【0043】すなわち、例えば、ある同一文書タイプに
属する2つの文書のうち、一方は文字がすべてゴシック
体で記述されていて、他方はすべて明朝体で記述されて
いる場合には、それぞれの文書を基に論理モデルを2つ
作成して、以後入力される文書に対しては、前記2つの
モデルのうち、最適な方を選択して論理要素抽出処理を
行えばよい。このように、定性的なレイアウト特徴に変
動が生じたときは、上記のマルチテンプレート方式は有
効である。
【0044】ある文書においてマルチテンプレート化と
判定されたときには、判定された文書を用いてこれまで
と同じ方法で新規モデルを作成する。ある文書を処理し
たときに、その文書の各論理要素のレイアウト特徴変動
量の検出を利用したマルチテンプレート化の判定方法の
一例を以下に示す。 (1)すべての論理要素について、それぞれの抽出確信
度と相対座標に基づいた加重係数を検出する。 (2)抽出確信度の加重平均esを求める。 (3)加重平均esが所定のしきい値よりも悪かったら
マルチテンプレート化と判定する。
【0045】ここで、相対座標に基づいた加重係数は、
論理要素がレイアウト的に強調されているほど重くと
り、そうでなければ小さくとればよい。また、論理要素
の抽出確信度とは、論理要素抽出処理で検出される抽出
の確からしさを表す指標である。
【0046】図8は、抽出確信度を説明する図である。
いま、入力画像から「作成者」という要素を抽出する場
合を例にして説明する。モデルの辞書データには、要素
「作成者」のレイアウト特徴a0、a1...amが記
述されている。つまり、a0は座標、a1は文字サイ
ズ、a2はフォント、...である。モデルとのマッチ
ングの結果、各要素に相当する候補行l1からlpが抽
出される。候補行l1のレイアウト特徴をb0、b
1、...bmとする。
【0047】候補行l1の抽出確信度は、まず、モデル
の要素「作成者」と候補行l1との各特徴の差(変動量
(d0、d1、...dm))を求める。つまり、a0
とb0の差をd0、a1とb1の差をd1、..amと
bmの差をdmとする。同様に、他の候補行l2からl
pについても変動量を求める。
【0048】次いで、(1)diの順位に関する配点
と、(2)diの値に対する配点を求める。 (1)diの順位に関する配点(p0、p1、...p
m) p0は座標の順番に対して与えられる得点、p1は文字
サイズの順番に対して与えられる得点、以下、それぞれ
の特徴の順番に対して与えられる得点である。図9は、
座標の順番に対する配点テーブルと、文字サイズの順番
に対する配点テーブルの一例を示す。
【0049】モデルの「作成者」に位置が近い順に、座
標の配点テーブルに従って配点される。例えば、上記し
た変動量を求めた結果、候補行l1が1位、候補行l3
が2位である場合には、候補行l1のp0は「20」、
候補行l3のp0は「18」となる。文字サイズについ
ても同様に、各候補行の順番に応じた得点がp1に与え
られる。
【0050】(2)diの値に対する配点(s0、s
1、...sm) 変動量d0、d1、...dmは性質が異なるので単純
に比較できない。そこで、適当に正規化した値s0、s
1、...smを求める必要がある。具体的にはマハラ
ノビス距離を用いる。すなわち、d0、d1、...d
m(各特徴差)の平均(m)と分散(v)を求めて、s
iを算出する。
【数3】 そして、最終的に、候補行l1の抽出確信度Sを
【数4】 として算出する。他の候補行についても同様に抽出確信
度Sを算出する。
【0051】次に、ノイズ削減可能性指標(Ni)の検
出方法を説明する。レイアウト特徴の変動量を論理モデ
ルに記述するということは、基本的には変動の許容範囲
を拡大して抽出漏れを防止する手法といえる。しかしこ
れだけでは、指定要素抽出の抽出率向上と引き替えにノ
イズ量を増大させてしまう恐れがある。
【0052】そこで、ノイズ量削減を目的としたノイズ
削減可能性指標(Ni)を導入し、逐次的に論理モデル
を更新する度に、抽出率だけではなく有効率も同時に向
上する手法を提案する。
【0053】要素抽出のノイズ量は、該領域の印字範囲
に対する相対座標や隣接する領域に大きく影響を受ける
ので、それらの情報を考慮に入れて、要素ごとにそれぞ
れノイズ削減可能性指標(Ni)を検出する。
【0054】図10は、論理要素eのノイズ削減可能性
指標(Ni)を求める処理フローチャートを示す。ま
ず、抽出された候補行の中から最も論理要素に近い行l
を1つ選択する(ステップ1001、1002)。次い
で、前記行lのレイアウト特徴の値を保持する(ステッ
プ1003)。
【0055】
【数5】
【0056】前記行lと前記要素eのレイアウト特徴の
値を比較して、eのレイアウト特徴の変動量を検出する
(ステップ1004)。d(e,l)=(d0,d
1,...,dm)。レイアウト特徴の変動量が大きい
ときは、ノイズの削減は難しく、できるだけ抽出漏れが
ないように処理する。また、レイアウト特徴の変動量が
小さいときは、ノイズをさらに削減できる可能性があ
る。
【0057】要素eの抽出確信度Cxを検出する(ステ
ップ1005)。前述した抽出確信度が大きい場合は、
信頼できるデータであり、小さい場合は信頼できないデ
ータであるので学習(履歴の参照)には不適当である。
【0058】要素eの隣接領域類似度Snを検出する
(ステップ1006)。近くに類似した領域がある場合
には、識別が困難になり、ノイズは避けられない。類似
した領域がない場合にはノイズを減らすことができる。
【0059】要素eの文書印字範囲に対する相対座標指
標pを検出する(ステップ1007)。要素の位置が文
書の端に現れるときは独立性が高いので(pの値が大き
い)、ノイズをさらに減らすことができる。要素の位置
が文書の中央付近に現れるときは(pの値が小さい)ノ
イズが多く含まれる傾向にあり、ノイズの削減が難し
い。
【0060】要素抽出からノイズを削減するために、こ
れら検出した値を履歴に記録する。図11は、レイアウ
ト特徴の変動量の他に抽出確信度、隣接領域類似度、相
対座標指標を記録した要素Aの履歴の一例を示す。この
例では、確信度Cxが高く、l1とl2が隣接している
ので、Snが大きな値を示し、l1が文書端にあるので
p値が大きく、比較的特徴が安定していることを表して
いる。そして、次の文書を処理すると、2行目に同じよ
うなデータが追加される。
【0061】以上検出した値をm次元ベクトルとして表
したのものを
【数6】 、ノイズ削減可能性指標行列(m*m)をKとおいたと
き、ノイズ削減可能性指標(Ni)を次の式で求める
(ステップ1008)。
【0062】
【数7】 eの近傍にeと類似した領域が存在する場合には、隣接
領域類似度Snを大きくとり、そうでない場合には小さ
くとる。
【0063】ノイズ削減可能性指標行列Kは、Fの各次
元を適当に正規化するためのパラメータである。例え
ば、隣接領域類似度Snが大きい、すなわちeの近傍に
eと類似した領域が存在する場合には、ノイズ量の削減
が難しいのでNiを小さくするように調整すればよい。
【0064】あるいは、また、前述したノイズ削減の条
件を用いて、レイアウト特徴の変動量が小さく、抽出確
信度が大きく、隣接した類似領域がなく、要素の位置が
文書端にあるとき、Niが所定値以上になるように調整
し、このときモデル更新(縮小方向に)したり、諸設定
を更新することによりノイズを削減する。
【0065】図12は、ノイズを削減できる要素Bの履
歴の例を示す。この例では、(1)レイアウト特徴の変
動は小さい。(2)Cxは大きく、信頼できるデータで
ある。(3)近傍に類似した要素はない。(4)文書端
に位置している。従って、要素Bはモデルを更新した
り、パラメータを設定し直すことにより、抽出結果から
ノイズを削減することができる。
【0066】諸設定を更新する例として、(1)最終候
補を抽出確信度で足切りする場合と、(2)配点テーブ
ルを更新する場合を説明する。 (1)最終候補を抽出確信度で足切りする場合;第1の
候補の確信度が100、第2の候補の確信度が90、第
3の候補の確信度が50、第4の候補の確信度が40で
あるとする。ノイズを削減するために、足切りのしきい
値を大きくすると(しきい値を85とする)上位2候補
が最終出力となり、下位は足切りされる。足切りのしき
い値を小さくすればノイズが多くなるので(しきい値を
30にすると4つの候補が出力される)、目的に応じて
更新すればよい。 (2)配点テーブルを更新する場合;履歴を参照したと
き、文字サイズのバラツキが大きいことが判明したら、
文字サイズの配点テーブルを図13(b)に示すように
バラツキが小さくなるように更新する。逆に、ほとんど
バラツキがなければ、配点テーブルの各値を大きくすれ
ばよい。
【0067】〈実施例2〉本発明は上記した実施例に限
定されず、ソフトウェアによっても実現することができ
る。本発明をソフトウェアによって実現する場合には、
図15に示すように、CPU、メモリ、表示装置、ハー
ドディスク、キーボード、CD−ROMドライブ、スキ
ャナなどからなるコンピュータシステムを用意し、CD
−ROMなどのコンピュータ読み取り可能な記録媒体に
は、本発明の文書画像の論理要素抽出機能を実現するプ
ログラムなどが記録されている。また、文書画像などは
ハードディスクなどに格納されている。そして、該プロ
グラムが起動されると、文書画像データが読み込まれ
て、論理要素抽出処理を実行し、文書画像中から抽出さ
れた論理要素である書誌事項をディスプレイなどに出力
する。また、論理モデルを作成する機能をサーバー側
に、論理要素を抽出する機能をクライアント側にそれぞ
れ分散して保持するようにしてもよい。これにより、ネ
ットワーク環境への拡張を容易に行うことができる。
【0068】〈実施例3〉図16は、実施例3の構成を
示す。図1と相違する点は、履歴情報格納手段107
は、論理モデルを管理する論理モデル管理データベース
112に含まれて管理される、あるいはデータベース1
12と通信する点である。これにより、履歴データが論
理モデルに反映される。
【0069】実施例3に係る処理の基本的な流れは以下
の通りである。ランダムに入力される文書画像の種類を
自動識別し、適切な論理モデルを選択して、該モデルを
参照しながら文書画像から論理要素を自動抽出する。複
数の同一種類の文書画像を連続的に扱う際には、論理要
素毎にモデルとのマッチング処理結果の履歴を保存す
る。そして、論理要素を抽出する際には、履歴を参照し
て論理要素毎に変動量を検出し、該検出された変動の具
合に応じてモデルを更新し、論理要素の抽出精度の向上
を図る。
【0070】また、履歴やその他論理要素の属性を基
に、過抽出されたノイズを削減するための指標NIを検
出して、指標NIに基づいてモデルや所定のパラメータ
を更新して論理要素抽出の精度、特に論理要素抽出結果
のノイズ除去精度の向上を図る。
【0071】以下、実施例3について説明する。 画像入力からモデルの選択;まず、文書画像101を入
力し(102)、画像から領域、行、および文字を切り
出し、切り出された領域と行から、それぞれ座標、文字
サイズ、インデントなどのm個のレイアウト特徴を抽出
する(103)。次いで、入力文書(101)に最適な
論理モデルを選択する(104)。論理モデル作成とモ
デル選択は、実施例1と同様であるのでその説明を省略
する。
【0072】論理要素抽出と履歴の追加;論理要素抽出
手段105では、モデル112を参照しながらモデルに
定義された論理要素を抽出する。図17は、マッチング
距離の求め方を説明する図である。
【0073】モデルに定義された論理要素をE=(e
1,..em)、各ej(j=1,...m)はレイア
ウト特徴値とおいたとき、入力文書画像から論理要素E
に相当する候補行を抽出する方法を説明する。
【0074】入力文書の各行を
【数8】 (k=1,..n),nは入力文書の総行数とおく。こ
のとき、論理要素Eと入力文書の各行Lkとのマッチン
グ距離Dkを次の手順で求める。 1.EとLkとのマッチング距離ベクトルd(E、L
k)を算出 2.d(E、Lk)より、EとLkとのマッチング距離
D(E、Lk)=Dkを算出 Dkは、m次元ベクトルd(E、Lk)のノルムでもよ
いし、マハラノビス距離でもよい。いずれにしても何ら
かの順序がつけられればよい。
【0075】全ての行L1,...Lkに対して、Eと
のマッチング距離
【数9】 を求めたら、マッチング距離に関する適当なしきい値で
Eの候補を絞り込む。図18は、論理要素Eの抽出結果
を示す。
【0076】上記したように絞り込まれたEの候補行
を、距離の順序で並べ替えてL’1、L’2、...と
書き直す。もし、候補行L’1とL’2のページ上にお
ける位置が逆転していれば、最後に並べ替える処理を加
えてもよい。また、実際のページでは候補行L’1と
L’2の間に、前記しきい値処理で足切りされた別の行
L’t が存在する場合にも、L’t を救済して最終抽出
結果に加えてもよい。つまり、L’1、L’2、...
は、L’1、L’t 、L’2、...となる。
【0077】次に、マッチング距離の履歴をとる方法に
ついて説明すると、上記した論理要素Eの最終抽出結果
で第1位となった候補行をLとおく。EとLとのマッチ
ング距離ベクトルd(E、L)をEの処理の履歴とし
て、論理要素毎に、履歴情報格納手段107に追加保存
する。図19はEのマッチング処理の履歴を示す。後述
するP(L)、SN(L)も、ここでEの処理の履歴に
追加保存する。
【0078】履歴を用いた学習の流れ;複数の同一種類
の文書画像を連続的に扱う際に、過去の処理結果を履歴
として保存し、履歴を用いて論理要素抽出の精度向上を
図る一連の処理を、図20、21の処理フローチャー
ト、図22の履歴作成・学習を説明する図を参照して説
明する。
【0079】入力文書画像から論理要素Eを抽出する
(ステップ2001)。抽出結果の第1位候補行Lを選
択する(ステップ2002)。EとLを比較して得られ
るマッチング距離ベクトルを履歴に追加する(ステップ
2003)。
【0080】Lの入力文書の印字範囲に対する相対座標
から求まる指標P(L)を履歴に追加する(ステップ2
004)。Lの隣接類似領域情報から求まる指標SN
(L)を履歴に追加する(ステップ2005)。
【0081】Eのレイアウト特徴量の変動量V1
(E)、...Vm(E)を求めて、これらからEの変
動量V(E)を求める(ステップ2006)。P
(E)、SN(E)を検出する(ステップ2007)。
【0082】Eのノイズ削減可能性指標NI(E)を求
める(ステップ2008)。 NI(E)=P(E)−V(E)−SN(E) もし、V(E)があるしきい値以上ならば(ステップ2
009)、モデルに記述されたレイアウト特徴の許容範
囲を拡大して(ステップ2010)、諸設定を更新して
終了する(ステップ2011)。
【0083】V(E)があるしきい値未満で(ステップ
2009)、かつNI(E)があるしきい値以上ならば
(ステップ2012)、モデルに記述されたレイアウト
特徴の許容範囲を縮小して(ステップ2013)、諸設
定を更新して終了し(ステップ2014)、そうでない
ならば、そのまま終了する。
【0084】以下、履歴を用いた学習について詳述す
る。複数の同一種類の文書画像を連続的に扱う際には、
上記した論理要素毎に保存した履歴から統計的な手法で
過去の論理要素のレイアウト変動の具合を検出して論理
モデルを更新して抽出精度の向上を図る。抽出精度を向
上させる方法として、次の2つの方法が考えられる。
【0085】第1の方法は、論理要素のレイアウトが大
きく変動していることを検出して、モデルのレイアウト
特徴の許容幅を拡大して抽出漏れを防ぐ方法である。
【0086】第2の方法は、論理要素のレイアウト特徴
がほとんど変動していないことを検出して、モデルのレ
イアウト特徴の許容幅を縮小し、マッチングの際のパラ
メータを更新して(例えば、マッチング距離に関するし
きい値を厳しく設定し直す)、過抽出を防ぐ方法であ
る。
【0087】まず、第1の方法について説明する。図2
3は、学習V(E)の検出を説明する図である。学習処
理手段106は、論理要素Eの履歴データから、各レイ
アウト特徴毎の変動量Vjを検出する。Vjは、表の列
データ
【数10】 の分散値であると定義する。なお、Vjは分散値に限ら
ず、標準偏差値などの適当な統計値でもよい。
【0088】論理要素Eの変動具合を示す「Eの変動量
V(E)」をV1、...Vmの適当に重みを付けた和
として定義する。 V(E)=ε1V1+...+εmVm このようにして検出されたEの変動量V(E)は、過去
のマッチング処理結果を反映した精度のよい論理要素E
の変動具合を示す指標である。
【0089】V(E)があるしきい値よりも大きけれ
ば、すなわち論理要素Eのレイアウトが大きく変動して
いることが分かれば、モデルに記述されたEの定義を更
新して、抽出精度の向上を図る。具体的には、例えばV
1、...Vmの内、V2が特に大きな値を示してい
る、すなわちレイアウト特徴f2(文字サイズ)の変動
が大きいことが分かれば、特徴f2の取り得る範囲を拡
大(10ポイント→9〜11ポイント)、あるいは適当
に修正する(10ポイント→10.5ポイント)。他の
特徴についても同様である。論理要素E=(e
1、...em)が適当に更新された結果、Eの抽出漏
れが防止される。
【0090】次に、第2の方法について説明する。図2
4は、学習NI(E)の検出を説明する図である。第2
の方法は、逐次的に論理モデルを更新する度に、抽出正
解率の向上だけでなく、過抽出されたノイズの削減も同
時に達成する。処理の流れは以下の通りである。
【0091】1.論理要素のレイアウトがほとんど変動
していないことを示す指標NI(E)を検出する(Eの
変動量V(E)に類似しているが、V(E)は変動の具
合を検出することは可能だが、直接ノイズの削減にはつ
ながらない)。
【0092】2.NI(E)があるしきい値よりも大き
ければ、各レイアウト特徴毎の変動量Vjの中で、特に
小さな値を持つVpに対応する特徴fpの取り得る範囲
を縮小(9−11pt→10pt)、あるいは適当に修
正する。
【0093】3.NI(E)があるしきい値よりも大き
ければ、ノイズを削減する方向で諸設定を更新する。例
えば、Eの候補行を絞り込むために設けられたマッチン
グ距離に関するしきい値を厳しく設定し直す。
【0094】ある論理要素Eの抽出結果からノイズを削
減できるかどうかは、主に次の2つの条件で決まること
が分かっている。 ノイズ削減条件1;Eのレイアウト特徴にバラツキがな
い(変動量から推定する) ノイズ削減条件2;Eの周りに類似した領域/行が少な
い。
【0095】上記の条件を定量的に評価するために、本
発明では次の指標を導入する。 V(E)=論理要素Eの変動量(定義済み)(ノイズ削
減条件1) P(E)=論理要素Eの印字範囲に対する相対座標から
求まる指標(ノイズ削減条件1、2) SN(E)=論理要素Eの隣接類似領域情報から求まる
指標(ノイズ削減条件2)。
【0096】これらの指標を用いて、ノイズ削減可能性
指標NI(E)を定義する。P(E)は、Eがページの
端に位置するほど大きな値をとり、SN(E)は、Eの
近傍に類似領域が数多く存在するほど大きな値をとる。
図25、26は、それぞれP(E)とSN(E)を説明
する図である。
【0097】一般に、ページの端に位置する論理要素E
はレイアウトのバラツキが小さく(ノイズ削減条件
1)、かつEの近傍には類似領域が少ない傾向がある
(ノイズ削減条件2)。
【0098】再度、Eのノイズを削減できる可能性とV
(E)、P(E)、SN(E)との関連をまとめると次
のようになる。 (1)変動量V(E)が大きいとノイズを削減できる可
能性も小さくなる。 (2)P(E)が大きいと(論理要素Eが文書端に位置
している場合)、ノイズを削減できる可能性も大きくな
る。 (3)SN(E)が大きいと(論理要素Eの周りに類似
した領域が存在する場合)、ノイズを削減できる可能性
は小さくなる。
【0099】ノイズ削減可能性指標NI(E)を次の式
で定義する。 NI(E)=P(E)−V(E)−SN(E) 以上説明したように、NI(E)が大きいと、ノイズを
削減できる可能性も大きくなる。この結果を利用して、
モデルや諸設定を更新して、Eの抽出結果から過抽出さ
れたノイズの削減を図る。なお、本実施例についても、
実施例2と同様にしてソフトウェアによって実現でき
る。
【0100】
【発明の効果】以上、説明したように、請求項1乃至8
記載の発明によれば、複数の論理モデル中から、処理対
象文書に適切な論理モデルを自動的に選択し、選択され
た論理モデルを用いて文書画像から安定して書誌事項を
抽出することができる。また、論理要素毎のレイアウト
特徴の変動量の履歴を参照することによって論理モデル
を更新しているので、種々のレイアウト特徴を持つ文書
に対応することができ、精度よく書誌事項を抽出するこ
とができる。
【0101】請求項9記載の発明によれば、過去の処理
結果の履歴を用いることにより、各レイアウト特徴毎に
変動具合を細かく検出できるようになり、文書を数多く
処理するに従って論理要素の抽出精度が向上する。
【0102】請求項10記載の発明によれば、請求項9
の方法では難しかった「論理要素Eのレイアウト変動が
ない」ことの定量的評価が可能になり、モデルや諸設定
の更新があっても悪影響なく論理要素の抽出精度が向上
する。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】本発明に係る学習処理の全体の処理フローチャ
ートである。
【図3】履歴情報の作成を説明する図である。
【図4】論理要素の変動履歴の詳細を示す。
【図5】論理要素のレイアウト特徴の変動量を求める処
理フローチャートである。
【図6】レイアウト特徴の変動量検出の具体例を説明す
る図である。
【図7】レイアウト特徴の変動量と履歴の関係を説明す
る図である。
【図8】抽出確信度を説明する図である。
【図9】座標の順番に対する配点テーブルと、文字サイ
ズの順番に対する配点テーブルの一例を示す。
【図10】論理要素のノイズ削減可能性指標(Ni)を
求める処理フローチャートを示す。
【図11】レイアウト特徴の変動量の他に抽出確信度、
隣接領域類似度、相対座標指標を記録した要素Aの履歴
の一例を示す。
【図12】ノイズを削減できる要素Bの履歴の例を示
す。
【図13】配点テーブルの更新例を示す。
【図14】論理モデルの例を示す。
【図15】本発明の実施例2の構成を示す。
【図16】本発明の実施例3の構成を示す。
【図17】マッチング距離の求め方を説明する図であ
る。
【図18】論理要素Eの抽出結果を示す。
【図19】論理要素Eのマッチング処理の履歴を示す。
【図20】学習処理のフローチャートを示す。
【図21】図20の続きのフローチャートを示す。
【図22】履歴作成・学習を説明する図である。
【図23】学習V(E)の検出を説明する図である。
【図24】学習NI(E)の検出を説明する図である。
【図25】P(E)を説明する図である。
【図26】SN(E)を説明する図である。
【符号の説明】
101 入力文書 102 画像入力手段 103 レイアウト特徴抽出手段 104 論理モデル検出手段 105 論理要素抽出手段 106 学習処理手段 107 履歴情報格納手段 108 論理モデル更新判定手段 109 抽出結果出力手段 110 サンプル画像 111 論理モデル作成手段 112 論理モデル管理データベース 113 文書データベース 111 論理モデル更新手段

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 文書をデジタル画像として入力し、該文
    書画像から前記文書のレイアウト特徴を検出し、複数の
    論理モデルの中から、前記入力文書のレイアウト特徴に
    一致する論理モデルを検出し、該検出された論理モデル
    を用いて前記文書画像から論理要素を抽出する文書画像
    の論理要素抽出方法であって、前記論理要素を抽出する
    際に、論理モデルにおけるレイアウト特徴の変動量の履
    歴を参照し、該レイアウト特徴の変動量が所定のしきい
    値以上であるとき、前記論理モデルを更新することを特
    徴とする文書画像の論理要素抽出方法。
  2. 【請求項2】 前記レイアウト特徴の変動量は、前記モ
    デルの論理要素と、前記抽出された最適候補の論理要素
    について、座標、文字サイズ、フォントを含むレイアウ
    ト特徴を比較したときのレイアウト特徴距離値ベクトル
    であることを特徴とする請求項1記載の文書画像の論理
    要素抽出方法。
  3. 【請求項3】 前記論理モデルの更新は、レイアウト特
    徴の変動の許容範囲を拡大するように更新することを特
    徴とする請求項1記載の文書画像の論理要素抽出方法。
  4. 【請求項4】 前記レイアウト特徴の変動量が所定のし
    きい値以上であるとき、前記論理モデルをマルチテンプ
    レート化することを特徴とする請求項1記載の文書画像
    の論理要素抽出方法。
  5. 【請求項5】 文書をデジタル画像として入力し、該文
    書画像から前記文書のレイアウト特徴を検出し、複数の
    論理モデルの中から、前記入力文書のレイアウト特徴に
    一致する論理モデルを検出し、該検出された論理モデル
    を用いて前記文書画像から論理要素を抽出する文書画像
    の論理要素抽出方法であって、前記論理要素を抽出する
    際に、論理モデルにおけるレイアウト特徴の変動量の履
    歴を参照し、該レイアウト特徴の変動量が所定のしきい
    値未満であるとき、前記論理要素の抽出の確信度と該論
    理要素に隣接する類似領域情報と該論理要素の文書印字
    範囲に対する相対座標を基に、前記論理モデルを更新
    し、所定のパラメータを更新することにより、論理要素
    抽出結果のノイズを除去することを特徴とする文書画像
    の論理要素抽出方法。
  6. 【請求項6】 前記論理モデルの更新は、レイアウト特
    徴の変動の許容範囲を縮小するように更新し、前記所定
    のパラメータの更新は、確信度の高い抽出候補を選択す
    るためのしきい値の更新であることを特徴とする請求項
    5記載の文書画像の論理要素抽出方法。
  7. 【請求項7】 文書をデジタル画像として入力する手段
    と、該文書画像から前記文書のレイアウト特徴を検出す
    る手段と、複数の論理モデルの中から、前記入力文書の
    レイアウト特徴に一致する論理モデルを検出する手段
    と、該検出された論理モデルを用いて前記文書画像から
    論理要素を抽出する手段と、該抽出された論理要素を基
    に前記論理モデルのレイアウト特徴の変動量を検出する
    手段と、該変動量の履歴を格納する手段と、前記論理要
    素の抽出時に前記論理モデルのレイアウト特徴の変動量
    の履歴を参照する手段と、該レイアウト特徴の変動量が
    所定のしきい値以上であるとき、前記論理モデルを更新
    する手段とを備えたことを特徴とする文書画像の論理要
    素抽出装置。
  8. 【請求項8】 文書をデジタル画像として入力する機能
    と、該文書画像から前記文書のレイアウト特徴を検出す
    る機能と、複数の論理モデルの中から、前記入力文書の
    レイアウト特徴に一致する論理モデルを検出する機能
    と、該検出された論理モデルを用いて前記文書画像から
    論理要素を抽出する機能と、論理要素を抽出する際に、
    前記論理モデルにおけるレイアウト特徴の変動量の履歴
    を参照する機能と、該レイアウト特徴の変動量が所定の
    しきい値以上であるとき、前記論理モデルを更新、また
    はマルチテンプレート化する機能をコンピュータに実現
    させるためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  9. 【請求項9】 文書をデジタル画像として入力し、該文
    書画像から前記文書のレイアウト特徴を検出し、複数の
    論理モデルの中から、前記入力文書のレイアウト特徴に
    一致する論理モデルを検出し、該検出された論理モデル
    を用いて前記文書画像から論理要素を抽出する際に、過
    去の入力文書画像と論理モデルとのレイアウト特徴毎の
    マッチング結果を保持した履歴を参照し、前記履歴から
    算出された論理要素の変動量が所定のしきい値以上であ
    るとき、前記論理モデルを更新する文書画像の論理要素
    抽出方法であって、前記論理要素の変動量は、前記論理
    要素の各レイアウト特徴毎の変動量から算出することを
    特徴とする文書画像の論理要素抽出方法。
  10. 【請求項10】 文書をデジタル画像として入力し、該
    文書画像から前記文書のレイアウト特徴を検出し、複数
    の論理モデルの中から、前記入力文書のレイアウト特徴
    に一致する論理モデルを検出し、該検出された論理モデ
    ルを用いて前記文書画像から論理要素を抽出する際に、
    過抽出されたノイズを削減するための指標である、論理
    要素のノイズ削減可能性指標が所定のしきい値以上であ
    るとき、前記モデルを更新し、所定のパラメータを更新
    することにより、論理要素抽出結果のノイズを除去する
    文書画像の論理要素抽出方法であって、前記論理要素の
    ノイズ削減可能性指標は、請求項9記載の論理要素の変
    動量と、論理要素の印字範囲に対する相対座標から求ま
    る指標と、論理要素の隣接類似領域情報から求まる指標
    を基に算出することを特徴とする文書画像の論理要素抽
    出方法。
JP11187533A 1998-07-16 1999-07-01 文書画像の論理要素抽出方法、装置および記録媒体 Pending JP2000090117A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11187533A JP2000090117A (ja) 1998-07-16 1999-07-01 文書画像の論理要素抽出方法、装置および記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP10-201824 1998-07-16
JP20182498 1998-07-16
JP11187533A JP2000090117A (ja) 1998-07-16 1999-07-01 文書画像の論理要素抽出方法、装置および記録媒体

Publications (1)

Publication Number Publication Date
JP2000090117A true JP2000090117A (ja) 2000-03-31

Family

ID=26504417

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11187533A Pending JP2000090117A (ja) 1998-07-16 1999-07-01 文書画像の論理要素抽出方法、装置および記録媒体

Country Status (1)

Country Link
JP (1) JP2000090117A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092226A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2009140258A (ja) * 2007-12-06 2009-06-25 Fujitsu Ltd 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
US8768941B2 (en) 2009-07-27 2014-07-01 Hitachi Solutions, Ltd. Document data processing device
US8805074B2 (en) 2010-09-27 2014-08-12 Sharp Laboratories Of America, Inc. Methods and systems for automatic extraction and retrieval of auxiliary document content
WO2023047570A1 (ja) * 2021-09-27 2023-03-30 株式会社KPMG Ignition Tokyo 情報処理装置、情報処理方法、情報処理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092226A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP4677750B2 (ja) * 2004-09-24 2011-04-27 富士ゼロックス株式会社 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2009140258A (ja) * 2007-12-06 2009-06-25 Fujitsu Ltd 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
US8768941B2 (en) 2009-07-27 2014-07-01 Hitachi Solutions, Ltd. Document data processing device
US8805074B2 (en) 2010-09-27 2014-08-12 Sharp Laboratories Of America, Inc. Methods and systems for automatic extraction and retrieval of auxiliary document content
WO2023047570A1 (ja) * 2021-09-27 2023-03-30 株式会社KPMG Ignition Tokyo 情報処理装置、情報処理方法、情報処理プログラム

Similar Documents

Publication Publication Date Title
US9910829B2 (en) Automatic document separation
US6757870B1 (en) Automatic table detection method and system
JP3639126B2 (ja) 住所認識装置及び住所認識方法
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
KR100487386B1 (ko) 부수 모델에 기초한 초서체 한자 수기 주석의 검색법
CN101326518B (zh) 用于墨水笔记的手写体识别的方法和装置
US8687886B2 (en) Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
JP2004348591A (ja) 文書検索方法及び装置
JPS61267177A (ja) 文書画像追加情報の蓄積方法
US10963717B1 (en) Auto-correction of pattern defined strings
JP2005505866A (ja) 文字認識
FI20176151A1 (en) A heuristic method for analyzing the contents of an electronic document
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
CN110399493B (zh) 一种基于增量学习的作者消歧方法
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP3903613B2 (ja) 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US20200257847A1 (en) System and method for using artificial intelligence to deduce the structure of pdf documents
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP2000090117A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
Kamola et al. Image-based logical document structure recognition
JP3912463B2 (ja) 論理構造抽出装置及び論理構造抽出方法
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080423