JP2001056837A - 文書認識方法および記録媒体 - Google Patents

文書認識方法および記録媒体

Info

Publication number
JP2001056837A
JP2001056837A JP11232266A JP23226699A JP2001056837A JP 2001056837 A JP2001056837 A JP 2001056837A JP 11232266 A JP11232266 A JP 11232266A JP 23226699 A JP23226699 A JP 23226699A JP 2001056837 A JP2001056837 A JP 2001056837A
Authority
JP
Japan
Prior art keywords
document
model
document image
logical
layout feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11232266A
Other languages
English (en)
Inventor
Tsukasa Kouchi
司 幸地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11232266A priority Critical patent/JP2001056837A/ja
Publication of JP2001056837A publication Critical patent/JP2001056837A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書モデルを作成するとき、文書要素のレイ
アウト特徴の変動量を、GUIを用いて視覚的に分かり
やすくモデルに記述する。 【解決手段】 サンプル文書(107)を入力し(10
2)、要素に分割してレイアウト特徴を抽出する(10
3)。論理モデルの作成(108)は、サンプル文書画
像中の要素を指定する。この指定は、要素を包含する矩
形によって行う。また、矩形の大きさを変えることによ
り、要素のレイアウト特徴の変動量を設定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の特定領域に
所定の情報を持つモデルを利用して、文書から指定要素
を抽出する際に、指定要素のレイアウト特徴の変動量を
GUIを用いて簡単に設定する文書認識方法および文書
認識プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】本出願人は先に、文書をデジタル画像と
して入力し、該文書画像から前記文書のレイアウト特徴
を検出し、複数の論理モデルの中から、前記入力文書の
レイアウト特徴に一致する論理モデルを検出し、該検出
された論理モデルを用いて前記文書画像から論理要素を
抽出する文書画像の論理要素抽出方法(特願平10−1
45781号)を提案した。また、文書をデジタル画像
として入力し、該文書画像を所定の要素に分割すると共
に、前記文書のレイアウト特徴を検出し、複数の文書種
類毎に予め作成された論理構造モデルの内の一つのモデ
ルを用いて前記文書画像から第1の単位で所定の論理要
素を抽出し、次いで第2の単位で所定の論理要素を抽出
し、前記一つのモデルのレイアウト特徴と前記抽出され
た論理要素に対応する、前記文書のレイアウト特徴との
類似度を算出し、該類似度に所定値を掛けた値が所定の
閾値以上のとき前記抽出された論理要素を出力する論理
要素抽出方法(特願平10−267166号)も提案し
た。
【0003】さらに、文書をデジタル画像として入力
し、該文書画像から前記文書のレイアウト特徴を検出
し、複数の論理モデルの中から、前記入力文書のレイア
ウト特徴に一致する論理モデルを検出し、該検出された
論理モデルを用いて前記文書画像から論理要素を抽出す
る文書画像の論理要素抽出方法であって、前記論理要素
を抽出する際に、論理モデルにおけるレイアウト特徴の
変動量の履歴を参照し、該レイアウト特徴の変動量が所
定のしきい値以上であるとき、前記論理モデルを更新す
る文書画像の論理要素抽出方法、および文書をデジタル
画像として入力し、該文書画像から前記文書のレイアウ
ト特徴を検出し、複数の論理モデルの中から、前記入力
文書のレイアウト特徴に一致する論理モデルを検出し、
該検出された論理モデルを用いて前記文書画像から論理
要素を抽出する際に、過去の入力文書画像と論理モデル
とのレイアウト特徴毎のマッチング結果を保持した履歴
を参照し、前記履歴から算出された論理要素の変動量が
所定のしきい値以上であるとき、前記論理モデルを更新
する文書画像の論理要素抽出方法であって、前記論理要
素の変動量は、前記論理要素の各レイアウト特徴毎の変
動量から算出する文書画像の論理要素抽出方法(特願平
11−187533号)を提案した。
【0004】上記提案した方法は、複数のサンプル文書
から特定要素のレイアウト的な変動量を統計的手法を用
いて自動的に検出していた。
【0005】上記提案した方法と同様に、ユーザーがモ
デル中に明示的に文書要素の属性を与えて文書構造を認
識方法も提案されている。文書の変動に柔軟に対処する
という観点からは、例えば、特開平6−60219号公
報に記載された「文書認識装置」では、入力文書の性質
に応じたパラメータを文書要素の特徴としてモデルの中
に記述し、例えば横組文字行は「大きさが3pt以上3
6ptまでの連結領域」という条件と、制約条件として
「複数個の文字の水平方向の規則的配置」という部分/
全体関係の指定によって定義される。
【0006】
【発明が解決しようとする課題】しかしながら、上記し
たような制約条件の指定は、認識対象文書についてかな
り高度な知識を有する者でなくては不可能である。また
全体の関係が必要なことから、文書中で要素を単独に扱
うことは難しいという問題もある。
【0007】本発明の目的は、文書モデルを作成すると
き、文書要素のレイアウト特徴の変動量を、GUIを用
いて視覚的に分かりやすくモデルに記述する文書認識方
法および文書認識プログラムを記録した記録媒体を提供
することにある。
【0008】
【課題を解決するための手段】本発明では、サンプル文
書画像中の要素を包含する矩形を作成することによっ
て、文書モデルの要素を指定する。また、矩形の大きさ
を変えることにより、要素のレイアウト特徴の変動量を
設定する。文書要素のレイアウト特徴の変動量の指定を
要素毎に独立して与えることができるため、文書要素間
の関係には全く依存しない。したがって文書モデルの構
造および作成、保守が極めて簡単に行える。
【0009】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。図において、101は入力される未知文書、
102は入力文書を入力するための文書入力手段、10
3は入力された文書を複数の要素に分割し、分割された
要素などから文書レイアウト構造に関する特徴を抽出す
るレイアウト特徴抽出手段、104は入力文書に対して
適切な論理モデル(文書モデル)を検出する論理モデル
検出手段、105は論理モデル(文書モデル)を用いて
文書画像から論理要素を抽出する要素抽出手段、106
は抽出結果を出力する抽出結果出力手段、107は論理
モデル作成用のサンプル文書、108はサンプル文書か
ら抽出対象の要素に書誌事項名と属性を指定して論理モ
デル(文書モデル)を作成する論理モデル作成手段、1
09は論理モデルを管理する論理モデル管理データベー
ス、110は抽出結果を保持する文書データベースであ
る。
【0010】本発明の全体の処理内容は、先に提案した
発明(特願平10−145781号)のものと同様であ
る。すなわち、文書入力手段102は入力文書101を
読み取り、デジタル文書画像を得る。次いで、レイアウ
ト特徴抽出手段103は、入力文書画像を領域、行に分
割し、さらに文字サイズや文字間隔を求めるために文字
を切り出す。また、領域や行など要素の座標や文字の大
きさ、インデント、フォント、コラム情報など文書レイ
アウト構造に関する特徴を求める。
【0011】続いて、論理モデル検出手段104は、論
理モデル管理データベース109に登録されている異る
複数の論理モデルの中から処理対象文書タイプと一致す
る論理モデルを検出する。一致する論理モデルがないと
きは、入力文書は未定義文書であると判定される。
【0012】論理モデルの検出は、論理モデルに指定さ
れたレイアウト特徴を検出し、処理対象文書のレイアウ
ト特徴との類似度を用いて行う。要素抽出処理手段10
5では、論理モデル検出手段104で検出された論理モ
デルを用いて、文書画像から書誌事項に相当する領域を
抽出する。
【0013】次に、論理モデル作成手段108は、複数
の要素に分割されたモデル文書画像に対して、ユーザが
抽出したい要素に書誌事項名を与え、次いで、属性を与
える。属性としては、例えば該要素の最大行数を与え
る。属性は補助的な特徴として処理されるので必ずしも
指定する必要はない。論理モデルは、指定された領域の
書誌事項名と属性とレイアウト特徴とを組み合わせて作
成し、論理モデル管理データベース109に出力する。
この論理モデルは、文書構造、例えば各要素間をグラフ
化する構造などを必要としないので作成や保守が簡単で
ある。
【0014】論理モデルは、例えばタグつきコードで記
述され、論理モデル管理データベース109に格納され
る。
【0015】本発明の特徴は、論理モデル作成手段10
8における指定要素のレイアウト特徴の変動量の設定方
法にある。
【0016】まず、本発明の論理モデル(文書モデル)
の作成について説明する。図2は、本発明の論理モデル
(文書モデル)作成の処理フローチャートである。以
下、図3〜図7を用いて、サンプル文書中の抽出要素を
文書モデルに指定する方法を説明する。
【0017】文書入力手段102は、モデル元になるサ
ンプル文書107を読取り、デジタル文書画像を得る
(ステップ201)。図3は、論理モデルを作成するた
めの文書を表示した図である。次いで、レイアウト特徴
抽出手段103は、入力サンプル文書画像を領域、行に
分割し、さらに文字サイズや文字間隔を求めるために文
字を切り出す(ステップ202)。図4は、論理モデル
を作成するための文書を所定の要素に分割して、分割さ
れた各領域を矩形で囲んで表示した図である。
【0018】モデルに必要な情報は、基本的に前掲した
発明と同様である。図8は、モデルの形式を示す。
【0019】サンプル文書中の抽出したい要素をモデル
に指定するには、例えば図5に示すようなGUIを用い
る(ステップ203)。図5は、文書のタイトルにあた
る領域「人事異動について」に要素名「TITLE」を
与えている図である。すなわち、画面上から指定論理要
素「人事異動について」をマウスで選択して、論理要素
指定ダイアログを用いて論理要素名”TITLE”を入
力する。なお、要素名は単に指定領域を区別するために
与える識別子としての意味しか持たないので、必ずしも
該要素の内容を示す必要はない。
【0020】固定的なフォーマットを持つ帳票文書とは
異なり、本発明で扱う文書は一定の様式に従って文書の
書誌事項が配置されてはいるものの、個々の要素の位置
や文字サイズ、フォントタイプなどのレイアウト特徴は
それぞれある程度の変動幅を持つ。例えば、図3〜6の
サンプル文書のタイトル行は「人事異動について」の1
行のみだが、別の同様の文書ではタイトルが2行以上あ
るかもしれない。また作成者が異なれば文書で使われる
文字サイズやフォントタイプも異なる可能性もある。
【0021】そこで、本発明ではこのようなレイアウト
特徴の変動量(幅)情報を、図6、図7に示す方法でモ
デルに持たせる。図6では指定された文字領域(「人事
異動について」)を大きく包含する矩形をマウスなどで
作成して、この大きさに対応して該要素のレイアウト特
徴の変動量情報をテンプレートに埋め込んでいる。すな
わち指定要素の外接矩形よりも大きな矩形を作成するほ
ど該要素のレイアウト特徴の変動量は大きいとする(ス
テップ204)。本発明では、矩形の大きさという人間
の感覚に近い指標を用いてレイアウト特徴の変動量を設
定することができる。
【0022】レイアウト特徴ごとにさらに細かく変動量
を調整したい場合には、図7のようなGUIを用意す
る。図7では、レイアウト特徴である位置、文字サイ
ズ、フォントの変動量を調整するスライダーが用意され
ている。図7の例では、指定領域「人事異動について」
を包含する矩形が大きめに作成されているので各レイア
ウト特徴の変動量もそれに合わせて大きめに自動設定さ
れている。ここでは必要に応じてユーザが微調整すれば
よい。
【0023】また、指定領域「人事異動について」を包
含する矩形が図5のような外接矩形であれば、図7の各
変動量を調整するスライダーは初期値として標準値を指
すことになる。
【0024】ここで得られたレイアウト特徴の変動量
は、例えば図9のようにモデルに反映される。図9の指
定要素’TITLE’の定義において、座標特徴の変動
幅として±vが指定されている。同様に文字サイズ特徴
には±2の変動幅、フォント特徴は強調/通常と両方の
可能性があることが定義されている。
【0025】指定要素を抽出する方法も基本的に前掲し
た発明(特願平10−145781号)と同様である。
特願平10−145781号の発明では、レイアウト特
徴の変動量を複数のサンプルを用いて自動的に学習して
いた。これに対して、本発明では、レイアウト特徴の変
動量をユーザー自身の手で調整するインターフェースを
提供している点で、上記した発明と相違している。
【0026】本発明は上記した実施例に限定されず、ソ
フトウェアによっても実現することができる。本発明を
ソフトウェアによって実現する場合には、図10に示す
ように、CPU、メモリ、表示装置、ハードディスク、
キーボード、CD−ROMドライブ、スキャナなどから
なるコンピュータシステムを用意し、CD−ROMなど
のコンピュータ読み取り可能な記録媒体には、本発明の
文書認識機能を実現するプログラムなどが記録されてい
る。また、文書画像などはハードディスクなどに格納さ
れている。そして、該プログラムが起動されると、文書
画像データが読み込まれて、文書認識処理を実行し、文
書画像中から抽出された論理要素である書誌事項をディ
スプレイなどに出力する。また、論理モデルを作成する
機能をサーバー側に、論理要素を抽出する機能をクライ
アント側にそれぞれ分散して保持するようにしてもよ
い。これにより、ネットワーク環境への拡張を容易に行
うことができる。
【0027】
【発明の効果】以上、説明したように、請求項1、4記
載の発明によれば、複数の文書モデルの中から処理対象
文書に適切な文書モデルを自動的に選択し、選択された
文書モデルを用いて文書から安定して書誌事項を抽出す
ることができる。また、文書モデルに要素を定義する
際、対象要素を指定すると同時に所定の属性が自動的に
与えられるので、ユーザはテンプレートに定義すべき属
性の詳細が分からなくても簡単に高精度な文書モデルを
構築することができる。
【0028】請求項2記載の発明によれば、高度な知識
を有することなく、簡単に所定の領域を抽出対象として
指定することができる。
【0029】請求項3記載の発明によれば、指定要素の
レイアウト特徴の変動量を人間の感覚に近い矩形の大き
さで設定することができるので、煩雑なパラメータ設定
の負担を大幅に軽減することができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の文書モデル作成の処理フローチャート
である
【図3】サンプル文書を入力した図である。
【図4】文書を要素に分割した図である。
【図5】論理要素名を入力した図である。
【図6】指定要素のレイアウト特徴の変動量を設定する
図である。
【図7】レイアウト特徴の変動量を手動調整する図であ
る。
【図8】モデルが持つ情報の例を示す。
【図9】レイアウト特徴の変動量をモデルに反映させた
例を示す。
【図10】本発明をソフトウェアによって実現する場合
の構成例を示す。
【符号の説明】
101 未知文書 102 文書入力手段 103 レイアウト特徴抽出手段 104 論理モデル検出手段 105 要素抽出処理手段 106 抽出結果出力手段 107 サンプル文書 108 論理モデル作成手段 109 論理モデル管理データベース 110 文書データベース

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を所定の単位に分割することに
    よりレイアウト特徴を検出し、複数の文書モデルの中か
    ら、前記文書画像のレイアウト特徴に一致する文書モデ
    ルを選択し、該選択された文書モデルと前記文書画像と
    を照合することにより前記文書画像を認識する文書認識
    方法であって、前記文書モデルを作成するとき、サンプ
    ル文書画像を所定の単位に分割することによりレイアウ
    ト特徴を検出し、前記サンプル文書画像の所定領域を指
    定すると共に所定の属性を与えることを特徴とする文書
    認識方法。
  2. 【請求項2】 前記所定領域の指定は、前記サンプル文
    書画像中の所定要素を包含する矩形によって行うことを
    特徴とする請求項1記載の文書認識方法。
  3. 【請求項3】 前記矩形の大きさを変えることにより、
    前記要素のレイアウト特徴の変動量を設定することを特
    徴とする請求項2記載の文書認識方法。
  4. 【請求項4】 文書画像を所定の単位に分割することに
    よりレイアウト特徴を検出する機能と、複数の文書モデ
    ルの中から、前記文書画像のレイアウト特徴に一致する
    文書モデルを選択する機能と、該選択された文書モデル
    と前記文書画像とを照合することにより前記文書画像を
    認識する機能をコンピュータに実現させるためのプログ
    ラムを記録したコンピュータ読み取り可能な記録媒体で
    あって、前記文書モデルを作成するとき、サンプル文書
    画像を所定の単位に分割することによりレイアウト特徴
    を検出する機能と、前記サンプル文書画像の所定領域を
    指定すると共に所定の属性を与える機能をコンピュータ
    に実現させるためのプログラムを記録したコンピュータ
    読み取り可能な記録媒体。
JP11232266A 1999-08-19 1999-08-19 文書認識方法および記録媒体 Pending JP2001056837A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11232266A JP2001056837A (ja) 1999-08-19 1999-08-19 文書認識方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11232266A JP2001056837A (ja) 1999-08-19 1999-08-19 文書認識方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2001056837A true JP2001056837A (ja) 2001-02-27

Family

ID=16936565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11232266A Pending JP2001056837A (ja) 1999-08-19 1999-08-19 文書認識方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2001056837A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424716C (zh) * 2005-10-07 2008-10-08 株式会社理光 图像处理装置,图像处理方法
JP2010102668A (ja) * 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd メタデータ抽出装置およびその方法
US8418048B2 (en) * 2006-06-27 2013-04-09 Fuji Xerox Co., Ltd. Document processing system, document processing method, computer readable medium and data signal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424716C (zh) * 2005-10-07 2008-10-08 株式会社理光 图像处理装置,图像处理方法
US8418048B2 (en) * 2006-06-27 2013-04-09 Fuji Xerox Co., Ltd. Document processing system, document processing method, computer readable medium and data signal
JP2010102668A (ja) * 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd メタデータ抽出装置およびその方法

Similar Documents

Publication Publication Date Title
US8295590B2 (en) Method and system for creating a form template for a form
US8832080B2 (en) System and method for determining dynamic relations from images
JP5113909B2 (ja) 相対位置に基く制御によるページ上のグラフィックスオブジェクトの配置
US20020178135A1 (en) Image searching system and image searching method, and a recording medium storing an image searching program
JPH08249329A (ja) ポータブル電子文書に記載されている単語を識別する方法及び装置
JP2000067065A (ja) 文書画像識別方法および記録媒体
US20230027412A1 (en) Method and apparatus for recognizing subtitle region, device, and storage medium
US20160253504A1 (en) Electronically shredding a document
US10558745B2 (en) Information processing apparatus and non-transitory computer readable medium
US20120017144A1 (en) Content analysis apparatus and method
US20050157952A1 (en) Image retrieval apparatus and method, and image display apparatus and method thereof
US11914951B2 (en) Semantically-guided template generation from image content
Liang et al. Document layout structure extraction using bounding boxes of different entitles
US5950213A (en) Input sheet creating and processing system
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2002183205A (ja) データベース構築プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース構築方法およびデータベース構築装置、ならびに、データベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース検索方法およびデータベース検索装置
US8326812B2 (en) Data search device, data search method, and recording medium
CN116682118A (zh) 一种古文字识别方法、系统、终端及介质
JP2001056837A (ja) 文書認識方法および記録媒体
US10803308B2 (en) Apparatus for deciding whether to include text in searchable data, and method and storage medium thereof
CN115690819A (zh) 一种基于大数据的识别方法及其系统
JP2001297080A (ja) 読取支援装置
JP4517822B2 (ja) 画像処理装置及びプログラム
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061011