JPH11184894A - 論理要素抽出方法および記録媒体 - Google Patents

論理要素抽出方法および記録媒体

Info

Publication number
JPH11184894A
JPH11184894A JP10267166A JP26716698A JPH11184894A JP H11184894 A JPH11184894 A JP H11184894A JP 10267166 A JP10267166 A JP 10267166A JP 26716698 A JP26716698 A JP 26716698A JP H11184894 A JPH11184894 A JP H11184894A
Authority
JP
Japan
Prior art keywords
document
logical
model
layout
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10267166A
Other languages
English (en)
Inventor
Tsukasa Kouchi
司 幸地
Takashi Saito
高志 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10267166A priority Critical patent/JPH11184894A/ja
Publication of JPH11184894A publication Critical patent/JPH11184894A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 論理構造を認識する際に、レイアウト情報の
みを用いて書誌事項を抽出すると共に、自動的に文書タ
イプを識別する。 【解決手段】 画像分割手段104は、入力文書画像を
文字領域などの要素に分割し、文書のレイアウト特徴を
検出する。論理構造モデル作成手段107は、複数のモ
デル文書102毎に論理構造モデルを作成する。要素抽
出処理手段105は、論理構造モデルの内の一つのモデ
ルを用いて文書画像から論理要素を抽出し、また、その
モデルのレイアウト特徴と抽出された論理要素に対応す
る、文書のレイアウト特徴との類似度を算出し、類似度
に所定値を掛けた値が所定の閾値以上のとき、出力手段
106は抽出された論理要素を文書データベース108
に出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、デジタル文書画像
または電子文書の論理構造を検出する論理要素抽出方法
および論理要素抽出プログラムを記録した記録媒体に関
する。
【0002】
【従来の技術】例えば、電子図書館、文書ファイリング
システムなどを構築する場合に、文書画像の論理構造を
認識し、書誌事項を自動的に抽出することが要求され
る。従来、この種の文書処理装置としては、例えば、特
開平8−287189号公報に記載された技術がある。
この装置では、利用者が予め書誌事項の抽出ルールを設
定し、さらに予め設定された複数の文字列パターンとの
マッチングにより文書構造の認識を行っている。しか
し、上記した装置では、文字認識のためのコストがかか
り、また文書毎に抽出ルールを作り直す必要がある。
【0003】
【発明が解決しようとする課題】文書の論理構造を認識
する他の方法としては、特開平5−159101号公報
に記載された文書論理構造認識および文書内容認識のた
めの装置および方法がある。上記した装置および方法で
は、文書画像の要素間の関係と構造モデルとの整合性を
調べ、該当する構造モデルの論理構造要素の属性をパラ
メータとして文書画像の要素の内容を認識する。そのた
めに、文書要素をノード、要素間の配置関係をリンクす
るようなグラフ構造の構造モデルを用いて文書構造認識
を行っているが、このような構造モデルは全要素間の相
対位置関係で定義されているため、その作成には手間が
かかり、かつ、ある1つの要素を誤認識した場合に、他
の残りのすべての要素認識に対して誤認識を発生させる
可能性が大きいという問題がある。
【0004】本発明の目的は、論理構造を認識する際
に、文字認識結果を用いずにそのレイアウト情報のみを
用いて書誌事項を的確に抽出すると共に、自動的に文書
タイプを識別して論理構造を認識するデジタル文書画像
または電子文書の論理要素抽出方法および論理要素抽出
プログラムを記録した記録媒体を提供することにある。
【0005】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書をデジタル画像とし
て入力し、該文書画像を所定の要素に分割すると共に、
前記文書のレイアウト特徴を検出し、複数の文書種類毎
に予め作成された論理構造モデルの内の一つのモデルを
用いて前記文書画像から第1の単位で所定の論理要素を
抽出し、次いで第2の単位で所定の論理要素を抽出し、
前記一つのモデルのレイアウト特徴と前記抽出された論
理要素に対応する、前記文書のレイアウト特徴との類似
度を算出し、該類似度に所定値を掛けた値が所定の閾値
以上のとき前記抽出された論理要素を出力することを特
徴としている。
【0006】請求項2記載の発明では、前記画像の分割
は、前記文書画像を文字領域、文字行、文字に分割し、
該文字領域から文書レイアウト構造に関する特徴を検出
することを特徴としている。
【0007】請求項3記載の発明では、前記作成される
論理構造モデルは、前記文字領域に対して指定される論
理要素名とその属性、および前記レイアウト特徴とを組
み合わせたモデルであることを特徴としている。
【0008】請求項4記載の発明では、前記属性は、最
大行数であることを特徴としている。
【0009】請求項5記載の発明では、前記論理構造モ
デルを作成するとき、前記文書種類毎に複数の文書サン
プルを用いることにより、該モデルのレイアウト特徴の
変動を抑えることを特徴としている。
【0010】請求項6記載の発明では、前記類似度に掛
ける所定値は、前記各モデルのレイアウト特徴に応じた
所定の重みであることを特徴としている。
【0011】請求項7記載の発明では、前記所定の重み
は、レイアウト特徴の信頼性に応じて動的に変更させる
ことを特徴としている。
【0012】請求項8記載の発明では、前記第1の単位
は領域単位であり、前記第2の単位は行単位であること
を特徴としている。
【0013】請求項9記載の発明では、前記入力される
文書の行方向を認識し、前記抽出される論理要素に対し
て順番制約を設けることを特徴としている。
【0014】請求項10記載の発明では、前記類似度に
所定値を掛けた値を基に前記入力文書が前記モデル内の
何れの文書種類であるかを識別し、何れのモデルについ
ても前記値が前記所定の閾値に満たないとき、前記入力
文書をリジェクトすることを特徴としている。
【0015】請求項11記載の発明では、文書をデジタ
ル画像として入力する機能と、該文書画像を所定の要素
に分割する機能と、前記文書のレイアウト特徴を検出す
る機能と、複数の文書種類毎に論理構造モデルを作成す
る機能と、該論理構造モデルの内の一つのモデルを用い
て前記文書画像から領域単位で所定の論理要素を抽出す
る機能と、次いで行単位で所定の論理要素を抽出する機
能と、前記一つのモデルのレイアウト特徴と前記抽出さ
れた論理要素に対応する、前記文書のレイアウト特徴と
の類似度を算出する機能と、該類似度に所定値を掛けた
値が所定の閾値以上のとき前記抽出された論理要素を出
力する機能をコンピュータに実現させるためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体であ
ることを特徴としている。
【0016】請求項12記載の発明では、入力されたデ
ジタル文書画像または電子文書から論理要素を抽出する
論理要素抽出方法であって、前記入力されたデジタル文
書画像または電子文書からレイアウト特徴を抽出し、複
数の論理モデルの中から、前記抽出されたレイアウト特
徴に一致する論理モデルを検出し、該検出された論理モ
デルを用いて、前記デジタル文書画像または電子文書か
ら論理要素を抽出することを特徴としている。
【0017】請求項13記載の発明では、前記論理モデ
ルを作成する際に、モデル用のデジタル文書画像または
電子文書を所定の要素に分割し、該分割された各要素を
画面表示し、選択された要素にラベル名を与え、該選択
された要素のレイアウト特徴量とラベル名の組のリスト
を、前記入力された文書の論理要素を抽出するための参
照用論理モデルとして蓄えることを特徴としている。
【0018】請求項14記載の発明では、文書をデジタ
ル文書画像または電子文書として入力する機能と、前記
入力されたデジタル文書画像または電子文書からレイア
ウト特徴を抽出する機能と、複数の論理モデルの中か
ら、前記抽出されたレイアウト特徴に一致する論理モデ
ルを検出する機能と、該検出された論理モデルを用い
て、前記デジタル文書画像または電子文書から論理要素
を抽出する機能をコンピュータに実現させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
であることを特徴としている。
【0019】
【発明の実施の形態】本発明では、文書画像から書誌事
項を自動抽出する。そのためにユーザが論理構造モデル
として設定することは、抽出したい要素に書誌事項名と
簡単な属性を与えるだけであり、従来の方法に比べて容
易に論理構造モデルを作成することができる。
【0020】また、各要素毎に独立に抽出するため、論
理構造モデルにおいて全体の構造を定義する必要はな
い。従って、ある要素に対する誤抽出が、他の要素抽出
に与える影響も非常に小さい。
【0021】学会論文予稿集など文書毎に書誌事項の行
数や文字サイズ、絶対位置などが大きく変動する文書タ
イプに対しては、文書種類毎の文書画像を複数枚用意す
ることにより、それらのレイアウト特徴の信頼性を自動
的に判定して信頼度のパラメータを更新し、論理構造モ
デルを作成することができ、特定のレイアウト特徴の変
動に依存しない安定した抽出結果が得られる。加えて、
文字認識結果を利用しないため、文字方向や言語に依存
ぜずに要素を抽出することができる。
【0022】以下、本発明の一実施例を図面を用いて具
体的に説明する。 (実施例1)図1は、本発明の実施例1の構成を示す。
図において、101は入力文書、102は論理構造モデ
ルを構築するための複数種類のモデル文書、103は入
力文書101、モデル文書102を読み取って、文書画
像、モデル文書画像を入力するための画像入力手段、1
04は入力された文書画像を複数の要素に分割する画像
分割手段、105は論理構造モデルを用いて文書画像か
ら論理要素を抽出する要素抽出処理手段、106は抽出
結果を出力する抽出結果出力手段、107は複数の要素
に分割された複数種類のモデル文書に対してユーザが必
要な要素に書誌事項名と属性を指定し、論理構造モデル
を作成する論理構造モデル作成手段、108は抽出結果
を保持する文書データベースである。
【0023】本発明の処理は、複数種類のモデル文書画
像から論理構造モデルを構築する処理と、入力文書画像
に対して該モデルを利用して論理要素を抽出する処理か
らなる。
【0024】まず、論理構造モデルを構築する処理につ
いて説明する。図6は、本発明の論理構造モデル作成の
処理フローチャートである。画像入力手段103により
文書種類毎のモデル文書画像を得る(ステップ60
1)。画像分割手段104は、入力画像を要素に分割す
る(ステップ602)。ここでは、文字領域、文字行、
文字を切り出す。また、切り出された領域に対しては、
要素の座標や文字の大きさ、インデント、フォント、コ
ラム情報など文書レイアウト構造に関する特徴を検出す
る。さらに、文書の文字方向(つまり、縦書き、横書き
を区別するために行方向)を検出するが、文字認識は行
わない。
【0025】論理構造モデル作成手段107は、画像分
割手段104により複数の要素に分割されたモデル文書
画像に対して、ユーザが抽出したい要素に書誌事項名を
与え(ステップ603)、次いで、属性を与える(ステ
ップ604)。そして、画像分割手段104の結果であ
るレイアウト特徴とを組み合わせて論理構造モデルを作
成する(ステップ605)。
【0026】図2は、論理構造モデルの例を示す。図2
の第1フィールドは書誌事項名を記述し、第2フィール
ド以降はレイアウト特徴を記述するものである。具体的
には第2フィールドは座標値、第3フィールドはインデ
ント、第4フィールドは文字サイズ、第5フィールドは
書体、第6フィールドは最大行数が記述される。
【0027】なお、複数枚のサンプル画像を与えること
により、各レイアウト特徴の偏差を求め、それらの信頼
度に応じて特徴距離パラメー夕を更新していくことによ
り高精度な論理構造モデルを作成することができる。図
4は、モデル文書について複数枚のサンプル画像を用い
て特徴パラメータを更新する例を示す。
【0028】次に、入力文書から論理要素を抽出する。
図3は、本発明の論理要素抽出処理のフローチャートで
ある。要素抽出を行う文書を画像として取り込む(ステ
ップ301)。画像分割手段104は、画像を文字領
域、文字行などに分割し(ステップ302)、また、文
書のレイアウト構造に関するレイアウト特徴を検出する
(ステップ303)。入力される文書は複数のページか
らなる場合もあるが、書誌事項が記載されているページ
(通常は第1ページ)以外は、要素抽出処理手段105
において当該文書論理構造モデルと異なると判定されて
リジェクトされることになる。
【0029】論理構造モデル作成手段107は、一つの
論理構造モデルを要素抽出処理手段105に与える(ス
テップ305)。要素抽出処理手段105では、与えら
れた論理構造モデルを用いて、文書画像から要素(書誌
事項)を抽出する。すなわち、要素抽出処理手段105
は、処理対象画像から文字領域単位で要素(書誌事項)
を抽出する(ステップ306)。続いて、その結果を用
いて文字行単位で要素(書誌事項)を抽出する(ステッ
プ307)。このように、処理を階層化することによ
り、すべての行に対して、後述する総合抽出得点を求め
る必要がなくなり、全体の処理負担が軽減される。一
方、最終出力を行単位にすることにより、仮に画像分割
手段104において誤って領域が切り出された場合、例
えば2つの書誌事項要素が統合されて1つの領域として
切り出された場合でも、抽出漏れやノイズを抑えて正確
に抽出することができる。
【0030】また、ステップ307で行単位で抽出され
た要素について、総合抽出得点を求めることにより評価
する。図5は、総合抽出得点を求める処理フローチャー
トを示す。ステップ307で抽出された要素に対応する
レイアウト特徴と論理構造モデルのレイアウト特徴との
類似度を求める(ステップ503)。論理構造モデルの
各レイアウト特徴に対する重み付け係数を求める(ステ
ップ504)。ここで、重み付け係数とは、論理構造モ
デルのレイアウト特徴の信頼性に応じてその特徴距離を
動的に定義し直すための係数であり、それは信頼性が高
ければ大きくとり、逆に信頼性が低ければ小さくとる。
類似度に重み付け係数を掛けた値を総合抽出得点に加算
する(ステップ505)。この処理を、抽出された要素
に対応するすべてのレイアウト特徴に対して行い、総合
抽出得点を得る(ステップ507)。
【0031】図3に戻り、要素抽出処理の後に、必要な
らば入力文書の左上から(縦書き文書ならば右上から)
順に要素を割り当て順番制約を設ける(ステップ30
8)。この順番制約処理は、入力文書の抽出対象要素が
決まった順序で連続して現れる場合には特に有効であ
る。例えば、一度使った要素は後の候補要素から除外す
るなどの条件を追加することによりノイズを大きく抑え
ることができる。
【0032】要素抽出処理手段105は、上記した総合
抽出得点が所定の基準値以上であるか否かを調べる(ス
テップ309)。総合抽出得点が所定の基準値以上であ
るとき、抽出結果出力手段106は抽出結果を文書デー
タベース108に出力する(ステップ310)。
【0033】入力文書画像の総合抽出得点が基準値に満
たないときは、論理構造モデルと合わない(確からしさ
が低い)と判定し、文書種類が異る別の論理構造モデル
を用いて上記した要素抽出処理を再実行する(ステップ
304)。登録されたすべての論理構造モデルと合わな
い場合は、未定義文書種類としてリジェクトする(ステ
ップ311)。
【0034】なお、上記した総合抽出得点を基に、入力
文書が、モデル内の何れの文書種類に相当するかを自動
的に識別することも可能である。
【0035】(実施例2)ところで、近年、文書が電子
化され、ネットワーク上での流通が浸透しつつある。特
にワードプロセッサ等で作成された電子文書の普及が著
しいが、一方でスキャナなどから得られるデジタル文書
画像による保存形態も少なくない。
【0036】しかしながら、従来、文書の論理要素を抽
出するという観点から、上記した両者の文書形式を統一
的に扱うという方法は提案されていない。異なる文書シ
ステム間でのデータ交換や文書の再利用を支援するため
に、SGML(文書の論理構造を記述する文法)があ
る。ところが実際には、DTD(文書型定義)作成を含
めて、最初からSGML文書を作成することは難しいの
で、一般のユーザはワープロソフトなどで電子文書を作
成することが多い。
【0037】一般に、上記した電子文書は、文書の要素
を単にレイアウトベースで配置しているだけであるの
で、文書要素の論理的な意味を保持していない。前述し
た実施例1に記載された方法は、デジタル文書画像のみ
を対象とするものであった。
【0038】そこで、本発明の実施例2では、ワープロ
ソフト、ワードプロセッサなどで作成された電子文書
と、スキャナなどから得られるデジタル文書画像の両方
を入力文書形式の対象とし、両文書からそれぞれ文書の
レイアウト情報を抽出した後は、両文書から全く同じ手
法(方法および装置)を用いて文書の論理要素を抽出す
ることができる。
【0039】すなわち、ユーザは入力文書がワープロ文
書であるのかデジタル文書画像であるのかを全く意識す
ることなく扱うことができる。一方システム側も入力文
書の形式に関わらず、1つの手法(方法および装置)で
文書の論理要素を抽出することができる。
【0040】実施例2では、ランダムに入力される文書
の種類を自動識別して、前記文書から論理要素を自動抽
出する。入力文書は、ワードプロセッサ等で作成された
電子文書やスキャナなどから得られるデジタル文書画像
のどちらでもよい。文書画像を自動識別する方法および
文書画像から論理要素を自動抽出する方法は、従来技術
あるいは前述した実施例1に記載された方法を用いる。
実施例2の特徴は、はじめに入力文書の形式に応じた方
法で入力文書のレイアウト特徴を抽出して、メモリある
いはファイルに共通のフォーマットとして出力し、以後
は前記した従来方式によって、文書の種類を自動識別し
て論理要素を自動抽出する。
【0041】図7は、本発明の実施例2の構成を示す。
図において、701は入力される未知文書、702は未
知文書、サンプル文書を入力するための文書入力手段、
703は入力された文書を複数の要素に分割し、分割さ
れた要素などから文書レイアウト構造に関する特徴を抽
出するレイアウト特徴抽出手段、704は入力文書に対
して適切な論理モデルを検出する論理モデル検出手段、
705は論理モデルを用いて入力未知文書から論理要素
を抽出する要素抽出手段、706は抽出結果を出力する
抽出結果出力手段、707は論理モデル作成用のサンプ
ル文書、708はサンプル文書から抽出対象の要素に書
誌事項名と属性を指定して論理モデルを作成する論理モ
デル作成手段、709は論理モデルを管理する論理モデ
ル管理データベース、710は抽出結果を保持する文書
データベースである。
【0042】図8は、図7における文書入力手段702
とレイアウト特徴抽出手段703の具体的な構成を示
す。また、図9は、入力文書の形式に対応した文書入力
とレイアウト特徴抽出の処理フローチャートである。文
書入力インターフェース801は、ユーザから文書入力
の指示を受ける(ステップ901)。新規作成の場合で
(ステップ902)、画像からの入力ならば(ステップ
903)、スキャナなどから文書をデジタル画像として
入力する(ステップ904)。
【0043】新規作成の場合で(ステップ902)、電
子文書からの入力ならば(ステップ903)、予め登録
されたワープロソフトなどを起動して、ユーザが新規電
子文書を作成した後、ファイルで電子文書を受け取る
(ステップ905)。
【0044】既存ファイルからの入力の場合(ステップ
902)、文書入力インターフェース801では、ユー
ザからファイル名の指定だけを受け取る。文書入力イン
ターフェース801では、入力ファイルの拡張子やヘッ
ダを識別して、デジタル画像(例えば、Sun Ras
ter形式のファイル拡張子は通常’ras’であり、
ファイルの初めの4バイトは0x59a66a95と定
められている)ならば文書画像用レイアウト特徴抽出手
段803に画像を送り、電子ファイルならば電子文書用
レイアウト特徴抽出手段805に電子文書を送る(ステ
ップ908)。
【0045】文書画像用のレイアウト特徴抽出手段80
3は、従来と同様に、入力文書画像を文字領域、文字
行、文字に分割し、該文字領域から領域の座標、文字サ
イズ、フォントなど文書のレイアウト特徴を検出する
(ステップ906)。
【0046】また、通常ワープロソフト、ワードプロセ
ッサ等で作成された電子文書には、行データ、文字サイ
ズ、文字フォント、インデント等、本発明に必要なレイ
アウト特徴が一定のフォーマットに従って保持されてい
る。電子文書用レイアウト特徴抽出手段805は、電子
文書からこれらのレイアウト特徴を検出する(ステップ
907)。例えば、マイクロソフト社が提唱する電子文
書の一つであるRich Text File仕様は、
一般に広く公開されていて、本発明で必要なレイアウト
特徴は全て含まれている(Microsoft Cor
p著 アスキーテクノライト訳、「RTFver.1.
3仕様書」、アスキー出版1995年を参照)。
【0047】このようにして抽出された文書のレイアウ
ト特徴は、いずれも共通のフォーマット(文書特徴ベク
トル)として、図示しないメモリ上あるいはディスク上
にファイルとして出力される。
【0048】次に、モデル用のサンプル文書を用いて論
理モデルを作成する論理モデル作成手段708について
説明する。図10〜13は、本実施例によってモデルの
作成が簡単化されることを示す図である。
【0049】まず、図10では、論理モデルを作成する
ための文書をGUI画面上で表示する。サンプル文書が
デジタル画像として入力された場合には、デジタル画像
として表示すればよい。電子文書として入力された場合
には、作成されたワープロソフトあるいはワードプロセ
ッサの画面のように表示すればよい。続いて、入力文書
からレイアウト特徴を抽出するために、文書を所定の要
素に分割して、分割された要素を矩形で囲んで画面表示
する(図11)。
【0050】次いで、図12において、ユーザが画面上
から抽出したい論理要素を選択(要素をクリック)する
と、論理要素指定ダイアログが表示されるので、ユーザ
は「TITLE」などの論理要素名を入力する。また、
必要ならば、レイアウト特徴の許容範囲を入力する。図
13の例では最大行数2を入力する。ただし、「最大行
数」などの属性制限を指定しなくても論理要素名が入力
されていれば論理モデルは完成する。
【0051】図12と図13の処理を繰り返すことによ
り論理モデルが作成する。つまり、レイアウト特徴抽出
手段703によって抽出された論理要素のレイアウト特
徴量と論理要素名(ラベル名)の組のリストを、参照用
論理モデルとして論理モデル管理データベース709に
蓄える。
【0052】このように、作成された論理モデルは文書
要素間の掛り受けや要素の配置ルール等を持たない。す
なわち、論理モデルは、分割された要素に名前を与えた
だけの単純なりスト構造を持ち、モデルが持つパラメー
ターはレイアウト特徴抽出で得られた情報と同等であ
る。
【0053】なお、図13で与えた最大行数の指定は補
足的な情報であり、論理モデルを構築する上での必須条
件ではない。ただし、最大行数のようなパラメータの変
動許容範囲を追加することによって、より精度よく文書
の論理要素を抽出することができる。また、前記パラメ
ータの変動許容範囲は、ユーザからの指定のみではなく
類似した複数の文書から学習によっても得ることができ
る。
【0054】このように、本実施例では、論理モデルを
作成する際に、入力されたモデル用の文書を所定の要素
(領域)に分割すると共に、分割された文書要素をユー
ザにディスプレイ表示して、ユーザは少なくとも1つの
領域を選択してラベル名を与え、該領域のレイアウト特
徴量を抽出して、該特徴量とラベル名の組のリストを該
文書の論理要素抽出するための参照用論理モデルとして
蓄えているので、ワードプロセッサ等で作成された電子
文書と、スキャナなどから得られるデジタル文書画像と
の違いを意識せずに、文書から論理要素を抽出すること
ができる。
【0055】また、本実施例の論理モデル生成では、ユ
ーザが抽出したい任意の領域に対して論理要素名を指定
し、抽出されたレイアウト特徴と組み合わせることによ
り論理モデルを作成しているので、抽出したい論理要素
をユーザが自由に選択することができる。
【0056】また、本実施例の論理モデルは、文書要素
間の掛り受けや要素の配置ルール等を持たずに、分割さ
れた所定の要素の単純なリスト構造を持ち、モデルが持
つパラメーターはレイアウト特徴抽出で得られた情報と
同等であるので、論理モデル作成、編集、保守を容易に
行うことができる。したがって、論理モデルのためのユ
ーザインターフェースもシンプルになる。
【0057】さらに、論理モデルが持つ各パラメータの
それぞれに対して、補足的な属性としてパラメータの変
動許容範囲を追加でき、そのパラメータの変動許容範囲
は、ユーザからの指示によって得られ、そのパラメータ
の変動許容範囲は、類似した複数の文書から学習によっ
て得られるので、精度よく文書の論理要素を抽出するこ
とができる。 (実施例3)本発明は上記した実施例に限定されず、ソ
フトウェアによっても実現することができる。本発明を
ソフトウェアによって実現する場合には、図14に示す
ように、CPU、メモリ、表示装置、ハードディスク、
キーボード、CD−ROMドライブ、スキャナなどから
なるコンピュータシステムを用意し、CD−ROMなど
のコンピュータ読み取り可能な記録媒体には、本発明の
論理要素抽出機能を実現するプログラムなどが記録され
ている。また、スキャナから入力されたデジタル文書画
像は一時的にハードディスクなどに格納されている。さ
らに、ワープロソフトなどで作成された電子文書もハー
ドディスクなどに格納されている。そして、該プログラ
ムが起動されると、一時保存された文書画像、電子文書
が読み込まれて、論理要素抽出処理を実行し、入力文書
中から抽出された書誌事項などをディスプレイなどに出
力する。
【0058】
【発明の効果】以上、説明したように、請求項1、11
記載の発明によれば、論理要素の抽出を階層化し、さら
に抽出された要素に対応するレイアウト特徴とモデル文
書のレイアウト特徴との類似度を調べているので、精度
よく書誌事項を抽出することができる。
【0059】請求項2記載の発明によれば、様々なレイ
アウト特徴を検出しているので、種々の入力文書に対し
て安定して書誌事項を抽出することができる。
【0060】請求項3、4記載の発明によれば、自由度
の高い論理構造モデルを作成することができ、従って高
精度にかつ安定して書誌事項を抽出することができる。
【0061】請求項5記載の発明によれば、文書種類毎
に複数の文書サンプルを用いて論理構造モデルを作成し
ているので、特定レイアウト特徴の変動に対応すること
ができ、高精度にかつ安定して書誌事項を抽出すること
ができる。
【0062】請求項6記載の発明によれば、様々なレイ
アウト特徴のバランスを考慮した書誌事項が抽出でき
る。
【0063】請求項7記載の発明によれば、特定のレイ
アウト特徴の変動に依存することなく、高精度に書誌事
項を抽出することができる。
【0064】請求項8記載の発明によれば、大分類とし
て領域単位での抽出処理を行い、その結果を用いて最終
的な論理要素の抽出処理を行うという、階層化された処
理であるので、簡易な処理によって論理要素を抽出する
ことができ、また、画像分割手段における誤りにも対応
することができる。
【0065】請求項9記載の発明によれば、順番制約を
設けているので、抽出結果からノイズが大幅に少なくす
ることができる。
【0066】請求項10記載の発明によれば、文書タイ
プを自動的に識別できるので、任意の文書画像の論理構
造の認識に対応することができる。
【0067】請求項12、13、14記載の発明によれ
ば、ワードプロセッサなどで作成された電子文書と、ス
キャナなどから得られるデジタル文書画像との違いを意
識せずに、入力文書から論理要素を抽出することができ
る。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】論理構造モデルの例を示す。
【図3】本発明の論理要素抽出処理のフローチャートで
ある。
【図4】複数枚のサンプル画像を用いて特徴パラメータ
を更新する例を示す。
【図5】総合抽出得点を求める処理フローチャートを示
す。
【図6】本発明の論理構造モデル作成の処理フローチャ
ートである。
【図7】本発明の実施例2の構成を示す。
【図8】文書入力手段とレイアウト特徴抽出手段の具体
的な構成を示す。
【図9】入力文書の形式に対応した文書入力とレイアウ
ト特徴抽出の処理フローチャートである。
【図10】論理モデルを作成するための文書を表示した
図である。
【図11】論理モデルを作成するための文書を所定の要
素に分割し、分割された各領域を矩形で囲んで表示した
図である。
【図12】画面上から指定論理要素をマウスで選択し、
論理要素指定ダイアログを用いて論理要素名を入力する
図である。
【図13】論理要素名が割り当てられた領域に属性制限
(最大行数)を付与する図である。
【図14】本発明をソフトウェアによって実現する場合
の構成例を示す。
【符号の説明】
101 入力文書 102 モデル文書 103 画像入力手段 104 画像分割手段 105 要素抽出処理手段 106 抽出結果出力手段 107 論理構造モデル作成手段 108 文書データベース

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 文書をデジタル画像として入力し、該文
    書画像を所定の要素に分割すると共に、前記文書のレイ
    アウト特徴を検出し、複数の文書種類毎に予め作成され
    た論理構造モデルの内の一つのモデルを用いて前記文書
    画像から第1の単位で所定の論理要素を抽出し、次いで
    第2の単位で所定の論理要素を抽出し、前記一つのモデ
    ルのレイアウト特徴と前記抽出された論理要素に対応す
    る、前記文書のレイアウト特徴との類似度を算出し、該
    類似度に所定値を掛けた値が所定の閾値以上のとき前記
    抽出された論理要素を出力することを特徴とする論理要
    素抽出方法。
  2. 【請求項2】 前記画像の分割は、前記文書画像を文字
    領域、文字行、文字に分割し、該文字領域から文書レイ
    アウト構造に関する特徴を検出することを特徴とする請
    求項1記載の論理要素抽出方法。
  3. 【請求項3】 前記作成される論理構造モデルは、前記
    文字領域に対して指定される論理要素名とその属性、お
    よび前記レイアウト特徴とを組み合わせたモデルである
    ことを特徴とする請求項1記載の論理要素抽出方法。
  4. 【請求項4】 前記属性は、最大行数であることを特徴
    とする請求項3記載の論理要素抽出方法。
  5. 【請求項5】 前記論理構造モデルを作成するとき、前
    記文書種類毎に複数の文書サンプルを用いることによ
    り、該モデルのレイアウト特徴の変動を抑えることを特
    徴とする請求項1記載の論理要素抽出方法。
  6. 【請求項6】 前記類似度に掛ける所定値は、前記各モ
    デルのレイアウト特徴に応じた所定の重みであることを
    特徴とする請求項1記載の論理要素抽出方法。
  7. 【請求項7】 前記所定の重みは、レイアウト特徴の信
    頼性に応じて動的に変更させることを特徴とする請求項
    6記載の論理要素抽出方法。
  8. 【請求項8】 前記第1の単位は領域単位であり、前記
    第2の単位は行単位であることを特徴とする請求項1記
    載の論理要素抽出方法。
  9. 【請求項9】 前記入力される文書の行方向を認識し、
    前記抽出される論理要素に対して順番制約を設けること
    を特徴とする請求項1記載の論理要素抽出方法。
  10. 【請求項10】 前記類似度に所定値を掛けた値を基に
    前記入力文書が前記モデル内の何れの文書種類であるか
    を識別し、何れのモデルについても前記値が前記所定の
    閾値に満たないとき、前記入力文書をリジェクトするこ
    とを特徴とする請求項1記載の論理要素抽出方法。
  11. 【請求項11】 文書をデジタル画像として入力する機
    能と、該文書画像を所定の要素に分割する機能と、前記
    文書のレイアウト特徴を検出する機能と、複数の文書種
    類毎に論理構造モデルを作成する機能と、該論理構造モ
    デルの内の一つのモデルを用いて前記文書画像から領域
    単位で所定の論理要素を抽出する機能と、次いで行単位
    で所定の論理要素を抽出する機能と、前記一つのモデル
    のレイアウト特徴と前記抽出された論理要素に対応す
    る、前記文書のレイアウト特徴との類似度を算出する機
    能と、該類似度に所定値を掛けた値が所定の閾値以上の
    とき前記抽出された論理要素を出力する機能をコンピュ
    ータに実現させるためのプログラムを記録したコンピュ
    ータ読み取り可能な記録媒体。
  12. 【請求項12】 入力されたデジタル文書画像または電
    子文書から論理要素を抽出する論理要素抽出方法であっ
    て、前記入力されたデジタル文書画像または電子文書か
    らレイアウト特徴を抽出し、複数の論理モデルの中か
    ら、前記抽出されたレイアウト特徴に一致する論理モデ
    ルを検出し、該検出された論理モデルを用いて、前記デ
    ジタル文書画像または電子文書から論理要素を抽出する
    ことを特徴とする論理要素抽出方法。
  13. 【請求項13】 前記論理モデルを作成する際に、モデ
    ル用のデジタル文書画像または電子文書を所定の要素に
    分割し、該分割された各要素を画面表示し、選択された
    要素にラベル名を与え、該選択された要素のレイアウト
    特徴量とラベル名の組のリストを、前記入力された文書
    の論理要素を抽出するための参照用論理モデルとして蓄
    えることを特徴とする請求項12記載の論理要素抽出方
    法。
  14. 【請求項14】 文書をデジタル文書画像または電子文
    書として入力する機能と、前記入力されたデジタル文書
    画像または電子文書からレイアウト特徴を抽出する機能
    と、複数の論理モデルの中から、前記抽出されたレイア
    ウト特徴に一致する論理モデルを検出する機能と、該検
    出された論理モデルを用いて、前記デジタル文書画像ま
    たは電子文書から論理要素を抽出する機能をコンピュー
    タに実現させるためのプログラムを記録したコンピュー
    タ読み取り可能な記録媒体。
JP10267166A 1997-10-07 1998-09-22 論理要素抽出方法および記録媒体 Pending JPH11184894A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10267166A JPH11184894A (ja) 1997-10-07 1998-09-22 論理要素抽出方法および記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP27424497 1997-10-07
JP9-274244 1997-10-07
JP10267166A JPH11184894A (ja) 1997-10-07 1998-09-22 論理要素抽出方法および記録媒体

Publications (1)

Publication Number Publication Date
JPH11184894A true JPH11184894A (ja) 1999-07-09

Family

ID=26547741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10267166A Pending JPH11184894A (ja) 1997-10-07 1998-09-22 論理要素抽出方法および記録媒体

Country Status (1)

Country Link
JP (1) JPH11184894A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005501321A (ja) * 2001-08-27 2005-01-13 エスイーアール・ソリューションズ・インコーポレイテッド ドキュメントを自動的にインデックスする方法
JP2007080263A (ja) * 2005-09-09 2007-03-29 Xerox Corp ページレイアウト属性に基づく文書クラスタリングの方法
JP2008251023A (ja) * 2008-04-28 2008-10-16 Toppan Printing Co Ltd データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
US7509578B2 (en) 1999-04-28 2009-03-24 Bdgb Enterprise Software S.A.R.L. Classification method and apparatus
JP2009110445A (ja) * 2007-10-31 2009-05-21 Fujitsu Ltd 画像認識装置、画像認識プログラムおよび画像認識方法
JP2009140258A (ja) * 2007-12-06 2009-06-25 Fujitsu Ltd 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
US7908430B2 (en) 2000-08-18 2011-03-15 Bdgb Enterprise Software S.A.R.L. Associative memory
US8321357B2 (en) 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
US8768941B2 (en) 2009-07-27 2014-07-01 Hitachi Solutions, Ltd. Document data processing device
US8959049B2 (en) 2010-06-28 2015-02-17 Hitachi Solutions, Ltd. Document processing device and program
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US9159584B2 (en) 2000-08-18 2015-10-13 Gannady Lapir Methods and systems of retrieving documents
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
US11176364B2 (en) 2019-03-19 2021-11-16 Hyland Software, Inc. Computing system for extraction of textual elements from a document

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509578B2 (en) 1999-04-28 2009-03-24 Bdgb Enterprise Software S.A.R.L. Classification method and apparatus
US8276067B2 (en) 1999-04-28 2012-09-25 Bdgb Enterprise Software S.A.R.L. Classification method and apparatus
US9159584B2 (en) 2000-08-18 2015-10-13 Gannady Lapir Methods and systems of retrieving documents
US7908430B2 (en) 2000-08-18 2011-03-15 Bdgb Enterprise Software S.A.R.L. Associative memory
US8209481B2 (en) 2000-08-18 2012-06-26 Bdgb Enterprise Software S.A.R.L Associative memory
US9141691B2 (en) 2001-08-27 2015-09-22 Alexander GOERKE Method for automatically indexing documents
JP2005501321A (ja) * 2001-08-27 2005-01-13 エスイーアール・ソリューションズ・インコーポレイテッド ドキュメントを自動的にインデックスする方法
US8015198B2 (en) 2001-08-27 2011-09-06 Bdgb Enterprise Software S.A.R.L. Method for automatically indexing documents
JP4860903B2 (ja) * 2001-08-27 2012-01-25 エスイーアール・ソリューションズ・インコーポレイテッド ドキュメントを自動的にインデックスする方法
JP2007080263A (ja) * 2005-09-09 2007-03-29 Xerox Corp ページレイアウト属性に基づく文書クラスタリングの方法
JP2009110445A (ja) * 2007-10-31 2009-05-21 Fujitsu Ltd 画像認識装置、画像認識プログラムおよび画像認識方法
JP2009140258A (ja) * 2007-12-06 2009-06-25 Fujitsu Ltd 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
JP2008251023A (ja) * 2008-04-28 2008-10-16 Toppan Printing Co Ltd データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
US8768941B2 (en) 2009-07-27 2014-07-01 Hitachi Solutions, Ltd. Document data processing device
US8321357B2 (en) 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
US8959049B2 (en) 2010-06-28 2015-02-17 Hitachi Solutions, Ltd. Document processing device and program
US11176364B2 (en) 2019-03-19 2021-11-16 Hyland Software, Inc. Computing system for extraction of textual elements from a document
US11763588B2 (en) 2019-03-19 2023-09-19 Hyland Software, Inc. Computing system for extraction of textual elements from a document

Similar Documents

Publication Publication Date Title
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP4343213B2 (ja) 文書処理装置および文書処理方法
JP3940491B2 (ja) 文書処理装置および文書処理方法
US7840891B1 (en) Method and system for content extraction from forms
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US8452132B2 (en) Automatic file name generation in OCR systems
Déjean et al. A system for converting PDF documents into structured XML format
US9256798B2 (en) Document alteration based on native text analysis and OCR
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
US7046847B2 (en) Document processing method, system and medium
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2006268638A (ja) 文書差分検出装置
US20170132484A1 (en) Two Step Mathematical Expression Search
US9049400B2 (en) Image processing apparatus, and image processing method and program
JP5446877B2 (ja) 目次構造特定装置
JP2015005100A (ja) 情報処理装置、テンプレート生成方法、およびプログラム
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP4196824B2 (ja) 情報区分装置、情報区分方法及び情報区分プログラム
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
JP2011070529A (ja) 文書処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060412