JPH11250041A

JPH11250041A - 文書処理装置および文書処理方法

Info

Publication number: JPH11250041A
Application number: JP10064431A
Authority: JP
Inventors: Yasuto Ishitani; 康人石谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-02-27
Filing date: 1998-02-27
Publication date: 1999-09-17
Anticipated expiration: 2018-02-27
Also published as: JP3940491B2

Abstract

(57)【要約】【課題】印刷文書に記載されている内容を抽出・構造化
してコンピュータに自動入力できるようにすること。【解決手段】文書画像からレイアウトオブジェクトと構
造を抽出する手段１と、文書画像から抽出したテキスト
の領域からタイポグラフィーに基づいて段落、リスト、
数式、プログラム、注釈等の論理オブジェクトを抽出す
る手段３と、オブジェクト間の複数の可能な読み順を抽
出する手段５と、論理オブジェクトに対して予め定義さ
れているモデルを適用して論理構造を抽出する手段４
と、から構成され、文字、写真、図形、表などで構成さ
れる多様な複数頁構成の文書からでも一次情報二次情報
を抽出し、多様な電子フォーマットに変換可能にするこ
とにより、文書管理システムの自動構築や様々な計算機
アプリケーションの有効活用を可能にする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、オフィスや家庭で
流通している印刷文書等を処理の対象にしており、この
印刷文書に記載されている内容を抽出・構造化して、コ
ンピュータに自動入力するための文書処理装置および文
書処理方法に関するものである。

【０００２】

【従来技術】新聞記事や書籍などのような印刷文書の内
容をコンピュータに取り込んで、その情報内容を利用し
たいと云う要求があるが、この場合、従来の技術では、
印刷文書をイメージスキャナで画像としてコンピュータ
に取り込み、そこから「レイアウト構造」と「論理構
造」を抽出し、それらを対応づけるといった処理が一般
的である。このような技術の例はいくつかあるが、代表
的なものを示すと次の如きである。

【０００３】ここで、文献「黄瀬他：“文書画像構造解
析のための知識ベースの一構成法”、情報処理学会論文
集、Vol.34, No.1, PP75-87, (1993-1)」によれば、文
書構造とは、“レイアウト構造”と“論理構造”とから
構成されており、これらのうち、“レイアウト構造”と
は部分領域に関する階層構造のことであり、ブロック領
域などのレイアウトオブジェクトを要素として持つと定
義され、また、“論理構造”とはコンテンツに関する階
層構造のことであり、章節などの論理オブジェクトを要
素として持つと定義される。そして、このような定義を
念頭において、以下、いくつかの従来技術に触れてみ
る。

【０００４】［１］「S.Tsujimoto: Major Componen
ts of a Complete Text Reading System, Proceedings
of THE IEEE, Vol.80, No.7, July, 1992」：この文献
に開示の技術は、レイアウト解析によって得られたレイ
アウトオブジェクトの幾何的階層構造に対して、2、3の
一般的なルールを適用することにより、論理構造に変換
する方式である。この場合、“論理構造”は木構造で表
現されるが、それをルートから辿っていくと読み順が得
られる。

【０００５】［２］「駱他：“ルールベースの適用に
よる日本語新聞紙紙面の構造認識”、電子通信学会論文
集D-II, Vol.J75-D-II, No.9, pp.1514-1525, (1992-
9)」：ここに開示の技術は、日本語新聞のレイアウトオ
ブジェクトを隣接関係グラフで表現し、ルールに基づい
てこのグラフを解釈することでタイトル、写真、図表、
本文で構成される個別話題を抽出するというものであ
る。

【０００６】［３］「山下他：“モデルに基づいた文
書画像のレイアウト理解”、電子通信学会論文集D-II,
Vol.J75-D-II, No.10, pp.1673-1681, (1992-10)」：こ
れは、レイアウトオブジェクトと1対1に対応づく論理オ
ブジェクトについて表形式で簡単に表現されたモデルを
入力文書のレイアウト解析結果に適用して、論理構造を
抽出するというものである。

【０００７】［４］「黄瀬他：“文書画像構造解析の
ための知識ベースの一構成法”、情報処理学会論文集、
Vol.34, No.1, PP75-87, (1993-1)」：これは、レイア
ウト構造と論理構造とその対応関係を表す文書モデルを
用いて入力文書に対して推論を適用することにより文書
構造を抽出するものである。文書モデルは、構造の階層
性を記述できるフレーム表現を採用しており、センタリ
ングなどのレイアウト記述を可能とし、書く構成要素の
変動の記述も可能にしている。

【０００８】［５］「山田：“文書画像のODA論理構
造化文書への変換方式”、電子通信学会論文集D-II, Vo
l.J76-D-II, No.11, pp.2274-2284, (1993-11)」：これ
は、入力文書をODA機能標準PM（プロセッサブルモー
ド）26文書に自動マッピングする方式である。節構造解
析により、複数ページから多段の章・節・段落を抽出・
構造化し、表示属性解析により、字下げ、揃え、ハード
リターン、オフセットを抽出する。また、ヘッダ／フッ
タ解析により、文書クラスの同定も可能とする。

【０００９】［６］「建石：“確率文法を用いた文書
論理構造の解釈法”、信学論D-II,Vol.J79-D-II, No.5,
pp.687-697, (1996-5)」：これは、確率文法の枠組を
用いて、複数ページに渡る章節構造とリスト構造を抽出
するというものである。

【００１０】しかし、これらいずれの技術も、特定のレ
イアウト条件下の印刷文書について処理できるといった
程度にとどまり、多様な印刷文書全般に亘って、細かく
解析してＳＧＭＬや、ＨＴＭＬ，ＣＳＶあるいはワード
プロセッサアプリケーションのフォーマットなどに簡単
に変換できて、各種アプリケーションやデータベース、
電子図書館などで利用できるようにすると云った要求に
は応えることができない。

【００１１】ここで、例えば、ＳＧＭＬとは、 “Stand
ard Generalized Markup Language”のことで、このＳ
ＧＭＬは、文書の構造を定義して、ユーザがコンピュー
ティングプラットフォームの全域で文書を交換できるよ
うにする文書言語である。ＳＧＭＬは、主としてワーク
フローと文書を管理する環境で用いられており、そのＳ
ＧＭＬファイルには、段落、節、ヘッダ、タイトルなど
の文書の各コンポーネントを定義する属性が含まれてい
る。

【００１２】また、ＨＴＭＬとは、“HyperText Markup
Language”のことで、このＨＴＭＬは、インターネッ
トのWorld Wide Web（略してWWWまたはW3）サービスで
提供される情報の一般的な形式として利用されているペ
ージ記述言語のことである。ＨＴＭＬはＳＧＭＬを基に
つくられている。文書中にTAGと呼ばれるマークアップ
を挿入することにより、文書の論理構造および文書間の
リンクを指定する。

【００１３】このような、言語形式や、ワープロフォー
マットに適合できるように解析結果を容易に変換できる
ような文書処理装置は現在のところ存在しない。

【００１４】

【発明が解決しようとする課題】印刷文書の内容をコン
ピュータに取り込んで、その情報内容を利用したいと云
う要求があるが、従来の技術では、印刷文書をイメージ
スキャナで画像としてコンピュータに取り込み、そこか
ら「レイアウト構造」と「論理構造」を抽出し、それら
を対応づけるといった処理する。

【００１５】そして、そのための処理技術が種々開発さ
れているが、いずれの技術も、特定のレイアウト条件下
の印刷文書について処理できるといった程度にとどま
り、多様な印刷文書全般に亘って、細かく解析してＳＧ
ＭＬや、ＨＴＭＬ，ＣＳＶあるいはワードプロセッサア
プリケーションのフォーマットなどに簡単に変換でき
て、各種アプリケーションやデータベース、電子図書館
などで利用できるようにすると云った要求には応えるこ
とができない。

【００１６】そこで、この発明の目的とするところは、
一段組のビジネスレターから多段組・多記事の新聞まで
多様な文書から高精度に、テキスト、写真・絵、図形
（グラフ、図、化学式）、表（罫線あり、なし）、フィ
ールドセパレータ、数式などの領域を抽出し、テキスト
領域からは、カラム、タイトル、ヘッダ、フッタ、キャ
プション、本文などの領域を抽出し、本文からは段落、
リスト、プログラム、文章、単語、文字を抽出し、各領
域にはその論理属性、読み順、他の領域との関係（例え
ば、親子関係、参照関係など）を付与することができ、
更には、文書クラスやページ属性なども抽出するもので
ある。抽出された情報は構造化され、色々なアプリケー
ションソフトウェアへの入力・応用を可能とする文書処
理装置および文書処理方法ていきょうすることにある。

【００１７】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、文書画像からその文書のレイアウトオブ
ジェクトとレイアウト構造を抽出するレイアウト解析手
段と、文書画像より得た文字の配置情報からタイポグラ
フィック情報を得てこれより論理オブジェクトを抽出す
る手段と、レイアウトオブジェクトと論理オブジェクト
の読み順を決定する手段と、この読み順に従って論理オ
ブジェクト間の階層構造、参照構造、関係構造を論理構
造として抽出する抽出手段と、複数ページの文書構造を
認識する手段とを備える構成とする。

【００１８】すなわち、本発明では、レイアウト解析で
抽出されたテキスト領域の文字行を一般行、字下げ行、
センタリング行、ハードリターン行に分類し、その配
置、連続性を考慮することにより、数式、プログラム、
リスト、タイトル、段落などの部分領域を抽出する（こ
の処理を表示解析処理、もしくはタイポグラフィック処
理とも呼ぶ）。局所的な行分類と、大局的な部分領域抽
出との間で相互作用を行わせることで、処理誤りを軽減
し、高精度な処理結果が得られるようにしている。さら
には、紙面レイアウトにより生じた、複数の領域にまた
がるテキスト配置の不連続も解消する。

【００１９】また、テキスト領域群に対して、局所的な
グループ化処理、話題／記事抽出処理を行い、それらを
大域的に順序付けした後で、各グループや話題内で局所
的に順序付けを行うことで、順序付けの曖昧さを削減し
ながら読み順を抽出する。このとき、話題抽出を含む局
所的なグループ化処理と、大局的な順序付け処理との間
で相互作用を行わせることで、処理誤りを削減して高精
度な処理結果が得られるようにする。さらには、この方
式によると、図形、写真などの非テキスト領域の順序付
けと、縦書き／横書き混在文書の順序付けも実現でき
る。また、複数の読み順を出力させることで、多様なア
プリケーションに対応することを可能としている。

【００２０】さらには、本発明では、ユーザによる容易
な定義を可能とする視認性の高いＧＵＩを用いて文書モ
デルを作成し、これを用いて論理構造抽出する枠組みを
採用することにより、多様な文書から所望の情報を高精
度に抽出することを可能としている。モデル照合では、
レイアウト解析により得られる部分領域（レイアウトオ
ブジェクト）を対象としている。本方式では、モデルで
定義されている情報の詳細さを考慮でき、それに基づい
てモデル照合を制御することができる。モデル照合結果
の度合いの推定と、入力側の変動の推定などの状況推定
を可能とし、これに基づいて照合処理を制御する。この
とき、レイアウト解析部、モデル照合部、状況推定部の
間で相互作用を行わせることで、各モジュールの処理誤
りを軽減し、モジュール間の協調により高精度な処理結
果が得られるようにする。

【００２１】本発明は、多様な印刷文書全般に亙って、
細かく解析し、その解析結果を元の文書画像データを含
めて、保存することにより、ＳＧＭＬや、ＨＴＭＬ，Ｃ
ＳＶあるいはワードプロセッサアプリケーションのフォ
ーマットなどに簡単に変換できる途を拓く。そして、こ
れにより各種アプリケーションやデータベース、電子図
書館などで文書情報を広く利用できるようにすると云っ
た要求には応えることができるようにする。

【００２２】特に、本発明は、一段組のビジネスレター
から多段組・多記事の新聞まで多様な文書から高精度
に、テキスト、写真・絵、図形（グラフ、図、化学
式）、表（罫線あり、なし）、フィールドセパレータ、
数式などの領域を抽出し、テキスト領域からは、カラ
ム、タイトル、ヘッダ、フッタ、キャプション、本文な
どの領域を抽出し、本文からは段落、リスト、プログラ
ム、文章、単語、文字を抽出し、各領域にはその論理属
性、読み順、他の領域との関係（例えば、親子関係、参
照関係など）を付与したいといった要求に応えることが
でき、文書クラスやページ属性なども含めて情報抽出
し、抽出された情報は構造化することで、色々なアプリ
ケーションソフトウェアへの入力・応用を可能とする。

【００２３】

【発明の実施の形態】以下、本発明の実施形態につい
て、図面を参照して説明する。

【００２４】本発明は、一段組のビジネスレターから多
段組・多記事の新聞まで多様な文書から高精度に、テキ
スト、写真・絵、図形（グラフ、図、化学式）、表（罫
線あり、なし）、フィールドセパレータ、数式などの領
域を抽出し、テキスト領域からは、カラム、タイトル、
ヘッダ、フッタ、キャプション、本文などの領域を抽出
し、本文からは段落、リスト、プログラム、文章、単
語、文字を抽出し、各領域にはその論理属性、読み順、
他の領域との関係（例えば、親子関係、参照関係など）
を付与することができるものである。この他に、文書ク
ラスやページ属性なども抽出することができるものであ
る。抽出された情報は構造化され、色々なアプリケーシ
ョンソフトウェアへの入力・応用を可能とする。

【００２５】初めに、本発明の概要を説明する。

【００２６】（概要）印刷文書は、知識表現の一つの形
態とみなすことができる。しかし、 (i) 内容へのアクセスが簡単ではないこと (ii) 内容の変更・修正にコストがかかること (iii) 配布にコストがかかること (iv) 蓄積に物理的スペースを要し、整理に手間がかか
ることなどの理由から、ディジタル表現への変換が望まれてい
る。ディジタル表現形式に変換すれば、表計算、イメー
ジファイリング、文書管理システム、ワープロ、機械翻
訳、音声読み上げ、グループウェア、ワークフロー、秘
書エージェントなどの多様な計算機アプリケーションを
通じて、所望の情報が所望の形態で簡単に入手できるよ
うになるからである。

【００２７】そこで、印刷文書をイメージスキャナやコ
ピー機を用いて読み取り、画像データ（文書画像）に変
換して、この文書画像から上記アプリケーションの処理
対象となるいろいろな情報を抽出し、数値化・コード化
する方法・装置について以下で提案する。

【００２８】具体的には、印刷文書をスキャニングして
得られたページ単位の文書画像から、レイアウトオブジ
ェクトおよびレイアウト構造として、“テキスト”から
は、「カラム（段組）構造」「文字行」「文字」「階層構造（カラム構造−部分領域−行−文字）」「図形（グラフ、図形、化学式など）」「絵、写真」「表、フォーム（罫線のあるもの、罫線のないもの）」「フィールドセパレータ」「数式」などの領域情報を抽出し、さらにテキスト領域からは、
“タイポグラフィー情報”として、「字下げ」「センタリング」「揃え」「ハードリターン」などを抽出し、また“論理オブジェクト・論理構造”と
して、「文書クラス（新聞、論文、明細書などの文書種別）「ページ属性（フロントページ、最終ページ、奥付けペ
ージ、目次ページなど）」「論理属性（タイトル、著者名、アブストラクト、ヘッ
ダ、フッタ、ページ番号など）」「章節構造（複数ページに亙る）」「リスト（箇条書きなど）構造」「親子関係（コンテンツの階層構造）」「参照関係（参考文献、注釈への参照、本文からの非テ
キスト領域への参照、非テキスト領域とそのキャプショ
ン間の参照、タイトルへの参照など）」「ハイパーテキスト関係」「順序（読み順）」「言語」「話題（タイトル、見出しとその本文の組合せ）」「段落」「文章（読点で区切られている単位）」「単語（インデキシングにより得られるキーワードなど
を含む）」「文字」などの情報を抽出し、構造化する。

【００２９】すなわち、印刷文書を“レイアウト構造”
と“論理構造”の観点から見て、様々な粒度で解体した
あと、その要素を抽出して、いろいろな形に構造化する
ことを実現する。さらに、文書の二次情報として、“書
誌情報”や“メタデータ”も自動的に抽出する。

【００３０】このようにして得られた情報は、種々のア
プリケーションソフトを通じて、ユーザから要求があっ
た時点で、あらゆるオブジェクトが動的に、全体的ある
いは部分的に構造化、順序付けされて、アプリケーショ
ンのインタフェースを通じてユーザに提供されるように
なっていても良い。このとき、処理結果として複数の可
能な候補がアプリケーションに供給されたり、アプリケ
ーションから出力されるようになっていてもよい。

【００３１】また、文書処理装置のＧＵＩで、同様にあ
らゆるオブジェクトが、動的に構造化あるいは順序付け
されて表示されるようになっていても良い。

【００３２】さらに、構造化された情報は、アプリケー
ションに応じて、プレーンテキスト、ＳＧＭＬ、ＨＴＭ
Ｌ、ＸＭＬ、ＲＴＦ、ＰＤＦ、ＣＳＶ等の書式記述言語
形式、その他ワープロフォーマットに変換されるように
なっていても良い。

【００３３】ページ単位に構造化された情報は、文書ご
とに編集されて、文書単位の構造化情報が生成されるよ
うにしてもよい。

【００３４】次に、全体システムの構成について説明す
る。［システム構成例］文書処理システムは、例えば図１
（ａ）に示すように、レイアウト解析処理部１、文字切
りだし／認識処理部２、タイポグラフィック解析処理部
３、論理構造抽出処理部４、読み順決定処理部５、文書
構造認識処理部６より、あるいは図１（ｂ）に示すよう
に、レイアウト解析処理部１、文字切りだし／認識処理
部２、タイポグラフィック解析処理部３、論理構造抽出
処理部４、読み順決定処理部５、文書構造認識処理部６
および共有メモリ７とより、構成されている。

【００３５】この場合、全体システムは、それぞれ独立
した、以下に示す複数の処理モジュールで構成されてい
る（詳細については後述）。

【００３６】＜レイアウト解析部１＞ここでは、レイア
ウト解析処理を行うが、これは主に印刷媒体を構成する
「テキスト」、「図形」、「写真」、「表」、「フィー
ルドセパレータ」などのレイアウトオブジェクトとその
幾何的階層構造と配置関係を抽出すると云った処理を行
う。

【００３７】＜文字切り出し／認識処理部２＞文字切り
出し／認識処理部２は、文字の切り出し／認識処理を行
うものであるが、ここでは、文字切り出し／認識の処理
内容は、具体的にはテキストオブジェクトを文字行単位
にコード化するというものである。この文字切り出し／
認識処理部２としてのモジュールは、文献「石谷：“創
発的計算に基づく文書画像レイアウト解析”画像の認識
・理解シンポジウムMIRU96，pp.343−348，１９９６」
に示されるように、レイアウト解析モジュールに内蔵さ
れていてもよい。以下では内蔵されている場合について
説明する。

【００３８】＜タイポグラフィック解析処理部３＞タイ
ポグラフィック解析処理部３は論理オブジェクト抽出処
理を行うもので、「字下げ」、「ハードリターン」、
「揃え」、「センタリング」などのタイポグラフィーに
基づいて、「段落」、「リスト」、「数式」、「プログ
ラム」、「注釈」などを抽出する。

【００３９】＜論理構造抽出部４＞論理構造抽出部４は
モデルベース論理構造抽出を行うものであるが、これは
あらかじめユーザが定義した文書モデルに従って論理オ
ブジェクトの属性、階層構造、関係構造を獲得すると云
った処理である。

【００４０】＜読み順決定処理部５＞読み順決定処理部
５は読み順を決定する処理を行うものであって、ここで
の処理は、論理オブジェクトの相対的な配置関係などか
ら読み順を決定すると云ったことを行う。

【００４１】＜文書構造認識処理部６＞文書構造認識処
理部６は文書構造を認識する処理を行うものであって、
具体的には、この文書構造認識処理は、複数ページに亙
る処理結果を統合、解釈して「文書クラス」、「ページ
クラス」、「章節構造」、「参照関係」などを抽出する
といった処理である。

【００４２】上述した図１（ａ）の構成の場合での本シ
ステムは、モジュール間で一方向あるいは双方向に情報
通信可能である。また図１（ｂ）の構成の場合では、各
モジュールは共有メモリ７に何度でもアクセスでき、各
々が必要とする情報がメモリ上で揃った時点で動作を開
始し、メモリ上のデータを各々変更、更新するようにな
っている。

【００４３】すべてのモジュールでは、処理に必要なパ
ラメータをスケーラブルに設定・変化でき、それにより
処理対象に応じて推定できるようになっている。また、
モジュールごとに、共有メモリ上のデータを、内部で必
要とするデータ構造に変換することができる。さらに、
対象の状況や近い将来の処理手順などを推定できるよう
になっている。

【００４４】本システムでは、処理対象のバリエーショ
ンを増やしたり、処理精度を向上するために、新たに別
の処理モジュール追加する場合には、人間の脳のように
新しい機能（モジュール）を古い機能の上に積み上げて
いったり、共有メモリにアクセス可能なモジュールとし
て追加することで、システム全体の性能を進歩させるこ
とができるのである。［動作概要］：次に、このような構成の本システムの動
作を説明する。

【００４５】例えば、ある文書の論理オブジェクトの属
性を認識する場合、それが前の段落やページからの続き
であるかどうか既知でなければ認識不能である場合があ
る。また、ある領域や論理オブジェクトの読み順は、そ
の論理属性と周囲の属性が分からなければ決定できない
場合がある。すなわち、各モジュールは、他のモジュー
ルの処理結果が分かって初めて、正しい動作を決定する
ことができる。

【００４６】さらに、各モジュールは処理誤りを犯す可
能性があり、それらが段階的に蓄積されると正しい結果
が得られない場合がある。

【００４７】このような文書認識における曖昧性に対応
するために本方式では、システムの制御を中央集権的に
固定するのではなく、処理の進行状況や対象の文書構造
に応じて各モジュールが動作するようにしている。

【００４８】つまり、処理手順および制御は、固定され
ておらず、モジュールが並列に動作することによって、
ダイナミックなモジュール間相互作用が生じる。そうす
ることで、あるモジュールが他のモジュールへの手がか
りを与えるように、互いに影響を及ぼし合うことで、全
体として正しい処理が行われる方向に引き込まれるよう
に動作する。

【００４９】この結果、単独モジュールで処理できない
複雑なケースに対して、複数のモジュールが協調して対
応できるようになっている。さらに、モジュールは入力
として受け取る他のモジュールの処理結果を変更するこ
とができ、これにより処理誤りの救済を可能としてい
る。

【００５０】本システムでの処理は［前処理］，［レイ
アウト解析］，［論理オブジェクトおよび論理構造の抽
出］，［文章および単語情報の抽出］，［読み順決
定］，［話題抽出］，［モデル照合に基づく論理構造抽
出］といったことを行うが、その詳細を次に説明する。［前処理］ここでは、提案するシステムへ入力される情
報の概要について説明する。システムには、イメージス
キャナが接続されており、印刷媒体をこのイメージスキ
ャナでスキャニングすることで得られるページ単位の画
像（文書画像）が順次入力される。

【００５１】このとき、イメージスキャナからは、２値
画像，濃淡画像，カラー処理画像などのかたちで画像デ
ータが供給される。いずれの画像で供給されるかは、使
用するイメージスキャナの仕様によって決まっているも
のであるが、例えば、濃淡画像やカラー画像に対して
は、従来方式を用いて、領域分割を行い、領域別に適当
なしきい値で２値画像に変換してもよい。以下の説明で
は、主に２値画像に対する処理について述べているが、
濃淡やカラー画像に対してもこのような前処理を適用す
れば、同様のことが成り立つ。以下では、“２値画像”
＝“ページ単位の２値文書画像”を意味するものとして
説明する。

【００５２】得られた２値画像は、従来方式により、雑
音除去や、傾き補正、歪み補正などの整形処理によりさ
らに品質のよい２値画像に変換されてもよい。なお、こ
こでは、傾きのない正立した画像を対象として説明す
る。また、この前処理段階において、得られた２値画像
は、個別の文字の領域が検知され、パターン認識により
文字認識が成されて、文字コード化される、といった処
理も含む。［レイアウト解析］ここでは、上述の前処理にて得られ
た２値画像（文書画像）について、レイアウトオブジェ
クトおよびレイアウト構造の抽出を行う。それには、得
られた文書画像から、テキスト領域、図形領域、写真領
域、表領域、フィールドセパレータなどの領域をレイア
ウトオブジェクトとして抽出した後、それらの配置関係
に基づいて、幾何的階層構造をレイアウト構造として抽
出する。

【００５３】レイアウトオブジェクトの抽出は次のよう
にして行う。

【００５４】まず、２値画像（文書画像）に対して、
『文献「石谷：“創発的計算に基づく文書画像レイアウ
ト解析”画像の認識・理解シンポジウムMIRU96，pp.343
−348，１９９６」（図２参照）』あるいは『文献「石
谷：“多階層構造と階層間相互作用に基づく文書構造解
析”，電子通信学会技報PRMU96-169，pp69-76 1997」
（図３参照）』による処理を適用すれば、「テキス
ト」、「表」、「図形」、「写真」、「フィールドセパ
レータ」などの領域の幾何情報（大きさ、位置座標な
ど）が抽出される。この位置座標は、内容物に外接する
矩形（左上端、右下端の座標値で表現可能、以下外接矩
形と呼ぶ）により表現されてもよい。

【００５５】このとき、テキスト領域は、「タイト
ル」、「本文」、「ヘッダ」、「フッタ」、「キャプシ
ョン」などの論理属性に対応したまとまりとして抽出さ
れている（ただし、この時点では、各領域には論理属性
は付与されてない）。各テキスト領域では、文字列方向
が判別され、それに基づいて文字行が抽出されている。
テキスト領域はすべての文字行を内包する外接矩形とし
て表現されている。また、上記手法によると、同時に文
字認識処理も実施され、文字パターンの外接矩形と、そ
の文字コード情報も得られている。

【００５６】この結果、「２次元的なテキスト領域」、
「１次元的な文字列」、「０次元的な文字」という、階
層構造が得られる。しかし、「字下げ」、「センタリン
グ」、「揃え」、「ハードリターン」などのタイポグラ
フィー情報と、「話題」、「段落」、「リスト」、「数
式」、「プログラム」、「注釈」、「文章」、「単語」
などの論理情報は得られていない。

【００５７】罫線で文字領域が構成されている表（フォ
ーム）領域では、さらに文献「Y.Ishitani: Model Mat
ching Based on Association Graph for Form Image Un
derstanding, Proc. ICDAR95, Vol.1, pp.287-292, 19
95」、もしくは文献「石谷：“モデルマッチングによる
表形式文書の理解”、電子通信学会技報PRU94-34,pp57-
64, 1994-9」の手法を適用することにより、罫線抽出お
よび構造化処理が実施され、ページ画像が複数の表（文
献ではサブフォームと呼ばれている）で構成されている
場合には個別表領域が抽出される。

【００５８】それに対して、文献「石谷他：“階層的モ
デルあてはめによるフォーム読み取りシステム”、電子
通信学会ソサイエティ大会、D-350, 1996」に基づく方
式を適用することにより、罫線で囲まれる文字枠（フィ
ールドまたはセルともいう）を検出し、その内部の文字
列を抽出、順序付けした後、認識するようにしても良
い。もちろん、認識した後、順序付けしてもよい。

【００５９】図形領域では、グラフ、図形、化学式など
が、単独の領域として抽出されている。このあと、さら
に従来方式により、ベクトル化処理や、グラフ認識、化
学式認識がなされて、数値情報やコード情報に変換され
てもよい。

【００６０】写真領域では、絵、網点写真、べた塗り領
域などが単独の領域として抽出されている。このあと、
これらの領域は、上述した２値化処理を施す前の濃淡情
報やカラー情報が追加される、もしくは変更されるよう
になっていてもよい。

【００６１】以上が文書画像からレイアウトオブジェク
トを抽出するの抽出処理の詳細であった。次にレイアウ
ト構造の抽出について説明する。

【００６２】レイアウト構造の抽出は、レイアウトオブ
ジェクト間の配置関係、階層構造を、木構造で表現した
り、グラフ構造で表現したり、ネットワーク構造で表現
することにより得る。

【００６３】すなわち、まず、レイアウトオブジェクト
間の配置関係、階層構造を、例えば、文献「 S.Tsujimo
to: Major Components of a Complete Text Reading
System, Proceedings of THE IEEE, Vol.80, No.7, Jul
y, 1992」のように木構造で表現したり、グラフ構造で
表現したり、ネットワーク構造で表現することによりレ
イアウト構造が抽出される（これらは意味的には等
価）。

【００６４】レイアウト解析では、この他に、文書の全
体的性質を表すと見做すことができる、以下の情報、す
なわち、「文書文字列方向」情報、「カラム構造」情
報、「文書構造」情報を大域的文書構造として抽出して
もよい。・「文書文字列方向」情報文書が縦書きか横書きかを判断する必要があるが、これ
は次のようにする。

【００６５】文献「石谷：“文書構造解析のための前処
理”，信学技法，PRU92−32，pp57−64，1992」による
手法を用いて、文書全体の文字列方向を文書文字列方向
として決定してもよい。また、以下の式に基づいて文字
列方向を判断してもよい。

【００６６】と判断する。ここで、ｈｓ：横書き領域の総面積、ｖ
ｓ：縦書き領域の総面積とする。・「カラム構造」情報カラム構造は、次のようにして判断する。文献「石谷：
“創発的計算に基づく文書画像レイアウト解析”画像の
認識・理解シンポジウムMIRU96，pp.343−348，1996」
の方式によると処理結果として得られるテキスト領域
は、「高秩序領域：文字行数がしきい値th5以上であ
り、文字行方向の領域の幅がしきい値th6以上のもの」
と「低秩序領域：上記条件を満たさないもの」に分類さ
れている。例えば、高秩序領域が図８のように、文字列
方向に並列している場合には、この文書はマルチカラム
構造を持つと見なし、そうでない場合には、この文書は
シングルカラム構造を持つとみなしてもよい。・「文書構造」情報マルチカラム文書と、高秩序領域を含むシングルカラム
文書を構造化文書と定義し、そうでない文書（すなわ
ち、低秩序領域のみで構成されるシングルカラム文書）
未構造化文書と定義して、抽出してもよい。この情報
は、文書に章節構造や参照構造があるかどうかを判定す
る場合に、有用である。つまり、考えられるもののう
ち、どの論理構造を抽出可能であるか手がかりとなる。［論理オブジェクトおよび論理構造の抽出］次に、論理
オブジェクトおよび論理構造の抽出について説明する。
これは上記レイアウト解析で得られた種々のレイアウト
オブジェクトに対して、論理構造抽出処理部４のモジュ
ールが以下に述べる方法により処理して抽出する。

【００６７】まず、ヒューリスティック処理に基づく論
理属性付与を行う。これは以下に述べる簡単なルールに
基づいて、各テキスト領域に仮の論理属性を付与するこ
とで行う。

【００６８】尚、以後の処理はこの仮論理属性をベース
にして実施されても良く、また、以下のルールは、あら
かじめ設計者によって作成・内部埋め込みされていても
よいし、ユーザが、所望のパラメータをシステム外部か
ら設定することで、既存のルールを変更したり、新しい
ルールを作成・追加できるようになっていてもよい。各
テキスト領域は、レイアウト解析処理により、低秩序領
域と高秩序領域に分類されている。

【００６９】［ルール１］：表領域の上部にある低秩
序領域、および図形領域と写真領域の下部または両側に
ある低秩序領域の論理属性を「キャプション」とする。

【００７０】但し、このルールにおいて、非テキスト領
域に対するキャプションの位置（上下左右）と、両者間
の距離などをシステムの外部からユーザが設定する構成
としてあってもよい。

【００７１】［ルール2］：キャプション以外で、文
書の最上部にある、文字行数がしきい値th7（外部設定
可能としてもよい）以下の低秩序領域の論理属性を「ヘ
ッダ」とする。

【００７２】［ルール3］：キャプション、ヘッダ以
外で、文書の最下部にある、文字行数がしきい値th7以
下の低秩序領域の論理属性を「フッタ」とする。

【００７３】［ルール４］：キャプション、ヘッダ、フ
ッタ以外の低秩序領域の論理属性を「タイトル」とす
る。このルールにおいて、文字行数、文字列幅、文字列
高さなどをタイトルと判断するためのしきい値として、
ユーザが外部から設定できるようになっていてもよい。

【００７４】［ルール5］：キャプション、ヘッダ、フ
ッタ、タイトル以外の領域の論理属性を「本文」とす
る。

【００７５】このようなルールに則り、ヒューリスティ
ック処理に基づく論理属性付与を行う。［タイポグラフィック解析による論理オブジェクトの抽
出］これは文書画像から、一まとまりの論理オブジェク
トとしてテキスト領域を抽出するに当たり、必要な解析
処理であり、ここで説明するタイポグラフィック解析に
よる論理オブジェクトの抽出処理は、本発明の特徴部分
の一つである。

【００７６】レイアウト解析では、字間と行間がほぼ均
一なテキスト領域が、一まとまりのレイアウトオブジェ
クトとして抽出される。この場合、行間値が均一である
と見なされているなため、「タイトル」、「段落」、
「リスト構造」など本来、論理属性の異なっているもの
がまとまって抽出されることがある。そこで、「字下
げ」、「センタリング」、「揃え」、「ハードリター
ン」などのタイポグラフィー情報を抽出し（タイポグラ
フィック解析）、それに基づいてレイアウトオブジェク
トを行方向に分割することで、「タイトル（明示的に孤立して配置されてないもの、サ
ブタイトルに多い）」「数式（英数字、記号、ギリシャ文字で構成される）」「プログラム」「リスト（箇条書きなど）」「注釈（ヘッダを除いたものの中でページ最下端に位置
し、上方にフィールドセパレータと隣接している）」「段落（数式、プログラム、リスト以外のテキスト領域
で、字下げ行で始まり、通常行が続き、最後にハードリ
ターン行あるいは通常行で構成されるもので、パラグラ
フともいう）」などの論理オブジェクトを抽出する。

【００７７】以下では、論理オブジェクトおよび論理構
造の抽出処理により、得られた論理属性が「本文」とな
っている領域から、これらの論理オブジェクトを抽出す
る手順を示す。＜「本文」領域から論理オブジェクトを抽出する手順＞［手順Ｓ１］領域内のテキストの順序付け：横（縦）
書きのテキスト領域の場合、文字行の外接矩形の左上端
または右下端のｙ（ｘ）座標値をソートすることで文字
列の順序付けを行う。この順序は読み順に相当する。［手順Ｓ２］幾何パラメータの設定：各テキスト領域
で、先端位置と末尾位置を検出し（例えば横（縦）書き
であれば先頭位置：teはテキストの外接矩形の左（上）
端、末尾位置：teはテキストの外接矩形の右（下）端と
する）、内部の各文字行で、先頭位置から行頭：lsまで
の距離：diff(ts,ls)と、行末：leから末尾位置までの
距離：diff(te,le)を測定し、その距離値を文字数分に
換算して、保持する。また、各行で上方と下方に順番に
沿って連続して探索し、行頭が互いに揃っている場合の
数と、行末が互いに揃っている場合の数を各行で保持す
る。［手順Ｓ３］文字行の分類：テキスト領域を構成する文
字行を以下のようにして、「通常行」、「字下げ行」、
「ハードリターン行」、「センタリング行」に分類す
る。ここで、上記文字行の分類に用いるしきい値をth1
とする。このとき、例えば、図９のように領域が入り組
んで配置されている場合には、各行ごとにtsとteが定義
されていてもよい。すなわち、領域の外接矩形が互いに
交差している箇所を検出し、その重なり部分に近接する
文字行群を検出する。その文字行群の中から先頭位置の
場合には最小値を、末尾位置の場合には最大値を選択し
て、各文字行に設定してもよい。＜通常行の抽出＞：行の先頭位置：lsが、 ls ＜ (te + th1) を満たし、かつ、末尾位置：leが le ＞ (te - th1) を満たす場合、当該文字行を「通常行」と定義し、抽出
する。＜ハードリターン行の抽出＞：行の先頭位置：lsが、 ls ＜ (te + th1) を満たし、かつ、末尾位置：leが le ≦ (te - th1) を満たす場合、当該文字行を「ハードリターン行」と定
義し、抽出する。＜センタリング行の抽出＞：行の先頭位置：lsが、 ls ≧ (te + th1) を満たし、かつ、末尾位置：leが le ≦ (te - th1) を満たす場合、当該文字行を「センタリング行」と定義
し、抽出する。＜字下げ行の抽出＞：行の先頭位置：lsが、 ls ≧ (te + th1) を満たし、かつ、末尾位置：leが le ＞ (te - th1) を満たす場合、当該文字行を「字下げ行」と定義し、抽
出する。このような分類の他に、各行に設定されている “文字数分で設定されている領域の先端から行頭までの
距離値” “文字数分で設定されている領域の末尾から行末までの
距離値” を用いて同様に分類処理をしてもよい。［手順Ｓ４］単独領域の認識：〔手順S4-1〕プログラム領域の認識：当該テキスト領
域で、文字行の先頭位置を順番に調べていく。テキスト
の先端から先頭位置までの距離が文字数分として換算さ
れていれば、これを順番に一次元に並べて、パージング
することにより、行頭位置が入れ子構造をなしているか
どうか判定でき、入れ子構造となっている単独領域をプ
ログラム領域として抽出する。

【００７８】この判定処理は、文字行数がしきい値（内
部埋め込みされていてもよいし、ユーザが外部設定でき
るようになっていてもよい）を超えているものに対して
選択的に働くようになっていてもよい。この他に、行数
がしきい値th_srtnum以上で、行頭位置の隣接行間の差
分がしきい値th_diff以下で、行頭の揃いの最大値がし
きい値th_ratioより小さく、センタリングされている文
字行がしきい値th_cnumより多い領域をプログラム領域
と見なしてもよい。〔手順S4-2〕数式領域の認識：未確定領域における字
下げ行あるいはセンタリング行が以下の条件｛条件１｝文字認識結果がよくない｛条件２｝文字認識結果が英数字、記号、ギリシャ文字
でほぼ構成されているいずれかを満たす行を、「数式行」と定義し、抽出す
る。数式行のみで構成されている単独領域を数式領域と
する。この場合、各行で文字認識結果の平均値が計算さ
れており、条件１で用いられてもよい。〔手順S4-3〕リスト構造の認識：先頭行が通常行ある
いはハードリターン行であり、かつ先頭文字が記号か英
数字で構成されており、先頭行の後に行頭の揃っている
字下げ行あるいはセンタリング行が連続する二行以上の
複数行で構成される単独領域と、それが複数回繰り返さ
れている単独の領域をリスト構造として抽出する。〔手順S4-4〕注釈領域の認識：フッタを除いたなかで
ページの最下位に位置し、上方にフィールドセパレータ
が隣接している領域を注釈領域として抽出する。〔手順S4-5〕段落の認識：未確定領域のうち、字下げ
行もしくは通常行で始まり、２行目以降に通常行が連続
し、最後にハードリターン行あるいは通常行で構成され
る単独の領域、あるいは、1行目が字下げ行で2行目がハ
ードリターン行である2行で構成されている領域を段落
として抽出する。この場合、行頭は2行目から最終行ま
で揃っており、行末は、先頭行から最終行一つ手前まで
揃っているという条件を必ず満たしている必要がある。〔手順S4-６〕タイトルの認識：先頭から数文字が、
予め指定してある章節番号の記述に適合し、文字行数が
予め定めてあるしきい値：th8以下である場合、当該領
域を単独タイトル領域として抽出する。［手順Ｓ５］複合領域の分割：上記の単独領域認識処
理で同定されなかった領域は、プログラム、数式、リス
ト、段落など複数の論理オブジェクトで構成されている
複合領域と考えることができる。そこで、上記手順１で
抽出された文字行のタイポグラフィー情報に基づいて、
当該領域を文字行方向に分割する。分割位置検出のため
のルールを以下に示す。

【００７９】｛ルール１｝ハードリターン行の直後で分
割する。

【００８０】｛ルール２｝字下げ行の直前で分割する。

【００８１】｛ルール３｝センタリング行の直前で分割
する。

【００８２】｛ルール４｝センタリング行の直後で分割
する。［手順Ｓ６］繰り返し処理：上記［手順Ｓ５］で生じ
た新しい領域に対して、［手順Ｓ４］を繰り返す。［手順Ｓ７］領域統合処理：上記［手順Ｓ５］で分割
された領域が、［手順Ｓ４］で同定されなかった場合に
は、その分割は以下のルールに基づいて無効と判定さ
れ、領域の統合処理が行われる。

【００８３】｛ルール１１｝：単一行で構成される領域
の下部が未確定の複数行である場合、その分割を無効と
して、領域を統合する。

【００８４】｛ルール１２｝：単一行で構成される領域
の下部も同様であり、さらに両者の行頭が揃っている場
合、その分割を無効として、領域を統合する。

【００８５】｛ルール１３｝：数式領域の上部が段落
で、その最終行が通常行である場合、その分割を無効と
して、領域を統合する。

【００８６】｛ルール１４｝：数式領域の下部が段落
で、その先頭行が通常行である場合、その分割を無効と
して、領域を統合する。

【００８７】｛ルール１５｝：数式領域の上部が単一行
で構成される未確定領域である場合、その分割を無効と
して、領域を統合する。

【００８８】｛ルール１６｝：数式領域どうしが隣接し
ている場合には、その間の分割を無効として、それらを
統合する。

【００８９】｛ルール１７｝：リスト領域の下部に未確
定領域があり、リスト内部の行と未確定領域の行で、行
頭が揃っていれば、その分割を無効として、領域を統合
する。［手順Ｓ８］繰り返し処理：上記［手順Ｓ７］の統合
処理により生じた新たな領域に対して、［手順Ｓ４］と
［手順Ｓ７］を繰り返す。［手順Ｓ９］領域間のすりあわせ処理：ここでは、以
下の処理を繰り返し適用して、未確定領域を解消する。

【００９０】隣接する確定領域間で行配置を考慮して、
隣接行を移動させることで正確な領域を形成する。

【００９１】確定領域に隣接する未確定領域を推定す
る。例えば、リスト領域の上（下）の未確定領域との間
で、リスト領域の先頭行（非先頭行）の行頭と、未確定
領域の先頭行（非先頭行）の行頭が揃っている場合に
は、未確定領域をリスト領域と認識する。

【００９２】隣接する未確定領域間で類似性を考慮し
て、統合する。例えば、領域間で、行頭が揃っている場
合には、それらを統合する。数式領域の上部の未確定領
域を統合する。［手順Ｓ１０］未確定領域の認識：この時点で未確定と
されている領域に対して、まず隣接しているものを統合
し、すべてのものを段落と見なす。

【００９３】このような、処理手続きは、さらに図４に
示す以下の処理形態に変更してもよい。この場合システ
ムは、「前処理モジュール４１（［手順Ｓ１］〜［手順Ｓ３］
で構成）」「領域認識モジュール４２（［手順Ｓ４］に相当）」「領域分割モジュール４３（［手順Ｓ５］に相当）」「領域統合モジュール４４（［手順Ｓ７］に相当）」「領域変更モジュール４５（［手順Ｓ９］に相当）」で構成され、それぞれ独立した処理モジュールとして設
計されている。各モジュールの動作は、基本的には上述
通りであるとする。また、以下のモジュール間では双方
向に通信可能とする。

【００９４】「領域認識モジュール４２と領域分割モジ
ュール４３の間」「領域認識モジュール４２と領域統合モジュール４４の
間」「領域統合モジュール４４と領域変更モジュール４５の
間」まず、レイアウトオブジェクトＯＢＪは前処理モジュー
ル４１に入力され、その処理結果は、次いで領域認識モ
ジュール４２に供給される。

【００９５】各レイアウトオブジェクトＯＢＪを表すデ
ータ構造は、各モジュールが共有するメモリ（以後共有
メモリと呼ぶ）に格納されており、どのモジュールから
も同一のデータを参照可能であるとする。各レイアウト
オブジェクトＯＢＪには処理状況を表すフラグが設定さ
れており、領域認識モジュール４２に入力当初には未処
理、当該モジュールで認識されれば確定、認識できなか
ったときには保留（上記未確定と同じ）に相当する情報
が設定される。他のモジュールは、未処理のフラグが設
定されているレイアウトオブジェクトには処理できない
こととする。

【００９６】領域認識モジュール４２で保留となったレ
イアウトオブジェクトＯＢＪに対して領域分割モジュー
ル４３が機能することにより、部分領域に分割される。
このとき、分割されたレイアウトオブジェクトＯＢＪに
は分割済のフラグが設定され、そうでないものには未分
割のフラグが設定される。このモジュールは、未分割の
レイアウトオブジェクトのみ分割するようになってい
る。このように分割されたレイアウトオブジェクトは再
び領域認識モジュール４２で認識される。

【００９７】この後、レイアウトオブジェクトは領域統
合モジュール４４に供給され、保留となっているものを
対象として、内部のルールに基づいて統合処理が実施さ
れる。統合により新たな領域が生じたならば、その領域
には未処理のフラグが設定され、再度領域認識が実施さ
れる。

【００９８】このような領域間の相互作用により、隣接
した領域間の性質が考慮されて、徐々に適切な論理オブ
ジェクトが抽出されてくる。

【００９９】ある程度、処理結果が得られてくると、レ
イアウトオブジェクトは領域変更モジュール４５に供給
され、隣接する領域間で情報交換をして（内容は［手順
Ｓ９］と同様）、認識結果や内部の文字行などを変更し
て、その際、どの領域と統合可能かという情報も設定さ
れる。この情報に基づいて、領域統合モジュール４４で
は新たな領域を生成し、これに未処理のフラグを設定
し、当該領域を領域認識モジュール４２に供給する。

【０１００】このようにして、領域認識、統合、変更の
各モジュール間で相互作用を行うことにより、処理結果
を更新していき、最終的に正しい論理オブジェクトが得
られるようにしている。

【０１０１】また、これまでに述べてきた処理は読み順
が考慮されてないので、複数のレイアウトオブジェクト
に跨る論理オブジェクトが正しく抽出されないのと、ペ
ージ単位の処理であるので、ページ間に跨る論理オブジ
ェクトが正しく抽出されない。このような場合には、さ
らに読み順決定処理を行うモジュールと、ページ間編集
をするモジュールとの協調により論理オブジェクトを抽
出するようにしてもよい。［文章および単語情報の抽出］ここでは、文章および単
語情報の抽出処理を行う。文章および単語情報の抽出
は、文字列上に存在する句点（“。”や“．”など）を
探索し、その位置情報に基づいて文章を抽出したり、形
態素解析のような言語処理を実施して行う。

【０１０２】尚、テキスト領域では、さらに、文字認識
結果を用いて句点（“。”や“．”など）を探索し、そ
の位置情報に基づいて文章を抽出してもよいし、また、
テキスト全体に対して従来方式である形態素解析のよう
な言語処理を実施して、単語情報を抽出してもよい。以
上の処理により、イメージスキャナなどにより得られた
読み取り対象の文書の２値画像から、テキスト領域とし
て、「タイトル」、「ヘッダ」、「フッタ」、「キャプ
ション」、「本文などの論理属性に応じた領域の幾何情
報（ただし、この時点では各々の領域の属性は不
明）」、「段落」、「リスト」、「文字行」、「文章
（句点で区切られている）」、「単語」、「文字」など
の詳細な構成要素の幾何情報およびコード情報」が得ら
れる。

【０１０３】これらに対して、「領域」−「段落」−
「文章」−「単語」−「文字」の階層構造を抽出し、階
層間で参照およびアクセス可能としてもよい。［読み順決定処理］この読み順決定処理も、本発明の特
徴部分の一つであり、読み順決定処理部５により実施さ
れる。読み順決定処理にあたり、ここでは、上記レイア
ウト解析処理部１によるレイアウト解析、タイポグラフ
ィック解析処理部３によるタイポグラフィック解析で得
られた領域の順序付けについて説明する。ここで提案す
る方式は、 <1> 関連のあるタイトル領域と、それにぶら下がって
いる本文領域群、および関連する図、写真、表をグルー
プ化（リンク付け）する <2> 囲み記事や飾り記事を検出してその内部をグルー
プ化するフィールドセパレータ、飾り線、囲み枠を検出し、それ
らで囲まれる領域を抽出し、その内部をグループ化するなどのグループ化処理を行うことで、関連の深いレイア
ウトオブジェクトを結び付けて、それらの上位概念であ
る「個別話題（記事）」を同時に抽出すると云う点を大
きな特徴としている。

【０１０４】そして、「話題間の順序付け」と「話題内
部の順序付け」という階層的な順序付けを行うことによ
り、順序付与における多義性の解消を図ることを目指
す。

【０１０５】本方式では、さらに、 <i> 縦書き／横書き混在文書への順序付け <ii> 非テキスト領域の順序付け <iii> 複数のレイアウト変換を考慮した、順序の複数
出力などを可能とする。

【０１０６】このような順序付けの結果、領域間では順
序方向に向きをもつ一つのリンクが張られるようにな
り、グループという概念においては環状リンクが形成さ
れるようになっている。最終的には、リンクを辿ると、
それが読み順となることを目指す。

【０１０７】以下に、具体的に“読み順決定処理”の手
順を示す。［手順５１］フィールドセパレータ、飾り線、囲み枠な
どに基づくグループ化：［手順51-1］：文書画像から、フィールドセパレータ
（水平、垂直）、飾り線、囲み枠を抽出する。囲み枠は
図１２に示すように、2本〜４本の線分に囲まれている
ものとする。また、飾り線をフィールドセパレータとみ
なす。そして、各フィールドセパレータが他のフィール
ドセパレータ、囲み枠、非テキスト成分と接触するま
で、その先端と終端をそれぞれ延長する。

【０１０８】［手順51-2］：囲み枠内部の領域を抽出す
る。

【０１０９】［手順51-3］： (1)水平フィールドセパレ
ータと垂直フィールドセパレータで囲まれる領域、(2)
フィールドセパレータと文書画像の縁の四辺で囲まれる
領域（フィールドセパレータがない場合は、縁の四辺で
囲まれた領域）を抽出する。これらの領域を話題エリア
と呼び、以後、順序付けの際の基準とする。［手順５
２］領域統合に基づくグループ化：ここでは、以下のル
ールに基づいて、関連の深い複数の領域を一つに統合し
てグループを形成する。グループは、内部の複数の領域
を外接する矩形として表現されていてもよい。

【０１１０】［領域統合処理１］タイポグラフィック
解析による論理構造抽出処理で分割された段落、リスト
構造などを、元のテキスト領域にまとめて、本文と内部
の段落の集合という階層関係をつくる。

【０１１１】［領域統合処理２］テキスト領域におい
て、文字行方向に重なりが大きく、文字行の幾何構造が
類似している本文領域を統合する。

【０１１２】［領域統合処理３］写真、図形、表など
の非テキスト領域とそのキャプションをリンクして、ま
とめる。

【０１１３】［領域統合処理４］ヘッダ（フッタ）の
属性を持ち、図１０のように重なりをもつ場合、それら
をまとめる。

【０１１４】これらの統合処理は、［手順５１］で抽出
した話題エリア内で実施されるものとする。また、統合
時に、隣接する２者の間でリンクをはることにする。こ
の時点のリンクは、文書全体の読み順という観点から見
て正しくなくてもよい。このリンクが後段の処理で逐次
変更され、最終的には読み順と等価となることを目指
す。［手順５３］タイトル−本文関係に基づく話題の抽出：
隣接および近接する“タイトルどうし”および“タイト
ルとサブタイトル”が以下の条件１と２の両方を満たし
ている場合、それらにリンクを張って統合する。

【０１１５】［条件１］タイトル間が作るエリア（図１
１参照）に他の領域が存在しない［条件２］タイトル間距離（図１１参照）がしきい値th
3以下である次いで、まとめられたタイトル群に対して、以下の条件
を満たす上記グループ化された本文領域も一緒にまとめ
て、一つの“話題”とする。この話題は、それを構成す
るタイトルや本文グループに外接する矩形（以下、話題
外接枠とも呼ぶ）として表現されてもよい。

【０１１６】［条件３］配置関係が良好である（図１１
のように、重なりがしきい値th4以上である）［条件４］タイトルと本文間のスペース（図１１参照）
に他の領域が存在しないこの話題抽出も手順５１で抽出された話題エリアを逸脱
しないように実施されるものとする。この時点で抽出さ
れているものは、正しい話題に相当してなくてもよい。［手順５４］話題の分類：以下のルールに基づいて、話
題内部のタイトル位置に基づいて、話題を３つに分類す
る。以下では、文書文字列方向が「横（縦）書き」であ
る」」場合について述べる。

【０１１７】｛ルール２１｝非タイトル領域のすべて
が、タイトル（複数あればそのうちのいずれか一つ）の
下（左）側、あるいは右（下）側にある場合、その話題
を、話題Ａと定義する。

【０１１８】｛ルール２２｝タイトル領域が存在し、ル
ール1が適用されない話題を、話題Ｂと定義する。

【０１１９】｛ルール２３｝タイトル領域が存在しない
話題を、話題Cと定義する。以下では、話題の性質も考
慮した話題間の順序付けを行う。［手順５５］話題間の順序付け：ここでは、話題の配
置関係に関する以下のルールに基づいて、話題間の順序
付けを行う。まず、原点と順序付けのための向きを決め
る。文書方向文字列が横（縦）書きの場合、原点を画像
の左（右）上端とし、向きを右（左）方向にとる。この
原点に従って話題間の順序付けを行う。以下は、横書き
文書を対象とし場合の説明である。縦書き文書も同様に
決定されるものとする。

【０１２０】［手順55-1］原点に最も近い、話題を抽出
し、着目話題ｉとする。

【０１２１】［手順55-2］着目話題ｉに隣接する話題を
順序付け候補として抽出する。

【０１２２】［手順55-3］候補のうち最近の話題ｊを抽
出する。最近話題の決めかたは、例えば、順序付け対象
となっている話題群と、前記話題ｉとその一つ前の話題
（ｉ−１）との、３者の接続関係を判定して選ぶように
してもよい。

【０１２３】［手順55-4］話題ｊを着目話題と見なし
て、手順55-2から手順5-4を繰り返す。すべての話題の
順序付けが終了すれば繰り返し処理を停止する。［手順５６］話題の内部の順序付け：次に、話題の内
部の順序付けを行うが、これは話題内部のグループ化さ
れた領域間の順序付けを行った後、次のようにしてグル
ープ内の順序付けを行う。

【０１２４】［手順56-1］話題内部の主な文字列方向の
決定：話題内部の主な文字列方向を、上記文書文字列方
向決定方式と同様にして判別する。

【０１２５】［手順56-2］水平・垂直分割によるグル
ープ間の順序付け：グループ間の順序付けとして、例え
ば、水平・垂直分割（またはＸＹ−Ｃｕｔ）と呼ばれる
レイアウト解析のための従来方式を、以下のように拡張
してもよい。上述の［手順56-1］で得られた文字列方向
が、横（縦）書きであれば、最初に垂直（水平）方向に
分割を実施する。この分割では、分割範囲を話題外接枠
内部に限定し、グループ間の背景領域に着目して、グル
ープに接したり、交差することなく、話題外接枠に接す
る垂直分割線を設定する。

【０１２６】例えば、図１３に示す如きの記事例の場合
であれば、垂直方向分割により、図１３の結果が得られ
る。この図には、話題外接枠と分割線による区画が構成
されていることが示されている。

【０１２７】垂直分割ができなくなるなった場合には、
次に水平分割を行う。この水平分割では、分割範囲を外
接枠と垂直分割枠で囲まれる最小の区画に限定し、垂直
分割と同様に、背景領域に着目し、区画に接し、グルー
プと交差しない水平分割線を設定することにより実施さ
れる。

【０１２８】これにより、図１３の如き結果が得られ
る。このようにして、垂直分割と水平分割を順次、階層
的に行うと、話題内部で、図１３のような、外接枠と分
割線で構成される最小の区画が形成される。この区画内
に複数個のグループが存在すれば、再帰的に、順次、垂
直分割と水平分割を繰り返して、すべての区画でグルー
プが一つしか存在しなくなるまで、分割を繰り返す。

【０１２９】この方式では、分割結果を、並列関係（一
回の特定方向の分割で得られる複数の区画は並列関係に
なる）と親子関係（区画内を再帰的に分割した場合、親
子関係が生じる）で記述しておけば、そのデータ構造を
たどれば読み順が得られる。［手順56-3］グループ内の順序付け：グループ内の領域
間の順序付けを［手順5６-2］と同様に行う。しかし、
領域間で重なりや入り組みが生じている場合には、上記
水平・垂直分割による線形区分による順序付けでは、最
終的な読み順を得ることはできない。そこで、この時点
で、最小区画内に複数個の領域が存在していれば、その
区画内で、上記手順5と同様にして順序付けを行う。こ
の順序付け結果は、上記分割結果と同様のデータ構造で
表現しておく。

【０１３０】［手順56-4］文字列方向を考慮した順序付
け：縦書きの場合には読み順は、右上端から左下端の方
向になされ、横書きの場合には、左上端から右下端の方
向になされている。そこで、文書文字列方向が横（縦）
書きの場合、上記順序付け結果において、縦（横）書き
が連続して並列している箇所の順序を逆転しする。［手順5７］話題の抽出：ここでは、話題の抽出を行
う。この処理は、互いに隣接する二つの話題に対して、
以下の処理を行い、新たな話題を形成するという処理で
ある。

【０１３１】［手順57-1］相手に接する領域を抽出し、
二つの話題のうちどちらに属すべきか判定して、新しい
話題を形成する。例えば、両方とも話題Ａであり、順序
的にも隣接している場合、後の順位の話題の方に、タイ
トルよりも若い順序を持つ非タイトル領域が存在する場
合、それを先の順序の話題に移す。

【０１３２】［手順57-2］配置と順序の両方において互
いに隣接し、先の順序の話題にタイトルがあり、他方に
タイトルがない場合には両方を統合して、一つの話題と
する。［手順５８］繰り返し処理：上記［手順５４」から［手
順５7］までの処理を繰り返す。どの手順においても新
しい処理結果が生じなければ、繰り返しを停止する。［手順５９］領域のリンク付け：これまでに抽出され
た、話題間のリンク、話題内部のグループ間の順序、グ
ループ内の領域の順序をまとめて、最終的なすべての領
域間の順序を表すリンクを設定する。領域間には順序方
向に向きを持つ、一つのリンクのみが設定されている。

【０１３３】［手順６０］順序の複数候補の抽出：ここ
では、順序の複数候補の抽出を行う。上述の［手順５
９］までの順序付けにより、領域を一次元のシーケンス
として表現することができる。このとき、図形、写真な
どの非テキスト領域は、紙面上での出現位置に従って、
テキスト領域と共に順序付けされている。しかし、ユー
ザによっては、非テキスト成分は文書の最後にまとめて
あったり、それが出現した話題あるいは章節の最後にま
とめてあったり、また参照されている本文の段落の直後
に配置されている方が好ましい場合がある。

【０１３４】そこで、非テキスト成分に関して複数の順
序付け結果を出力するようにしてもよい。例えば、読み
順を表すリンクはテキスト成分間でのみ張られるように
して、非テキスト成分は、以下の手順に基づいて、その
前に存在すべきテキスト成分から新たにリンクが張られ
るようにしてもよい。

【０１３５】［手順60-1］テキスト領域間のリンクの設
定：まず、上記領域間のリンクのうちテキスト領域から
非テキスト領域へ張られているリンクを抽出する。この
箇所では、当該テキスト領域から、さらに、次に出現す
るテキストへのリンクを新たに設定するようにする。こ
れにより、テキスト領域のみの間の順序が得られる。

【０１３６】［手順60-2］非テキスト領域のリンクの設
定：読み順通りにリンクを辿っていき、非テキスト成分
だけの順番に抽出し新たに非テキスト領域間でリンクを
張る。これは、さらに各話題において行われるようにし
てもよい。

【０１３７】［手順60-3］複数の読み順生成：上記［手
順60-1］で得られたテキスト領域のみの順序集合におい
て、最後尾のテキストから、上記の［手順60-2］で得ら
れた非テキスト領域のみの順序集合の先頭へのリンクを
張り、新しい読み順を生成する。さらには、これを話題
内に限定して新たな読み順を生成してもよい。このよう
にして抽出された複数の読み順は、ユーザがシステムの
外部から所望の読み順を指定できるようにして、ユーザ
に提供できるようにしてもよいし、複数の読み順をＧＵ
Ｉを通して出力できるようになっていて、ユーザに選択
させるようにしてもよい。

【０１３８】上記手続きの結果、「ページ（最上位階
層）」−「話題」−「グループ」−「領域（最下位階
層）」という階層構造を抽出することができ、話題間の
順序、グループ間の順序、領域間の順序が同時に得られ
ることになる。

【０１３９】尚、上記［手順５２］〜［手順５８］まで
の処理手続きは、さらに図１４に示すシステムで実現す
ることもできる。

【０１４０】この場合、システムは、グループ化処理す
るためのグループ化モジュール１４１（［手順５２］で
の処理に相当）、話題抽出処理するための話題抽出モジ
ュール１４２（［手順５３］、［手順５４］、［手順５
７］での処理に相当）、グループ間順序付け処理をする
ためのグループ間順序付けモジュール１４３（［手順５
５］での処理に相当）、グループ内順序付けを行うため
のグループ内順序付けモジュール１４４（［手順５６］
での処理に相当）の各モジュールで構成され、それぞれ
独立した処理モジュールとして設計される。各処理モジ
ュールの動作はそれぞれに相当する上述の処理手順の通
りとする。また、以下のモジュール間では図１４のよう
に通信可能な構成とする。

【０１４１】まず、レイアウトオブジェクトは、グルー
プ化モジュールに供給される。レイアウトオブジェクト
にはグループ化処理済であるか、未処理であるかを示す
フラグが設定されており、他モジュールは未処理のもの
を処理できないようになっている。

【０１４２】グループ化されたレイアウトオブジェクト
は、他のモジュールへそれぞれ供給される。話題抽出モ
ジュール１４２では、グループの性質や配置に基づいて
話題が形成される。グループ間順序付けモジュール１４
３とグループ内順序付けモジュール１４４では、階層的
な順序付けが並列に行われる。

【０１４３】各処理モジュールはまず、一時的な処理結
果を出力するが、それが他の処理モジュールに再度供給
され、そこでさらに処理が行われる。その結果、あるモ
ジュールで処理結果が更新されるとそれに基づいて、さ
らに他のモジュールでも新たな処理が生じることにな
る。このようにモジュール間で協調することにより高精
度な順序付けが可能となる。

【０１４４】読み順が分判明すれば、レイアウトオブジ
ェクト間のつながりが分かるので、読み順情報を前記
「タイポグラフィック解析による論理構造抽出システ
ム」に供給すれば、異なるレイアウトオブジェクトにま
たがる段落やリスト領域を正しく同定することができ
る。

【０１４５】このとき、論理構造抽出モジュールで、読
み順に従う場合には処理誤りとなることが明確であれ
ば、それを再度読み順決定システムに供給する。このよ
うに両システム間で相互作用を行うことで、正しい処理
結果が得られるような処理制御が可能となる。［モデル照合に基づく論理構造抽出］次に、モデル照合
に基づく論理構造抽出処理について説明する。このモデ
ル照合に基づく論理構造抽出処理も本発明の特徴部分で
ある。

【０１４６】文書を構成する論理オブジェクトは、あら
ゆる文書において共通していることは少なく、運用形態
や組織によって特定のものが定義されている場合が多
い。そこで、ユーザが事前に種々の論理オブジェクトや
論理構造をモデル（総称して文書モデルともいう）とし
て定義しておき、それにしたがって入力文書が自動的に
処理されるようになっていれば都合がよい。これは、文
書のＳＧＭＬ記述で用いられるＤＴＤと同様の考え方で
あり、自然なものである。以下では、モデルベースの論
理構造抽出方法及び装置について述べる。［モデル照合に基づく論理構造抽出システムの構成例］
モデル照合に基づく論理構造抽出機能は、例えば、図５
に示す如きのシステムにより実現されていてもよい。シ
ステムは、主に、上述したレイアウト解析、ヒューリス
ティクルールに基づく論理属性付与、タイポグラフィッ
ク解析、読み順決定で構成される入力文書処理部５３、
モデル照合部５２、モデルデータベース５１、状況推定
部５４で構成されている。さらにこれらのモジュール間
では、双方向のデータ通信が可能となっている。［構成要素］入力文書処理部５３では、文書画像からレ
イアウト解析、タイポグラフィック解析、読み順決定が
なされたレイアウトオブジェクトが抽出され、処理結果
をモデル照合部５２に供給する。

【０１４７】モデルデータベース５１には、単一あるい
は複数のモデルが格納されている。各モデルは文書毎に
定義されていてもよいし、文書クラスごとに定義されて
いてもよい。各モデルの構成は、以下で詳細に説明する
が、文書、ページ、領域などの複数の階層で、種々のモ
デルオブジェクトとよばれる要素により構成されてい
る。

【０１４８】モデル照合部５２では、モデルデータベー
ス５１から、モデルを一つずつ抜き出して、入力文書の
レイアウトオブジェクトに適用し、照合処理としてモデ
ル当て嵌めを行い、レイアウトオブジェクトとモデルオ
ブジェクトレベルの間で入力−モデル間の対応付けを作
成する。

【０１４９】状況推定部５４では、モデル照合部５２で
得られた、入力−モデル間の対応結果を受け取り、「対応の度合い（ずれ、未対応の割合など」）「対応の矛盾」「モデルから見た対応の過不足」などを推定し、その情報をモデル照合部５２に供給す
る。［システムの動作（モジュール間の相互作用）］次にシ
ステムの動作を説明する。モデル照合部５２と状況推定
部５４の間では、相互的に情報供給・交換が行なわれ、
各々のモジュールでは、送られてきた情報に基づいて再
度処理が繰り返される。例えば、状況推定部５４で推定
された対応の度合いがよければ、モデル照合を終了す
る。

【０１５０】これに反して、対応にずれが多いと推定さ
れれば、モデル照合部５２では、ずれの度合いに応じて
もう一度初期対応づけを行うことでモデル照合をやり直
す。また、状況推定部５４が対応の矛盾個所を指摘すれ
ば、モデル照合部５２では、矛盾個所の近辺で再度対応
づけをやり直し、対応づけ結果を状況推定部５４に供給
する。この他、モデルから見たときに対応に過不足が生
じていれば、その情報とモデル照合結果を入力文書処理
部５３に供給する。

【０１５１】このようにシステムはモジュール間の相互
作用を通じて、照合処理を制御して、徐々に正解が得ら
れるように動作する。

【０１５２】上記モデル照合部５２と状況推定部５４の
間の相互作用が収束して、モジュールにおいて処理結果
に変更が生じなくなれば、対応の度合いを含んだ入力−
モデル間の対応付け結果は、入力文書処理部５３に供給
される。もし、モデルにレイアウト構造情報が記載され
ていれば、それを用いて、そのモデルオブジェクトに対
応づいているレイアウトオブジェクトに対して再度、レ
イアウト解析、タイポグラフィック解析、読み順決定を
行う。

【０１５３】例えば、対応づいたモデルオブジェクトに
字間、行間、行数などの情報が記載されていれば、その
値を用いてレイアウトオブジェクトの統合、分離処理が
実施される。

【０１５４】また、状況推定部５４で、モデルの一つの
要素に入力の複数のレイアウトオブジェクトが対応づい
ていると推定された場合には、レイアウト解析でその複
数のレイアウトオブジェクトを統合したり、逆に、モデ
ルの複数の要素に、入力の一つのレイアウトオブジェク
トが対応づいていると推定された場合には、レイアウト
オブジェクトを複数に分割する。このレイアウト解析結
果は、再びモデル照合部５２に送られ、同様にして新た
な入力−モデル間の対応付けが得られる。このようにし
て、モジュール間で相互作用が進むと、徐々に正しいモ
デルあてはめ結果が得られるようになる。

【０１５５】モデルデータベース５１に複数のモデルが
格納されていれば、各モデルと入力とのモデル照合が順
次行われ、状況推定部５４で求められた入力−モデル間
の対応付けの度合いが最もよいモデルと、その照合結果
が得られ得る。

【０１５６】この照合結果は、対応付けの度合いに応じ
て、システムのＧＵＩ（グラフィカルユーザインタフェ
ース）を通して、順次ユーザに提供されるようになって
いてもよく、ユーザはそのなかに正解あるいはそれに最
も近い結果を選択できるようになっていてもよい。［モデルの構成］モデルは、例えば以下に示すモデルオ
ブジェクトを構成要素として持つように定義されていて
もよい。 ----［文書］---- 当該文書の識別子：（以下のいずれ、もしくは全ての形
式で表現） “ファイル名”：（ユーザが設定した当該文書のファイ
ル名、ＵＲＬ） “ＩＤ番号”：（システム側が付与したり、ユーザが付
与できる当該文書ファイルのＩＤ番号） “メモリアドレスへのポインタ”：（当該文書が格納さ
れているメモリ空間のアドレス）＊「文書属性」：（新聞、論文、明細書などの既知のク
ラスと、ユーザが定義するクラスを含む）＊「言語」：（日本語、英語など、単一言語、複数言語
混在構成を表現できる）＊「論理構造」：（論理オブジェクトの階層構造、章節
構造、順序構造、参照構造など、例えばＳＧＭＬで用い
られるＤＴＤ：文書型定義などで記述されていてもよ
い）＊「コンテンツ」：（文書インスタンス、ＳＧＭＬによ
る記述と同様）＊「ページ数」：（当該文書を構成するページの総数）＊「ページ集合へのポインタとその構造」：（当該文書
を構成するページへのポインタと、その階層構造、順序
構造、参照関係） ----［ページ］---- ＊「上位概念である文書へのポインタ、リンク」：（以
下のいずれ、もしくは全ての形式） “ファイル名、ＵＲＬ”： “ＩＤ番号”： “メモリアドレスへのポインタ”：＊「該当ページの識別子」：（以下のいずれ、もしくは
全ての形式） “ファイル名、ＵＲＬ”： “ＩＤ番号”： “メモリアドレスへのポインタ”：＊「ページイメージへのポインタ、リンク」：（ファイ
ル名、ＵＲＬ）＊「スキャナ分解能」：＊「ページ方向」：（ページイメージの方向：正立、90
度、135度、180度回転のいずれか）＊「ページ属性」：（表紙、目次、索引、奥付け、フロ
ントページ、ミドルページ、ラストページなど）＊「出力対象の指定」：（当該ページの処理結果を出力
するか否かに関する指定）＊「言語」：（日本語、英語など、単一言語、複数言語
混在構成を表現できる）＊「ページを構成するレイアウトオブジェクトの種
類」：（テキスト、写真＊絵、図形、表、数式、フィー
ルドセパレータなどの単独あるいは混在）＊「ページレイアウト情報」： “構造化文書あるいは非構造化文書の種別”： “カラム数”： “文字サイズ（最小／最大文字サイズ）” “組み形式”：（縦書き文書、横書き文書、縦書き／横
書き混在文書）＊「論理オブジェクト数」：（当該ページを構成する領
域の総数）＊「論理オブジェクトへのポインタと、その構造」：
（当該ページを構成する論理オブジェクトへのポインタ
と、その順番、階層(木)構造、参照関係などの構造）＊「処理パラメータ」：（当該ページイメージに適用す
べきあるいは適用された種々の処理で必要とされるパラ
メータ値） “傾き補正” “ノイズ除去” “歪み補正” “罫線抽出＊除去（フォームドロップアウト）” “スキャナ出力指定（カラー画像、多値画像、２値画像
（しきい値))” “領域統合範囲（最小および最大統合範囲）” ----［論理オブジェクト］----：＊「ページの識別子」：（当該領域が属するページのフ
ァイル名、ＵＲＬ、ＩＤ番号、メモリアドレスへのポイ
ンタ）＊「当該論理オブジェクトの識別子」：（ファイル名、
ＵＲＬ、ＩＤ番号、メモリアドレスへのポインタ）＊「出力対象の指定」：（当該領域の処理結果を出力す
るか否かの指定）＊「論理属性」：（タイトル、本文、ヘッダ、フッタ、
キャプションなど、ユーザによる任意の属性を設定可能
とする）＊「言語」：（日本語、英語など、単一言語あるいは複
数言語混在の構成を表現できる）＊「キーワード」：（当該領域内に存在する単語）＊「キャプションの位置」：（非テキスト領域にとっ
て、キャプションが上下左右のいずれに配置されている
か指定できる）＊「文書クラス識別への寄与度」：（当該オブジェクト
に対応づく入力オブジェクトが、それが属すべき文書ク
ラスを識別する手がかりとなる度合いを示す）＊「ページクラス識別への寄与度」：（当該オブジェク
トに対応づく入力オブジェクトが、それが属すべきペー
ジクラスを識別する手がかりとなる度合いを示す）＊「モデル照合への寄与度」：（当該オブジェクトはモ
デル照合時に要＊不要のいずれであるか示すことができ
る）＊「密度分布」：（対象オブジェクトの内容物（テキス
トなら文字や行）が密または疎のいずれに配置されてい
るかを示す）＊「レイアウトオブジェクト数」：（当該論理オブジェ
クトを構成するレイアウトオブジェクトの総数、一つの
段落が二つのカラムにまたがっている場合の想定）＊「レイアウトオブジェクトへのポインタとその構
造」：（当該ページを構成する論理オブジェクトへのポ
インタと、その順序構造） ----［レイアウトオブジェクト］---- ＊「幾何（レイアウト）属性」：（テキスト、写真＊
絵、図形、表、囲み枠、セル、数式、罫線、フィールド
セパレータなど、論理オブジェクトが複数のレイアウト
オブジェクトで構成されている場合には）＊「幾何情報」：（位置座標、中心座標、サイズ（縦
幅、横幅）など、これらは絶対的記述と相対的記述の両
方を可能とする）＊「レイアウトオブジェクトの方向」：（正立、90度、
135度、180度）＊「領域変動範囲」：（領域の変動範囲を、絶対的座標
値、相対的座標値、文字数、文字行数などで指定する）＊「文字列情報」： “文字列方向”：（縦書き、横書き、不明もしくはどち
らでもない） “字間、行間”： “文字列総数”： “文字列の構造”：（当該領域を構成する文字列へのポ
インタと、その順序構造）＊「文字情報」： “文字総数”： “文字サイズ”： “文字フォント”：＊「フォーマット情報」：（当該領域の出力形式の指
定：例えば、RTF、PDF、SGML、HTML、XML、ｔｉｆ、ｇ
ｉｆ、ベクトル化、数値化など）＊「統合パラメータ」：（当該オブジェクトに相当する
入力オブジェクトのレイアウト解析処理における統合範
囲を示すパラメータ） ----［ページイメージ］---- ＊「ページへのポインタ」：（ファイル名、ＵＲＬ、Ｉ
Ｄ番号、メモリアドレスへのポインタ）＊「実態が格納されているファイル名、ＵＲＬ」：＊「ファイル形式」：（データ種別）＊「解像度」：＊「画像種別」：（カラー、多値、2値）＊「幾何情報」：（位置座標、中心座標、大きさ（縦
幅、横幅）） ----［文字列］---- ＊「レイアウトオブジェクトへのポインタ」：（ファイ
ル名、ＵＲＬ、ＩＤ番号、メモリアドレスへのポイン
タ）＊「属性」：（テキスト、ルビ、リスト、数式など）＊「タイポグラフィー」：（字下げ、センタリング、ハ
ードリターン、通常など）＊「幾何情報」：（位置座標、中心座標、大きさ（縦
幅、横幅））＊「文字総数」：（文字行内に含まれる文字の総数）＊「文字集合へのポインタとその構造」：（当該文字行
を構成する文字と、その順序構造） ----［文字］---- ＊「文字列へのポインタ」：（ファイル名、ＵＲＬ、Ｉ
Ｄ番号、メモリアドレスへのポインタ）＊「属性」：（文字、非文字）＊「幾何情報」：（位置座標、中心座標、大きさ（縦
幅、横幅））＊「文字サイズ」：（ポイント数）＊「文字フォント」：＊「文字強調」：（文字飾りなどを含む）＊「文字コード」：＊「文字候補数」：（文字認識結果の候補文字数）＊「文字候補集合」：（文字認識結果の候補）＊「確信度」：（文字認識の精度など）このように構成されるモデルは、「文書（上位）」−
「ページ」−「領域（下位）」という階層的な構造を持
っており、そのためフレーム、木構造、意味ネットワー
ク、レコード形式など現存する種々のデータ格納形式で
構成されていてもよい。例えば、Ｃプログラム（Ｃ言語
を用いたプログラム記述）では、これらのデータ群は構
造体で記述することができる。『モデルの作成』次に、モデルの作成について説明す
る。

【０１５７】上述したモデルは、例えば以下のようにし
て作成されてもよい。ユーザはまず処理対象となる印刷
文書のページを順にイメージスキャナを用いて画像デー
タ化し、文書画像として入力する。得られた文書画像
は、上述した、レイアウト解析、ヒューリスティクを用
いた論理属性付与、読み順決定などが適用され、レイア
ウトオブジェクトの幾何情報、論理属性、読み順、さら
にテキスト領域では、カラム数、文字行、文字サイズ、
字間、行間、レイアウト述語（寄せ、センタリング、揃
え、インデント）、文字配置（密あるいはスパース）な
どの情報が、抽出される。論文のフロントページを例に
とると図７（ａ）の如きであり、その解析結果の情報内
容は図７（ｂ）に示す如きである。この処理結果は、レ
イアウトオブジェクトごとに、例えばウィンドウ形式の
画面でユーザに提示されてもよい。ユーザは、抽出され
たレイアウトオブジェクトの幾何情報を、例えば、それ
に対応したウィンドウ形式のＧＵＩで修正することがで
き、また未定義となっている箇所に必要な情報を生める
ようになっていてもよい。

【０１５８】モデル照合は、抽出および定義された情報
が詳細であれば、木目細かく、正確な照合処理が行われ
るになっていてもよい（未定義情報があれば照合処理は
大雑把になってもよい）し、未定義情報があれば、それ
の設定を促すようなＧＵＩが備わっていて、常に同じ状
況で照合処理が行われるようになっていてもよい。モデ
ルはシステムとユーザとの協調により作成されてもよい
し、ユーザが手動で全て作成するようになっていてもよ
い。［モデルの照合］入力文書のレイアウト解析結果に対す
る、任意のモデルを用いた照合処理は、例えば、文献
「 Y.Ishitani: Model Matching Based on Associatio
n Graph for Form Image Understanding, Proc. ICDAR
95, Vol.1, pp.287-292, 1995」に記載されている連合
グラフ法を用いたグラフマッチングにより、以下のよう
に行われてもよい。この場合、モデル照合部５２は図６
のように構成される。［モデル照合部５２の機能］モデル照合部５２の機能を
説明する。図６にその手順を示すように、モデル照合部
５２は、まず、モデルを構成する各要素に対応づく可能
性のある、入力のレイアウトオブジェクトを初期対応候
補として探索する（図６のＳ６１、Ｓ６２）。例えば、
モデル要素の属性が“タイトル”である場合、前述した
ヒューリスティクに基づいた論理属性付与処理で、タイ
トルの属性を付与されたレイアウトオブジェクトを候補
として抽出するようになっていてもよい。その他、出現
順序、絶対座標など種々の情報に基づいた探索が考えら
れる。モデル要素の中には、それを特徴づける情報が記
述されている場合があるので、それに基づいて、候補と
なっているレイアウトオブジェクトの中からふさわしい
ものを選択する。例えば、モデルにおいて論理属性が
“ヘッダ”と定義されている要素に、さらに単語情報が
文字コードとして定義されていれば、候補となっている
入力のレイアウトオブジェクトを文字認識し、単語照合
を行うことで候補を絞り込むようにしても良い。

【０１５９】このようにして得られた初期対応づけを連
合グラフを用いて表現する。この連合グラフから、互い
に矛盾しない対応の最大の組合せ（連合グラフにおける
最大クリーク）を抽出することで、入力−モデル間の最
良マッチングが得られる（図６のＳ６３）。この連合グ
ラフからノード数の大きい順に、極大クリークを抽出し
ていけば可能なすべてのマッチング結果を対応の良さの
順に得ることもできる。

【０１６０】入力−モデル間の最良マッチングのものが
得られたならばそれを最良のモデルとして出力する（図
６のＳ６４）。［文書構造認識］次に文書構造認識について、説明す
る。

【０１６１】タイポグラフィック解析による論理オブジ
ェクト抽出、読み順決定、論理構造抽出処理がそれぞれ
適用されると、ページ単位に処理結果として、種々のレ
イアウトオブジェクトで構成されるレイアウト構造と、
種々の論理オブジェクトで構成される論理構造が得られ
る。これらは、フレーム、グラフ、意味ネットワーク、
レコード形式、オブジェクト形式など種々のデータ形式
で階層的に記述でき、階層間で互いに関連付けられてメ
モリや、ファイルに格納されてもよい。

【０１６２】例えば、複数ページで構成される論文は、
フロントページ、ミドルページ、ラストページなどで構
成されおり、フロントページには、論文タイトル、著者
名、アブストラクト、ヘッダなどの書誌事項が、ミドル
ページには本文が、ラストページには、著者紹介、参考
文献などの情報がそれぞれ記載されている。それぞれを
ページクラスと呼ことができる。この場合、予め定義さ
れている文書モデルは、複数のページモデルで構成され
ており、これを用いて、スキャナから入力された複数の
ページ画像に対してページクラスを識別し、ページ単位
のモデル照合を行う。

【０１６３】ページ照合結果は、ページクラスやページ
番号などを手がかりに、ソートされ、順序付けされる。
この後、複数ページにわたる本文の章節構造と、参照構
造（あるページにおける本文から、同一ページまたは別
ページにある非テキストや参考文献などへの参照関係）
を、文献「土井他：“文書構造抽出技法の開発”、信学
論D-II、vol.J76-D-II, No.9, pp.2042-2052,1993-9」
の方式で抽出してもよい。

【０１６４】この他、例えば、非テキスト領域に対応し
たキャプションや、参考文献領域から番号部を抽出し、
それをキーワードとみなして本文領域をキーワード検索
し、ヒットしたものにリンクを張ることにより、参照関
係を抽出してもよい。

【０１６５】このようにして、複数ページを統合した情
報は、さらに新しいデータ構造やファイルに格納される
ようになっていてもよい。また、文書全体を表す処理結
果からそれを構成するページの処理結果に、ページの処
理結果からそれを構成する領域へそれぞれリンクが張ら
れていて、必要に応じて参照されるようになっていても
よい。［２次情報（書誌情報、メタデータ）の抽出］多くの文
書を処理、蓄積する場合には、書誌事項といったデータ
に関するデータすなわちメタデータを抽出しておけば、
文書検索時に非常に役立つ。そこで、複数ページで構成
される文書単位の処理結果から、例えば、現在標準化策
定中である以下に示すDublin Coreなどのメタデータを
自動的に抽出すれば都合良い。 “Dublin Coreの内容”：「タイトル」「著者」「主題およびキーワード」「記述（アブストラクトやイメージデータの説明）」「出版社」「他の関与者」「出版の日付」「情報資源タイプ（ジャンル）」「形式（情報資源の物理的な形式）」「情報資源識別子（情報資源を一意に識別するための番
号）」「ソース（印刷物あるいはディジタルデータなどの出
所）」「言語」「関係（他の情報しげんとの関連付け）」「カバレッジ（地理的場所や時間的な内容に関する特
性）」「権利管理（著作権管理）」これらの情報の自動抽出は、例えば、文書モデルにおい
て定義されていてもよい。論文を例に考えた場合、各論
文に記載されていない5、6、7、9、10、11、12、14、15
などの情報は予めモデルに定義されているものをそのま
ま付与するようになっていてもよい。その他の情報は前
述のモデルを用いて論文ごとに抽出可能である。抽出さ
れた情報は、あらかじめ用意してあるテンプレートに書
き込むようになっていてもよい。

【０１６６】このテンプレートは例えば、上記メタデー
タをＳＧＭＬやＨＴＭＬで記述したもののにおいて、各
論文ごとに異なるコンテンツ部分を空白にしたものであ
り、モデルで、そこに書き込むように指定されていても
よい。また、システムはモデル照合結果として新たなフ
ァイルやデータ構造を作成するが、それと同時にモデル
で指定されたメタデータ情報を新しいファイルやデータ
構造に書き込むようになっていてもよい。

【０１６７】以上、、本システムは、文書画像からその
文書のレイアウトオブジェクトとレイアウト構造を抽出
するレイアウト解析し、また、文書画像より得た文字の
配置情報からタイポグラフィック情報を得てこれより論
理オブジェクトを抽出すると共に、レイアウトオブジェ
クトと論理オブジェクトの読み順を決定して、この読み
順に従って論理オブジェクト間の階層構造、参照構造、
関係構造を論理構造として抽出するようにし、また、複
数ページの文書構造を認識可能にする構成とするもので
あり、印刷文書に記載されている内容を抽出・構造化し
てコンピュータに自動入力できるようにするために、文
書画像からレイアウトオブジェクトと構造を抽出する手
段と、文書画像から抽出したテキストの領域からタイポ
グラフィーに基づいて段落、リスト、数式、プログラ
ム、注釈等の論理オブジェクトを抽出する手段と、オブ
ジェクト間の複数の可能な読み順を抽出する手段と、論
理オブジェクトに対して予め定義されているモデルを適
用して論理構造を抽出する手段とから構成して、文字、
写真、図形、表などで構成される多様な複数頁構成の文
書からでも一次情報二次情報を抽出し、多様な電子フォ
ーマットに変換可能にすることにより、文書管理システ
ムの自動構築や様々な計算機アプリケーションの有効活
用を可能にするものである。

【０１６８】本システムでは、表示解析処理（タイポグ
ラフィック処理）すなわち、レイアウト解析で抽出され
たテキスト領域の文字行を一般行、字下げ行、センタリ
ング行、ハードリターン行に分類し、その配置、連続性
を考慮することにより、数式、プログラム、リスト、タ
イトル、段落などの部分領域を抽出する処理を行い、局
所的な行分類と、大局的な部分領域抽出との間で相互作
用を行わせることで、処理誤りを軽減し、高精度な処理
結果が得られるようにした。さらには、紙面レイアウト
により生じた、複数の領域にまたがるテキスト配置の不
連続も解消する。

【０１６９】また、テキスト領域群に対して、局所的な
グループ化処理、話題／記事抽出処理を行い、それらを
大域的に順序付けした後で、各グループや話題内で局所
的に順序付けを行うことで、順序付けの曖昧さを削減し
ながら読み順を抽出する。このとき、話題抽出を含む局
所的なグループ化処理と、大局的な順序付け処理との間
で相互作用を行わせることで、処理誤りを削減して高精
度な処理結果が得られるようにした。さらには、この方
式によると、図形、写真などの非テキスト領域の順序付
けと、縦書き／横書き混在文書の順序付けも実現でき
る。また、複数の読み順を出力させることで、多様なア
プリケーションに対応することを可能とした。

【０１７０】さらには、本システムでは、ユーザによる
容易な定義を可能とする視認性の高いＧＵＩを用いて文
書モデルを作成し、これを用いて論理構造抽出する枠組
みを採用することにより、多様な文書から所望の情報を
高精度に抽出することを可能とした。モデル照合では、
レイアウト解析により得られる部分領域（レイアウトオ
ブジェクト）を対象としている。本方式では、モデルで
定義されている情報の詳細さを考慮でき、それに基づい
てモデル照合を制御することができる。モデル照合結果
の度合いの推定と、入力側の変動の推定などの状況推定
を可能とし、これに基づいて照合処理を制御するが、こ
のとき、レイアウト解析手段、モデル照合部手段、状況
推定手段の間で相互作用を行わせることで、各モジュー
ルの処理誤りを軽減し、モジュール間の協調により高精
度な処理結果が得られるようにする。

【０１７１】本発明システムでは、多様な印刷文書全般
に亙って、細かく解析し、その解析結果を元の文書画像
データを含めて、保存することにより、ＳＧＭＬや、Ｈ
ＴＭＬ，ＣＳＶあるいはワードプロセッサアプリケーシ
ョンのフォーマットなどに簡単に変換できる途を拓く。
そして、これにより各種アプリケーションやデータベー
ス、電子図書館などで文書情報を広く利用できるように
すると云った要求には応えることができるようになる。

【０１７２】特に、本発明は、一段組のビジネスレター
から多段組・多記事の新聞まで多様な文書から高精度
に、テキスト、写真・絵、図形（グラフ、図、化学
式）、表（罫線あり、なし）、フィールドセパレータ、
数式などの領域を抽出し、テキスト領域からは、カラ
ム、タイトル、ヘッダ、フッタ、キャプション、本文な
どの領域を抽出し、本文からは段落、リスト、プログラ
ム、文章、単語、文字を抽出し、各領域にはその論理属
性、読み順、他の領域との関係（例えば、親子関係、参
照関係など）を付与したいといった要求に応えることが
でき、文書クラスやページ属性なども含めて情報抽出
し、抽出された情報は構造化することで、色々なアプリ
ケーションソフトウェアへの入力・応用を可能とする。

【０１７３】尚、上記実施形態に記載した手法は、コン
ピュータに実行させることのできるプログラムとして、
磁気ディスク（フロッピーディスク、ハードディスクな
ど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導
体メモリなどの記録媒体に格納して頒布することもでき
る。

【０１７４】

【発明の効果】以上、本発明によれば、縦書き／横書き
混在テキスト、写真、図形、表、フィールドセパレータ
などで構成される複雑かつ多様な複数ページの印刷文書
を、スキャニングによりイメージ化して、そこから一次
情報として、「レイアウトオブジェクト」「レイアウト構造」「論理オブジェクト」「論理構造」など様々な情報を抽出し、さらに二次情報として書誌情
報やメタデータを抽出し、ＳＧＭＬ、ＸＭＬ、ＨＴＭ
Ｌ、ＲＴＦ、ＰＤＦなどの多様な電子フォーマットに変
換することにより、文書管理システムや電子図書館など
を構築する際のコンテンツ入力作業を大幅に削減するこ
とができる。

【０１７５】さらに、印刷文書からＷＰ、イメージファ
イリング、表計算、機械翻訳、音声読み上げ、ワークフ
ロー、グループウェアなどの計算機アプリケーションを
有効活用することができる。

【０１７６】本発明によると、文書処理システムを構成
する「レイアウト解析」「読み順決定」「タイポグラフィック解析による論理オブジェクトの抽
出」「モデル照合による論理構造抽出」などの機能がモジュールとして実現され、モジュール間
で双方向通信および相互作用することが可能となってい
るため、文脈の異なる処理や情報が協調して、互いに作
用するので、モジュールを順につなげただけのシステム
より、高精度で高信頼度な処理結果を出力できるように
なっている。

【０１７７】また、本発明では印刷文書から様々な基本
ユニットを持つレイアウト情報と論理情報を抽出するの
で、コンテンツを大容量の文書データベースに格納した
場合にも、様々な情報検索を実現でき、さらに出力結果
である一次情報と二次情報の両方を種々の国際標準のデ
ータ形式に対応しているので、国際的なネットワーク分
散環境における情報蓄積・構造化を可能としている。

【図面の簡単な説明】

【図１】本発明を説明するための図であって、本発明に
おける全体システムの構成例を示す図。

【図２】本発明を説明するための図であって、本発明シ
ステムにおけるレイアウト解析システム部分の構成例を
示す図。

【図３】本発明を説明するための図であって、本発明シ
ステムにおける領域分割システム部分の構成例を示す
図。

【図４】本発明を説明するための図であって、本発明シ
ステムにおけるタイポグラフィック解析による論理オブ
ジェクト抽出システム部分の構成例を示す図。

【図５】本発明を説明するための図であって、本発明シ
ステムにおけるモデル照合に基づく論理構造抽出システ
ム部分の構成例を示す図。

【図６】本発明を説明するための図であって、本発明シ
ステムにおけるモデル照合の例を説明するための図。

【図７】本発明を説明するための図であって、本発明シ
ステムにおけるモデルの例を説明するための図。

【図８】本発明を説明するための図であって、本発明シ
ステムにおけるマルチカラム構造抽出で用いる高秩序領
域の重なり情報の例を説明するための図。

【図９】本発明を説明するための図であって、領域間の
入り組みを説明するための図。

【図１０】ヘッダ間の重なり

【図１１】本発明を説明するための図であって、本発明
システムにおける領域グループ化のための情報抽出例を
説明するための図。

【図１２】本発明を説明するための図であって、本発明
システムにおける囲み記事抽出のための囲み例を説明す
るための図。

【図１３】本発明を説明するための図であって、本発明
システムにおける読み順決定例を説明するための図。

【図１４】本発明を説明するための図であって、本発明
システムにおける読み順決定システム

【符号の説明】

１…レイアウト解析処理部２…文字切りだし／認識処理部３…タイポグラフィック解析処理部４…論理構造抽出処理部５…読み順決定処理部６…文書構造認識処理部７…共有メモリ。

Claims

【特許請求の範囲】

【請求項１】文書画像からその文書のレイアウトオブジ
ェクトとレイアウト構造を抽出するレイアウト解析手段
と、文書画像より得た文字の配置情報からタイポグラフィッ
ク情報を得てこれより論理オブジェクトを抽出する手段
と、レイアウトオブジェクトと論理オブジェクトの読み順を
決定する手段と、この読み順に従って論理オブジェクト間の階層構造、参
照構造、関係構造を論理構造として抽出する抽出手段
と、複数ページの文書構造を認識する手段と、で構成される
文書処理装置。
【請求項２】各処理モジュール共有であって、各モジュ
ールが書き込みおよび読み出し可能な共有メモリと、与えられた文書画像からレイアウトオブジェクトとレイ
アウト構造を抽出するレイアウト解析手段と、与えられた文書画像における文字配置の情報であるタイ
ポグラフィック情報に基づいて論理オブジェクトを抽出
する手段と、与えられた文書画像から得られたレイアウトオブジェク
トと論理オブジェクトの読み順を決定する手段と、この読み順に従って論理オブジェクト間の階層構造、参
照構造、関係構造を論理構造として抽出する手段と、与えられた文書画像の複数ページに跨る文書の文書構造
を認識する手段と、で構成される文書処理装置。
【請求項３】テキストを構成する文字列を、字下げ、セ
ンタリング、通常、ハードリターンなどの複数のタイポ
グラフィーに分類する手段と、テキスト領域をタイトル、段落、リスト、数式、プログ
ラム、注釈などの複数の論理オブジェクトに分類する手
段と、テキスト領域をタイポグラフィーに基づいて分割する手
段と、テキスト領域を前記論理オブジェクト分類結果に基づい
て統合する手段と、で構成される論理オブジェクト抽出
手段を有する文書処理装置。
【請求項４】囲み枠、飾り線、フィールドセパレータな
どの図形成分を抽出する手段と、前記図形成分に基づい
て複数の“レイアウトオブジェクト／論理オブジェク
ト”をグループ化する手段と、 “レイアウトオブジェクト／論理オブジェクト”の配置
関係に基づいて複数の“レイアウトオブジェクト／論理
オブジェクト”をグループ化する手段と、前記グループや“レイアウトオブジェクト／論理オブジ
ェクト”の集合から話題／記事を抽出する手段と、前記グループ間の順序付けを行う手段と、前記グループ内の順序付けを行う手段と、から構成され
る読み順決定手段を有する文書処理装置。
【請求項５】文書全体の組み形式（縦書き／横書き）を
判定する手段と、組み形式の判定結果に基づいて文書の読み順方向を設定
する手段と、から構成される読み順決定手段を有する文
書処理装置。
【請求項６】文書全体の組み形式（縦書き／横書き）を
判定する手段と、組み形式の判定結果に基づいて文書上に原点を設定する
手段と、原点に基づいた読み順方向を設定する手段と、から構成
される読み順決定手段を有する文書処理装置。
【請求項７】文書全体の組み形式（縦書き／横書き）を
判定する手段と、横書きと判定された場合、文書の左上端に原点を設定す
る手段と、縦書きと判定された場合、文書の右上端に原点を設定す
る手段と、横書きと判定された場合、読み順方向を文書の左上端か
ら右下端へ設定する手段と、縦書きと判定された場合、読み順方向を文書の右上端か
ら左下端へ設定する手段と、から構成される読み順決定
手段を有する文書処理装置。
【請求項８】文書画像からその文書の構成と内容を解析
するにあたり、文書が縦書きテキストと横書きテキスト
混在の場合において、文字列方向をどちらか一方に仮定して、その読み順方向
に文書構成要素の読み順を決定する手段と、前記仮定した文字列方向と反する文字列方向を持つテキ
ストが連続する場合には、それらの間で正しい文字列方
向にあった読み順を再度決める手段とからなる読み順決
定手段を備え、前記仮定した読み順方向に文書構成要素を解析を進め、
仮定した文字列方向と反する文字列方向を持つテキスト
が連続する場合には、再度決めた文字列方向に文書構成
要素の解析を進めるようにすることを特徴とする文書処
理方法。
【請求項９】文書画像からその文書のレイアウトオブジ
ェクトとレイアウト構造を抽出するレイアウト解析手段
と、特定の文書もしくは文書クラスごとに、文書構成要素や
文書構造やそれらに対する操作が予め定義されている一
つ以上の文書モデルが格納されているモデルデータベー
スと、入力文書からレイアウトオブジェクトとレイアウト構造
を抽出する手段と、前記モデルデータベースから文書モデルを読み出して、
入力文書のレイアウトオブジェクトに対してモデル当て
はめを行うモデル照合手段と、このモデル照合の結果から、入力文書側の変動やモデル
当てはめの度合いを推定する手段と、この推定により得た情報に基づき、前記モデル照合とレ
イアウト解析の処理を制御する制御手段とを具備するこ
とを特徴とする文書処理装置。
【請求項１０】特定の文書もしくは文書クラスごとに、
文書構成要素や文書構造やそれらに対する操作が予め
定義されている一つ以上の文書モデルが格納されている
モデルデータベースと、入力文書から論理オブジェクトと論理構造を抽出する論
理構造解析手段と、モデルデータベースから文書モデルを読み出し、入力文
書の論理オブジェクトに対してモデ当てはめを行うモ
デル照合手段と、モデル照合の結果から、入力側の変動やモデル当てはめ
の度合いを推定する状況推定手段と、前記状況推定手段
により推定された情報に基づいて前記モデル照合処理と
前記論理構造解析処理を制御する手段と、を具備するこ
とを特徴とする文書処理装置。
【請求項１１】特定の文書もしくは文書クラスごとに、
文書構成要素や文書構造やそれらに対する操作が予め定
義されている一つ以上の文書モデルが格納されているモ
デルデータベースと、入力文書からレイアウトオブジェクトとレイアウト構造
を抽出するレイアウト解析手段と、モデルデータベースから文書モデルを読み出し、入力文
書のレイアウトオブジェクトに対してモデル当てはめを
行うモデル照合手段と、モデル照合の結果から、入力側の変動やモデル当てはめ
の度合いを推定する状況推定手段と、を有し、前記状況推定手段により推定された情報に基づいて前記
モデル照合手段が自らの処理を制御すると共に、前記状
況推定手段により推定された情報に基づいて前記レイア
ウト解析手段が自らの処理を制御することを特徴とする
文書処理装置。
【請求項１２】特定の文書もしくは文書クラスごとに、
文書構成要素や文書構造やそれらに対する操作が予め定
義されている一つ以上の文書モデルが格納されているモ
デルデータベースと、入力文書から論理オブジェクトと論理構造を抽出する論
理構造解析手段と、モデルデータベースから文書モデルを読み出し、入力文
書の論理オブジェクトに対してモデル当てはめを行うモ
デル照合手段と、モデル照合の結果から、入力側の変動やモデル当てはめ
の度合いを推定する状況推定手段と、を有し、前記状況推定手段により推定された情報に基づいて前記
モデル照合手段が自らの処理を制御すると共に、前記状
況推定手段により推定された情報に基づいて前記論理構
造解析手段が自らの処理を制御することを特徴とする文
書処理装置。
【請求項１３】文書の論理オブジェクトを抽出し、その
論理属性を決定する論理情報抽出手段と、論理属性に基づいて文書の論理オブジェクトの読み順を
決定する手段とを有し、読み順結果に基づいて論理情報抽出手段が文書の論理オ
ブジェクトを再抽出し、その論理属性を再決定すること
を特徴とする文書処理装置。
【請求項１４】文書を構成するページの論理オブジェク
トを抽出し、その論理属性を決定する論理情報抽出手段
と、複数のページの処理結果を統合する手段と、前ページの論理情報に基づき、当該ページの論理オブジ
ェクトを再抽出し、その論理属性を再決定することを特
徴とする文書処理装置。
【請求項１５】文書を構成するページ画像からテキスト
領域を抽出する手段と、複数のページの処理結果を統合する手段と、各ページで隣接ページと連続すべきテキスト領域を推定
する手段と、前記隣接するページで連続するテキスト領域を統合し、
一つのテキスト領域と認識する手段と、から構成される
文書処理装置。
【請求項１６】文書画像からその文書のレイアウトオブ
ジェクトとレイアウト構造を抽出するレイアウト解析ス
テップと、文書画像より得た文字の配置情報からタイポグラフィッ
ク情報を得てこれより論理オブジェクトを抽出するステ
ップと、レイアウトオブジェクトと論理オブジェクトの読み順を
決定するステップと、この読み順に従って論理オブジェクト間の階層構造、参
照構造、関係構造を論理構造として抽出する抽出ステッ
プと、よりなる文書処理方法。
【請求項１７】文書が縦書きテキストと横書きテキスト
混在の場合に、文字列方向をこれらのいずれか一方と仮定して、その読
み順方向に文書構成要素の読み順を決定し、前記仮定した文字列方向と反する文字列方向を持つテキ
ストが連続する場合、それらの間で正しい文字列方向に
あった読み順を再度付与することを特徴とする文書処理
方法。
【請求項１８】特定の文書もしくは文書クラスごとに、
文書構成要素や文書構造やそれらに対する操作が予め定
義されている一つ以上の文書モデルが格納されているモ
デルデータベースを用意し、入力文書からレイアウトオブジェクトとレイアウト構造
を抽出すると共に、モデルデータベースから文書モデル
を読み出し、入力文書のレイアウトオブジェクトに対し
てモデル当てはめを行ってモデル照合し、そのモデル照
合の結果から、入力文書側の変動やモデル当てはめの度
合いを推定し、この推定された情報に基づいて前記モデ
ル照合処理と前記レイアウト解析処理を制御することを
特徴とする文書処理方法。
【請求項１９】文書画像を解析して得た文書の構成要素
の読み順を決定する手段と、前記決定された読み順から複数通りの読み順を生成する
手段と、複数通りの読み順を表示する手段と、を具備することを
特徴とする文書処理装置。