JPH086945A

JPH086945A - 文書の論理構造の解析方法及びシステム

Info

Publication number: JPH086945A
Application number: JP6134014A
Authority: JP
Inventors: Yuka Tateishi; 由佳建石
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1994-06-16
Filing date: 1994-06-16
Publication date: 1996-01-12
Anticipated expiration: 2012-06-11
Also published as: JP2618832B2; US5669007A

Abstract

(57)【要約】【目的】文章の論理構造を、曖昧性を許容しつつ総合
的に判断することを可能とする。【構成】入力された文書は、行単位で、所定の辞書パ
ターンとマッチングすることによって、属性とコストの
組を可能的には複数付与される。文書全体につき処理が
完了すると、隣り合う行間の属性の組み合わせを指定す
るルールに基づき、グラフのノードを生成し、且つノー
ド間をリンクで繋ぐとともに、ノードとリンクとにコス
トを付与する。そのグラフを、ルート・ノードから最終
ノードまで辿るには複数の経路があり、その各々が文書
の可能な論理構造の解釈を意味する。辿ったノードとリ
ンクのコストを加算することによって、各々の経路には
合計コスト値を関連付けることが出来、この合計コスト
値で以て優先順位を付けることにより、最も妥当と思わ
れる経路（論理構造の解釈）から順に、複数の論理構造
の解釈を示すことが可能である。選ばれた論理構造に
は、必要に応じて、タグが付けられる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えばＯＣＲによって
読み取られテキスト・ファイル形式に変換された文章の
論理構造を解析し、必要に応じてＴｅＸ、ＢｏｏｋＭａ
ｓｔｅｒ（ＩＢＭの商標）などのタグを自動付与する方
法及びシステムに関するものである。

【０００２】

【従来の技術】近年、紙に印刷された形式の文書を電子
化し、活用しようとする試みが行なわれている。文書を
電子化する目的には、・文書中の情報検索を容易にする。・印刷時の体裁の変更を容易にする。などがある。

【０００３】電子化した文書から、情報を抽出するため
には、最低限でも書誌情報(タイトル、著者名など)を記
述する必要があり、さらに柔軟な検索に対応しようとす
れば、章節を示すヘッダー、図と文章の対応付け、リス
ト構造などを記述する必要が生ずる。言い換えれば文書
の論理的な関係を抽出し、それらを識別するタグ（標準
的なものとしては例えばＧＭＬ、ＩＳＯ／ＩＳＣ８８
７９，Standard Generalized Markup Language (1986)
によって記述されたタグがある)を付加しなければなら
ない。

【０００４】また、印刷時の体裁の変更を容易にするた
めには、書式情報を抽象化して文書に付加する必要があ
る。文書の書式は、文書の論理構造と密接な係わりをも
つものであり、論理構造を反映させた書式制御言語(Ｔ
ｅｘなど。また、上記ＧＭＬはこの一つととらえること
もできる。)のタグを付加した文書を用意しておき、そ
れを解釈して印刷することが一般に行われている。

【０００５】ところで、近年では、ワードプロセッサな
どを用いて文書を作成することが一般的であるが、それ
以前の、紙の上にのみ存在する文書を、その論理構造も
含めて電子化する作業は、従来は人手で行われていた。

【０００６】一方、イメージに含まれる文字情報を機械
可読な形に変換する技術、言い換えればＯＣＲ（光学的
文字認識装置）の技術が進歩するにともなって、ＯＣＲ
が、紙として蓄積された情報の入力装置として活用され
始めている（日本電子機械工業会: オフィスオートメー
ション機器の標準化に関する調査研究報告書 (情報処理
装置関連), 1993）。その多くは走査したイメージから
文字行を抽出し、さらに文字単位にイメージに分割して
認識し文字コード(列)を出力するものであり、一般的に
は、文書画像がもつその他の情報 (例えば文字行の位
置、フォント情報など)は捨象されることになる。

【０００７】そこで、ＯＣＲによって、文書画像がもつ
多様な情報を抽出することを可能ならしめようとする研
究が行なわれてきた(例えば、山下, 天野: モデルに基
づいた文書画像のレイアウト理解, 信学論 (D-II), Vo
l. J75-D-II, No. 10, pp. 1673-1681,1992、及び特開
平４−２７８６３４号公報)。これらの開示技術によれ
ば、文書画像のもつさまざまな構成要素 (図、表、文字
行など)を種々の特徴 (ランレングス、周辺分布、黒画
素の連結)に基づいて分離した後、それらの位置関係、
つまりレイアウト構造 (段組みなど)が解釈される。た
だし文書画像は本質的に曖昧性を含んでいるため一意に
解釈することが困難な場合も存在する。

【０００８】ところが、レイアウト情報は、ある程度論
理構造を反映するものの、論理構造そのものではない。
例えば、同一の文書は、段組を変えて印刷することがで
き、すると論理構造は維持されるものの、レイアウト情
報は変更される。すなわち、ここでいう論理構造とは、
段落、箇条書きリスト、図表とテキストの参照関係など
であって、これらはレイアウト情報からは判断できな
い。

【０００９】このような文書の論理構造を理解する手法
としてはつぎの2つが提案されている。（１）べた書き文書から各構成要素に特有のキーワード
をもとにラベル付けを行い、あらかじめ規定された各ラ
ベルが満たすべき文法(文書構造文法)をもとに章節など
の論理構造を解釈する（土井他: 文書構造抽出技法の
開発,信学論(D-II), Vol. J76-D-II, No. 9, pp. 2042-
2052, 1993）。

【００１０】（２）文書画像から抽出した基本矩形を要
素とするブロックとその属性値を、登録された文書クラ
ス (文書の論理的要素とそれらがもつレイアウト上の特
徴が記述されたもの) のそれとマッチングし、決定され
たクラスから論理構造を生成する（山田: 文書画像のOD
A論理構造文書への変換方式,信学論 (D-II), Vol. J76-
D-II, No. 11, pp. 2274-2284, 1993）。

【００１１】（１）は特に文書画像理解を前提としてい
ない点に特徴があり、見出し特有の記号、単語 (「第１
章」、「はじめに」など) から文字列の形態を示すラベ
ル付けを行う形態解析部と、ラベル列を文書構造文法に
基づきスタックオートマトンを用いて解析する文間構造
解析部からなる。例えば、「1. はじめに」というテキ
ストを例にとると、図１に示すように形態解析部で３個
の要素としてラベル付けされ、文間構造解析部が構文解
析を行って「第１章」を表すヘッダーであると判定され
ている。土井ら（土井他: 文書構造抽出技法の開発,
信学論 (D-II),Vol. J76-D-II, No. 9, pp. 2042-205
2, 1993）はさらに数字、記号の付け間違いに対応する
ため、構造未決定のラベル列と現在スタックに積まれて
いるラベルパターンとの一致度を定義し、その値が閾値
以内の場合は当該深さと同一、閾値を越える場合１段深
い新規見出し・リストとするといった処理を付加してい
るが、処理の各段階で複数の解釈を許容することはでき
ない。つまりラベル列はスタックに積まれる段階で一意
に解釈される。この手法は文書の論理構造を文脈自由文
法(ＣＦＧ)で記述するものでありさまざまな文書に対し
比較的柔軟に対応できると考えられるが、文書画像理解
システムの結果に対して適用することは難しい。何故な
ら文書画像から得られたレイアウトとテキスト形態上の
さまざまな特徴を論理構造に変換する場合、処理の各段
階で一意に解釈できるとは限らないからである。むしろ
複数の特徴を総合的に判断した結果初めて判明するもの
が多く、処理の各段階では曖昧性を記述できるような手
法である必要がある。

【００１２】（２）は文書画像入力を仮定したものであ
り、その意味で入力情報(この場合画像から抽出された
ブロックとその属性)には曖昧度があることを前提とし
た手法である (図２)。最初、画像構成要素の最小単位
である基本矩形が抽出され、同一の属性をもつ連続した
矩形はまとめられてブロックとなる。これによって提案
されている属性には行間隔、文字間隔、左オフセット値
(左そろえ、センタリング他の識別)などがある。抽出さ
れたブロックはさらに節番号の解析、カラム抽出などに
より論理的境界を考慮したコンテントと呼ばれるブロッ
クにまとめられる。そして、あらかじめ文書クラス別に
記述されたコンテントの特徴とマッチングを行い、文書
クラスを決定した後、当該文書クラスに規定されたルー
ルに基づいて、論理構造を生成する。画像解釈の曖昧性
はマッチングの段階で吸収されるわけであるが、逆に文
書クラス決定の後は当該クラスのルール (論理構造を生
成する文法とみなすことができる)に基づいて一意に生
成され、局所的曖昧性は捨象されてしまうことになる。
さらにあらかじめ、個々の文書クラスに対応して論理構
造を記述しておくためにはその特徴が１つでも異なる場
合、別のクラスとして定義する必要があり、（１）の手
法で用いられている文書構造文法のような汎用性(言い
換えれば記述能力)に問題が残る。

【００１３】さらに、特開平３−１４２５６３号公報
は、自然言語を入力して係り受け候補検出部により解析
し、係り受け候補付き文節ノード・リストを作成し、ユ
ーザーとの対話により文節ノード・リストを解析する方
法において、ノードの係り受けに曖昧さがある場合に、
その曖昧部分の表示と多義候補のスコアの大小とを表示
し、以てオペレータをして所望の候補を順次選択せしめ
る技法を開示する。しかし、特開平３−１４２５６３号
公報は基本的に対話ベースであり、全体の処理をコンピ
ュータ制御により自動的に行うように拡張可能ではな
く、また、係り受け候補検出以外に、一般的に文書の論
理構造を曖昧さを許容しつつ解析するように拡張するこ
とについても何等開示がない。

【００１４】

【発明が解決しようとする課題】従って、本発明の目的
は、文章の論理構造を、曖昧性を許容しつつ総合的に判
断することを可能ならしめる方法及びシステムを提供す
ることにある。

【００１５】本発明の他の目的は、確率文法の枠組み
で、文章の論理構造を、コンピュータの制御によって自
動的に解析する方法及びシステムを提供することにあ
る。

【００１６】本発明の他のさらに目的は、そのようにし
て解析された文書の論理構造に基づき、ＢｏｏｋＭａｓ
ｔｅｒ、ＴｅＸなどのタグを自動的に付与する方法及び
システムを提供することにある。

【００１７】

【課題を解決するための手段】一般的に、文書の論理構
造を判断するもとになる特徴としては、特定キーワー
ド、句読点、ブロック中でのインデントなどの局所的情
報に加え、節番号、ページ境界からのオフセットなど、
多種多様なものがある。そして、文書の論理構造を抽出
する手法は（Ａ）個々には曖昧性を含む複数の特徴から、総合的に
判断できる手法であること（Ｂ）曖昧性が残る場合には、複数の解釈を順序付けて
適時出力できること（Ｃ）文書の論理構造記述能力が高く、さまざまな文書
に対応できることなどが要求されるが、従来の手法では、これらのすべて
を同時に満たすことはできなかった。つまり、上記手法
（１）では、（Ａ）と（Ｂ）の要件を満たすことが極め
て困難であり、上記手法（２）は、（Ｂ）と（Ｃ）の要
件に欠けるものであった。

【００１８】文書の論理構造を記述する枠組みとして、
生成文法はなじみやすい。局所的構造からより大きな制
約条件を汎用的に記述できるからである(上記要件
（Ｃ）)。手法（１）は論理構造の記述に文脈自由文法
を用いることで、上記要件（Ｃ）を満たすものであっ
た。

【００１９】ところが、得られた特徴に曖昧性があると
き、上記手法（１）で用いられたスタックオートマトン
などによる解析では、複数の解釈を順序付けながらより
先の解析を行うことが困難となる。

【００２０】そこで、本願発明者は、音声認識などで採
用されている確率文法を用いた技法に着目した。すなわ
ち、音声認識の後処理等の分野では、ある非終端記号が
右辺の終端記号および非終端記号の並びに書き替えられ
る条件付確率を付与した確率文法の適用が提案されてお
り、そのための効率的解析手法であるActive Chart Par
sing法なども研究されている（H. Thompson: Best-firs
t enumeration of paths through a lattice --- an ac
tive chart parsing solution, Computer Speech and L
anguage, No. 4, pp. 263-274, 1990）。

【００２１】本発明は、文書の論理構造をこの確率文法
の枠組みで記述し、文書の論理構造抽出を解析グラフ探
索問題に置き換ることによって、上記（Ａ）、（Ｂ）及
び（Ｃ）の要件を同時に満足する方法及びシステムを提
供するものであって、本発明の方法は、次のような各段
階からなる。 (a) 文書を行単位で、コンピュータ・システムのバッ
ファ記憶上に読み込む段階。 (b) 予め用意された行属性判定基準に基づき、読み込
まれた行の属性を、複数の属性判定を許容し、且つその
各々の判定に、判定の妥当性の程度を示すコストを関連
付けるように判定する段階。 (c) 上記文書の全ての行の属性判定が完了したことに
応答して、起点のノードを生成し、次に上記文書の最初
の行に関して、該最初の行の属性判定の数だけノードを
生成して、予め用意された、属性に基づくノード連結規
則に基づき、該起点のノードと、該最初の行に関連して
生成されたノードとを連結する段階。 (d) 次の行について、該次の行の属性判定の数だけノ
ードを生成して、予め用意された、上記属性に基づくノ
ード連結規則に基づき、該次の行の直前の行に関連して
生成されたノードと、該次の行に関連して生成されたノ
ードとを連結する段階。 (e) 上記段階(d)を、最後の行に到達するまで順次実行
することにより、上記起点ノードから終端ノードに向か
う有向グラフを形成する段階。 (f) 上記有向グラフにおいて、上記起点ノードから出
発して、辿ったノードのコストを加算しつつ、終端のノ
ードまで到達する複数の経路を見い出す段階。 (g) 上記見い出された複数の経路に関連するコストの
和を個別に表示する段階。

【００２２】本発明の別の態様では、さらに、表示され
たコストに基づき、オペレータをして１つまたはそれ以
上の妥当と思われる経路を選択させ、該選択された経路
に基づき、ＢｏｏｋＭａｓｔｅｒまたはＴｅＸなどのタ
グを付与する段階を有する。

【００２３】本発明によれば、さらに、上記方法を実現
したコンピュータ・システムが提供され、このシステム
は、次のような構成を有する。 (a) 上記コンピュータ・システムに接続され、論理構
造を解析すべき文書を格納した記憶手段。 (b) 文書を行単位で、上記記憶手段から、コンピュー
タ・システムのバッファ記憶上に読み込む手段。 (c) 予め用意された行属性判定基準に基づき、読み込
まれた行の属性を、複数の属性判定を許容し、且つその
各々の判定に、判定の妥当性の程度を示すコストを関連
付けるように判定する手段。 (d) 上記文書の全ての行の属性判定が完了したことに
応答して、起点のノードを生成し、次に上記文書の最初
の行に関して、該最初の行の属性判定の数だけノードを
生成して、予め用意された、属性に基づくノード連結規
則に基づき、該起点のノードと、該最初の行に関連して
生成されたノードとを連結する手段。 (e) 次の行について、該次の行の属性判定の数だけノ
ードを生成して、予め用意された、上記属性に基づくノ
ード連結規則に基づき、該次の行の直前の行に関連して
生成されたノードと、該次の行に関連して生成されたノ
ードとを連結する手段。 (f) 文書の最後の行に到達するまで処理が完了したこ
とに応答して、上記起点ノードから終端ノードに向かう
有向グラフを形成する手段。 (g) 上記有向グラフにおいて、上記起点ノードから出
発して、辿ったノードのコストを加算しつつ、終端のノ
ードまで到達する複数の経路を見い出す手段。 (h) 上記見い出された複数の経路に関連するコストの
和を個別に表示する手段。

【００２４】本発明の別の態様では、さらに、表示され
たコストに基づき、オペレータをして１つまたはそれ以
上の妥当と思われる経路を選択させ、該選択された経路
に基づき、ＢｏｏｋＭａｓｔｅｒまたはＴｅＸなどのタ
グを付与する手段を有する。

【００２５】

【実施例】図３を参照すると、本発明の好適な実施例に
係るシステムは、論理的には、画像解析部３０２、文字
認識部３０４、テキスト形態解析部３０６、解析グラフ
作成部３０８、解析グラフ探索部３１０という５つのサ
ブシステムからなる。ただし、本発明の主要部は、ＯＣ
Ｒのような文書画像認識よりも寧ろ、図３における、テ
キスト形態解析部３０６、解析グラフ作成部３０８、及
び解析グラフ探索部３１０という３つのサブシステムに
ある。従って、本発明によって論理構造を解析される文
書は、ＯＣＲによって紙に印刷された内容から変換され
たテキスト・ファイルに限定されるものではなく、キー
ボードなどで入力され、あるいはパーソナル・コンピュ
ータ上で動作するテキスト・エディタによって作成され
たテキスト・タグ付けされていないテキストをテキスト
形態解析部の入力とすることも可能である。

【００２６】画像解析部３０２は、文書が印刷された紙
を走査して文書画像を含むイメージ・ファイルを生成す
るイメージ・スキャナ（図３には図示しない）を具備
し、その文書画像を解釈して、枠で囲まれた領域３１２
で示すように、文字列と図を分離するとともに、文字列
については行間隔、左オフセット値などをもとにグルー
ピングし、ブロックを作成する機能を有する。

【００２７】文字認識部３０４は、枠で囲まれた領域３
１４で示すように、文字列と判定された部分のカラム切
り出しを行い、認識して文字コード列に変換する機能を
有する。同時にフォントサイズの判定、文字行のデフォ
ルトの左端位置、右端位置の検出もこの段階で行なわれ
る。

【００２８】テキスト形態解析部３０６は、好適にはハ
ードディスクに格納された辞書３０７で定義された正規
表現により特定の文字パターンを抽出し、各文字行に、
枠で囲まれた領域３１６で示すような論理構造を示す属
性のラベリングを行う機能を有する。ここでいうラベル
は上記手法（１）で用いられている形態そのものではな
く、より論理構造要素に近い属性であり、かつコストと
いう値が付属する。このコストの導入と解析グラフの作
成・探索が、本発明の基本的な着想である。尚、ラベル
は１つの行に複数個付き得ることに留意されたい。その
ようなラベルの例が、枠で囲まれた領域３１６に示され
ている。すなわち、領域３１６において、１番目の行に
「Title」という属性が付与され、これは、１番目の行
がタイトルであると見なされたことを示す。２番目の行
には、「Header level 1」という属性が付与され、これ
は、２番目の行が、レベル１のヘッダであると見なされ
たことを示す。３番目の行には、「Normal text」とい
う属性が付与され、これは、３番目の行が、通常の（タ
イトルやリストではない）テキスト行であると見なされ
たことを示す。４番目の行には、「Header level 2」及
び「List level 1」という２つの属性が付与され、これ
は、４番目の行が、レベル２のヘッダでもあり、レベル
１のリストでもあると見なされたことを示す。５番目の
行には、「Normal text」及び「List continue」という
２つの属性が付与され、これは、５番目の行が、通常の
テキスト行でもあり、リストの続きでもある、と見なさ
れたことを示す。

【００２９】上記手法（１）においても適用可能な文法
を複数書けば、その段階では複数の解釈が生じる。しか
し、上記手法（１）に関する問題は、それら複数の解釈
を順序付けて解析できない点にあった。本発明で導入し
たコストは、複数生じた各解釈の尤らしさ、あるいは妥
当性を表現するものである。

【００３０】解析グラフ作成部３０８は、テキスト形態
解析部３０６で付けられたラベルをノードとし、その付
属する行が隣接しているという関係をリンクとするグラ
フを作成する。このグラフ上で、始点から終点までの１
つのパスが、文書の論理構造の複数の解釈の１つに相当
する。

【００３１】解析グラフ探索部３１０は、前段で作成さ
れたグラフ上での各パスのコストを計算し、複数のパス
をコストによって順序づける。尚、コスト付きグラフを
辿って複数の解を求め表示する技法は、特開平５−４６
５９０号公報などに記載されている。

【００３２】次に、図４を参照して、本発明のシステム
の具体的な構成について説明する。図４のシステムは、
ハードウェア構成としては、例えば揮発性のランダム・
アクセス・メモリである主記憶（図示しない）と、演算
処理を行うＣＰＵ（図示しない）と、キーボード４０２
と、ハードディスク装置４０４と、ＯＣＲシステム４０
６からなる通常の構成である。ＯＣＲシステム４０６
は、イメージ・スキャナ４０７、画像解析部３０２、文
字認識部３０４よりなる。尚、図４において、図３と同
一の構成要件を示すときは、同一の参照番号が使用され
ることに留意されたい。ＯＣＲシステムを構成する画像
解析部３０２と文字認識部３０４は、実際にはハードデ
ィスク４０４上に格納されているプログラム・モジュー
ルであって、例えばシステムの立ち上げ時に、ハードデ
ィスク４０４から主記憶に読み込まれ、ＣＰＵの制御に
よって、スキャナ４０７の駆動、文書イメージ・ファイ
ル４０８の作成及びハードディスク４０４上への格納、
文書イメージ・ファイル４０８の解析及びレイアウト切
り出し、切り出されたレイアウトからの文字認識による
テキスト・ファイル４１０の作成、などの処理を行う。

【００３３】画像解析部３０２は、用いているアルゴリ
ズムが異なるものの、機能としては上記手法（２）のレ
クタングル、ブロックの抽出とほぼ同じであるので説明
を省略する。より詳細は（山下, 天野: モデルに基づい
た文書画像のレイアウト理解, 信学論 (D-II), Vol. J7
5-D-II, No. 10, pp. 1673-1681，1992）、及び特開平
４−２７８６３４号公報を参照されたい。

【００３４】文字認識部３０４では、画像解析部３０２
でテキストと判断された部分を、<文字列左端位置行
長フォントサイズ> の４つ組の列に変換する。また、
文書テキストのデフォルトの左端、行長、フォントサイ
ズを例えば次のように定める。

【００３５】左端：文書全体の８０％の行の左端がこ
の位置より右である点で最も右の位置行長：文書全体の８０％の行長がこれより小さい値の
最小値フォントサイズ：フォントサイズの最頻値

【００３６】文字認識部３０４は、このようにして変換
した上記４つの組のデータを、行ごとに、行データ４１
４としてハードディスク４０４に保存する。尚、文字認
識部３０４は、認識した文字列が右端に達した段階で、
１つの行の終わりと見なす。

【００３７】ハードディスク４０４に格納されているテ
キスト４１０は、テキスト・エディタ、ワードプロセッ
サなどを使用してキーボード４０２などによって入力さ
れるかまたは、ＯＣＲ装置４０６などによって変換され
たテキストデータを保存するファイルである。

【００３８】行データ生成処理部４３０は、ハードディ
スク４０４に格納されているテキスト４１０から行単位
でデータを読み取り、その中のテキストの各行の左端、
右端位置、及び行長さを計算した上、フォントサイズを
一定として、上記の４つ組を作成する。また、文書テキ
ストのデフォルトの左端、行長、フォントサイズを上と
同様に定める。尚、行データ生成処理部４３０は、例え
ば、ファイルのＣＲ・ＬＦコード（0x0d0a)に出会うと
きに１つの行の終わりと見なす。

【００３９】この処理結果は、行データ４１４としてや
はりハードディスク４０４に格納される。すなわち、行
データ４１４は、ＯＣＲ装置４０６の文字認識部３０４
によって作成される場合と、テキスト・ファイル４１０
を処理することにより、行データ生成処理部４３０によ
って作成される場合とがある。

【００４０】テキスト形態解析部３０６は、ハードディ
スク４０４に格納された形態解析用の辞書４１６と、主
記憶中に在駐する辞書検索部４１２を有し、ハードディ
スク４０４に格納された行データ・ファイル４１４から
上記行ごとの４つの組のデータを入力し、テキストの各
行に論理属性を示すラべルを付与する働きを有する。

【００４１】辞書４１６には、テキスト中に含まれる、
文書の論理構造のキーワードとなりうる文字列(章のヘ
ッダーを示す「第１章」など)と、論理構造を示す属
性、章やリストの深さを示すレベル、コストの組との対
応を記述する。この実施例では、テキスト形態解析部３
０６で処理された行に関して、レベル、属性、及びコス
トは、ハードディスク４０４に書かれるのではなく、処
理の高速化のため主記憶に格納される。しかし、極めて
多数の行を一度に処理するためレベル、属性、及びコス
トのデータを一度に主記憶に格納しきれない場合は、そ
れらのデータをハードディスクに格納してもよい。

【００４２】キーワードは、正規表現を用いて記述し、
特定文字列ではなく、文字列パターンに対する記述を可
能にする。これは、同じパターンの文字列は、(1つの文
書中では)同じ属性を持つこと（例えば、「1.1」が、ヘ
ッダーを示すならば、「1.2」「5.1」などもヘッダーを
示すなど）を反映させるものである。

【００４３】属性は、・ヘッダー・パラグラフの最初の行・パラグラフの最後の行・リスト・アイテムの最初の行・リスト・アイテムの継続行・普通の行（ヘッダーでも、パラグラフの最初でも最後
でもなく、リストの一部でもない行）などがある。

【００４４】辞書には（パターンを示す）正規表現と、
それに対して可能な属性ラベル、レベル、その場合のコ
ストの組を記述する。例えば

【００４５】 ^ *第[０-９]+章 (HEADER 1 CS3) ^ *[０-９]+．[０-９]+ (HEADER 2 CS3) (OLIST 2 CS5) ^・ (ULIST ? CS3) ^§ *[０-９]+ *[^０-９] (HEADER 1 CS3) ^§ *[０-９]+ *．[０-９]+ *[^０-９] (HEADER 2 CS3) ^ *（ *[０-９]+ *） (OLIST 1 CS3) ^ *（ *[０-９]+．[０-９]+ *） (OLIST 2 CS3) ^ *[０-９]+ *） (OLIST 1 CS3) ^ *[０-９]+．[^０-９] (HEADER 1 CS3) (OLIST 1 CS5) ^ *[０-９]+．[０-９]+．[０-９]+．? + (HEADER 3 CS3) (OLIST 3 CS5) ^ *[０-９]+−[０-９]+ +[^−] (HEADER 2 CS5) (OLIST 2 CS3) ^ *[０-９]+−[０-９]+−[０-９]+ +[^−] (HEADER 3 CS5) (OLIST 3 CS3) ^ *[Ａ-ｚ]+． *[^Ａ-ｚ] (HEADER 1 CS7) (OLIST 1 CS3) ^ *（ *[Ａ-ｚ] *） (OLIST 1 CS3) ^ *[Ａ-ｚ] *） (OLIST 1 CS3) ^ *（ *[ア-ン] *） (OLIST 1 CS3) ^ *[ア-ン] *） (OLIST 1 CS3) ^ *■ (ULIST ? CS3) ^ *● (ULIST ? CS3) ^ *− (ULIST ? CS3)例１：辞書項目

【００４６】のようである。これらは、当該正規表現に
マッチする文字列が行中にあれば、その行は右に列挙さ
れた(属性レベルコスト)の組(これをラべルという)の
いずれかを持つことを示す。

【００４７】例１の正規表現において、 ^ は行の先頭 * は直前の文字の0回以上のくりかえし [ - ] は文字コードが - の両側で指定された文字の間
に入る(両側の文字も含む)文字 + は直前の文字の1回以上のくりかえしを示す。従って、例えば、 ^ *第[０-９]章は、行の始めのあとに空白が0個以上あり、続いて
「第」の文字、続いて、文字コードが０と９の間にある
（０と９を含む）文字、すなわち数字が１個以上あり、
続いて「章」の文字が続くことを示す。

【００４８】例１の(属性レベルコスト)の組におい
て、例えば、 HEADER ヘッダー OLIST 順序つきリスト・アイテムの最初の行 ULIST 順序なしリスト・アイテムの最初の行の属性を示す。また、例１には示されていないが、ほか
の属性として LCONT リスト・アイテムの継続行 PBEGIN パラグラフの最初の行 PEND パラグラフの最後の行 ORDINARY 普通の行（ヘッダーでも、パラグラフの最初
でも最後でもなく、リストの一部でもない行）がある。

【００４９】レべルは、HEADERの場合は、節、章の深さ
を示し、その他の場合は、リストの深さを示す数字であ
る。深さが不定である(文字列のみからでは判断でき
ず、後の段階で前後から判断される)場合もあり、その
場合は辞書項目のレべルは「?」とする。

【００５０】コストはCSで始まる文字列で表し、CSの次
の数字がコストの値である。

【００５１】特に、^ *[０-９]+．[０-９]+ (HEADER
2 CS3) (OLIST 2 CS5)に関連して、そこでは、"(HEADE
R 2 CS3)"と、"(OLIST 2 CS5)"という２つのラベル付け
が行われることに留意されたい。このような複数のラベ
ル付けを許容すると、論理構造の解釈において曖昧性が
生じるが、本発明の特徴は、このような曖昧性を積極的
に利用して、文書の論理構造の可能な複数の候補を、可
能性の高いものから順序付けして提示することにある。
その際、付与されるコストは、解析して得られた論理構
造の妥当性を数値的にあらわす指標を与える。すなわ
ち、この実施例では、付与されるコストが大きい程、妥
当性あるいは尤らしさが低い、ということを意味する。
従って、"(HEADER 2 CS3)"と、"(OLIST 2 CS5)"という
２つのラベル付けが行われる場合、ヘッダであることの
妥当性の方が、順序つきリスト・アイテムの最初の行で
あることの妥当性よりも大きい、とシステムが判断する
ことを意味する。また、付与されるコストの値は、予
め、複数のサンプル文章を調べることによって、実験
的、経験的に決定される。

【００５２】さて、例１の第１行目は、「第１章」「第
１２章」などの文字列で始まる行はレベル１のヘッダー
であり、その場合のコストが３であることを意味する。
また、２行目は、「１．２」「３．３」などがあればそ
の行は２レベルのヘッダーか（順序つき）リストアイテ
ムの始めの可能性がありその場合のコストがそれぞれ３
および５であることを意味する。同様に３行目の記述か
ら、・は（順序なし）リストアイテムの始めの候補で
ありレベルは不定、言い換えればどのようなレベルにも
コスト３で出現し得ることになる。

【００５３】辞書検索プログラム４１２は、辞書ファイ
ル４１６を主記憶に読み込んで有限状態オートマトンに
変換した後、行データ４１４の４つ組(行)中の文字列を
先頭から１字ずつ照合することによって、文字列中の正
規表現を検索する。(この検索方法は、正規表現と文字
列の照合の標準的なものである。)

【００５４】文字列が、正規表現に相当する部分列を含
む場合、その行に対して、正規表現に対応する(辞書中
で当該正規表現の右に書かれている)ラべルを付与す
る。

【００５５】この段階では、１行に対して複数の属性ラ
ベルが付きうる。そのラベルのうち、どれが妥当かは、
当該行の他の特徴、例えば、

【００５６】・インデント（例: パラグラフの最初の行
はインデントされている、など）・フォントの大きさ（例: ヘッダーは大きい字で印刷さ
れている、など）など、またはそれらの組合せによって決まったり、前後
行の特徴との組合せにより決まることもある。これらは
後段のグラフ作成、解析の段階で解決される。また、辞
書を引いた段階では不定となっている要素（順序なしリ
ストのレベルなど）も後段で決定される。例えば、

【表１】文字列左端行長フォント ---------------------------------------------------------------------- 第１章文書画像解析 0 20 2 (1) 文書画像解析で抽出する情報は次のものがある。 2 44 1 (2) １．１テキスト 4 16 1 (3) 文字コードのみ 10 14 1 (4) １．２レイアウト情報 4 22 1 (5) 印刷されたイメージから抽出 10 26 1 (6) １．３との違いに注意 10 20 1 (7) １．３論理構造 4 16 1 (8) 構造記述言語、たとえば 10 22 1 (9) ・GML 12 2.3 0.8 (10) ・LaTeX 12 3.6 0.7 (11) のタグに変換 10 12 1 (12) これらの情報を抽出するために、数多くのシステムが 4 46 1 (13) 考案されている。たとえば、次のようなものがある。 4 46 1 (14) ---------------------------------------------------------------------- Defaultindent = 4 Defaultlength = 44 Defaultsize = 1 例２: テキストの例 -----------------

【００５７】という文を考える。尚、上記の例におい
て、 Defaultindent はデフォルトの左端 Defaultlength はデフォルトの行長(右端-左端) Defaultsize はデフォルトのフォントサイズを表す。

【００５８】例１の辞書によれば、

【表２】 (1) は (HEADER 1 CS3) (3)(5)(7)(8) は (HEADER 2 CS3) または (OLIST 2 CS5) (10)(11) は (ULIST ? CS3) の可能性を持つこととなる。

【００５９】ところが、ここでは、(3)(5)(8)は、・インデントが本文より大きい・同じ型で番号が連続しているパターンが比較的近い所
にあらわれる(*) の特徴を考慮するとリストアイテムの始めと推測するの
が自然である。一方(7)は、たまたま(3)(5)(8)と同型で
あるものの、(5)から始まるリストアイテムの一部、す
なわちリストの継続行であるべきである。なぜならば、
(7)の場合、それより前に出た(3)(5)と同型であるにも
かかわらず、インデントがそろっていないので、同レベ
ルのリストアイテムの始めとは考えにくい。リストは、
入れ子になる場合もあるが、その場合、番号は１から始
まるはずである。レベル２のヘッダーであるとしても、
番号が１から始まらないのは不自然である。従って、こ
の行はリストアイテムの始めの行と判断するのは不適で
ある。

【００６０】また、(10)(11)は(8)から始まるリストア
イテムの中のアイテムであるから、そのレベルは２であ
るべきである。さらに、(4)(6)(9)(12)はリストの継続
行であるが、これと普通行の区別はその行のみでは決定
できない。しかも、上図では(12)は(9)と同レベルであ
るが、

【表３】・LaTeX (11') のタグに変換 (12')

【００６１】のようなインデントがなされていた場合、
(12')は(11')と同レベルであるとすべきであるし、ま
た、

【表４】・LaTeX (11'') （TeXのマクロ） (12'')

【００６２】の場合、インデントは(11)(12)と同じであ
るが、内容から判断して(12'')は(11'')と同レベルであ
るとすべきである。

【００６３】このような判断は当該行の前後にくる行の
属性、長さ、インデント、ブロック境界か否かなどさま
ざまな特徴を考慮しなければできないものであり、いず
れか1つの特徴から一意的に決定することは難しく、ま
た、(11'')(12'')のように、文書の内容に立ちいった高
度な処理を行わないと決定できない場合もある。また、
印刷文書にはさまざまなスタイルが存在するので、広い
範囲の文書を扱おうとすれば、特徴と属性の間には１対
１の対応はつけられない。さらに、上の(*)のような、
曖昧な判断基準にもとづいた判断が必要になることもあ
る。

【００６４】このように、複数の属性の妥当性の決定の
ためには、前後行の属性との関係を考慮しなければなら
ない。また、その妥当性は決定的に定まるものではな
く、曖昧性を持つものである。

【００６５】この曖昧性の解決のために、グラフ作成部
では、文書を、各行の複数の属性のそれぞれをノードと
し、行の隣接関係をリンクとした有向グラフで表す。こ
のグラフのその始点から終点に至るパスのそれぞれが文
書の論理構造の可能性のそれぞれとなる。

【００６６】図４において、グラフ作成部３０８は、解
析グラフ４２４を作成する処理モジュールであり、ハー
ドディスク４０４に格納された文法ファイル４２０と、
主記憶に在駐し、該文法ファイル４２０に基づき処理を
行う文法解釈部４１８からなる。

【００６７】グラフ作成部３０８の入力は<行、属性ラ
べル>の組である。ここで、行は、行データ４１４中の
行であり、属性ラべルは、形態解析部３０６で、行中の
キーワードから定められたものである。また、辞書にあ
げられた正規表現をどれも含まない行には、(ORDINARY
? CS3)のラべルを持たせておく。

【００６８】グラフ４２４は、各ノードおよびリンクに
コストが付加された有向グラフであり、所定のデータ構
造でハードディスク４０４に格納されている。リンクに
は当該行の特徴とその前後行との関係により決定される
コストが付けられる。ノードに付けられるコストは当該
行の特徴とその接続関係により付与されるものである。
(例えばHeaderというラベルが付けられた場合、とくに
他の条件がなければ辞書に記述されたコスト (CS3)が用
いられるが、右マージンが一定値以下の場合は本文であ
る可能性が高くなるのでコストを上げるといった操作が
行なわれる。) また、ラベル間の接続関係からありえないラベルについ
てはこの段階で排除しておく。また、上記の(7)のよう
に、偶然キーワードとなるパターンを持つ(普通の)行の
可能性を考慮して、辞書でラベル付けされた行について
も、一定の条件を満たす場合は、普通行のラベルの付け
られたノードを加える。

【００６９】上のような接続条件、また、接続の際のコ
ストの調整を、ハードディスク４０４中のファイル４２
０に、文法として３型文法で下記の例３のように記述す
る。

【００７０】例３

【数１】HEADER: START PEND { if(fontsize > Defaultsize) Cost-; if(indent > Defaultindent) Cost+; if(rightmargin<Threshold) Cost+; ADD(HEADER,Level,N_Cost,2); if(period) ADD(ORDINARY,?,3,2); } OLIST: ORDINARY PBEGIN { if(fontsize > Defaultsize) Cost+; if(indent > Defaultindent) Cost-; ADD(OLIST,Level,Cost,2); ADD(ORDINARY,?,6,2); } OLIST: OLIST ULIST LCONT { if(fontsize > Defaultsize) Cost+; if(indent > Defaultindent) Cost-; ADD(OLIST,Level,Cost,2); ADD(ORDINARY,?,6,3); ADD(LCONT,?,6,2); } ULIST: ORDINARY PBEGIN LCONT { if(fontsize > Defaultsize) Cost+; if(indent > Defaultindent) Cost-; ADD(ULIST,Level,Cost,2); } ORDINARY: PEND HEADER { if(font>Defaultsize & indent<Defaultindent) ADD(HEADER,?,5,2); else if(indent>Defaultindent) ADD(PBEGIN,?,3,2); else ADD(PBEGIN,?,5,2); } ORDINARY: PBEGIN ORDINARY { ADD(ORDINARY,?,3,3); if(period) if(length<Defaultlength)ADD(PEND,?, 2, 2); else ADD(PEND, ?, 3, 2); } ORDINARY: OLIST ULIST LCONT { ADD(ORDINARY,?,3,3); ADD(LCONT,?, 3,2); } END: PEND { ADD(END,?,0,0); }

【００７１】上記例３において、 P:Q1 Q2 Q3 { } という表記は、Q1, Q2, Q3, ...の属性を持つノードに
P の属性を持つノードを接続し、その際{}内の操作を行
うことを示す。

【００７２】Cost は辞書に記述されたコスト Level は辞書に記述されたレべル Thresholdはしきい値を表す定数を表す。尚、例３で、Cost+あるいは、Cost-というステ
ートメントは、Costの値を、所定単位分増分または減分
することを示す。ここで、所定単位とは、この例では２
が設定されているが、場合によって１または他の値に選
ばれ得る。

【００７３】ADD(class,level,node_cost,link_cost)は
属性レべルclass,コストnode_costを持つノードを接続
し、その際、リンクlink_costにこのコストを付与する
ことを示す。従って、結果のグラフは、ノード及びリン
クの両方にコストをもつことになる。ルールの{}内に
は、1つ以上のADD文がなくてはならない。

【００７４】上記例３の最初のルールは、HEADER行は、
段落の最後の行の次に来うる(すなわち、段落最後の属
性を持つノードからHEADER属性を持つノードにリンクを
張ることができる)こと、その際、その行が、デフォル
トの大きさよりも大きいフォントで印字されているなら
ば、コストを下げる(HEADERである可能性がより高いと
判断する)こと、また、その行がインデントされている
か右マージンが一定より小さいならばコストを上げるこ
と、さらに行末に句点があるならば、普通行の属性を持
ち、レべル不定、コスト３のノードも付加することを示
す。

【００７５】２番目のルールは、OLIST行は、普通行ま
たは段落の始めの行の次に来うること、その際、HEADER
行とは逆に、大きいフォントならばコストを上げ、イン
デントされていればコストを下げること、さらに、無条
件に、コスト６の普通行のノードを付加することを示
す。

【００７６】３番目のルールは、OLIST行が、リスト
（順序付き、なしの両方とも）の始めの行及びリストの
継続行の次にあらわれたときは、上記の可能性に加え、
リストの継続行である可能性もあるとして、リストの継
続行の次のノードにも加えることを示す。

【００７７】４番目のルールでは、ULIST行は、普通
行、段落の始めの行、リストの最初の行、リストの継続
行の次に来うること、その際、大きいフォントならばコ
ストを上げ、インデントされていればコストを下げる
が、OLIST行と違い普通行である可能性はないものとみ
なしている。

【００７８】５番目から７番目のルールは、普通行の扱
いを示す。５番目のルールでは、普通行が段落最後の行
またはヘッダーの次に来たとき、もし、インデントがデ
フォルトより小さく(左にハングした状態)、フォントが
大きいならば、この行はヘッダーとみなして属性をHEAD
ERに変え、それ以外の場合には、段落の最初とみなして
属性をPBEGINに変えることを示す。

【００７９】６番目のルールでは、普通行が段落の途中
にあって、行末に句点があるとき、行が短いならば確実
に段落の終りとみなしてPENDのノードをORDINARYより小
さいコストで加える、短くないならば、段落の終りであ
る場合もそうでない場合もあるとみてPENDのノードをOR
DINARYのノードと同じコストで付加することを示す。さ
らに、７番目のルールは、普通行がリストの途中にあら
われた場合、リストの継続行である可能性もあるとみる
ことを示す。

【００８０】文法解釈部４１８は、文法４２０を入力に
適用する操作を行う。そこで、以下、図５乃至図８のフ
ローチャートを参照して、文法解釈部４１８における処
理について説明する。

【００８１】図５は、文法解釈部４１８における処理の
おおまかな流れを示す図である。先ず、ステップ５０２
では、グラフのルート・ノードとなる、(φ，START,0,
0)が生成される。

【００８２】ステップ５０４では、ハードディスク４０
４から文法ファイル４０２の内容が読み込まれる。

【００８３】ステップ５０６では、先ず、テキストの最
初の行に対応する、＜行，属性，レベル，コスト＞を含
むデータが主記憶中で読み取られる。ここで行として示
したものは、実際は、図４で行データ４１４として示し
た、文字列（T_n）、インデント（I_n）、行の長さ（L_n）
及びフォントサイズ（F_n）などの値を含み、これらは、
ステップ５１２で使用される。ステップ５０６では、当
該の行の全ての＜属性，レベル，コスト＞に関連するデ
ータが読み込まれる。ここで「全て」というのは、本発
明によれば、１つの行に複数の＜属性，レベル，コスト
＞が付与され得るからである。

【００８４】次に、ステップ５０８では、データの終わ
り、すなわち、最後の行に対応するデータがもう読み取
られてしまったかどうかが判断される。そして、もしそ
うなら、ステップ５１０で、ADD(END,0,0,0)によって、
グラフの終端となるノードを接続し、処理を完了する。

【００８５】ステップ５０８で、データの終わりでない
と判断された場合は、ステップ５１２で、図６で詳細に
説明する「文法と行データの照合」処理に進み、その処
理の完了後、ステップ５０６に戻り、テキストの次の行
に対応する＜行，属性，レベル，コスト＞を含むデータ
が読み取られる。

【００８６】次に、図６を参照して、図５でステップ５
１２として参照されている処理を説明する。図６では、
ステップ６０２で、整数変数ｎに１が格納される。

【００８７】ステップ６０４では、ｎ番目のルールが存
在するかどうかが判断される。もしｎ番目のルールが存
在しないと判断されたなら、それは、例えば上記例３に
示す全てのルールの適用可能性について判断が行われた
ことを意味し、図６の処理は完了する。

【００８８】もしｎ番目のルールが存在するなら、ステ
ップ６０６に進み、現在の行の（複数あり得る）属性
と、ｎ番目のルールのＰ_nが等しいかどうかが判断され
る。

【００８９】もし１つ前の行の（複数あり得る）属性
と、ｎ番目のルールのＰ_nが等しいことが決定される
と、図７で詳述するステップ６０８に進み、次にステッ
プ６１０に進む。そうでないなら、ｎ番目のルールは適
用できないので、直ちにステップ６１０に進む。

【００９０】ステップ６１０では、ｎが１だけ増分さ
れ、それによってステップ６０４では、前回判断された
ルールの次のルールにつき判断が行われる。

【００９１】次に、図７を参照して、図６でステップ６
０８として参照されている処理を説明する。図７では、
ステップ７０２で、整数変数ｋに１が格納される。

【００９２】ステップ７０４では、ｋ＞ｎ_maxかどうか
が判断される。ここでｎ_maxとは、現在注目しているｎ
番目のルールのＱの個数である。例えば、

【数２】ORDINARY: OLIST ULIST LCONT { ADD(ORDINARY,?,3,3); ADD(LCONT,?, 3,2); }

【００９３】のようなルールでは、ｎ_max＝３である。
ｋ＞ｎ_maxであるということは、このルールの全てのＱ
について調べ終えているということを意味するので、図
７の処理は完了する。

【００９４】ｋ＞ｎ_maxでないなら、ステップ７０６に
進み、ここで、直前の行に関連して、属性がＱ_nkという
ノードＮが存在するかどうかの判断が行われる。尚、Ｑ
_nkとは、ｎ番目のルールのｋ番目のＱということであ
る。

【００９５】もしそのようなノードＮが見つかると、ス
テップ７０８に進み、costという変数に現在の行の属性
（複数あり得るが、図６のステップ６０６で１つに絞ら
れている）に関連するコストが格納され、indentという
変数に現在の行のインデントの値が格納され、lengthと
いう変数に現在の行の行長が格納され、fontsizeという
変数に、現在の行のフォントサイズが格納される。尚、
これ以外にも、rightmarginなどの変数もあるが、説明
の便宜上省略する。これらの変数値は、

【数３】OLIST: ORDINARY PBEGIN { if(fontsize > Defaultsize) Cost+; if(indent > Defaultindent) Cost-; ADD(OLIST,Level,Cost,2); ADD(ORDINARY,?,6,2); }

【００９６】というルールの例から見て取れるように、
ルールの｛｝の中で、コストを増減したりするために使
用される。

【００９７】ステップ７１０では、現在の行の文字列を
スキャンし、その末尾に句点があることが決定される
と、periodという論理変数がyesにされる（Ｃ言語で
は、本来的には論理変数というものはないので、整数の
１が代入される）。periodという変数は、ルールでは、
例えば以下のように使用される。

【数４】ORDINARY: PBEGIN ORDINARY { ADD(ORDINARY,?,3,3); if(period) if(length<Defaultlength)ADD(PEND,?, 2, 2); else ADD(PEND, ?, 3, 2); }

【００９８】ステップ７１２では、ルール中の｛｝の記
述に従って、ノードＮのコストの増減が図られる。

【００９９】ステップ７１４では、ルール中の｛｝内の
ADD文に従って、新たなノードが生成され、ノードＮの
後に接続される。ステップ７１４における処理は、図８
に関連してより詳しく説明される。ステップ７１４の後
は、ステップ７１６でｋを１だけ増分して、処理はステ
ップ７０４に戻る。

【０１００】次に図８を参照して、図７でステップ７１
４として示されている処理をより詳しく説明する。この
処理は、前記ルールで使用される、ADD( class, level,
node_cost, link_cost) の処理を示すものである。

【０１０１】図８のステップ８０２では、新しいノード
Ｎ₁が生成される。これは、Ｃ言語で実装されている場
合、１つのノードの構造体のサイズの領域が主記憶から
アロケートされることによって行われる。

【０１０２】ステップ８０４では、新しく生成されたノ
ードＮ₁の属性にclassが代入され、レベルにはlevelが
代入され、コストにはnode_costが代入される。

【０１０３】ステップ８０６では、図７のステップ７０
６における属性の判断によって決定されたノードＮか
ら、今新しく生成されたノードＮ₁へのリンクが形成さ
れ、そのリンクには、link_costの値のコストが付与さ
れる。

【０１０４】尚、上記のclass、level、node_cost及びl
ink_costという値は、現在適用されているルールのADD
関数の引数として与えられるものである。前述の例３に
示すように、複数のルールのそれぞれは、必ず少なくと
も１つのADD関数を含むので、どのルールが適用されて
も少なくとも１つのノードが新たに生成されることに留
意されたい。

【０１０５】このような処理が、グラフ作成部３０８に
よって実行された後は、図４の参照番号４１４で示すよ
うなグラフ構造データが作成され、それは、主記憶内に
格納されておくにとどめておいてもよいが、この実施例
では、図４に示すようにハードディスク４０４に一旦格
納される。より具体的な例を示すと、前記例文からは、
図９のようなグラフが作成される。(3)(5)(7)(8)がヘッ
ダーである可能性は、（上の文法でHEADERはPBEGINの後
に続かないことから）この段階で排除される。また、リ
ストの継続行がどのリストアイテムのものであるかは、
この段階では不定であり、次のグラフ探索段階で解決さ
れる。

【０１０６】本発明は、グラフ４２４が、論理構造解釈
の候補を表現していると考えるものである。つまりStar
tからEndに至る各経路が、それぞれ１つの論理構造解釈
を示すと見なす。このとき、図５乃至図８で説明した処
理によって、各々のノードとリンクにそれぞれ個別にコ
ストが付与されているので、各経路の内、コストが最小
となるものを探索すればもっとも妥当な論理構造解釈が
得られることになる。ただし、グラフ４２４において
は、当該ノード (現在行に対応)の前後の接続関係のみ
により作成、コスト付けがなされている。そこでは例え
ば現在行がヘッダー（リストアイテムの始め）であった
として1つ前に出現したヘッダー（リストアイテムの始
め）との接続関係が考慮されていない。

【０１０７】例えば、例3の(3)行は、前段まで(テキス
ト形態解析部・グラフ作成部)では、レべル2のリストア
イテムの始めであるとされた。しかし、同じ段落には、
それまでリストアイテムがないので、レべルは１でなけ
ればならない。

【０１０８】また、(5)行は、その形態および文法からO
LIST、ORDINARY、LCONTというラベルが付けられてい
る。ところがそれよりも前にあるリストアイテムの始め
（(3)）との形態の比較から、LCONT(これは、(5)が、
(3)から始まるリストアイテムの一部であることを意味
する)、 ORDINARY(これは、(5)が、リストの外の行であ
る、つまり、(3)から始まるリストは(3)(4)のみで終
り、次のリストアイテムは別のリストに属することを意
味する)というラべルは排除できなければならない。
((8)も同様)

【０１０９】さらに、(7)は、インデントが(3)(5)より
右なので、同レベルのリストアイテムの始めの可能性は
低く、ORDINARYかLCONTである可能性が高い。(リストが
入れ子になっていて、(7)がレベル2のヘッダーである可
能性は、番号が１から始まらないので低い。)インデン
トから、(5)から始まるリストアイテムの継続行と判断
するのがよい。

【０１１０】またさらに、グラフ４２４では、リストの
継続行のレべルは不定であり、前にあるリストアイテム
の始めの行とのインデントの比較から、決定される。こ
れらのコスト調整を行うためのヒューリスティックスと
して示されているのが例４である。ここで、コストの調
整は、リンクのコストについて行う。それは、同一ノー
ドであってもパスが異なる場合（前後の行が異なること
を意味する）、コストを異なるものとすべき場合がある
からである。

【０１１１】このため、解析グラフ探索部３１０(図４)
では、各ラベルに付髄する属性値(この例では深さ)をノ
ードに保持し、探索の段階で以降のノードに伝播させ、
枝刈りやコストの再評価を行う。これによって文書の論
理構造記述は、正規文法の範囲に限らずより記述力の高
い文脈自由文法などと同等になる。

【０１１２】グラフ探索部３１０は、ハードディスク４
０４上に格納され、所定のデータ構造で表現されたグラ
フのファイル４２４のデータを入力とし、優先順位つき
グラフ４２６を出力とする。すなわち、優先順位つきグ
ラフ４２６には、Startから始まってEndに至る経路を表
現するデータが、その経路上にあるノード及びリンクに
関連するコストの総和で昇順になるように順序付けられ
て表現されている。このような優先順位つきグラフ４２
６に含まれている各々の経路データは、適当なテキスト
処理プログラムに入力することによって容易に、Ｂｏｏ
ｋＭａｓｔｅｒ、ＴｅＸなどのタグを付けた文書に変換
できる。

【０１１３】グラフ探索部３１０での探索は最適なもの
のみではなく最適経路とのコスト差が一定値以内あるい
はＮ位（Ｎは１よりも大きい所定の整数）以内のものす
べてについて行う。これにより曖昧性の残る部分につい
てはありえる複数の解釈を出力することが可能となる。
このような探索を可能にするものとして例えば伊東、丸
山が形態素解析およびOCRの後処理で用いている手法が
ある（伊東, 丸山: OCR入力された日本語文の誤り検出
と自動訂正,情報処理学会論文誌, Vol. 33, No.5, pp.
664-670, 1992）。あるいは、特開平５−４６５９０号
公報にも同様の記載がある。これらはDijkstraのグラフ
探索法とビームサーチを組み合わせた点を特徴とするも
のである。

【０１１４】以上のような解析グラフ作成と経路探索の
結果、文書論理構造をその妥当性が高い順で得ることが
できる。

【０１１５】図９のグラフから作られた優先順位つきグ
ラフを図１０に示す。これは、グラフ探索部３１０の内
部に存在する、以下の例４ので示すようなヒューリステ
ィクスを適用して、リンクに付与されたコストを変更
し、変更したコストをグラフの各パスごとに計算し、低
いものから第２候補まで示すものである。

【０１１６】例４コスト変更のためのヒューリスティ
クス・当該パスで、HEADERの属性ラべルを持つノードについ
て、・それより前に同形態のHEADERがない場合、番号が１で
ないならば、コストを上げる。レべルは、辞書に書かれ
たレべルにかかわらず１にする。・直前のHEADERと形態・(辞書に書かれた)レべルが同じ
で、番号(第1章の「1」など)が継続しているならば、直
前のレべルと同じにする。この場合コストは変更しな
い。レべルが同じで、番号が継続していない場合は、直
前のレべルと同じにするが、コストを上げる。・直前のHEADERより辞書に書かれたレべルが深いなら
ば、番号が１でなければコストを上げる。・直前のHEADERよりレべルが浅いならば、パスを逆にた
どって、同形態・同レべルのHEADERノードを捜す。なけ
ればコストを上げる。あれば、番号が継続しているかど
うかをしらべ、していなければコストを上げる。・当該パスで、OLISTの属性ラべルを持つノードについ
て、・同じパラグラフで、当該ノードより前にOLIST、ULIST
がない場合、番号が１でないならば、コストを上げる。
レべルは、辞書に書かれたレべルにかかわらず１にす
る。・直前のOLISTと形態・(辞書に書かれた)レべルが同じ
で、番号が継続しているならば、直前のレべルと同じに
する。この場合、インデントが直前のOLISTと同じなら
ばコストは変更しない。レべルが同じで、番号が継続し
ていないか、インデントがそろっていない場合は、直前
のレべルと同じにするが、コストを上げる。・直前のOLISTより辞書に書かれたレべルが深いなら
ば、番号が1でなければコストを上げる。また、このと
き、直前のOLISTよりインデントが左ならばコストを上
げる。・直前のOLISTよりレべルが浅いならば、パスを逆にた
どって、同レべルのOLISTノードを捜す。なければコス
トを上げる。あれば、番号が継続しているかどうかをし
らべ、していなければコストを上げる。また、このと
き、見つかった同レべルのOLISTとインデントが同じで
なければコストを上げる。・同じパラグラフで、当該ノードより前に同じ形態のOL
ISTはないが、ことなる形態のOLISTまたはULISTがある
場合、・直前のOLISTまたはULISTよりインデントが右ならばレ
べルが深いとしてレべルを直前のOLISTまたはULISTのレ
べル+1にする。このとき、番号が1でなければコストを
上げる。・直前のOLISTまたはULISTよりインデントが右ならば、
パスを逆にたどって、同レべルのOLISTノードを捜す。
なければコストを上げる。あれば、番号が継続している
かどうかをしらべ、していなければコストを上げる。ま
た、このとき、見つかった同レべルのOLISTとインデン
トが同じでなければコストを上げる。・当該パスで、ULISTの属性ラべルを持つノードについ
て、・同じパラグラフで、当該ノードより前にULISTもOLIST
もない場合、レべルは1にする。・OLISTしかない場合、レべルは、直前のOLISTのレべル
+1にする。このとき、そのOLISTノードよりインデント
が左ならコストを上げる。・ULISTがあり、それと形態が同じならば、直前のレべ
ルと同じにする。・直前のULISTと形態がことなるならば、パスを逆にた
どって、同形態のULISTノードを捜す。・そのようなノードがないとき、インデントが直前のUL
ISTより左ならばコストを上げる。レべルは、直前のULI
STまたはOLISTのレべル+1とする。・そのようなノードがあるとき、見つかった同形態のUL
ISTとインデントが同じでなければコストを上げる。レ
べルは見つかったノードと同じにする。・当該パスで、ORDINARYの属性をもつノードについて、
直前のノードが、OLIST、ULIST、LCONTならば、その行
よりインデントが右または同じの場合、コストを上げ
る。・当該パスで、LCONTの属性ラべルを持つノードについ
て、・直前のノードの属性がLCONTで、インデントが同じな
らば、そのノードと同じレベルにする。・そうでないならばパスを逆にたどって、同じパラグラ
フのOLISTまたはULISTノードをさがす。当該ノードとイ
ンデントが同じ、または、左で、当該ノードに最も近い
OLISTまたはULISTと同じレべルにする。・そのようなOLISTまたはULISTがない(すなわちおなじ
パラグラフのどのOLISTまたはULISTより左にある)なら
ばコストを上げ、レベルは1にしておく。

【０１１７】なお、上記例４のヒューリスティクスによ
る場合、(12'')は(11'')と同レべルであるとされる。

【０１１８】また、図１０のようにして得られた経路に
基づきタグを付けるのは、容易であって、基本的には、
ノードの属性とレベルのみによってタグを付けることが
可能である。例えば、選ばれた経路に沿って、HEADERと
いう属性のノードに出会うと、そのノードに関連付けら
れた行の先頭に、ヘッダに対応するタグを付けて、ハー
ドディスク４０４に出力する。次に、OLISTという属性
のノードに出会うと、順序付きリストである旨のタグを
付けて、そのノードに関連付けられた行を出力する。次
に、LCONTという属性のノードに出会うと、順序付きリ
ストが続く旨のタグを付けて、そのノードに関連付けら
れた行を出力する。そうして次に、ORDINARYの属性のノ
ードに出会うと、順序付きリストが終わりである旨のタ
グを出力して改行し、次にそのノードに関連付けられた
行を出力する。尚、ノードのレベルは、リストの属性の
行から通常の属性の行に戻るときなどにレベルの値が必
要である。例えば、レベル２のリストからいきなり通常
の行の文章に戻る場合があり得るが、この場合に、レベ
ル２であった場合は、リストの終了を示すタグを２個出
力することが必要である。このようにして、最終ノード
に達した段階で、全ての文へのタグ付けが完了する。

【０１１９】

【発明の効果】本発明は、次のような効果を奏するもの
である。

【０１２０】1. 文書の論理構造を属性値付き文法で記
述することができることに加え、インデントの大小、フ
ォントサイズの違いなど文法の枠組みで記述し難い特徴
についても当該遷移に付随するコストを増減させること
で統一的に反映できる。

【０１２１】2. 論理構造の解釈がグラフ探索問題に置
き換えられ、かつＮ位までの探索を可能にすることで、
解釈の妥当な順に複数候補を出力することができる。

【０１２２】3. 曖昧性のある部分を検出することが、
より容易であり従ってユーザーに対し警告することも可
能となる。

【０１２３】このように本発明は、課題を解決するため
の手段のところでで述べた（Ａ）乃至（Ｃ）の要請を満
足するものであり、かつ実用上十分な速度 (ｉ４８６
（インテルの商標） 33MHzのＣＰＵを備えたパーソナル
コンピュータで１００行／秒程度)で稼働することを検
証した。図１１に実際の入力、図１２に、出力例を示
す。但し、図１２では論理構造を表現するために、ＩＢ
ＭＢｏｏｋＭａｓｔｅｒ（ＩＢＭＢｏｏｋＭａｓｔｅ
ｒ使用者の手引, N:SC34-5009, (1989).）の体系を用い
てタグ付けをしている。

【０１２４】また、マニュアル２章、論文１０編を解析
したところ、第１位候補でマニュアルで８６％、論文で
８２％のタグを正しく付けることができた。第２位候補
までを許すと、正しいタグの割合は８９％まで増加し
た。このことは、複数解を提示できることの有利さを示
す。

【図面の簡単な説明】

【図１】従来技術の、テキスト形態と文法に基づく論
理構造理解の技法を示す図である。

【図２】従来技術の、構造特徴マッチングによる論理
構造理解の技法を示す図である。

【図３】本発明による、論理構造理解の処理の流れの
概要と、その各々の処理によって形成されるデータを示
す図である。

【図４】本発明を実現するためのハードウェア構成、
及びそれと図３の各構成要素の関係を示す図である。

【図５】解析グラフ作成部における、文法解釈部の処
理を示す図である。

【図６】解析グラフ作成部における、文法と行データ
の照合の処理を示す図である。

【図７】解析グラフ作成部における、ノードに対する
ルール適用処理を示す図である。

【図８】解析グラフ作成部における、ADD関数による
ノード作成処理を示す図である。

【図９】本発明の処理によって生成されたコスト付き
グラフの例を示す図である。

【図１０】図９のグラフにおいて、ヒューリスティッ
クスの適用後、経路を、コストの低い順に、第１候補と
第２候補を示した図である。

【図１１】図３の画像解析部３０２に対する入力文書
の例を示す図である。

【図１２】図１１の文書に、本発明の処理によって論
理構造解析を行い、その結果に基づきＢｏｏｋＭａｓｔ
ｅｒのタグを付けた様子を示す図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０６Ｋ 9/62 Ｚ 9061−5Ｈ 9365−5ＨＧ０６Ｆ 15/62 ３２５

Claims

【特許請求の範囲】

【請求項１】コンピュータ・システムによって可読な形
式で格納された文書の論理構造を、コンピュータ・シス
テムの処理によって解析するための方法であって、(a)
上記文書を行単位で、上記コンピュータ・システムの
記憶領域に読み込む段階と、(b) 予め用意された行属
性判定基準に基づき、上記読み込まれた行の属性を、複
数の属性判定を許容し、且つその各々の判定に、判定の
妥当性の程度を示すコスト値を関連付けるように判定す
る段階と、(c) 上記文書の全ての行の属性判定が完了
したことに応答して、起点のノードを生成し、次に上記
文書の最初の行に関して、該最初の行の属性判定の数だ
けノードを生成して、予め用意された、属性に基づくノ
ード連結規則に基づき、該起点のノードと、該最初の行
に関連して生成されたノードとを連結する段階と、(d)
次の行について、該次の行の属性判定の数だけノード
を生成して、予め用意された、上記属性及びコスト値に
基づくノード連結規則に基づき、該次の行の直前の行に
関連して生成されたノードと、該次の行に関連して生成
されたノードとをリンクにより連結するとともに、該生
成されたノード及びリンクにコストを付与する段階と、
(e) 上記段階(d)を、最後の行に到達するまで順次実行
することにより、上記起点ノードから終端ノードに向か
う有向グラフを形成する段階と、(f) 上記有向グラフ
において、上記起点ノードから出発して、辿ったノード
及びリンクのコストを加算しつつ、終端のノードまで到
達する複数の経路を見い出す段階と、(g) 上記見い出
された複数の経路を、該個別の経路に関連するコストの
和に基づき順位付けする段階を有する、文書の論理構造の解析方法。
【請求項２】上記属性は、リストの開始、リストの継
続、及び通常の行の属性を含むものである請求項１に記
載の文書の論理構造の解析方法。
【請求項３】上記属性の判定は、予め用意された複数の
正規検索パターンとの一致によって行われることを特徴
とする請求項１に記載の文書の論理構造の解析方法。
【請求項４】上記段階(b)は、行に対して、リストの深
さを表すレベルを付与する段階をさらに有する請求項１
に記載の文書の論理構造の解析方法。
【請求項５】上記段階(g)で見い出されたグラフの１つ
の経路に従い、該経路上のノードの属性とレベルに応じ
て、個々にタグを付けながら該ノードに関連する行を出
力する段階を有する請求項４に記載の文書の論理構造の
解析方法。
【請求項６】上記タグは、ＢｏｏｋＭａｓｔｅｒの規則
に基づくタグである請求項５に記載の文書の論理構造の
解析方法。
【請求項７】コンピュータ・システムによって可読な形
式で格納された文書の論理構造を、コンピュータ・シス
テムの処理によって解析するためのシステムであって、
(a) 文書を、上記コンピュータ・システムによって行
単位で読み出し可能な形式で記憶する記憶手段と、(b)
上記記憶手段から上記文書を行単位で読み出す読み出
し手段と、(c) 複数のパターンと、該個々のパターン
に関連付けられた少なくとも１つの属性とコスト値の組
とを有し、少なくとも１つのパターンには２つ以上の属
性とコスト値の組が関連付けられてなるパターン表現辞
書を有し、上記読み出し手段によって読み出された上記
文書の個々の行に対して、上記複数のパターンを適用
し、パターン・マッチングが生じたことに応答して該マ
ッチングが生じたパターンに関連付けられている全ての
属性とコスト値の組を関連付けて記憶するテキスト形態
解析手段と、(d) 上記属性及びコスト値に基づきグラ
フのノード生成及びノード間連結を行うとともに、該ノ
ード及びノード間連結にコストを付与する規則を予め有
し、上記文書の全ての行が上記テキスト形態解析手段に
よって処理されたことに応答して、上記文書の先頭行か
ら該規則を適用することによって、先の行に関連して生
成されたノードと、その直後の行に関連して生成された
ノードとを連結することによって有向グラフを生成する
グラフ作成手段と、(e) 上記生成された有向グラフ
を、先頭ノードから終端ノードに達するまで、上記ノー
ド及びリンクに付与されたコストを加算しつつ辿ること
によって、複数の経路を見出し、該見出された経路を、
それに関連して計算されたコストの値に基づき順位付け
するグラフ解析手段とを具備する、文書の論理構造解析システム。
【請求項８】上記順位付けされたグラフの経路に基づ
き、文書の論理構造を示すタグを付与する手段をさらに
有する、請求項７に記載の文書の論理構造解析システ
ム。
【請求項９】上記タグは、ＢｏｏｋＭａｓｔｅｒの規則
に基づくタグである請求項８に記載の文書の論理構造解
析システム。
【請求項１０】上記パターン・マッチングは、正規表現
に基づくパターン・マッチングを含む請求項７に記載の
文書の論理構造解析システム。
【請求項１１】上記属性は、リストの開始、リストの継
続、及び通常の行の属性を含むものである請求項７に記
載の文書の論理構造解析システム。
【請求項１２】所定の様式で紙に印刷された文書の論理
構造を、コンピュータ・システムの処理によって解析す
るための方法であって、(a) 上記文書が印刷された紙
を光学的に走査することによって、上記コンピュータ・
システムによって処理可能な文書イメージを作成する段
階と、(b) 上記文書イメージを解析することによっ
て、文書のマージン及び段落を判定する段階と、(c)
上記文書のマージン及び段落の判定結果に基づき、文字
のカラム切出し及び文字認識を行い、その結果を、上記
コンピュータ・システムが文書の行単位で処理可能な形
式で記憶手段に格納する段階と、(d) 上記文書を行単
位で、上記コンピュータ・システムの記憶領域に読み込
む段階と、(e) 予め用意された行属性判定基準に基づ
き、上記読み込まれた行の属性を、複数の属性判定を許
容し、且つその各々の判定に、判定の妥当性の程度を示
すコスト値を関連付けるように判定する段階と、(f)
上記文書の全ての行の属性判定が完了したことに応答し
て、起点のノードを生成し、次に上記文書の最初の行に
関して、該最初の行の属性判定の数だけノードを生成し
て、予め用意された、属性に基づくノード連結規則に基
づき、該起点のノードと、該最初の行に関連して生成さ
れたノードとを連結する段階と、(g) 次の行につい
て、該次の行の属性判定の数だけノードを生成して、予
め用意された、上記属性及びコスト値に基づくノード連
結規則に基づき、該次の行の直前の行に関連して生成さ
れたノードと、該次の行に関連して生成されたノードと
をリンクにより連結するとともに、該生成されたノード
及びリンクにコストを付与する段階と、(h) 上記段階
(g)を、最後の行に到達するまで順次実行することによ
り、上記起点ノードから終端ノードに向かう有向グラフ
を形成する段階と、(i) 上記有向グラフにおいて、上
記起点ノードから出発して、辿ったノード及びリンクの
コストを加算しつつ、終端のノードまで到達する複数の
経路を見い出す段階と、(j) 上記見い出された複数の
経路を、該個別の経路に関連するコストの和に基づき順
位付けする段階を有する、文書の論理構造の解析方法。
【請求項１３】上記属性は、リストの開始、リストの継
続、及び通常の行の属性を含むものである請求項１に記
載の文書の論理構造の解析方法。
【請求項１４】上記属性の判定は、予め用意された複数
の正規検索パターンとの一致によって行われることを特
徴とする請求項１２に記載の文書の論理構造の解析方
法。
【請求項１５】上記段階(b)は、行に対して、リストの
深さを表すレベルを付与する段階をさらに有する請求項
１２に記載の文書の論理構造の解析方法。
【請求項１６】上記段階(j)で見い出されたグラフの１
つの経路に従い、該経路上のノードの属性とレベルに応
じて、個々にタグを付けながら該ノードに関連する行を
出力する段階を有する請求項１５に記載の文書の論理構
造の解析方法。
【請求項１７】上記タグは、ＢｏｏｋＭａｓｔｅｒの規
則に基づくタグである請求項１６に記載の文書の論理構
造の解析方法。
【請求項１８】上記段階(i)は、文書の行に関連付けら
れたマージンの値に基づき、ノードのコスト値を修正す
る段階をさらに有する、請求項１２に記載の文書の論理
構造の解析方法。
【請求項１９】上記段階(c)が、フォント・サイズを行
に関連して判定する段階をさらに有し、上記段階(i)
が、文書の行に関連付けられた該フォント・サイズ値に
基づき、ノードのコスト値を修正する段階をさらに有す
る、請求項１２に記載の文書の論理構造の解析方法。
【請求項２０】所定の様式で紙に印刷された文書の論理
構造を、コンピュータ・システムの処理によって解析す
るためのシステムであって、(a) 上記文書が印刷され
た紙を光学的に走査することによって、上記コンピュー
タ・システムによって処理可能な文書イメージを作成す
るイメージ走査手段と、(b) 上記文書イメージを解析
することによって、文書のマージン及び段落を判定しそ
の結果を上記コンピュータ・システムによって処理可能
に記憶する手段と、(c) 上記文書のマージン及び段落
の判定結果に基づき、文字のカラム切出し及び文字認識
を行い、その結果を、上記コンピュータ・システムが文
書の行単位で処理可能な形式で記憶手段に格納する手段
と、(d) 上記記憶手段から上記文書を行単位で読み出
す読み出し手段と、(e) 複数のパターンと、該個々の
パターンに関連付けられた少なくとも１つの属性とコス
ト値の組とを有し、少なくとも１つのパターンには２つ
以上の属性とコスト値の組が関連付けられてなるパター
ン表現辞書を有し、上記読み出し手段によって読み出さ
れた上記文書の個々の行に対して、上記複数のパターン
を適用し、パターン・マッチングが生じたことに応答し
て該マッチングが生じたパターンに関連付けられている
全ての属性とコスト値の組を関連付けて記憶するテキス
ト形態解析手段と、(f) 上記属性及びコスト値に基づ
きグラフのノード生成及びノード間連結を行うととも
に、該ノード及びノード間連結にコストを付与する規則
を予め有し、上記文書の全ての行が上記テキスト形態解
析手段によって処理されたことに応答して、上記文書の
先頭行から該規則を適用することによって、先の行に関
連して生成されたノードと、その直後の行に関連して生
成されたノードとを連結することによって有向グラフを
生成するグラフ作成手段と、(g) 上記生成された有向
グラフを、先頭ノードから終端ノードに達するまで、上
記ノード及びリンクに付与されたコストを加算しつつ辿
ることによって、複数の経路を見出し、該見出された経
路を、それに関連して計算されたコストの値に基づき順
位付けするグラフ解析手段とを具備する、文書の論理構造解析システム。
【請求項２１】上記順位付けされたグラフの経路に基づ
き、文書の論理構造を示すタグを付与する手段をさらに
有する、請求項２０に記載の文書の論理構造解析システ
ム。
【請求項２２】上記タグは、ＢｏｏｋＭａｓｔｅｒの規
則に基づくタグである請求項２１に記載の文書の論理構
造解析システム。
【請求項２３】上記パターン・マッチングは、正規表現
に基づくパターン・マッチングを含む請求項２０に記載
の文書の論理構造解析システム。
【請求項２４】上記属性は、リストの開始、リストの継
続、及び通常の行の属性を含むものである請求項２０に
記載の文書の論理構造解析システム。