JP2002032770A

JP2002032770A - 文書処理方法、文書処理システムおよび媒体

Info

Publication number: JP2002032770A
Application number: JP2000190335A
Authority: JP
Inventors: Francis Hurst Matthew; マシュー・フランシス・ハースト; Tetsuya Nasukawa; 哲哉那須川
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-06-23
Filing date: 2000-06-23
Publication date: 2002-01-31
Also published as: US7046847B2; US20020016796A1

Abstract

(57)【要約】【課題】表、箇条書き、多段組等任意にレイアウトさ
れた文書から意味のあるテキストブロックを抽出する。【解決手段】空白等でレイアウトされた文書を入力
し、文書の空間座標で関連付けたシンボルを取得する。
シンボルから同一タイプのキャラクタの連続を抽出しト
ークンとスペースを生成する。列方向に連続したスペー
スからストリームを生成し、ストリームとトークンから
テキストブロックを生成する。テキストブロック間のリ
ンクを生成して、文書グラフとする。文書グラフ内のテ
キストブロック間の接続（リンク）の妥当性を言語モデ
ルを用いて評価し、接続が妥当な場合はそのテキストブ
ロックをマージする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、多段組、表、箇条
書き、タイトル付け等任意にレイアウトされた文書から
意味のあるテキストブロックを抽出する文書処理方法、
システムおよび媒体に関する。本発明の技術はテキスト
マイニング処理、機械翻訳等自然言語文書処理の前処理
に適用し得る。

【０００２】

【従来の技術】近年コンピュータネットワーク上で流通
する電子化された文書あるいはスキャナ等の読み取り装
置で電子化された文書が膨大に蓄積されており、これら
文書の活用が望まれている。蓄積されている文書の活用
方法の１つにテキストマイニング処理（文書の概要を自
動的に把握し、内容の経時的変化や傾向を把握等する文
書検索処理の一種）がある。また、機械翻訳の元データ
として活用される場合がある。

【０００３】これら蓄積文書の活用を考慮すれば、文書
のレイアウトを解析する必要がある。一般に流通してい
る文書たとえばホームページにアップロードされる文書
等では人間が視覚により把握しやすいようにレイアウト
されている。また、スキャナ等により電子化された文書
データでは、原稿は紙媒体の文書であり、通常の印刷様
式に基づいてレイアウトされている。これらレイアウト
された文書には、文章の本体である段落のほかに、タイ
トル、ヘッダ、リスト、表等が含まれ、また段落も２段
組等多段で表示される場合が多い。さらに表の中には、
横書きの要素ばかりでなく、縦書き要素が含まれる場合
もある。このため、元文書のレイアウトを考慮しなけれ
ば満足な文書解析を自動的に行うことは困難である。

【０００４】レイアウト解析の方法には、空間的な特徴
に着目する方法がある。たとえば空白に着目し、空白行
が挿入されている場合にはその後段は段落であると推定
できる。

【０００５】

【発明が解決しようとする課題】ところが、これら空間
的な特徴により意味のあるテキストブロックを抽出する
には限界がある。たとえば段落要素(文章がページの纏
まった領域でタイプされているようなテキスト文書）の
場合と表中のテキストの場合を比較すれば、各々空白の
用い方が相違する。つまり行頭に空白文字（またはタブ
による空白）が表示されている時には段落の始めである
ことが認められるが、表中の空白は通常そのようには配
置されない。また、箇条書き等リスト表示される時には
行頭にインデントが付されたり、行間に空白行が挿入さ
れる。これら多様にレイアウトされたテキスト文書を一
元的に空白の有無のみで解析するのは困難である。

【０００６】また、仮にレイアウトからテキストのブロ
ックが抽出されても、そのブロック内の文章（あるいは
単語の連なり）の意味上の評価が行われているわけでは
ない。このため、特に表や見出し、リスト等段要素のよ
うに纏まったテキスト文書として表示されていない要素
の場合にはブロックが分断され、その意味が正確に読み
取れない。

【０００７】ところで、蓄積されている文書の高度な利
用（たとえばテキストマイニング）の場合には、文書の
内容を自動的に判別する必要があるが、内容的に重要な
メッセージは段落要素よりも表、リスト（箇条書き）等
に含められることが多い。従来、空間的な特徴に基づく
レイアウト解析の場合には、その解析の困難性から表、
リスト（箇条書き）等の要素の解析を断念していた（あ
るいは要素が断片化されるため、その後の利用が困難で
あった）。しかしながら、むしろ後の高度利用を考慮す
れば、これら表、リスト（箇条書き）等の要素にこそ重
要なメッセージが内包されている可能性が高く、後の意
味解析にまで適用し得る形態で抽出することが望まれ
る。

【０００８】本発明の目的は、表、箇条書き、多段組等
任意にレイアウトされた文書から意味のあるテキストブ
ロックを抽出する技術を提供することにある。

【０００９】

【課題を解決するための手段】本願の発明の概略を説明
すれば、以下の通りである。すなわち、本発明は、空白
文字等のスペースにより任意にレイアウトされた文書か
ら、たとえば単語に代表されるトークン、１つまたは連
続した空白文字からなるスペース、またはこれらの結合
等文書を構成するオブジェクトを生成する。オブジェク
トは文書の空間位置に関連付けて生成する。そしてオブ
ジェクト間の接続候補を生成する。オブジェクトと接続
候補はグラフ理論の点（ノード）と辺（弧）に対応付け
ることができる。各リンクの妥当性を言語モデル（たと
えばNグラムモデル）により判断し、接続候補（リン
ク）が妥当であると判断されればオブジェクトを結合す
る。

【００１０】このように文書を処理することにより、様
々にレイアウトされた文書において意味のあるテキスト
ブロックを効率的に抽出することが可能になる。

【００１１】オブジェクト間に生成される接続候補（リ
ンク）は、オブジェクトの右側（横書き文書の場合）の
他のオブジェクトあるいは次行（横書き文書の場合）の
それより左側に位置するオブジェクトとの間に生成でき
る。

【００１２】オブジェクトの生成にあたっては、１行内
の複数トークンあるいはスペースを結合して初期テキス
トブロックを生成できる。この時、列方向に連続するス
ペースをストリームとして定義し、このストリームの文
書内空間位置の情報を利用できる。つまり、ストリーム
で分断されるトークンは結合されず、ストリームで分断
されないトークンは結合される。

【００１３】トークンの生成は、文書内空間座標に対応
付けて１文字ずつキャラクタを取得し、このキャラクタ
のタイプ（アルファベット文字であるか、記号である
か、空白文字であるか等）を判断できる。タイプが同じ
キャラクタが連続する場合には１つのトークンとして記
録できる。空白が連続する場合にはスペースとして記録
できる。

【００１４】オブジェクト間の接続妥当性は、初期テキ
ストブロックの接続妥当性で評価できる。また、この評
価は複数段階行える。まず、複数のオブジェクト間の全
ての接続候補（接続可能性）において、単一要素のサブ
クラスタ（単一の入出次数を有するオブジェクトの集
合）を生成できる。そして、この単一要素サブクラスタ
における接続妥当性を言語モデルを用いて評価できる。
接続が妥当であれば、この単一要素サブクラスタを構成
するオブジェクト（初期テキストブロック）を結合（マ
ージ）できる。次に、マージした後のテキストブロック
間の接続妥当性を同様の手法により評価できる。このよ
うにして効率的に全ての接続候補を評価することができ
る。なお、接続候補が単一の場合には、言語モデルを用
いた評価を行うことなくその接続候補の接続元および接
続先のオブジェクト（初期テキストブロック、マージし
たテキストブロック）を結合できる。

【００１５】

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。ただし、本発明は多くの異
なる態様で実施することが可能であり、本実施の形態の
記載内容に限定して解釈すべきではない。なお、実施の
形態の全体を通して同じ要素には同じ番号を付するもの
とする。

【００１６】以下の実施の形態では、主に方法またはシ
ステムについて説明するが、当業者であれば明らかなと
おり、本発明は方法、システムの他、コンピュータで使
用可能なプログラムが記録された媒体としても実施でき
る。したがって、本発明は、ハードウェアとしての実施
形態、ソフトウェアとしての実施形態またはソフトウェ
アとハードウェアとの組合せの実施形態をとることがで
きる。プログラムが記録された媒体としては、ハードデ
ィスク、ＣＤ−ＲＯＭ、光記憶装置または磁気記憶装置
を含む任意のコンピュータ可読媒体を例示できる。

【００１７】本発明の文書処理方法は、一般的なコンピ
ュータシステムを用いて実現できる。本発明のシステム
は、スタンドアロンのコンピュータシステムまたは複数
のコンピュータシステムで構成されたコンピュータネッ
トワークで実現できる。図１（ａ）はスタンドアロンの
コンピュータを構成の概略を示し、図１（ｂ）は、コン
ピュータネットワークの場合を示す。

【００１８】コンピュータシステムには、中央演算処理
装置１（ＣＰＵ）、主記憶装置２（メインメモリ：ＲＡ
Ｍ）、不揮発性記憶装置３（ＲＯＭ）等を有し、バス４
で相互に接続される。バス４には、その他コプロセッ
サ、画像アクセラレータ、キャッシュメモリ、入出力制
御装置（Ｉ／Ｏ）等が接続されてもよい。また、バス４
には、適当なインターフェイスを介して外部記憶装置
５、データ入力デバイス６、表示デバイス７、通信制御
装置８等が接続される。その他、一般的にコンピュータ
システムに備えられるハードウェア資源を備えることが
可能なことは言うまでもない。

【００１９】外部記憶装置５は代表的にはハードディス
ク装置が例示できるが、これに限られず、光磁気記憶装
置、光記憶装置、フラッシュメモリ等半導体記憶装置も
含まれる。なお、データの読み出しのみに利用できるＣ
Ｄ−ＲＯＭ等の読み出し専用記憶装置もデータあるいは
プログラムの読み出しに適用する場合には外部記憶装置
に含まれる。

【００２０】データ入力デバイス６には、キーボード等
の入力装置、マウス９等ポインティングデバイスを備え
ることができる。データ入力デバイスにはスキャナ等の
画像読み取り装置、音声入力装置も含む。表示装置７と
しては、ＣＲＴ、液晶表示装置、プラズマ表示装置が例
示できる。

【００２１】複数のコンピュータシステムで本発明を実
現する場合、図１（ｂ）に示すように、各コンピュータ
システムは、ＬＡＮ、ＷＡＮ等で接続されていてもよ
く、また、インターネットを介して接続されても良い。
これら接続に用いられる通信回線は、専用線、公衆回線
の何れでも良い。コンピュータシステムには、パーソナ
ルコンピュータ１０、ワークステーション１１、メイン
フレームコンピュータ１２等各種のコンピュータが含ま
れる。

【００２２】コンピュータシステムが複数接続されたコ
ンピュータネットワークにおいては、一部のプログラム
をユーザのコンピュータで、一部のプログラムをリモー
トコンピュータで分散的に処理を実行できる。また、プ
ログラムで利用されるデータは、それがどのコンピュー
タに記録されているかは問われない。つまり、データの
所在に関する情報（アドレス）が明らかである限り、デ
ータあるいはプログラムの格納場所はコンピュータネッ
トワーク上の任意の場所とすることができる。各ネット
ワークコンピュータ間の通信には公知の通信技術を適用
でき、たとえばＴＣＰ／ＩＰ、ＨＴＴＰ等のプロトコル
を用いることができる。また、各記憶装置に記録された
各ファイル（データあるいはプログラム）の存在箇所
（アドレス）は、ＤＮＳ、ＵＲＬ等を用いて特定でき
る。なお、本明細書においてインターネットという用語
には、イントラネットおよびエクストラネットも含むも
のとする。インターネットへのアクセスという場合、イ
ントラネットやエクストラネットへのアクセスをも意味
する。コンピュータネットワークという用語には、公的
にアクセス可能なコンピュータネットワークと私的なア
クセスしか許可されないコンピュータネットワークとの
両方が含まれるものとする。

【００２３】次に、本明細書で用いる用語を説明する。
特に言及した場合を除き、本明細書では以下の概念で用
語を用いる。

【００２４】「オブジェクト」は、以下に説明するキャ
ラクタ、スペース、トークン、テキストブロック等文書
を構成する要素を総称する。

【００２５】「シンボル」とは、空白文字を含むキャラ
クタのセットであり、「キャラクタ」とは、a,b,c等の
アルファベット文字、記号等の独立したシンボルセット
をいう。図３に示す網掛けの部分２１の「N」「S」
「H」「R」「R」はキャラクタの例である。なお、漢字
等の２バイト文字もキャラクタに含む。

【００２６】「スペース」とは１行内の空白文字あるい
はその連続したものをいう。図３に示す網掛けの部分２
２はスペースの例である。２バイトの空白文字も含む
が、１バイト空白文字の２文字分の連続と等価である。

【００２７】「トークン」とは同一行内のキャラクタま
たはその連続したものをいう。図３に示す網掛けの部分
２３の「Exercise」はトークンの例である。

【００２８】「テキストブロック」とはトークンのセッ
トである。テキストブロックはトークンが含まれる最小
面積の方形で表され、左上及び右下の座標で文書中の位
置が記述できる。図４に示す網掛け部分２４はテキスト
ブロックの例であり、９個のトークン「Number」「of」
「Securities」「Underlying」「Options」「Granted」
「(」「#」「)」が含まれる。なお、テキストブロック
にはスペースが含まれてもよい。

【００２９】後に説明するようにキャラクタおよびスペ
ースはトークンの生成に用いられ、トークンはテキスト
ブロックの生成に用いられる。トークン、スペースおよ
びテキストブロックは、その位置座標と共にデータベー
スに記録され蓄積される。このように位置座標と共にト
ークン、スペースおよびテキストブロック（オブジェク
ト）をデータベースに記録するため、これらオブジェク
トの文書における実際の位置検索が速やかにできるよう
になる。

【００３０】また、本明細書ではオブジェクトの抽象化
のために「グラフ」、「グラフセット」、「単一要素サ
ブクラスタ」および「複雑度」の概念を用いる。

【００３１】「グラフ」とはノード（点）と弧（辺）の
セットである。図５(a)にグラフの一例を示す。ノード
２５間は方向を持つ弧２６で接続される。弧２６の始点
はソースであり弧の終点はシンクである。

【００３２】「グラフセット」とは、グラフのセットで
ある。図５(b)にグラフセットの一例を示す。

【００３３】「単一要素サブクラスタ」とは、グラフの
部分グラフであり、各々のノードから出る弧の数（出次
数）およびノードに入る弧の数（入次数）が１のグラフ
である。図６に単一要素サブクラスタの一例を示す。矢
印の左側に示すグラフから単一要素サブクラスタを抽出
したものが矢印の右側に示されている。２つのノード２
７，２８については入次数が１であるが、そのソースで
あるノード２９の出次数が２であるからノード２７，２
８が除外されて単一要素サブクラスタが構成される。

【００３４】グラフセットあるいはグラフを構成するノ
ードに関連するリンク（ノードに入出する弧数）の度合
いは複雑度で表される。「複雑度」とは、ソース（ノー
ド）から出るリンク（弧）の数とシンク（ノード）に入
るリンク（弧）の数の和である。従って、単一要素サブ
クラスタの複雑度は２となる。また、あるグラフセット
における最大複雑度は、グラフセット内の全ての弧にお
ける最大複雑度である。

【００３５】本発明では、これらグラフの概念を用いて
文書を表現する。各ノードがテキストブロックに対応
し、弧がテキストブロック間のリンク（接続関係）に対
応する。シンク（弧の終点となるノード）はソース（弧
の始点となるノード）からの接続可能性のあるテキスト
ブロックを表す。単一のテキストブロックから複数の弧
が出ている場合には、複数のテキストブロックへの接続
可能性を有することになる。

【００３６】また、本発明ではテキストブロックと同様
にスペースをグループ化してストリームを生成する。
「ストリーム」とは、文書内の各行において上下に位置
する各ノードを相互に接続したスペース（ノード）で構
成されるグラフである。ストリームの長さは上下に延び
る空白行の行数で表される。図７にストリームの一例を
示す。図示するようにスペース３０の上下の広がりによ
り長さ５のストリームが構成されている。

【００３７】以下、本実施の形態の文書処理方法を説明
する。まず、前記したようなシステムに処理対象となる
文書を入力する。入力はたとえばスキャナ等の読み取り
装置で入力されるほか、既に電子化された文書データと
して入力される。ただし、電子化された文書であって
も、空白文字、タブ等でレイアウトされている文書であ
れば十分であり、高度に構造化されている必要はない。
図２は、本システムに入力される文書の一例を示す図で
ある。図２に示す文書は文字等のキャラクタで構成され
た単一ファイルである。ここで、文書とは、一対の座標
で各々独立に特定される文字、空白等シンボルの集合と
定義できる。図２において、左上の位置を（０，０）と
し、横方向（ｘ方向）に１文字づつｘ座標指標が増加
し、下方向（ｙ方向）に１行ずつｙ指標が増加するよう
に座標を定義付ける。たとえば上から６行目の左側に表
示されているテキスト「Name」の「N」の座標は（２，
５）である。また、文書の行数はｙの最大値maxyであ
り、行内におけるシンボルの数はｘの最大値maxxであ
る。このように座標に関連付けて１文字ずつデータベー
スに記録する。なお、次に説明するトークン生成処理と
連動して、各行ごとに行の初めから１文字ずつ右方向に
シンボルを読み取る方式により入力されてもよい。

【００３８】図８は本実施の形態の処理の概要を示した
フローチャートである。文書データを入力後、初期化処
理を行い（ステップ３１）、次に単一要素サブクラスタ
の結合処理を行う（ステップ３２）。その後、ユニーク
なリンクを有するクラスタ間を結合し（ステップ３
３）、最後に残ったクラスタのリンクを評価してテキス
トブロックを生成する（ステップ３４）。

【００３９】初期化処理を説明する。初期化処理は、４
つのステップで行われる。第１のステップはトークン生
成ステップである。第２のステップはストリーム生成ス
テップである。第３のステップは初期テキストブロック
の生成ステップであり、第４のステップは初期リンクの
生成ステップである。

【００４０】図９は、トークン生成ステップの一例を示
したフローチャートである。ステップ４０から処理を開
始する。文書データの列方向の指標ｙに０を代入して初
期化し（ステップ４１）、ｙが最大行数ｍａｘｙより小
さいかを判断する（ステップ４２）。ステップ４２の判
断がｎｏなら処理を終了し（ステップ４３）、それ以外
は以下の処理を行う。なお、図中「＝」の記号は代入記
号であり、以下同様である。

【００４１】文書データの行方向の指標ｘに０を代入し
てｘを初期化し（ステップ４４）、変数startにｘを代
入する（ステップ４５）。ｘが最大文字数ｍａｘｘを超
えないかを判断し（ステップ４６）、ステップ４６の判
断がｎｏならｙを１つ増加して（ステップ４７）ステッ
プ４２に戻り、次行の処理に進む。それ以外の場合には
以下の処理（ｙ行内のキャラクタのトークン化）を行
う。

【００４２】まず、変数Ｔに関数char_type(x,y)の戻り
値を代入する（ステップ４８）。関数char_type(x,y)
は、座標（ｘ、ｙ）の位置にあるシンボルのキャラクタ
タイプを戻り値として返す関数である。本実施の形態で
は、アルファベット、数字、句読点、スペースをキャラ
クタタイプとして考慮する。ただし、日本語等英語以外
の言語を処理する時には漢字等他の文字を考慮してもよ
いことは勿論である。

【００４３】次に、char_type(x,y)の戻り値と変数Ｔの
値が等しいかを判断する（ステップ４９）。なお、図中
「＝＝」の記号は両辺の値が等しいか否かを判断する記
号であり、以下同様である。最初のループでは前記判断
は「真（ｙｅｓ）」になるのでステップ５０に進みｘを
１つ増加する。ｘがｍａｘｘ以下であることを判断し
（ステップ５１）、ｙｅｓであればステップ４９に戻
る。ｘが１つ増加するのでステップ４９ではｙ行内の隣
接するシンボルのタイプを検査することになる。シンボ
ルタイプが同じ（ステップ４９の判断がｙｅｓ）の場合
にはｘがｍａｘｘを超えない範囲でステップ５０、５１
のループを繰り返し、タイプの異なるシンボルが検出さ
れるまでこのループが繰り返される。異なるタイプのシ
ンボルが検出されると（ステップ４９の判断がｎｏ）ス
テップ５２に進み、変数tokenにこれら同一タイプの連
続するシンボルの座標が入力される(ステップ５２）。
なお、ステップ５１でｎｏと判断された場合（行末まで
処理が進んだ場合）にもステップ５２に進む（ステップ
５１）。

【００４４】次にキャラクタタイプがスペースであるか
を判断する（ステップ５３）。スペースであるときには
変数tokenをスペースデータベースに追記し（ステップ
５４）、スペースでない場合には変数tokenをトークン
データベースに追記する（ステップ５５）。その後ステ
ップ４５に進み、前記処理を繰り返す。

【００４５】このようにして入力文書のトークン化処理
が行われる。なお、前記の通りトークン化と同時にスペ
ースの検出も行われる。図１０は、トークン化処理が終
了した後の文書の一例を示す。たとえば０行目に着目す
れば、ｘが０〜２５の範囲でスペースが検出され、１つ
のスペース（token）としてスペースデータベースに記
録される。ｘが２６〜３５の範囲の「ｉ」「ｎ」「ｄ」
「ｉ」「ｖ」「ｉ」「ｄ」「ｕ」「ａ」「ｌ」が同一タ
イプのキャラクタなのでトークン「ｉｎｄｉｖｉｄｕａ
ｌ」が生成され、トークンデータベースに記録される。
なお、トークン生成の手法としてchar_type関数を用い
る例を示したが、その他個別キャラクタからトークンを
発生させる方法は種種存在し、上記の手法には限られな
い。

【００４６】次に、ストリーム生成手法を説明する。ス
トリームはスペースデータベースを用いて計算される。
図１１は、ストリームサイズの計算方法の一例を示した
フローチャートである。文書データの列方向の指標ｙに
０を代入して初期化し（ステップ５６）、ｙが最大行数
ｍａｘｙより小さいかを判断する（ステップ５７）。ス
テップ５７の判断がｎｏなら処理を終了し（ステップ５
８）、それ以外は以下の処理を行う。

【００４７】ｙ行に存在するスペースを変数Ｓに代入し
（ステップ５９）、変数ｎにＳの数｜Ｓ｜を代入する
（ステップ６０）。なお、｜Ｏ｜はオブジェクトＯの数
を示すスカラー値であり、以下同様である。また、変数
Ｓはベクトル量であり、ベクトルの各要素にスペース
（オブジェクト）が代入される。以下変数Ａ、変数Ｔに
おいて同様である。

【００４８】変数ｉに０を代入して初期化し（ステップ
６１）、ｉがｎより小さいかを判断する（ステップ６
２）。ステップ６２の判断がｙｅｓなら変数spaceにｉ
番目のスペースＳ［ｉ］を代入し（ステップ６３）、変
数Ａにｙ−１行目におけるスペースのうち、スペースＳ
［ｉ］のｘ方向位置が一致するスペースを代入する(ス
テップ６４）。そして変数space.aboveに、スペースＡ
のうち何れかのスペースs'の持つ上部スペース数の最大
値（max s'.avobe）に１を加えた数を代入する（ステッ
プ６５）。ここで、変数s.aboveには、スペースsの上部
にあるスペース数が記録されている。つまり前記処理に
より、スペースspaceの上部に存在するスペース数とし
て、スペースspaceにｘ方向位置が一致するベクトル量
Ａの要素s'のうち最大の上部スペース数（max s'.avob
e）に１を加えた数が代入される。space.aboveは、spac
eの上部に存在する連続したスペースの数（行数）を示
す。

【００４９】その後、ｉに１を加えて（ステップ６
６）、ステップ６２に戻る。このようにしてｙ行目に存
在する各スペース（Ｓ）の上部にあるスペース数が計算
される。この操作をｍａｘｙまで繰り返す（ステップ６
７）。

【００５０】上記手段により任意のスペース上にあるス
ペース数が計算でき、所定の閾値を超えた時にはこれを
ストリームと判断してストリームデータベースに記録で
きる。図１２は、ストリームを計算した後の結果を示す
文書である。網掛けブロックで示したスペース６８がス
トリームを構成する。

【００５１】次に、初期テキストブロックの生成方法を
説明する。初期テキストブロックは、トークンデータベ
ース、スペースデータベースおよびストリームデータベ
ースを用いて計算される。図１３は初期テキストブロッ
クの計算方法の一例を示したフローチャートである。文
書データの列方向の指標ｙに０を代入して初期化し（ス
テップ６９）、ｙが最大行数ｍａｘｙより小さいかを判
断する（ステップ７０）。ステップ７０の判断がｎｏな
ら処理を終了し（ステップ７１）、それ以外は以下の処
理を行う。

【００５２】ｙ行に存在するトークンを変数Ｔに代入し
（ステップ７２）、ｙ行に存在するスペースを変数Ｓに
代入する（ステップ７３）。そして変数ｎにＴの数｜Ｔ
｜を代入する（ステップ７４）。前記した通り、変数Ｔ
はベクトル量であり、ベクトルの各要素にトークン（オ
ブジェクト）が代入される。

【００５３】変数ｉに０を代入して初期化し（ステップ
７５）、ｉがｎより小さいかを判断する（ステップ７
６）。ステップ７６の判断がｙｅｓならｉがｎ−１であ
るかを判断する（ステップ７７）。つまり現在のｉ番目
のトークンがｙ行における最後のトークンであるかを判
断する。このステップ７７の判断がｎｏであるときには
変数ｔにｉ番目のトークンＴ［ｉ］を代入する(ステッ
プ７８）。その後変数ｓにトークンｔの右側に位置する
スペースを代入する（ステップ７９）。そして、スペー
スｓ（トークンｔの右側に位置する）がストリームに属
するかを判断する（ステップ８０）。s.stream関数はス
ペースｓがストリームに属する時には新値を戻す関数で
ある。

【００５４】ステップ８０の判断がｙｅｓ（トークンｔ
の右側のスペースがストリームである）の場合には、ト
ークンｔをテキストブロックデータベースに追加する
（ステップ８１）。なお、ステップ７７でｙｅｓ（トー
クンがｙ行における最後のトークンである）と判断され
た時にはステップ８１に進む。

【００５５】一方ステップ８０の判断がｎｏである時に
はスペースｓの大きさ｜ｓ｜があらかじめ定めた最大ス
ペース値（maxspace）より大きいかを判断し（ステップ
８２）、ステップ８２の判断がｙｅｓの時にはステップ
８１に進んでトークンｔをテキストブロックデータベー
スに追加する。ステップ８２の判断がｎｏの時にはトー
クンｔ’としてｉ＋１番目のトークンＴ［ｉ＋１］を代
入し、さらにトークンｔとｔ’とをマージしてトークン
ｔとする。さらにトークンＴ［ｉ］にトークンｔを代入
し、スペース列Ｓからスペースｓを削除し、ｎから１を
減じる（ステップ８３）。つまり、ストリームでない空
白の両側に位置するトークンをマージする処理を行う。
その後ステップ７６に進んで上記処理を繰り返す。

【００５６】なお、テキストブロックデータベースにト
ークンが記録された後は、ｉを１増加し（ステップ８
４）、ステップに進んで上記処理を繰り返す。

【００５７】そしてステップ７６でｎｏと判断された時
（１行分のトークンのマージ処理が終了した時）にはｙ
を１増加し（ステップ８５）、ステップ７０に戻って処
理を繰り返す。

【００５８】すなわち、上記処理により、ストリームま
たは行の終端が検出されるまでは１行内のトークンはマ
ージされる。このマージされたトークンが初期テキスト
ブロックとして、テキストブロックデータベースに記録
される。

【００５９】図１４は、初期的テキストブロックが生成
された段階の文書の例を示す図である。前記処理フロー
より明らかな通り、この段階でのテキストブロックは１
行内でのトークンのマージに止まるため、その深さは１
である。また、同図に示すように、たとえば「Employee
s」と「in」との間の領域８６のようにストリームの一
部であるスペースが初期テキストブロックの間に残る。
また、たとえば領域８７のように、ストリームでないス
ペースによってもトークンがマージされない場合があ
る。つまり、ステップ８２の判断において最大スペース
値（maxspace）を越えた場合である。

【００６０】次に、初期リンクの生成を行う。初期リン
クはの生成は、テキストブロックデータベースとスペー
スデータベースを用いて計算する。図１５は初期リンク
生成の一例を示したフローチャートである。文書データ
の列方向の指標ｙに０を代入して初期化し（ステップ８
８）、ｙが最大行数ｍａｘｙより小さいかを判断する
（ステップ８９）。ステップ８９の判断がｎｏなら処理
を終了し（ステップ９０）、ｙｅｓなら以下の処理を行
う。

【００６１】ｙ行に存在するテキストブロックを変数Ｔ
に代入し（ステップ９１）、変数nextにｙ＋１を代入す
る（ステップ９２）。次にnext行が空であるかを判断し
（ステップ９３）、空である場合には変数nextをさらに
１つ増加し（ステップ９４）、空でない場合にはそのま
ま次のステップ９５に進む。ステップ９５ではnext行に
存在するテキストブロックを変数Ｔ’に代入する。そし
て変数ｎにＴの数｜Ｔ｜を代入する（ステップ９６）。

【００６２】変数ｉに０を代入して初期化し（ステップ
９７）、ｉがｎより小さいかを判断する（ステップ９
８）。ステップ９８の判断がｙｅｓなら、変数ｔにｉ番
目のテキストブロックＴ［ｉ］を代入した後（ステップ
９９）、ｉがｎ−１であるかを判断する（ステップ１０
０）。つまり現在のｉ番目のテキストブロックがｙ行に
おける最後のテキストブロックであるかを判断する。こ
のステップ１００の判断がｎｏであるときには、変数
ｔ’にｉ＋１番目のテキストブロックＴ［ｉ＋１］を代
入し（ステップ１０１）、ｔとｔ’との間のスペースを
ｓに代入する（ステップ１０２）。ｓがストリームであ
るか（s.stream==true）もしくはｓの大きさ｜ｓ｜が最
大リンクスペース（max link space）を超えているかを
判断し（ステップ１０３）、ステップ１０３の判断がｎ
ｏの時にはｔとｔ’との間にリンクを生成する（ステッ
プ１０４）。つまりステップ９９からステップ１０４ま
での処理により、同一行内の隣接するテキストブロック
間にストリームでないスペースが存在しかつそのスペー
スの大きさ（長さ）が最大リンクスペースより小さい時
には隣接テキストブロック間にリンクを形成する。

【００６３】次に変数Ｌにｔよりも左側に存在するＴ’
内の全てのテキストブロックを代入する（ステップ１０
５）。そして、ｔとＬを構成する各々のテキストブロッ
ク間にリンクを生成する（ステップ１０６）。つまり、
着目しているテキストブロックｔの次行（次行が空行の
時にはその次の行）に存在し、ｔよりも左側に位置する
テキストブロックの全てにリンクを形成する。なお、ス
テップ１００、１０３においてその判断がｙｅｓ（着目
テキストブロックｔに右隣接するテキストブロックがな
い、あるいはストリームまたはスペースが大きくてリン
クを張るのが妥当でない）と判断された時にはステップ
１０５に進む。

【００６４】上記のようにリンクを形成した後ｉを１増
加し（ステップ１０７）、ステップ９８に進んで上記処
理を繰り返す。そしてステップ９８でｎｏと判断された
時（１行分のテキストブロックについてリンク形成処理
が終了した時）にはｙを１増加し（ステップ１０８）、
ステップ８９に戻って処理を繰り返す。

【００６５】すなわち、上記処理により、初期テキスト
ブロック間のリンクが形成される。このリンク生成の判
断基準は、隣接テキストブロック間のスペースがストリ
ームでないこと、スペースが予め定めた最大リンクスペ
ースを越えないこと、リンクの終点となるテキストブロ
ック（シンク）の位置が、リンクの始点となるテキスト
ブロック（ソース）の次行左側に位置することである。
このような条件を満たせば自動的に初期リンクが生成さ
れる。初期リンクはリンクのソース、シンクとなるテキ
ストブロックの情報とともにデータベースに記録される
のは勿論である。

【００６６】以上のようにして初期化処理が終了する。
図１６は初期化処理のステップを擬似コードで表した図
である。なお、擬似コードを表す図において左側に示し
た数字は行番号であり、以下同様である。

【００６７】文書データdocをトークン化関数tokenize
に入力し、トークンtokensおよびスペースspacesを得る
（行番号１）。また、文書データdocをストリーム関数s
teamに入力し、ストリームstreamsを得る（行番号
２）。tokens、spaces、streamsを初期テキストブロッ
ク生成関数get_initial_blocksに入力し、初期テキスト
ブロックとしてtext_blocksを得る（行番号３）。text_
blocksを初期リンク生成関数get_initial_linksに入力
し、初期リンクとしてlinksを得る（行番号４）。そし
て、初期テキストブロックtext_blocksおよび初期リン
クlinksを文書グラフdocument_graphとしてストアする
（行番号５）。文書グラフは、text_blocksをノード、l
inksを弧とするグラフセットである。

【００６８】次に、単一要素サブクラスタの結合処理
（ステップ３２）を説明する。図１７は単一要素サブク
ラスタ結合処理の一例を示した擬似コードを示す図であ
り、図１８はそのフローチャートである。

【００６９】まず、cluster関数を用いて文書をクラス
タ化する（行番号１）。クラスタ化されたデータはclus
ter_setに格納される。文書のクラスタ化は前記した初
期化処理で生成したテキストブロックとリンクで表現さ
れる文書からグラフを取り出すことにより行う。リンク
で結合されているテキストブロックの集合が１つのグラ
フに対応する。

【００７０】次にcluster_setに含まれるクラスタｃの
全てについてsub-cluster関数を用いてサブクラスタ化
する。抽出されたサブクラスタはsub_cluster_setに格
納される（行番号２，３、ステップ１０９，１１０）。
サブクラスタ化は、クラスタから単一要素のサブクラス
タを抽出する作業である。たとえば各ノードにおける弧
（リンク）の入次数および出次数が１となる条件（単一
要素サブクラスタの定義）を満足するかをチェックしな
がら抽出できる。

【００７１】次にsub_cluster_set に含まれるサブクラ
スタｓの全てについて、各サブクラスタｓに含まれるリ
ンクの妥当性を言語モデルを用いて評価する（行番号４
〜６、ステップ１１１〜１１３）。リンクの妥当性は、
リンクの始点（ソース）のテキストブロックとリンクの
終点（シンク）のテキストブロックとが、言語モデルに
おいて高い確率で出現する表現であるかを評価すること
により行う。言語モデルにはたとえばNグラムモデルを
用いることができる。ただしNグラムモデルに限らず、
その他のモデルであっても構わない。評価が妥当である
場合にはソースとシンクのテキストブロックがマージさ
れる（号番号６、ステップ１１４）。

【００７２】次に、クラスタ結合処理（ステップ３３）
を説明する。図１９はクラスタ結合処理の一例を示した
擬似コードを示す図であり、図２０はそのフローチャー
トである。クラスタの結合処理は複雑度の小さなものか
ら順に行う。

【００７３】まず、複雑度に３を代入しておき（行番号
１）、最大複雑度を取得する（行番号２）。次に複雑度
が最大複雑度よりも小さいときには以下の処理を行う
（行番号３）。

【００７４】cluster関数を用いて文書をクラスタ化し
（行番号５）、cluster_setに含まれるクラスタｃの全
てについて、各クラスタｃに含まれるリンクの複雑度を
チェックする（行番号６〜８、ステップ１１５〜１１
６）。リンクの複雑度が現ループの複雑度より小さけれ
ば（行番号８、ステップ１１６）、リンクがユニークに
妥当であると評価できるかを判断する（行番号９、ステ
ップ１１７）。判断の結果ｙｅｓであれがリンクのソー
スとなるテキストブロックとシンクとなるテキストブロ
ックをマージする（行番号９、ステップ１１８）。なお
リンクがユニークに妥当であるかどうかとは、唯一確か
なリンクしか存在しないことをいう。たとえば「numbe
r」「of」間のリンクと「of」「of」間のリンクが並存
する場合、言語モデルからは「of」「of」間のリンクは
ありえない。この場合、「of」「of」間のリンクが取り
去られ、「number」「of」間のリンクが選択される。そ
して「number」「of」がマージされて新たなテキストブ
ロック「number of」が生成される。

【００７５】次に、クラスタ間の接続評価ステップ（ス
テップ３４）を説明する。図２１はクラスタ間接続評価
処理の一例を示した擬似コードを示す図であり、図２２
はそのフローチャートである。この処理はクラスタの結
合処理（ステップ３３）と類似している。ステップ３３
では複数のリンクを評価した時に、唯一選択し得るリン
クが存在する時にはこのリンクを選択する処理を行っ
た。ここでは、複数のリンクが存在し、何れも選択可能
な時の処理を説明する。なお、ステップ３３と同様な事
項の説明は省略する。

【００７６】ステップ３４では、cluster_setに含まれ
るクラスタｃの全てについて、各クラスタｃに含まれる
リンクの順位付けを行う（行番号７、ステップ１１
９）。順位付けられたリンクordered_linksに含まれる
各リンクについて（行番号８、ステップ１２０）、リン
クの複雑度をチェックし（行番号９、ステップ１２
１）、リンクの妥当性評価に有意な差があるかを判断す
る（行番号１０、ステップ１２２）。リンクの妥当性評
価には、たとえば言語モデルによる出現確率を用いるこ
とができる。出現確率が高いほど接続妥当性は高くな
る。なおその他の妥当性評価および有意差の判定手法を
用いることができることは勿論である。前記判断の結果
ｙｅｓであれがリンクのソースとなるテキストブロック
とシンクとなるテキストブロックをマージする（行番号
１０、ステップ１２３）。なお、有意差が見られない時
にはリンクは並存したままである。

【００７７】このようにして空白でレイアウトされた文
書から意味のあるテキストブロックを自動的に生成でき
る。図２３は最終的な処理後の出力の一例を示した図で
ある。言語モデルにより妥当と判断された接続をマージ
して得られたテキストを含むテキストブロックが表示さ
れている。図示するように本実施の形態の処理によるテ
キストブロックは原文書の空間座標情報を維持したまま
出力される。つまり最終的なテキストブロックの位置
は、文書の位置座標で特定できる。たとえばテキストブ
ロックの左上の座標と右下の座標で位置が特定される。
このように原文書の空間情報が維持され、かつ、各テキ
ストブロック内のテキストは言語モデルで保証された意
味のある内容を含む。このため、本実施の形態の処理方
法を前処理手段として高度な自然言語処理（たとえばテ
キストマイニングや機械翻訳）を原文書の内容を欠落す
ることなく適用できる。さらに、本実施の形態の文書処
理方法は、空間的な位置情報とスペースを利用してテキ
ストブロックを生成するので、複雑なレイアウトを持つ
文書にも容易に適用することが可能である。このため、
適用の対象となる文書の範囲を広げ、より汎用的な文書
処理に供することができる。

【００７８】以上、本発明者によってなされた発明を発
明の実施の形態に基づき具体的に説明したが、本発明は
前記実施の形態に限定されるものではなく、その要旨を
逸脱しない範囲で種々変更可能である。

【００７９】たとえば、入力文書には、前記実施の形態
で用いた表に限らず、２段組等の複数段表示文書、リス
ト、表題が付された文書、ダブルスペース文書、マルチ
カラムセルあるいはマルチロウセルを有する表文書、サ
ブセルを有する表文書、省略形のリストあるいは表等の
文書にも適用できる。適用可能な文書の例を図２４の示
す。

【００８０】また、日本語等縦書きを含む文書にも適用
できる。前記実施の形態では横書き文書を前提に説明し
たが、縦書き文書に適用するようにアルゴリズムを変更
することは容易である。また、横書きと縦書きが混在す
るような文書にも適用できる。

【００８１】さらに１つのテキストが複数のテキストに
かかる場合や、複数のテキストが１つのテキストにかか
る場合のように文書間のかかり受けが複雑になる場合に
も本実施の形態を用いれば正確に把握できる。この場合
１つのオブジェクト（テキストブロック）に複数のリン
クが入る（または出る）状態で記録される。

【００８２】また、前記実施の形態では、単一要素のサ
ブクラスタにおけるテキストブロック結合処理（ステッ
プ３２）、クラスタ結合処理（ステップ３３）、および
クラスタ間接続評価（ステップ３４）の全てのステップ
を有する例を説明したが、ステップ３２あるいはステッ
プ３４については必須のステップではない。入力文書に
よっては単一要素サブクラスタが存在しない場合があ
り、また、唯一のリンク可能性が発見できない場合もあ
る。この場合、ステップ３４のテキストブロックの接続
評価により、本実施の形態と同じ文書出力を得ることが
できる。ただし、ステップ３２、３３を入れることによ
り処理の効率化が図れる。

【００８３】

【発明の効果】本願で開示される発明により、表、箇条
書き、多段組等任意にレイアウトされた文書から意味の
あるテキストブロックを抽出することができる。

【図面の簡単な説明】

【図１】（ａ）はスタンドアロンのコンピュータを構成
の概略を示し、（ｂ）は、コンピュータネットワークの
場合を示す。

【図２】本システムに入力される文書の一例を示す図で
ある。

【図３】キャラクタ、スペース、トークンの例を示す図
である。

【図４】テキストブロックの例を示す図である。

【図５】(a)はグラフの一例を示し、(b)はにグラフセッ
トの一例を示す図である。

【図６】単一要素サブクラスタの一例を示す図である。

【図７】ストリームの一例を示す図である。

【図８】本発明の一実施の形態である処理の概要を示し
たフローチャートである。

【図９】トークン生成ステップの一例を示したフローチ
ャートである。

【図１０】トークン化処理が終了した後の文書の一例を
示す図である。

【図１１】ストリームサイズの計算方法の一例を示した
フローチャートである。

【図１２】ストリームを計算した後の結果の一例を示す
図である。

【図１３】初期テキストブロックの計算方法の一例を示
したフローチャートである。

【図１４】初期的テキストブロックが生成された段階の
文書の一例を示す図である。

【図１５】初期リンク生成の一例を示したフローチャー
トである。

【図１６】初期化処理のステップを擬似コードで表した
図である。

【図１７】単一要素サブクラスタ結合処理の一例を示し
た擬似コードを示す図である。

【図１８】単一要素サブクラスタ結合処理の一例を示し
たフローチャートである。

【図１９】クラスタ結合処理の一例を示した擬似コード
を示す図である。

【図２０】クラスタ結合処理の一例を示したフローチャ
ートである。

【図２１】クラスタ間接続評価処理の一例を示した擬似
コードを示す図である。

【図２２】クラスタ間接続評価処理の一例を示したフロ
ーチャートである。

【図２３】最終的な処理後の出力の一例を示した図であ
る。

【図２４】入力文書のその他の例を示す表図である。

【符号の説明】

１…中央演算処理装置、２…主記憶装置、３…不揮発性
記憶装置、４…バス、５…外部記憶装置、６…データ入
力デバイス、７…表示デバイス（表示装置）、８…通信
制御装置、９…マウス、１０…パーソナルコンピュー
タ、１１…ワークステーション、１２…メインフレーム
コンピュータ、２５，２７，２９…ノード、２６…弧、
Ｔ，ｔ…テキストブロックまたはトークン、ｃ…クラス
タ、ｍａｘｘ…最大文字数、ｍａｘｙ…最大行数、ｓ…
サブクラスタまたはスペース。

フロントページの続き (72)発明者マシュー・フランシス・ハースト神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者那須川哲哉神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B009 NA01 5B050 BA16 CA07 GA08 5B075 ND26

Claims

【特許請求の範囲】

【請求項１】文書処理システムにおいて空白文字また
はタブその他のスペースで文字がレイアウトされている
文書から意味のあるテキストブロックを抽出する文書処
理方法であって、前記文書から文字、記号、空白文字その他シンボルで構
成されるオブジェクトを生成するステップと、前記オブジェクト間の接続候補を生成するステップと、前記接続候補の接続の妥当性を言語モデルを用いて評価
するステップと、を含む文書処理方法。
【請求項２】前記接続候補の接続が妥当であると判断
された場合には、前記接続候補の接続元および接続先の
前記オブジェクトを結合するステップをさらに含む請求
項１記載の文書処理方法。
【請求項３】前記オブジェクトは、前記文書の空間位
置を示す座標に関連付けられて生成される請求項１また
は２記載の文書処理方法。
【請求項４】前記オブジェクトの結合により前記テキ
ストブロックが生成され、前記テキストブロックは、前
記オブジェクトを含む最小面積の方形領域で定義され、
前記文書における前記方形領域の対角２点の座標で位置
が特定される請求項３記載の文書処理方法。
【請求項５】前記オブジェクト間の接続候補は、接続
元オブジェクトの右方に隣接するオブジェクトとの接
続、または、前記接続元オブジェクトが存在する行の次
行に存在し、前記接続元オブジェクトより左方に位置す
る何れかのオブジェクトとの接続である請求項１〜４の
何れか一項に記載の文書処理方法。
【請求項６】前記言語モデルはｎグラムモデルである
請求項１〜５の何れか一項に記載の文書処理方法。
【請求項７】前記オブジェクトの生成ステップには、前記文書の空間座標に関連付けて、前記座標毎のシンボ
ルを取得するステップと、前記文書の１行内の前記シンボルのタイプを判断し、１
つまたは連続する文字、記号その他のキャラクタで構成
されるトークン、または、１つまたは連続する空白文字
で構成されるスペースを生成するステップと、前記スペースの上下方向の隣接関係を判断し、複数行に
わたるスペースで構成されるストリームを生成するステ
ップと、前記トークンと前記ストリームとの位置関係を判断し、
前記トークンまたは空白文字を含む初期テキストブロッ
クを生成するステップと、を含む請求項１〜６の何れか一項に記載の文書処理方
法。
【請求項８】前記トークンまたはスペースを生成する
ステップにおいて、前記タイプが空白文字でないと判断
され、前記行内において隣接するシンボルの前記タイプ
が同じであると判断された場合には、前記シンボルを連
続するキャラクタで構成される１つのトークンとして記
録し、前記タイプが空白文字であると判断された場合に
は前記シンボルを１つまたは連続するスペースとして記
録し、前記ストリームを生成するステップにおいて、前記スペ
ースが異なる行において上または下の方向に隣接すると
判断された時には前記スペースをストリームとして記録
し、前記オブジェクトの生成ステップにおいて、１行内の２
つのトークンに挟まれたスペースがストリームでない場
合には、前記２つのトークンとその間のスペースを初期
テキストブロックとして結合する請求項７記載の文書処
理方法。
【請求項９】前記初期テキストブロックとその接続候
補の全てとを生成するステップと、前記初期テキストブロックおよび接続候補の全てから単
一要素の初期テキストブロックおよび接続候補を抽出す
るステップと、前記単一要素の初期テキストブロックおよび接続候補の
接続妥当性を言語モデルを用いて判断するステップと、前記接続妥当性が妥当であると判断された時には、前記
単一要素の初期テキストブロックを結合するステップ
と、を含む請求項７または８記載の文書処理方法。
【請求項１０】前記オブジェクト、初期テキストブロ
ックまたはそれらが結合されたテキストブロックとの間
に単一の接続候補のみが存在する時には、言語モデルを
用いた接続妥当性を判断することなくこれらを結合する
請求項１〜９の何れか一項に記載の文書処理方法。
【請求項１１】空白文字またはタブその他のスペース
で文字がレイアウトされている文書から意味のあるテキ
ストブロックを抽出する文書処理システムであって、前記文書から文字、記号、空白文字その他シンボルで構
成されるオブジェクトを生成する手段と、前記オブジェクト間の接続候補を生成する手段と、前記接続候補の接続の妥当性を言語モデルを用いて評価
する手段と、を含む文書処理システム。
【請求項１２】前記接続候補の接続が妥当であると判
断された場合には、前記接続候補の接続元および接続先
の前記オブジェクトを結合する手段をさらに含む請求項
１１記載の文書処理システム。
【請求項１３】前記オブジェクトは、前記文書の空間
位置を示す座標に関連付けられて生成される請求項１１
または１２記載の文書処理システム。
【請求項１４】前記オブジェクトの結合により前記テ
キストブロックが生成され、前記テキストブロックは、
前記オブジェクトを含む最小面積の方形領域で定義さ
れ、前記文書における前記方形領域の対角２点の座標で
位置が特定される請求項１３記載の文書処理システム。
【請求項１５】前記オブジェクト間の接続候補は、接
続元オブジェクトの右方に隣接するオブジェクトとの接
続、または、前記接続元オブジェクトが存在する行の次
行に存在し、前記接続元オブジェクトより左方に位置す
る何れかのオブジェクトとの接続である請求項１１〜１
４の何れか一項に記載の文書処理システム。
【請求項１６】前記言語モデルはｎグラムモデルであ
る請求項１１〜１５の何れか一項に記載の文書処理シス
テム。
【請求項１７】前記オブジェクトの生成手段には、前記文書の空間座標に関連付けて、前記座標毎のシンボ
ルを取得する手段と、前記文書の１行内の前記シンボルのタイプを判断し、１
つまたは連続する文字、記号その他のキャラクタで構成
されるトークン、または、１つまたは連続する空白文字
で構成されるスペースを生成する手段と、前記スペースの上下方向の隣接関係を判断し、複数行に
わたるスペースで構成されるストリームを生成する手段
と、前記トークンと前記ストリームとの位置関係を判断し、
前記トークンおよび空白文字を含む初期テキストブロッ
クを生成する手段と、を含む請求項１１〜１６の何れか一項に記載の文書処理
システム。
【請求項１８】前記トークンまたはスペースを生成す
る手段において、前記タイプが空白文字でないと判断さ
れ、前記行内において隣接するシンボルの前記タイプが
同じであると判断された場合には、前記シンボルを連続
するキャラクタで構成される１つのトークンとして記録
し、前記タイプが空白文字であると判断された場合には
前記シンボルを１つまたは連続するスペースとして記録
し、前記ストリームを生成する手段において、前記スペース
が異なる行において上または下の方向に隣接すると判断
された時には前記スペースをストリームとして記録し、前記オブジェクトの生成手段において、１行内の２つの
トークンに挟まれたスペースがストリームでない場合に
は、前記２つのトークンとその間のスペースを初期テキ
ストブロックとして結合する請求項１７記載の文書処理
システム。
【請求項１９】前記初期テキストブロックとその接続
候補の全てとを生成する手段と、前記初期テキストブロックおよび接続候補の全てから単
一要素の初期テキストブロックおよび接続候補を抽出す
る手段と、前記単一要素の初期テキストブロックおよび接続候補の
接続妥当性を言語モデルを用いて判断する手段と、前記接続妥当性が妥当であると判断された時には、前記
単一要素の初期テキストブロックを結合する手段と、を含む請求項１７および１８記載の文書処理システム。
【請求項２０】前記オブジェクト、初期テキストブロ
ックまたはそれらが結合されたテキストブロックとの間
に単一の接続候補のみが存在する時には、言語モデルを
用いた接続妥当性を判断することなくこれらを結合する
請求項１１〜１９の何れか一項に記載の文書処理システ
ム。
【請求項２１】空白文字またはタブその他のスペース
で文字がレイアウトされている文書から意味のあるテキ
ストブロックを抽出するプログラムが記録されたコンピ
ュータ可読な記録媒体であって、前記プログラムは、前記文書から文字、記号、空白文字その他のシンボルで
構成されるオブジェクトを生成し、前記オブジェクト間の接続候補を生成し、前記接続候補の接続の妥当性を言語モデルを用いて評価
し、前記接続候補の接続が妥当であると判断された場合に
は、前記接続候補の接続元および接続先の前記オブジェ
クトを結合する手順をコンピュータに実行させるもので
ある記録媒体。