JPH1115826A

JPH1115826A - 文書解析装置及び方法

Info

Publication number: JPH1115826A
Application number: JP9168882A
Authority: JP
Inventors: Noriko Koyama; 紀子小山; Yukihiro Fukunaga; 幸弘福永
Original assignee: Toshiba Corp; Toshiba AVE Co Ltd
Current assignee: Toshiba Corp; Toshiba AVE Co Ltd
Priority date: 1997-06-25
Filing date: 1997-06-25
Publication date: 1999-01-22

Abstract

(57)【要約】【課題】複数のブロックに分割されてしまった文章を結
合して１文章として正しく解析できるようにする。【解決手段】入力装置１０１により入力されたレイアウ
ト情報付き文書中の各テキストブロック毎に、そのブロ
ックとそのブロックに連続する可能性のある他の各テキ
ストブロックのそれぞれ末尾文と先頭文を結合した文を
レイアウト解析部１０２にて生成して形態素解析部１９
１による形態素解析を行わせる。ブロック再構成部１０
６は、１つのテキストブロックとそのブロックに連続す
る可能性のある他の各テキストブロックのそれぞれ末尾
文と先頭文を結合した文に対する形態素解析の結果得ら
れる各評価値をもとに、そのテキストブロックに連続す
ると判定されるテキストブロックを検出して、該当する
２ブロックを１つのブロックに再構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力されたレイア
ウト情報付き文書に含まれる複数のテキストブロックに
ついてその順序を決定するのに好適な文書解析装置及び
方法に関する。

【０００２】

【従来の技術】文書解析装置の文書解析機能の１つに、
入力されたレイアウト情報付き文書のページ上に含まれ
る複数の文書データブロックについてその順序を決定す
る機能がある。ここで、文書データブロック（以下、単
にブロックと称する）とは、印刷イメージとした場合に
適当な空行（スペース行）等により分割される、文章、
図、表の１区画を指す。

【０００３】従来の文書解析装置では、文書ページ上の
複数ブロックの順序を、単に位置情報からの推測（例え
ば位置的に近いブロックは連続しているといった推測）
で行うのが一般的であった。

【０００４】

【発明が解決しようとする課題】しかしながら、文書ペ
ージ上の各ブロックの順序は必ずしも相互の位置関係だ
けできまるものではない。このため、上記した従来技術
においては、ブロックの配置状況によっては、本来は文
が連続するブロック間であっても連続しない順序とな
り、両ブロック内のテキストデータに対して文書検索や
翻訳などの文書解析を伴う処理を行おうとするとブロッ
ク渡りをする文が解析できない等の問題があった。

【０００５】そこで、本発明は上記の問題を解決するた
めになされたものであり、レイアウト情報付き文書の各
テキストブロック毎に、そのブロックと他の各テキスト
ブロックのそれぞれ末尾文と先頭文を結合した文を形態
素解析し、その文の自然さを評価することにより、最も
自然なブロックの接続順を調査し、ブロック順を再配置
することにより、ブロックが連続したテキストの場合に
は通常の１ブロックのテキストデータとして解析が可能
な文書解析装置及び方法を提供することを目的とする。

【０００６】

【課題を解決するための手段】本発明は、入力されたレ
イアウト情報付き文書を形態素解析して単語単位に分割
する文書解析装置において、入力文字列を最も自然な単
語列に分割し、その単語列がどの程度自然な並びである
かを数値化した評価値により表す形態素解析処理を行う
形態素解析手段と、上記レイアウト情報付き文書中の各
テキストブロック毎に、そのテキストブロックの末尾文
を切り出すと共に、そのテキストブロック以外の全ての
テキストブロックの先頭文を順次切り出し、そのテキス
トブロックと他のテキストブロックとの各２ブロックの
組み合わせ毎に、上記切り出した末尾文及び先頭文を結
合した文字列を生成して当該文字列に対する上記形態素
解析手段による形態素解析処理を行わせるレイアウト解
析手段と、上記レイアウト情報付き文書中の各テキスト
ブロックについて、そのテキストブロックと他のテキス
トブロックとの各２ブロックの組み合わせ毎に上記レイ
アウト解析手段により生成された末尾文及び先頭文を結
合した文字列に対する上記形態素解析手段による形態素
解析処理で得られる各評価値をもとに、そのテキストブ
ロックに連続すると判定されるテキストブロックを検出
して、該当する２ブロックを１つのブロックに再構成す
るブロック再構成手段とを備えたことを特徴とする。

【０００７】このような構成においては、レイアウト情
報付き文書の各テキストブロック毎に、そのブロックと
他の各テキストブロックのそれぞれ末尾文と先頭文を結
合した文が形態素解析され、その単語並びの自然度を調
べることによって、２ブロックにまたがる文であるか否
か、即ち該当する２ブロックが連続しているか否かが判
定されて、連続していると判定できた２ブロックについ
ては１つのブロックに再構成される。これにより、複数
のブロックに分割されてしまった文章を再度結合して１
文章として正しく解析することが可能となる。

【０００８】ここで、レイアウト情報付き文書中の各ブ
ロックについての管理を容易にするために、レイアウト
解析手段により各ブロックに連続する番号（ブロック番
号）を付与し、連続していると判定できた２ブロックに
ついては、ブロック再構成手段により同一ブロック番号
（例えば先行するブロックに付与されていたブロック番
号）を再割り当てする構成とするとよい。また、再構成
された、即ち同一ブロック番号が再割り当てられた複数
ブロックは物理的には分離していることから、個々のブ
ロックを識別するために、それぞれ固有の識別番号、例
えばセグメント番号を割り当てると、管理しやすい。

【０００９】この他、連続するブロックを検出するの
に、レイアウト情報付き文書中の各テキストブロック毎
に他の全てのテキストブロックと組み合わせ、その組み
合わせ毎に末尾文及び先頭文を結合した文字列を生成す
るのに代えて、レイアウト情報付き文書中の各テキスト
ブロック毎に、そのテキストブロックとの位置関係から
連続する可能性のある他の全てのテキストブロックを選
択して、そのテキストブロックと組み合わせ、その組み
合わせ毎に末尾文及び先頭文を結合した文字列を生成す
る構成とすることも可能である。この場合、連続しそう
もない２ブロックについて末尾文及び先頭文を切り出し
て結合し、形態素解析を行う無駄をなくすことができ
る。

【００１０】更に、以上の構成の文書解析装置を用いて
文書検索装置を実現することも可能である。そのために
は、上記ブロック再構成手段による再構成後に各テキス
トブロック毎に、そのテキストブロックから順に１文を
抽出して形態素解析手段による形態素解析処理を行わせ
ることによって単語情報に分解する文書解析手段と、ユ
ーザ指定の検索単語を入力し、当該検索単語を上記文書
解析手段によって分解された単語情報より検索する文書
検索手段と、この文書検索手段により検索された単語を
含むページ、ブロックまたは文のイメージを展開して表
示するイメージ展開手段とを追加すればよい。

【００１１】このような構成においては、複数ブロック
に分割されてしまった文章を再度結合して１文章として
形態素解析した結果の単語列を検索することにより、ブ
ロック間に分割されていた単語も見つけ出すことが可能
となる。また、文書検索手段により検索された単語を含
むページ、ブロックまたは文のイメージを展開して表示
する際には、上記検索された単語を他の単語とは異なる
表示形態で表示（強調表示）することで、検索された単
語をユーザに対して容易に視認可能に提示できる。

【００１２】また、以上の構成の文書解析装置を用いて
文書翻訳装置を実現するならば、１つの文章が複数ブロ
ックに分割されていたとしても、複数ブロックに分割さ
れてしまった文章が再度結合されることから、正しい翻
訳処理が可能となる。

【００１３】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。［第１の実施形態］図１は本発明の文書解析装置の第１
の実施形態を示すブロック構成図である。

【００１４】図１において、入力装置１０１は、印刷イ
メージとして再構成可能な情報付きの、例えば座標情報
付きの、イメージデータあるいは文字コード（文字デー
タ）を含んだ文書データ、即ちレイアウト情報付きの文
書データを入力するもので、例えばＯＣＲ（光学的文字
読取装置）等である。

【００１５】入力装置１０１により入力された文書デー
タはレイアウト解析部１０２で、イメージデータと文字
データに区別された後、その座標から適当なブロックに
分割され、ブロックのデータ種別（イメージまたはテキ
スト）、当該ブロックの座標範囲（ここでは、左上端の
座標と右下端の座標とで示される座標範囲）、及びデー
タの実体（実データ）を格納したバッファへのポインタ
の各情報がレイアウトバッファ１０３に格納される。ま
た、データ種別がテキストの場合は、そのテキストの記
述方向（ここでは、縦書きまたは横書きの区別）を示す
情報も併せて格納される。ここで、上記データの実体
は、データ種別がテキストの場合はテキストバッファ１
０４に、イメージの場合はイメージバッファ１０５にそ
れぞれ格納される。

【００１６】レイアウト解析部１０２は、レイアウトバ
ッファ１０３への上記の情報格納動作を行うと、当該レ
イアウトバッファ１０３の中から連続する可能性のある
テキストブロックの組み合わせを取り出す。例えば、テ
キストブロックＡに続く可能性のあるブロックＢ及びブ
ロックＣの組み合わせＡ−Ｂ及びＡ−Ｃがあるならば、
その組み合わせＡ−Ｂ及びＡ−Ｃを取り出す。ここで、
連続する可能性があるか否かについては、後述するよう
にブロックの座標関係とテキストの方向から判断する。
この他、このテキストの連続判定は、同一ページ上のブ
ロックに限らず、連続するページの末尾ブロックと先頭
ブロックであってもよい。

【００１７】次に、レイアウト解析部１０２は、連続す
る可能性ありと判定したブロックの組み合わせのうちの
先行するブロック（前方ブロック）の末尾となる文と後
続するブロック（後方ブロック）の先頭となる文を各々
のテキストより空白、句点などをキーワードとして切り
出し、結合した上で形態素解析部１９１に送る。

【００１８】すると、形態素解析部１９１はまず、レイ
アウト解析部１０２から送られた文、即ち文字列を文字
列バッファ１９２に格納する。次に形態素解析部１９１
は、文字列バッファ１９２に格納された文字列から単語
となり得る文字の組み合わせを単語辞書１９５を参照し
検索する。この単語辞書１９５は、各種単語について、
その単語の表記、品詞、活用などの情報を登録したもの
である。

【００１９】形態素解析部１９１は、検索した単語につ
いて、その構成文字位置に従って直後接する単語間で文
法的に接続可であるかを接続ルール１９６を参照し調査
する。更に形態素解析部１９１は、接続可能な単語を実
際に接続して文頭から文末までの単語系列を複数作成
し、評価ルール１９７に従って最も自然な単語列となる
１系列を選ぶ。そして形態素解析部１９１は、選んだ単
語系列（単語列）の自然度を示す評価点をレイアウ卜解
析部１０２に返す。

【００２０】レイアウト解析部１０２は、形態素解析部
１９１から返された評価点を各ブロック間の連続可能性
評価値としてブロック再構成部１０６に渡す。ブロック
再構成部１０６では、評価値に従って連続する複数ブロ
ックを同一ブロックとしてグルーピングし、例えばブロ
ックＡ，Ｂ，Ｃが連続であった場合であれば、当該ブロ
ックＡ，Ｂ，Ｃをレイアウトバッファ１０３内でそれぞ
れブロックＡのセグメント１，２，３とする。

【００２１】入力装置１０１から入力された全てのデー
タについてのレイアウト解析が終了すると、文書解析部
１０７はレイアウトバッファ１０３に格納されたテキス
トデータをブロック単位にそれぞれ１文章と判断して順
次解析する。そのため文書解析部１０７は、１文章か
ら、句点、空白等、文の区切りを表す文字コードを抽出
することで、１文ずつ切り出して形態素解析部１９１に
送る。

【００２２】これを受けて形態素解析部１９１は、先の
レイアウト解析時と同様にして入力された文を形態素解
析し、ここでは、評価点の他に系列を構成する各単語の
始点、表記、品詞などの単語情報を文書解析部１０７に
返す。文書解析部１０７は、形態素解析部１９１からの
単語情報を、解析対象とした文が含まれる（レイアウト
バッファ１０３に格納されている）ブロック、セグメン
トのブロック番号、セグメント番号と共に、単語情報バ
ッファ１０８に格納する。最後に文書解析部１０７は、
単語情報バッファ１０８に格納されている情報（解析情
報）を入力データ毎にまとめて出力装置１０９に出力す
る。ここで出力装置１０９は、ＣＲＴディスプレイ、液
晶ディスプレイ等の表示装置である。

【００２３】次に、図１の構成の文書解析装置における
文書解析処理の具体的な手順について、図２のフローチ
ャートを参照して説明する。今、入力装置１０１より、
図４（ａ）に示すようなブロック配置をとるレイアウト
情報付き文書データが、ＯＣＲ読み取り結果のデータと
して入力されたものとする（ステップ２０１）。この図
４（ａ）において破線で示される矩形領域はブロックを
示し、そのブロックに付されている数字はブロック番号
を示す。また、ハッチングが施されたブロック番号のブ
ロックはイメージ（Ｉ）のブロックであり、ハッチング
が施されていないブロック番号のブロックはテキスト
（Ｔ）のブロックであることを示す。ここでは、図４
（ａ）のブロック配置の文書データ（ＯＣＲ読み取り結
果）は、第１ブロック乃至第１４ブロックの１４ブロッ
クからなり、そのうちの第６ブロック、第１０ブロッ
ク、第１２ブロックがイメージ（イメージブロック）
で、残りがテキスト（テキストブロック）である。ま
た、このテキストブロックの方向は、全て横書き（Ｈ）
であり、縦書き（Ｖ）のブロックは存在しないものとす
る。なお、ＯＣＲ読み取り結果のデータ自体にはブロッ
ク番号は存在しない。入力装置１０１により入力された
図４（ａ）のブロック配置の文書データ（ＯＣＲ読み取
り結果）は、出力装置１０９に表示出力される。

【００２４】レイアウト解析部１０２は、入力装置１０
１により図４（ａ）のようなブロック配置のレイアウト
情報付き文書データ（ＯＣＲ読み取り結果）が入力され
ると（ステップ２０１）、そのデータ内容をチェックし
てブロック単位にブロック情報を生成し、レイアウトバ
ッファ１０３に格納する（ステップ２０２）。ここでは
レイアウト解析部１０２は、入力文書データを各ブロッ
ク毎に印刷イメージ化した際のページ番号、座標範囲に
加え、各ブロックに順次割り当てるブロック番号と、テ
キスト（Ｔ）であるかイメージ（Ｉ）であるかのデータ
種別、更にはテキストの場合には縦書き（Ｖ）であるか
横書き（Ｉ）であるかの記述方向を含むブロック情報を
生成する。このブロック情報には他に、データの実体
（実データ）を格納したバッファへのポインタが含まれ
ており、テキストブロックのデータの実体は、当該ブロ
ックのブロック情報中のポインタの指すテキストバッフ
ァ１０４に格納され、イメージブロックのデータの実体
は、当該ブロックのブロック情報中のポインタの指すイ
メージバッファ１０５に格納される。なお、各ブロック
に割り当てられるブロック番号には、全ページの全ブロ
ックに渡って連続する番号が用いられる。

【００２５】図４（ａ）のようなブロック配置のレイア
ウト情報付き文書データ（ＯＣＲ読み取り結果）が入力
された場合のレイアウトバッファ１０３におけるブロッ
ク情報格納例を図４（ｂ）に示す。図４（ｂ）の例のよ
うに、レイアウトバッファ１０３には、、各ブロック単
位で、ページ番号、ブロック番号、セグメント番号、デ
ータ種別（Ｉがイメージ、Ｔがテキスト）、座標範囲
（（Ｘ1 ，Ｙ1 ）−（Ｘ2 ，Ｙ2 ））、テキストブロッ
クの場合の縦書き（Ｖ）横書き（Ｈ）の別、実データが
格納されているバッファへのポインタからなるブロック
情報が格納される。ここでセグメント番号は、連続する
ブロックが検出されて、それらのブロックを１つのブロ
ックに再構成した場合に、個々のブロックをセグメント
として識別するために割り当てられる連続番号である。
但し図４（ｂ）の状態は、連続するブロックの検出が行
われる前の段階であることから、全てのブロックのセグ
メント番号は先頭セグメント（初期値）を示す１とな
る。

【００２６】レイアウト解析部１０２は、レイアウトバ
ッファ１０３にブロック情報を格納すると、ブロック番
号を代入するカウンタＦｎを初期値１に設定し（ステッ
プ２０３）、順にＦｎを進めながらレイアウトバッファ
１０３を参照することで、データ種別がテキストである
ブロックを探す（ステップ２０４）。もし、カウンタＦ
ｎの示すブロック番号のブロック、即ちＦｎブロックが
テキスト（テキストブロック）であった場合、レイアウ
ト解析部１０２は、対応するブロック情報中のポインタ
の指すテキストバッファ１０４に格納されている当該ブ
ロックのテキストデータから、当該ブロックの最後尾の
文（末尾文）を切り出す（ステップ２０５）。このブロ
ック内の最後尾の文は、句点や空白等、文の区切りとな
る文字コードを抽出することで切り出すことができる。

【００２７】次にレイアウト解析部１０２は、Ｆｎブロ
ックに連続する可能性のあるテキストデータのブロック
を探すために用意されるカウンタＲｎを初期値１に設定
する（ステップ２０６）。そしてレイアウト解析部１０
２は、Ｒｎを順次進めながら、Ｆｎブロックに連続する
可能性のあるブロックを探す（ステップ２０７）。ここ
で連続可能性の有無の判定には、カウンタＲｎの示すブ
ロックがテキストで、記述方向がＦｎブロックと同一且
つ記述方向へのブロック幅がほぼ同値であるという判定
条件を適用する。この判定条件には、例えば記述方向が
横書きでＦｎブロックより下方に位置する場合には、間
に他のテキストブロックを挟んではならないなどの条件
も含まれる。

【００２８】レイアウト解析部１０２は、カウンタＲｎ
の示すブロック、即ちＲｎブロックが、Ｆｎブロックに
連続する可能性があると判定した場合、先にＦｎブロッ
クの末尾文を取り出したのと同様にしてＲｎブロックの
先頭文を切り出す（ステップ２０８）。そしてレイアウ
ト解析部１０２は、先に切り出したＦｎブロックの末尾
文と今回切り出したＲｎブロックの先頭文を結合して形
態素解析部１９１に送る（ステップ２０９）。

【００２９】形態素解析部１９１は、レイアウト解析部
１０２から送られた文を形態素に分割して、その文の自
然度を示す評価値を取得する形態素解析処理を行い、取
得した評価値を当該レイアウト解析部１０２に返す（ス
テップ２１０）。

【００３０】ここで、上記した形態素解析部１９１によ
る形態素解析処理（ステップ２１０）の詳細を、図３の
フローチャートを参照して説明する。まず形態素解析部
１９１は、レイアウト解析部１０２から送られた文（を
構成する文字列）を入力して文字列バッファ１９２に格
納する（ステップ３０１）。次に形態素解析部１９１
は、文字列バッファ１９２に格納されている入力文字列
の各文字を始点とし文字列末尾方向に表記が入力と一致
する単語を、各種単語について、その単語の表記、品
詞、活用などの情報を登録した単語辞書１９５より検索
する（ステップ３０２）。そして形態素解析部１９１
は、この検索処理で得られた全ての単語について、各単
語単位で、始点（その単語の先頭文字の入力文字列にお
ける文字位置）、表記、品詞、活用、文字数の単語情報
を単語バッファ１９３に格納する（ステップ３０３）。
ここで、単語バッファ１９３に格納される単語（の単語
情報）には、例えば格納順に連続する単語番号が割り当
てられる。また、単語バッファ１９３には、上記した始
点、表記、品詞、活用、文字数を格納するための項目の
他に、対応する単語に接続可能な単語を格納するための
項目（接続可能単語項目）が用意されている。

【００３１】次に形態素解析部１９１は、上記検索処理
で得られた単語バッファ１９３内の単語の１つを取り出
し、その単語（単語Ａと呼ぶ）が、当該単語Ａにつなが
る（単語バッファ１９３内の）次の単語、即ち単語Ａの
始点＋文字数で示される文字位置を始点とする単語（単
語Ｂと呼ぶ）と文法的に接続可能であるか否かを、両単
語Ａ，Ｂの品詞及び活用と接続ルール１９６を参照して
調査し、接続可能であるならば、単語Ａが格納されてい
る単語バッファ１９３の接続可能単語項目に単語Ｂの単
語番号を格納する（ステップ３０４）。ここでの接続ル
ール１９６は、各品詞または活用について、その品詞ま
たは活用がどの品詞または活用に接続可能かを記述した
ファイルである。

【００３２】次に形態素解析部１９１は、文頭から始ま
る単語を順に単語バッファ１９３に格納されている接続
可能単語に従って再帰的に接続し、文末に達したところ
で完成した単語系列を系列バッファ１９４に格納する
（ステップ３０５，３０６）。このようにして、全ての
文頭から始まる単語に対して文末までの単語系列が系列
バッファ１９４内に完成すると、形態素解析部１９１
は、系列バッファ１９４内の各単語系列が日本語として
自然であるか否かを評価ルール１９７に従って調査し、
その自然度を数値で表した評価値を当該系列に対応付け
て系列バッファ１９４に格納する（ステップ３０７）。
最後に形態素解析部１９１は、最も評価値の高かった単
語系列の単語情報及び評価値からなる形態素解析結果を
レイアウト解析部１０２に出力する（ステップ３０
８）。

【００３３】以上が、形態素解析部１９１によるステッ
プ２１０の形態素解析処理の詳細である。さて、形態素
解析部１９１によるステップ２１０の形態素解析処理が
終了し、Ｆｎブロックの末尾文とＲｎブロックの先頭文
を結合した文に対する（当該文の自然度の）評価値を含
む形態素解析結果がレイアウト解析部１０２に出力され
ると、レイアウト解析部１０２は以下の処理を行う。

【００３４】まずレイアウト解析部１０２は、Ｆｎブロ
ック（つまり前方ブロック）の末尾文とＲｎブロック
（つまり後方ブロック）の先頭文を結合した文に対する
評価値を、その両ブロックのブロック番号と共にブロッ
ク再構成部１０６に渡し、そのブロック番号対と評価値
の組からなる結合評価情報を結合評価バッファ１１１に
格納させる（ステップ２１１）。

【００３５】図５に結合評価バッファ１１１における結
合評価情報格納例を示す。この図５では、ブロック番号
が７のブロック（第７ブロック）に連続する可能性のあ
るブロック番号が８のブロック（第８ブロック）とブロ
ック番号が９のブロック（第第９ブロック）での結合評
価の結果が格納されている例が示されている。

【００３６】レイアウト解析部１０２は、結合評価バッ
ファ１１１に結合評価情報が格納されると、カウンタＲ
ｎを進め（ステップ２１２）、Ｆｎブロックからの連続
可能性について調査する（ステップ２０７〜２１３）。
なお、図２のフローチャートでは、Ｒｎ＝Ｆｎの場合、
即ち同一ブロック同士の場合には、ＲｎブロックはＦｎ
ブロックに連続する可能性がないものとして、そのまま
カウンタＲｎが進められる（ステップ２０７，２１
２）。

【００３７】やがて、現在のＦｎブロックとの結合評価
を全てのブロックについて終了すると、レイアウト解析
部１０２はブロック再構成部１０６を起動する。すると
ブロック再構成部１０６は、結合評価バッファ１１１の
評価値を参照し、Ｆｎブロックに連続するブロックが特
定できる場合には、そのブロックをＦｎブロックの連続
セグメントとして再配置し、レイアウトバッファ１０３
のデータを書き直すブロック再構成処理を行う（ステッ
プ２１４）。

【００３８】このブロック再構成処理の具体例を図６を
参照して説明する。まず、図６（ａ）に、図４（ａ）に
示したブロック配置のレイアウト情報付き文書データを
入力した場合のブロック再構成前のレイアウトバッファ
１０３の（一部の）内容例を示す。また、図６（ｂ）に
は第７ブロック（から切り出された当該ブロック）の末
尾文を示し、図６（ｃ）、図６（ｄ）にはそれぞれ第８
ブロック、第９ブロック（から切り出された当該ブロッ
ク）の先頭文を示す。

【００３９】ここでは、第７ブロックに連続する可能性
があるブロックは、第８ブロックと第９ブロックの両者
であるとすると、（ｂ）＋（ｃ）及び（ｂ）＋（ｄ）な
る文を作成して、それぞれ形態素解析を行うと、評価値
は図５に示した値となる。この評価値から、ブロック再
構成部１０６は第７ブロックと第９ブロックが連続する
と判断し、レイアウトバッファ１０３の第９ブロックの
部分を、図６（ｅ）に示すように、第７ブロックの第２
セグメントとして再構成する。

【００４０】レイアウト解析部１０２は、Ｆｎを進めな
がらすべてのテキストブロック間の連続性について調査
し、ブロック再構成部１０６によるブロック再構成を行
わせる（ステップ２０４〜２１６）。

【００４１】このようにしてブロック再構成が完了する
と、レイアウト解析部１０２から文書解析部１０７に制
御が渡される。すると文書解析部１０７は１文ずつを形
態素解析する。具体的には、まず文書解析部１０７は、
レイアウトバッファ１０３（に格納されているブロック
情報）のブロック番号をカウントするためのカウンタＢ
ｎを初期値１に設定する（ステップ２１７）。もし、カ
ウンタＢｎの示すブロック番号のブロック、即ちＢｎブ
ロックがテキストデータである場合には（ステップ２１
８）、文書解析部１０７はブロック内の文番号を知るた
めのカウンタＴｎを初期値１に設定し（ステップ２１
９）、ＢｎブロックのＴｎ番目の文を切り出す（ステッ
プ２２０）。ここで、Ｂｎブロックが先のブロック再構
成で同一ブロックに再構成されたものであるならば、そ
の際に付与されたセグメント番号には関係なくテキスト
データは連続であると見なされ、複数のセグメント間に
渡る文が切り出されることもある。

【００４２】文書解析部１０７により切り出された文は
形態素解析部１９１に送られて、当該形態素解析部１９
１の形態素解析により単語単位に分割される（ステップ
２２１）。形態素解析部１９１は、分割した各単語の情
報（即ち形態素情報）として、ブロック番号Ｂｎ、セグ
メント番号、（ブロック内の）文番号Ｔｎ、単語始点
（文字位置）、表記、品詞を含む情報を取得し、単語情
報バッファ１０８に順次格納する（ステップ２２２）。
この単語情報バッファ１０８における単語情報格納例を
図７に示す。図１の文書解析装置を例えば文書検索装置
に適用した場合には、オペレータ（ユーザ）の指示した
単語を単語情報バッファ１０８上で検索することにより
当該単語が含まれるブロック、セグメント、ブロック内
の文番号等が判明するため、出力装置１０９による表示
出力が可能となる。

【００４３】文書解析部１０７は、全てのテキストブロ
ックの文に対して単語の抽出処理を行うためカウンタＴ
ｎ及びＢｎを進めながら以上の処理を繰り返す（ステッ
プ２１８〜２２６）。［第２の実施形態］図８は本発明の文書解析装置の第２
の実施形態を示すブロック構成図であり、図１と同一部
分には同一符号を付して説明を省略する。

【００４４】図８の文書解析装置の特徴は、文書検索装
置を実現するために文書検索機能が付加されて、文書検
索装置をなしていることである。具体的には、図８の文
書解析装置（即ち文書検索装置）は、オペレータの指示
した単語を単語情報バッファ１０８から検索し、その検
索結果をもとにレイアウトバッファ１０３を参照するこ
とで、その単語が含まれるページ番号を取得する文書検
索部８０１と、取得したページ番号のページの印刷イメ
ージを展開するイメージ展開部８０２とが、図１の構成
の文書解析装置に付加されたものである。

【００４５】図８の構成では、入力装置１０１から入力
されたレイアウト情報付きの文書データ（中のテキスト
ブロック）が文書解析部１０７において単語単位に分割
された後、オペレータが検索のキーとなる単語を図示せ
ぬ入力手段から指示入力すると、文書解析部１０７から
文書検索部８０１に制御が渡される。

【００４６】すると文書検索部８０１は、オペレータの
指示した単語を単語情報バッファ１０８から検索し、当
該単語を含むブロックのブロック番号及びセグメント番
号を得る。次に文書検索部８０１は、両番号によりレイ
アウトバッファ１０３を調査することにより、両番号と
組をなして格納されているページ番号、即ちオペレータ
の指示した単語を含むページのページ番号を取得する。

【００４７】イメージ展開部８０２は、文書検索部８０
１が取得したページ番号のページのイメージ、テキスト
をそれぞれ印刷イメージとしてビットマップ状に展開す
る。このイメージ展開部８０２で展開された該当ページ
の印刷イメージデータは出力装置１０９上に検索結果と
して表示される。ここで、イメージ展開部８０２にて検
索単語を含むページの印刷イメージを展開する際には、
当該単語に高輝度あるいは下線などの文字属性（表示属
性）を与えるものとする。このようにすると、出力装置
１０９の表示画面上では、検索単語が高輝度あるいは下
線付きなど、他の単語とは異なる表示形態で強調表示さ
れるため、オペレータは自身が指示した検索単語を含む
ページが表示されていることを簡単に視認できる。な
お、オペレータにより、ページ出力モード、ブロック出
力モードなど、出力モードが選択設定可能な構成とし、
ページ出力モードが選択設定された場合には、上記した
ように検索単語が含まれるページを出力し、ブロック出
力モードが選択設定された場合には、検索単語を含むテ
キストブロックをレイアウトバッファ１０３より収集し
て出力するようにしてもよい。

【００４８】次に、図８の文書解析装置（文書検索装
置）の動作を、図１の文書解析装置と異なる部分を中心
に、図９のフローチャートを参照して説明する。まず、
図８の文書解析装置では、図２中のステップ２０１〜２
２６に相当するステップ９０１〜９２６により、前記第
１の実施形態で詳述したような入力文書データの解析処
理が行われて、当該文書データ（中のテキストブロッ
ク）が単語単位に分割され、対応する単語情報が全て単
語情報バッファ１０８に格納される。なお、図９のフロ
ーチャートでは、ステップ９０１（データ入力ステッ
プ）とステップ９２６（文書解析ループの終了判定ステ
ップ）の間のステップ９０２〜９２５については省略し
てあるため、必要があれば、図２中のステップ１０１〜
１２５を参照されたい。

【００４９】さて、入力文書データの文書解析が終了
し、単語情報バッファ１０８への格納が終了すると、オ
ペレータは検索したい単語を入力する（ステップ９２
７）。ここでは、検索単語の入力に代えて、検索終了を
指示入力することも可能であり、その際には処理終了と
なるが、本実施形態のように検索単語指定がされた場合
には、文書解析部１０７から文書検索部８０１に制御が
渡される。

【００５０】文書検索部８０１はまず、単語情報バッフ
ァ１０８内の単語情報（の格納位置を指し示して当該単
語情報）を検索するためのカウンタＷｎを初期値１に設
定する（ステップ９２８，９２９）。次に文書検索部８
０１は、単語情報バッファ１０８内のＷｎ番目の単語情
報（以下、単語情報Ｗｎと呼ぶ）の示す単語と検索単語
が一致するか否かを調査する（ステップ９３０）。も
し、一致する場合には、文書検索部８０１は単語情報Ｗ
ｎからブロック番号、セグメント番号を取得し、そのブ
ロック番号、セグメント番号からレイアウトバッファ１
０３を参照することで、そのブロック番号、セグメント
番号のブロック、セグメントを持つページのページ番号
Ｐｎを得る（ステップ９３１）。

【００５１】イメージ展開部８０２は、レイアウトバッ
ファ１０３からページ番号Ｐｎのページに属するテキス
ト、イメージの各ブロックの座標データと、そのブロッ
クのデータが格納されているテキストバッファ１０４、
イメージバッファ１０５へのポインタとを取得すること
で、そのブロックの印刷イメージをビットマップ状に展
開する（ステップ９３２）。この際、イメージ展開部８
０２は、検索単語（に一致する単語）については、高輝
度表示あるいは下線付き表示（といった強調表示）とな
るような属性を付加する。イメージ展開部８０２により
作成された検索単語を含むページの印刷イメージは出力
装置１０９上に表示される（ステップ９３３）。

【００５２】この状態で、オペレータにより検索単語を
含む次のページの表示が指示された場合には（ステップ
９３４）、文書検索部８０１は単語情報バッファ１０８
内をカウンタＷｎを進めながら順次検索し、見つかった
場合には該当ページの表示を終了指示があるまで行う
（ステップ９２７〜９３６）。

【００５３】以上に述べた第１及び第２の実施形態で適
用した文書検索装置における処理手順は、プログラム読
み取り可能なパーソナルコンピュータ等のコンピュータ
に、当該処理手順を実行させるためのプログラムを記録
したＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フロッピーディス
ク、メモリカード等の記録媒体に記録されているプログ
ラムを当該コンピュータで読み取り実行させることによ
り実現される。なお、プログラムを記録した記録媒体の
内容が、通信回線等を介してコンピュータにダウンロー
ドされるものであっても構わない。

【００５４】また、以上に述べた第１及び第２の実施形
態では、入力データはＯＣＲの認識結果のように各テキ
ストブロックの範囲が座標情報として得られるレイアウ
ト情報付き文書に対するブロック順の再構成を行う場合
について説明したが、各ブロックの位置関係が推定でき
る形式、例えばＨＴＭＬ（Hyper Text Markup Languag
e）形式の文書などでも、レイアウト情報付き文書とし
て適用可能である。このＨＴＭＬ文書に適用した場合、
その文書内のブロックを再構成することによって改ペー
ジや改段、あるいはイメージデータの挿入により文書が
分割されたテキストを再構成し、通常のテキストとして
文書解析を行うことが可能となる。

【００５５】また、前記第２の実施形態では、前記第１
の実施形態における文書解析装置に文書検索機能を付加
して文書検索装置を実現する場合について説明したが、
文書検索機能に代えて翻訳機能を付加することで、文書
翻訳装置を実現することも可能である。この文書翻訳装
置では、１つの文章が複数ブロックに分割されていたと
しても、複数ブロックに分割されてしまった文章を再度
結合することができることから、正しい翻訳処理が可能
となる。

【００５６】

【発明の効果】以上詳述したように本発明によれば、レ
イアウト情報付き文書の各テキストブロック毎に、その
ブロックと他の各テキストブロックのそれぞれ末尾文と
先頭文を結合した文を形態素解析し、その文の自然さを
評価することにより、最も自然なブロックの接続順を調
査し、ブロック順を再配置することにより、ブロックが
連続したテキストの場合には通常の１ブロックのテキス
トデータとして解析することができる。

【００５７】したがって、このような文書解析機能を文
書検索装置に持たせた場合には、複数のブロックに分割
されてしまった文章を再度結合して１文章として解析し
た結果の単語列を対象に検索することで、ブロック間に
分割されていた単語も正しく見つけ出すことができる。

【図面の簡単な説明】

【図１】本発明の文書解析装置の第１の実施形態を示す
ブロック構成図。

【図２】図１の構成の文書解析装置の動作を説明するた
めのフローチャート。

【図３】図２中の形態素解析処理（ステップ２１０）の
詳細な手順を示すフローチャート。

【図４】ＯＣＲ読み取り結果としてのレイアウト情報付
き文書データの示すブロック配置例と、当該文書データ
のレイアウトバッファ１０３におけるデータ格納例を示
す図。

【図５】図１中の結合評価バッファ１１１における結合
評価情報格納例を示す図。

【図６】図４に示したレイアウト情報付き文書データを
入力した場合のブロック再構成前後のレイアウトバッフ
ァ１０３の内容例を、先行するブロックの末尾文と、当
該ブロックに連続する可能性のある２つのブロックの先
頭文と共に示す図。

【図７】図１中の単語情報バッファ１０８における単語
情報格納例を示す図。

【図８】本発明の文書解析装置の第２の実施形態を示す
ブロック構成図。

【図９】図８の構成の文書検索装置の動作を、図１の文
書検索装置と異なる部分を中心に説明するためのフロー
チャート。

【符号の説明】

１０１…入力装置１０２…レイアウト解析部１０３…レイアウトバッファ１０６…ブロック再構成部１０７…文書解析部１０８…単語情報バッファ１０９…出力装置１１１…結合評価バッファ１９１…形態素解析部８０１…文書検索部８０２…イメージ展開部

Claims

【特許請求の範囲】

【請求項１】入力されたレイアウト情報付き文書を形
態素解析して単語単位に分割する文書解析装置におい
て、入力された文字列を最も自然な単語列に分割し、その単
語列がどの程度自然な並びであるかを数値化した評価値
により表す形態素解析処理を行う形態素解析手段と、前記レイアウト情報付き文書中の各テキストブロック毎
に、そのテキストブロックの末尾文を切り出すと共に、
そのテキストブロック以外の全てのテキストブロックの
先頭文を順次切り出し、そのテキストブロックと他のテ
キストブロックとの各２ブロックの組み合わせ毎に、前
記切り出した末尾文及び先頭文を結合した文字列を生成
して当該文字列に対する前記形態素解析手段による形態
素解析処理を行わせるレイアウト解析手段と、前記レイアウト情報付き文書中の各テキストブロックに
ついて、そのテキストブロックと他のテキストブロック
との各２ブロックの組み合わせ毎に前記レイアウト解析
手段により生成された前記末尾文及び先頭文を結合した
文字列に対する前記形態素解析手段による前記形態素解
析処理で得られる各評価値をもとに、そのテキストブロ
ックに連続すると判定されるテキストブロックを検出し
て、該当する２ブロックを１つのブロックに再構成する
ブロック再構成手段とを具備することを特徴とする文書
解析装置。
【請求項２】入力されたレイアウト情報付き文書を形
態素解析して単語単位に分割する文書解析装置におい
て、入力された文字列を最も自然な単語列に分割し、その単
語列がどの程度自然な並びであるかを数値化した評価値
により表す形態素解析処理を行う形態素解析手段と、前記レイアウト情報付き文書中の各テキストブロック毎
に、そのテキストブロックの末尾文を切り出すと共に、
そのテキストブロックとの位置関係から当該ブロックに
連続する可能性のある他の全てのテキストブロックの先
頭文を順次切り出し、そのテキストブロックと他のテキ
ストブロックとの各２ブロックの組み合わせ毎に、前記
切り出した末尾文及び先頭文を結合した文字列を生成し
て当該文字列に対する前記形態素解析手段による形態素
解析処理を行わせるレイアウト解析手段と、前記レイアウト情報付き文書中の各テキストブロックに
ついて、そのテキストブロックと当該ブロックに連続す
る可能性のある他のテキストブロックとの各２ブロック
の組み合わせ毎に前記レイアウト解析手段により生成さ
れた前記末尾文及び先頭文を結合した文字列に対する前
記形態素解析手段による前記形態素解析処理で得られる
各評価値をもとに、そのテキストブロックに連続すると
判定されるテキストブロックを検出して、該当する２ブ
ロックを１つのブロックに再構成するブロック再構成手
段とを具備することを特徴とする文書解析装置。
【請求項３】入力されたレイアウト情報付き文書を形
態素解析して単語単位に分割し、得られた単語の中から
ユーザ指定の単語を検索する文書検索装置において、入力された文字列を最も自然な単語列に分割し、その単
語列がどの程度自然な並びであるかを数値化した評価値
により表す形態素解析処理を行う形態素解析手段と、前記レイアウト情報付き文書中の各テキストブロック毎
に、そのテキストブロックの末尾文を切り出すと共に、
そのテキストブロック以外の全てのテキストブロックの
先頭文を順次切り出し、そのテキストブロックと他のテ
キストブロックとの各２ブロックの組み合わせ毎に、前
記切り出した末尾文及び先頭文を結合した文字列を生成
して当該文字列に対する前記形態素解析手段による形態
素解析処理を行わせるレイアウト解析手段と、前記レイアウト情報付き文書中の各テキストブロックに
ついて、そのテキストブロックと他のテキストブロック
との各２ブロックの組み合わせ毎に前記レイアウト解析
手段により生成された前記末尾文及び先頭文を結合した
文字列に対する前記形態素解析手段による前記形態素解
析処理で得られる各評価値をもとに、そのテキストブロ
ックに連続すると判定されるテキストブロックを検出し
て、該当する２ブロックを１つのブロックに再構成する
ブロック再構成手段と、前記ブロック再構成手段による再構成後に前記各テキス
トブロック毎に、そのテキストブロックから順に１文を
抽出して前記形態素解析手段による形態素解析処理を行
わせることによって単語情報に分解する文書解析手段
と、ユーザ指定の検索単語を入力し、当該検索単語を前記文
書解析手段によって分解された単語情報より検索する文
書検索手段と、前記文書検索手段により検索された単語を含むページ、
ブロックまたは文のイメージを展開して表示するイメー
ジ展開手段とを具備することを特徴とする文書検索装
置。
【請求項４】入力されたレイアウト情報付き文書を形
態素解析して単語単位に分割し、得られた単語の中から
ユーザ指定の単語を検索する文書検索装置において、入力された文字列を最も自然な単語列に分割し、その単
語列がどの程度自然な並びであるかを数値化した評価値
により表す形態素解析処理を行う形態素解析手段と、前記レイアウト情報付き文書中の各テキストブロック毎
に、そのテキストブロックの末尾文を切り出すと共に、
そのテキストブロックとの位置関係から当該ブロックに
連続する可能性のある他の全てのテキストブロックの先
頭文を順次切り出し、そのテキストブロックと他のテキ
ストブロックとの各２ブロックの組み合わせ毎に、前記
切り出した末尾文及び先頭文を結合した文字列を生成し
て当該文字列に対する前記形態素解析手段による形態素
解析処理を行わせるレイアウト解析手段と、前記レイアウト情報付き文書中の各テキストブロックに
ついて、そのテキストブロックと当該ブロックに連続す
る可能性のある他のテキストブロックとの各２ブロック
の組み合わせ毎に前記レイアウト解析手段により生成さ
れた前記末尾文及び先頭文を結合した文字列に対する前
記形態素解析手段による前記形態素解析処理で得られる
各評価値をもとに、そのテキストブロックに連続すると
判定されるテキストブロックを検出して、該当する２ブ
ロックを１つのブロックに再構成するブロック再構成手
段と、前記ブロック再構成手段による再構成後に前記各テキス
トブロック毎に、そのテキストブロックから順に１文を
抽出して前記形態素解析手段による形態素解析処理を行
わせることによって単語情報に分解する文書解析手段
と、ユーザ指定の検索単語を入力し、当該検索単語を前記文
書解析手段によって分解された単語情報より検索する文
書検索手段と、ユーザ指定の検索単語を入力し、当該検索単語を前記文
書解析手段によって分解された単語情報より検索する文
書検索手段と、前記文書検索手段により検索された単語を含むページ、
ブロックまたは文のイメージを展開して表示するイメー
ジ展開手段とを具備することを特徴とする文書検索装
置。
【請求項５】入力されたレイアウト情報付き文書を形
態素解析して単語単位に分割する文書解析方法におい
て、前記レイアウト情報付き文書からテキストブロックを１
ブロックずつ順次選択し、このテキストブロックを選択
する都度、そのテキストブロックの末尾文を切り出すと
共に、そのテキストブロックとの位置関係から当該ブロ
ックに連続する可能性のある他の全てのテキストブロッ
クの先頭文を順次切り出し、そのテキストブロックと他
のテキストブロックとの各２ブロックの組み合わせ毎
に、前記切り出した末尾文及び先頭文を結合した文字列
を生成するステップと、前記末尾文及び先頭文が結合された文字列を最も自然な
単語列に分割し、その単語列がどの程度自然な並びであ
るかを数値化した評価値により表す形態素解析処理を行
うステップと、前記レイアウト情報付き文書中の各テキストブロックに
ついて、そのテキストブロックと他のテキストブロック
との各２ブロックの組み合わせ毎に生成された前記末尾
文及び先頭文を結合した文字列に対する前記形態素解析
処理で得られる各評価値をもとに、そのテキストブロッ
クに連続すると判定されるテキストブロックを検出し
て、該当する２ブロックを１つのブロックに再構成する
ステップとを具備することを特徴とする文書解析方法。
【請求項６】入力されたレイアウト情報付き文書を形
態素解析して単語単位に分割し、得られた単語の中から
ユーザ指定の単語を検索する文書検索方法において、前記レイアウト情報付き文書からテキストブロックを１
ブロックずつ順次選択し、このテキストブロックを選択
する都度、そのテキストブロックの末尾文を切り出すと
共に、そのテキストブロックとの位置関係から当該ブロ
ックに連続する可能性のある他の全てのテキストブロッ
クの先頭文を順次切り出し、そのテキストブロックと他
のテキストブロックとの各２ブロックの組み合わせ毎
に、前記切り出した末尾文及び先頭文を結合した文字列
を生成するステップと、前記末尾文及び先頭文が結合された文字列を最も自然な
単語列に分割し、その単語列がどの程度自然な並びであ
るかを数値化した評価値により表す形態素解析処理を行
うステップと、前記レイアウト情報付き文書中の各テキストブロックに
ついて、そのテキストブロックと他のテキストブロック
との各２ブロックの組み合わせ毎に生成された前記末尾
文及び先頭文を結合した文字列に対する前記形態素解析
処理で得られる各評価値をもとに、そのテキストブロッ
クに連続すると判定されるテキストブロックを検出し
て、該当する２ブロックを１つのブロックに再構成する
ステップと、前記ブロック再構成後に、前記各テキストブロック毎
に、そのテキストブロックから順に１文を抽出して前記
形態素解析処理を行うことで単語情報に分解するステッ
プと、ユーザ指定の検索単語を入力し、当該検索単語を前記形
態素解析処理により分解された単語情報より検索するス
テップと、前記検索した単語を含むページ、ブロックまたは文のイ
メージを展開して表示するステップとを具備することを
特徴とする文書検索方法。
【請求項７】入力されたレイアウト情報付き文書から
テキストブロックを１ブロックずつ順次選択し、このテ
キストブロックを選択する都度、そのテキストブロック
の末尾文を切り出すと共に、そのテキストブロックとの
位置関係から当該ブロックに連続する可能性のある他の
全てのテキストブロックの先頭文を順次切り出し、その
テキストブロックと他のテキストブロックとの各２ブロ
ックの組み合わせ毎に、前記切り出した末尾文及び先頭
文を結合した文字列を生成するステップと、前記末尾文及び先頭文が結合された文字列を最も自然な
単語列に分割し、その単語列がどの程度自然な並びであ
るかを数値化した評価値により表す形態素解析処理を行
うステップと、前記レイアウト情報付き文書中の各テキストブロックに
ついて、そのテキストブロックと他のテキストブロック
との各２ブロックの組み合わせ毎に生成された前記末尾
文及び先頭文を結合した文字列に対する前記形態素解析
処理で得られる各評価値をもとに、そのテキストブロッ
クに連続すると判定されるテキストブロックを検出し
て、該当する２ブロックを１つのブロックに再構成する
ステップとを前記コンピュータに実行させるプログラム
を記録したコンピュータ読取り可能な記録媒体。