JP4108948B2

JP4108948B2 - 複数の文書を閲覧するための装置および方法

Info

Publication number: JP4108948B2
Application number: JP2001265996A
Authority: JP
Inventors: 由雄仲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-09-25
Filing date: 2001-09-03
Publication date: 2008-06-25
Anticipated expiration: 2021-09-03
Also published as: JP2002169803A

Description

【０００１】
【発明の属する技術分野】
本発明は、機械可読文書をコンピュータの画面上で閲覧するための装置およびその方法に関し、特に、複数文書の内容を対比して閲覧可能な形で提示することで、関連文書の比較閲覧作業を支援することを意図したものである。
【０００２】
【従来の技術】
利用者が複数の関連文書を比較しながら閲覧する場合、それらの文書の関連箇所をわかりやすく提示する技術があれば、比較作業の効率が向上する。例えば、ある調査項目について複数の地域の実情を調査レポートにまとめるために、各地域の調査担当者から寄せられた調査レポートを読む場合、あるいは、質問状と回答書を読み比べる場合等に、関連箇所の比較を支援する技術が要望される。このような複数文書の比較支援に関する文献として、例えば、以下の７つが挙げられる。
［１］Christine M. Neuwirth and David S. Kaufer. The role of external representations in the writing process: Implications for the design of hypertext-based writing tools. In Proc. of Hypertext '89, pp.319-341. the Association for Computing Machinery, Nov. 1989.
［２］大森信行(Nobuyuki Omori), 岡村潤(Jun Okamura), 森辰則(Tatsunori Mori), 中川裕志(Hiroshi Nakagawa). ｔｆ・ｉｄｆ法を用いた関連マニュアル群のハイパーテキスト化. 情報処理学会研究報告FI-47-8/NL-121-16, 情報処理学会, Sep. 1997.
［３］Gerard Salton, Amit Singhal, Chris Buckley, and Mandar Mitra. Automatic text decomposition using text segments and text themes. In Proc. of Hypertext '96, pp. 53-65. the Association for Computing Machinery, Mar. 1996.
［４］Inderjeet Mani and Eric Bloedorn. Summarizing similarities and differences among related document. chapter 23, pp. 357-379. The MIT Press, London, 1999. (reprint of Information Processing and Management, Vol. 1, No. 1, pp. 1-23, 1999).
［５］特開平７−３２５８２７
［６］特開２０００−５７１５２（Ｐ２０００−５７１５２Ａ）
［７］特開平１１−３９３３４
このうち、文献［１］では、関連論文に見られる一致点・相違点を、著者と命題(proposition)との２つの観点で一覧表の形にまとめた、“Synthesis Grid ”というインタフェース（画面）が提案されている。
【０００３】
また、文書の関連箇所を抽出する従来の技術として、同一語彙の出現を手掛かりに、関連文書中の関連箇所にハイパーリンクを設定する技術が知られている。例えば、文献［２］では、文書中の一節に相当する「セグメント」を単位に文書を分割し、語彙的類似度の高いセグメント間にハイパーリンクを設定する技術が示されている。また、文献［５］や文献［６］では、関連文書中の同一キーワードの出現箇所にハイパーリンクを設定する技術等が示されている。
【０００４】
その他、関連箇所の検出に関する技術として、文献［３］では、語彙的類似性の高い段落群を検出することで、単一文書中の関連箇所を抽出する技術が示されている。また、文献［４］では、文書中の語彙の連鎖等に基づく活性伝搬ネットワークを用いて、共通の関連語群を含む文等を検出する技術が示されている。
【０００５】
また、関連文書の一致点・相違点を出力する技術としては、文献［７］に、複数の関連記事に対して、共通の内容とそれ以外の内容を区別して出力する技術が示されている。例えば、複数の入力記事のうち、１つを主記事としてその全体を表示し、残りの記事については、独自情報（共通情報以外の情報）のみを補足情報として表示する方法が示されており、また、主記事として全体を表示した記事に関しては、共通情報を強調表示（網かけして表示）する方法等も示されている。
【０００６】
【発明が解決しようとする課題】
しかしながら、上述した従来の技術には、以下の２つの問題がある。
第１の問題は、関連箇所を認定する単位が固定的であるため、粒度の異なる話題に対して、適切な関連箇所を検出することが難しいということである。つまり、上述の従来技術では、節・段落・文（または語の出現位置そのもの）のいずれか１つに比較の単位を固定しているため、基本的に検出できるのは、節対節、段落対段落等、比較の単位の大きさの箇所同士に限られることになる。
【０００７】
このため、例えば、第１の閲覧文書中で２段落からなる箇所が、ひとつのまとまりとして、第２の閲覧文書中の数段落以上の大きさの箇所と関連している場合等には、関連箇所を対比できる形で適切に切り出すことが難しい。それを実現するためには、関連箇所として検出された箇所を併合する等、何らかの別の手段を講じることが必要になる。
【０００８】
第２の問題点は、ある話題に関する関連箇所と、別の話題に関する関連箇所あるいは元の文書全体との関係を十分に表現できないことである。例えば、長めで話題が複雑に込み入った文書同士を比較すると、複数の話題に関する関連箇所が、互いに絡み合って見い出されることがある。
【０００９】
このような場合、個々の話題についてそれぞれの文書から抽出した関連箇所を相互に比較するだけでなく、文書間に共通する複数の話題の相互関係や、各関連箇所が出現する文脈等も考慮して、子細に吟味する必要が生ずる。このとき、複数の関連箇所を一覧でき、各関連箇所の周辺部も容易に参照できることが望ましいが、上述の従来技術ではこのような機能は実現されていない。
【００１０】
本発明の第１の課題は、それぞれの文書毎に粒度の異なる話題に対しても適切な関連箇所を切り出して提示する文書閲覧装置およびその方法を提供することである。また、本発明の第２の課題は、複数の話題に関する関連箇所を、比較・分析しやすい形態で提示する文書閲覧装置およびその方法を提供することである。
【００１１】
【課題を解決するための手段】
図１は、本発明の文書閲覧装置の原理図である。図１の文書閲覧装置は、話題階層認定手段１、関連話題抽出手段２、および関連箇所提示手段３を備え、閲覧対象として指定された複数の文書を利用者に提示して、それらの文書の比較作業を支援する。
【００１２】
話題階層認定手段１は、複数の閲覧対象文書のそれぞれの話題階層を認定する。ここで、話題階層とは、文書を構成する複数の話題のまとまりが２段以上の階層構造を成していることを意味する。この階層構造は、例えば、文書を構成する複数の大きな話題のまとまりの各々が、１つ以上のより小さな話題のまとまりを含み、小さな話題のまとまりの各々が、１つ以上のさらに小さな話題のまとまりを含むというような話題の包含関係に対応する。
【００１３】
関連話題抽出手段２は、認定された話題階層に基づき、複数の閲覧対象文書に共通して現れる関連話題を抽出する。このとき、複数の文書にそれぞれ対応する複数の話題階層を比較し、関連性の強い話題の組み合わせを抽出し、複数の文書にまたがる関連話題として出力する。例えば、文書Ｄ１と文書Ｄ２から、第１の話題階層と第２の話題階層が得られた場合、第１の話題階層中の様々な粒度の話題それぞれを、第２の話題階層中の様々な粒度の話題それぞれと比較し、関連性の強い話題の対を抽出し、それらを関連話題として出力する。
【００１４】
関連話題提示手段３は、抽出された関連話題に対応する記述箇所を、それぞれの閲覧対象文書から切り出して出力する。このとき、切り出された記述箇所は、複数の閲覧対象文書にまたがる関連箇所として出力される。
【００１５】
このように、文書閲覧装置は、話題階層認定手段１によって、個々の閲覧対象文書に含まれる様々な粒度（大きさ）の話題を検出し、それに基づき、関連話題抽出手段２によって、文書間にまたがる関連話題を検出する。そして、関連話題提示手段３によって、関連話題に対応する文書に記述箇所を切り出して出力する。
【００１６】
閲覧対象文書に含まれる様々な粒度の話題を単位に、網羅的に話題の関連性を調べることで、大きさの異なる記述箇所の対応関係を検出することができる。例えば、文書Ｄ１中の２段落相当の大きさの箇所が、ひとつのまとまりとして、文書Ｄ２中の数段落以上の大きさの箇所と関連している場合等にも、適切な関連箇所を切り出すことが可能になる。
【００１７】
さらに、図１の文書閲覧装置は、以下のような様々な機能を有する。
関連話題抽出手段２は、関連話題の関連度を、各話題に対応する文書中の記述箇所の語彙的類似性によって求め、話題の包含関係に基づき設定した閾値により関連話題を選択する。例えば、上位層の話題Ａと話題Ｂの対が関連度Ｒ１を示している場合、話題Ａと話題Ｂが包含するより小さな話題のいずれもが、いずれの話題ともＲ１以上の関連度を示していない場合にのみ、話題Ａと話題Ｂの対を関連話題として出力する。
【００１８】
これにより、不適切な関連箇所の出力が抑制され、より効率的に関連箇所を出力できるようになる。例えば、２つの閲覧対象文書のそれぞれに、複数段落からなる話題のまとまりがあり、それらが関連している場合、それらのまとまりを構成する一部の段落もまたある粒度の話題として並行的に関連していることがある。
【００１９】
すなわち、文書Ｄ１中の第１、第２段落と、文書Ｄ２の第１、第２段落の間で、２段落のまとまり同士においても、また第１段落同士、第２段落同士においても、関連が見い出される場合等がある。このような場合にも、まとまり同士の関係として関連箇所を出力するか、個々の段落同士の関係として関連箇所を出力するかを、適切に選択し、冗長な出力を抑制することができる。
【００２０】
また、関連話題提示手段３は、関連箇所を関連話題単位に分け、対置して提示する。これにより、複数の関連話題が検出された場合においても、利用者は、個々の話題に関する対応箇所を対比して閲覧することが可能になる。
【００２１】
また、話題関連提示手段３は、各関連箇所の内容を短く要約して出力することもできる。これにより、多くの関連話題が検出された場合においても、利用者は、関連箇所全体の内容を一覧できるようになる。
【００２２】
また、関連話題提示手段３は、各関連箇所に対応する元の文書の部分を連動して提示することもできる。例えば、それぞれの関連箇所に元文書参照用のボタン（ハイパーリンク等）を添えて提示し、そのボタンによる要求に応じて、元文書の関連部を、併置した別のウィンドウに提示する。これにより、利用者は、各関連箇所が出現する文脈を参照しながら、関連箇所の内容を吟味すること等が可能になる。
【００２３】
また、関連話題提示手段３は、閲覧対象文書の話題階層を表現した図面を合わせて提示し、図面上での利用者の指定に応じて、閲覧対象文書の対応箇所を連動して提示する。例えば、各話題をノードとする話題階層の木構造グラフを２つ併置し、また、関連話題をノード間のアークとして提示し、利用者の要求を受け付ける。そして、利用者がアークを指定した場合には、そのアークに対応する関連箇所を別のウィンドウに提示し、また、ノードを指定した場合には、そのノードに対応する部分を同様に提示する。
【００２４】
これにより、利用者は、文書全体の話題の構成を手掛かりに、必要に応じて別の関連箇所の内容等を参照しながら、関連箇所を吟味することが可能になり、より効率的に複数文書を比較・閲覧できるようになる。
【００２５】
また、関連話題提示手段３は、複数の閲覧対象文書の中の１つの文書を基準として、関連話題に関する記述箇所を他の閲覧対象文書から取り込むことで、新たな統合文書を作成し、提示する。これにより、例えば、利用者は、複数文書をまとめたレポート等の統合文書を効率的に作成できるようになる。
【００２６】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本発明は、文書の一致点・相違点をわかりやすく提示するという機能に関し、現在の技術で自動化可能な範囲で実現したものである。具体的には、文書内の関連箇所の自動抽出技術を利用して、複数の関連文書における関連箇所を対比して提示する機能を実現している。
【００２７】
図２は、本発明の文書閲覧装置の基本構成を示している。図２の文書閲覧装置１２は、入力部（input unit）２１、単語認定部（tokenizer ）２２、単語辞書（machine readable dictionary ）２４、話題階層認定部（thematic hierarchy detector ）２５、関連話題抽出部（related topic extractor ）２７、および出力部（output unit ）２８を備える。
【００２８】
図１の話題階層認定手段１、関連話題抽出手段２、および関連話題提示手段３は、それぞれ、図２の話題階層認定部２５、関連話題抽出部２７、および出力部２８に対応する。
【００２９】
図２において、文書閲覧装置１２は、複数の閲覧対象文書１１が入力されると、それらの閲覧対象文書にまたがり、共通話題に関する関連箇所を抽出し、利用者１３に提示する。
【００３０】
入力部２１は、複数の閲覧対象文書１１を読み込み、それぞれを逐次単語認定部２２に渡す。単語認定部２２は、サブモジュールの形態素解析部（morphological analyzer）２３を用いてそれぞれの文書１１を言語的に解析して、文書１１に含まれる内容語（名詞・動詞・形容詞・形容動詞等）を切り出し、対応する文書１１の部分に印を付ける。このとき、形態素解析部２３は、単語辞書２４を参照して、文書１１中の文を、品詞情報付きの単語リストに変換する。単語辞書２４は、形態素解析用の単語辞書であって、単語の表記文字列と品詞・活用の情報との対応関係等を記述している。
【００３１】
話題階層認定部２５は、内容語の印付きの複数の閲覧対象文書１１を受け取り、それぞれの文書１１の話題階層を認定し、出力する。話題階層認定部２５は、まず、サブモジュールの話題境界候補区間認定部（thematic boundary detector）２６を用いて、文書中の様々な粒度（大きさ）の話題のまとまりを自動認定する。ここで、話題のまとまりとは、共通の話題について記述している文書の部分を指す。そして、大きな話題のまとまりと小さな話題のまとまりを対応付けて話題階層データを作成し、出力する。
【００３２】
話題境界候補区間認定部２６は、語彙的結束度の小さい区間を話題境界の候補区間として認定する。語彙的結束度とは、文書中の各位置の近傍領域における語彙的結束性の強さを表す指標であり、例えば、各位置の前後に設定したある幅の窓内に出現する語彙の類似性から求められる。
【００３３】
関連話題抽出部２７は、複数の閲覧対象文書１１のそれぞれに対応する、複数の話題階層を、話題階層認定部２５から受け取り、２つ以上の文書に共通して現れる関連話題を検出し、関連話題のリストを出力する。
【００３４】
出力部２８は、関連話題抽出部２７が抽出した関連話題に対応する記述箇所をそれぞれの文書から切り出し、関連話題毎にまとめて（または対応づけて）、利用者１３に提示する。
【００３５】
図２の文書閲覧装置１２は、例えば、図３に示すような情報処理装置（コンピュータ）を用いて構成することができる。図３の情報処理装置は、出力装置４１、入力装置４２、ＣＰＵ（中央処理装置）４３、ネットワーク接続装置４４、媒体駆動装置４５、補助記憶装置４６、およびメモリ（主記憶）４７を備え、それらはバス４８により互いに接続されている。
【００３６】
メモリ４７は、例えば、ＲＯＭ（read only memory）、ＲＡＭ（random access memory）等を含み、文書閲覧処理に用いられるプログラムとデータを格納する。ここでは、図２に示した入力部２１、単語認定部２２、形態素解析部２３、話題階層認定部２５、話題境界候補区間認定部２６、関連話題抽出部２７、および出力部２８が、プログラムモジュールとして格納されている。ＣＰＵ４３は、メモリ４７を利用してプログラムを実行することにより、必要な処理を行う。
【００３７】
出力装置４１は、例えば、ディスプレイやプリンタ等であり、利用者１３への問い合わせや、閲覧対象文書１１および処理結果等の出力に用いられる。入力装置４２は、例えば、キーボード、ポインティングデバイス、タッチパネル、スキャナー等であり、利用者１３からの指示や閲覧対象文書１１の入力に用いられる。
【００３８】
補助記憶装置４６は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク（magneto-optical disk）装置等であり、閲覧対象文書１１、単語辞書２４等の情報を格納する。また、情報処理装置は、この補助記憶装置４６に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ４７にロードして使用する。
【００３９】
媒体駆動装置４５は、可搬記録媒体４９を駆動し、その記録内容にアクセスする。可搬記録媒体４９としては、メモリカード、フロッピーディスク、ＣＤ−ＲＯＭ（compact disk read only memory ）、光ディスク、光磁気ディスク等、任意のコンピュータ読み取り可能な記録媒体が用いられる。利用者１３は、この可搬記録媒体４９に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ４７にロードして使用する。
【００４０】
ネットワーク接続装置４４は、ＬＡＮ（local area network）等の任意のネットワーク（回線）を介して外部の装置と通信し、通信に伴うデータ変換を行う。また、情報処理装置は、上述のプログラムとデータをネットワーク接続装置４４を介して、サーバ等の他の装置から受け取り、必要に応じて、それらをメモリ４７にロードして使用する。
【００４１】
図４は、図３の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体４９やサーバ５０のデータベース５１に保存されたプログラムとデータは、メモリ４７にロードされる。そして、ＣＰＵ４３は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。このとき、サーバ５０は、プログラムとデータを伝送する伝搬信号を生成し、ネットワーク上の任意の伝送媒体を介して、情報処理装置に送信する。
【００４２】
次に、図２に示した文書閲覧装置１２の各モジュールの動作を、具体例を用いてより詳細に説明する。
閲覧対象文書の例としては、「第１４９回衆議院本会議会議録第２号」（２０００年７月３１日）から、水島広子議員による代表質問（第１の閲覧対象文書）とそれに対する首相の答弁（第２の閲覧対象文書）を、それぞれ１つの文書として切り出したものを用いた。衆議院の代表質問は、党を代表する議員がいくつかの項目を一括して質問した後、首相・関係大臣が答弁する形で進められるが、この代表質問では、子供の教育、民法改正、国会運営、有害情報、小児医療、歳費支給方式の６つの問題に関し、計８項目が質問されている。
【００４３】
図５は、代表質問部を切り出した第１の閲覧対象文書の冒頭部である。なお、図５において、下線を引いた箇所、すなわち、冒頭の発言議員名および括弧で囲まれた議事進行に関する補足情報については、代表質問の内容ではないため、除外してから、以降の処理を行った。首相の答弁部を切り出した第２の閲覧対象文書においても、同様に冒頭の発言者名と括弧内の補足情報は除去して処理を行っている。
【００４４】
図６は、単語認定部２２による単語認定処理のフローチャートである。単語認定部２２は、まず、個々の閲覧対象文書に形態素解析を施し、品詞付きの単語リストを作成する（ステップＳ１１）。次に、品詞を手掛かりに内容語（名詞・動詞・形容詞・形容動詞）を認定し、内容語に対応する文書の部分に印を付けて（ステップＳ１２）、処理を終了する。図７は、図５の文書部分に対する単語認定部２２の処理結果を示している。
【００４５】
図６のステップＳ１１において、形態素解析部２３は、図８に示すような形態素解析処理を行う。形態素解析部２３は、まず、単語リストをクリアし（ステップＳ２１）、文書の先頭から句点（またはピリオド）等を手掛かりに文の取り出しを試み（ステップＳ２２）、文が取り出せたかどうかを判定する（ステップＳ２３）。
【００４６】
文が取り出せれば、次に、単語辞書２４を参照して、文に含まれている単語の候補を求める（ステップＳ２４）。日本語の場合は、図７に示したように、単語と単語の境界が形式的に明示されていないので、文に含まれる部分文字列に対応するすべての単語を候補として求める。例えば、「東京都は大都市だ」という文が取り出された場合、図９に示すように、この文に含まれるすべての部分文字列が単語の候補となる。
【００４７】
これに対して、英語の場合は、単語の境界が空白（スペース）により明示されているため、空白で区切られた文字列に対応する単語について、品詞の候補を求めることが主な処理となる。例えば、“Tokyo is the Japanese capital.”という文が取り出された場合、図１０に示すように、この文に明示的に含まれる５つの単語の基本形と品詞が求められる。
【００４８】
次に、形態素解析部２３は、品詞レベルの連接の観点から、妥当な単語の並びを選択し（ステップＳ２５）、選択された単語の並びに品詞と出現位置の情報を付加して、出現順に単語リストに追加する（ステップＳ２６）。次に、次の文の取り出しを試み（ステップＳ２７）、ステップＳ２３以降の処理を繰り返す。そして、ステップＳ２３において文が取り出せなくなると、処理を終了する。
【００４９】
図１０の単語認定結果において、墨付き括弧で括られた部分が形態素解析部２３の認定した内容語である。内容語が活用語（動詞・形容詞）の場合、墨付き括弧内で、スラッシュ（／）の前の部分は語幹を表し、スラッシュの後の部分は終止形の活用語尾を表す。これは、後の処理で単語の区別を行うために用いられる情報であるが、この情報の代わりに、品詞と活用を付加しておいてもよい。要するに、例えば、「い／う」と「い／る」のように、語幹だけでは区別の付かない単語を区別するための識別情報であれば、任意のものを用いることができる。
【００５０】
また、ステップＳ２５において、単語の並びの妥当性を評価する方法は、形態素解析法として各種のものが知られており、任意のものを用いることができる。例えば、以下の文献［８］、［９］、および［１０］では、単語の並びの妥当性を訓練データにより推定された出現確率を用いて評価する方法が報告されている。
［８］Eugene Charniak. Hidden markov models and two applications. In Statistical Language Learning, chapter 3, pp. 37-73. The MIT Press, 1993.
［９］永田昌明. 前向きＤＰ後向きＡ＊アルゴリズムを用いた確率的日本語形態素解析システム. 情報処理学会研究報告NL-101-10, 情報処理学会, May 1994.
［１０］Masaaki Nagata. A stochastic japanese morphological analyzer using a forward-DP backward-A＊ N-best search algorithm. In Proc. of COLING '94, pp. 201-207, Aug. 1994.
なお、図７の例では、単語認定部２２がすべての内容語を切り出しているが、切り出しの対象を名詞だけに絞っても構わない。また、英語の文書を対象に処理する場合には、形態素解析処理を行う代わりに、空白で区切られたすべての語のうち、話題に関わらずどこにでも出現する語彙（冠詞、前置詞等の機能語や特に高い頻度で出現する語）を取り除いて、単語を切り出してもよい。このような処理は、単語辞書２４の代わりに、機能語や特に高い頻度で出現する語を格納したストップワードリスト（stop word list）を用意すれば、容易に実現できる。
【００５１】
次に、話題階層認定部２５の処理について説明する。本実施形態においては、話題のまとまりは、先願の特開平１１−２７２６９９「文書要約装置およびその方法」に示された技術に基づいて認定している。この方法では、以下の手順で話題の階層構成が認定される。
１．話題境界位置の区間推定
ある窓幅で計算した結束度に基づき、話題境界が存在しそうな位置を、話題境界候補区間として求める。そして、大きさの異なる複数の窓幅に対してこの処理を繰り返し、大きな話題の切れ目を示す境界から小さな話題の切れ目を示す境界まで、話題の大きさ別に話題境界候補区間を求める。
２．話題の階層関係の認定
異なる窓幅により求めた話題境界候補区間を統合し、話題の階層構造とそれぞれの話題境界の位置を決定する。
【００５２】
図１１は、話題階層認定部２５による話題階層認定処理のフローチャートである。話題階層認定部２５は、まず、最大窓幅ｗ１、最小窓幅ｗ＿ｍｉｎ、窓幅比ｒの３つのパラメータを利用者から受け取り（ステップＳ４１）、結束度を測定するための窓幅の集合Ｗを求める（ステップＳ４２）。窓幅の集合Ｗは、初項をｗ１とし、公比を１／ｒとする等比級数から、ｗ＿ｍｉｎ以上の大きさの項を集めて作成される。
【００５３】
このとき、Ｗにおける最大窓幅ｗ１としては、文書全体のサイズの１／２〜１／４程度の大きさを与え、最小窓幅ｗ＿ｍｉｎとしては、段落程度の大きさ（例えば４０語）を与え、窓幅比ｒとしては２を与えておけば、実用上十分である。以下では、ｗ１＝３２０（語）、ｗ＿ｍｉｎ＝４０（語）、ｒ＝２の値を用いている。
【００５４】
次に、話題階層認定部２５は、図７に示したように、内容語に印が付けられた文書をもとに、文書中の各位置の結束度を、Ｗ中のそれぞれの窓幅毎に計算し、結束度系列として記録する（ステップＳ４３）。
【００５５】
ここでは、まず、文書の各位置（基準点）の前後に設定した２つの窓の中に出現している語彙（ここでは内容語）を比較し、共通している語彙が多い程大きくなるような値を計算して、その位置における結束度とする。そして、窓の位置を文書の冒頭から末尾に向かって一定の刻み幅ｔｉｃでずらしながら、結束度の計算を繰り返し、計算した結束度を、文書の冒頭から末尾に向かう系列として記録する。
【００５６】
刻み幅ｔｉｃは、窓幅より小さければいずれの値でも構わないが、処理効率を考慮して、ここでは、窓幅の１／８の値を用いた。このｔｉｃの値は、利用者により指定することも可能である。
【００５７】
結束度の計算方法としては各種の方法が考えられるが、以下では、情報検索等の分野で類似度の尺度として広く用いられてきた余弦測度（cosine measure）を用いている。余弦測度は次の式により求められる。
【００５８】
【数１】

【００５９】
ここで、ｂｌとｂｒは、それぞれ、左窓（文書の冒頭側の窓）、右窓（文書の末尾側の窓）に含まれる文書の部分を表し、ｗｔ，ｂｌ、ｗｔ，ｂｒは、それぞれ、左窓、右窓に出現する単語ｔの出現頻度を表す。また、（１）式の右辺のΣｔは、単語ｔに関する総和を表す。
【００６０】
（１）式の類似度は、左右の窓に含まれる語彙に共通のものが多いほど大きくなり（最大１）、共通のものがない時に０となる。つまり、この値が大きい部分は、左右の窓で共通の話題を扱っている可能性が高く、逆に、この値が小さい部分は、話題の境界である可能性が高いことになる。
【００６１】
次に、図１２は、ステップＳ４３で記録された結束度の系列の例を示している。図１２では、簡単のため、窓幅ｗの１／４を刻み幅ｔｉｃとして用いており、文書領域ａ１〜ａ１１は、刻み幅ｔｉｃに対応する一定幅の領域である。また、ｃ１は、文書中のａ４とａ５の境界を基準点として計算した、窓幅ｗの結束度を表す。すなわち、ｃ１は、文書領域ａ１〜ａ４の部分を左窓の範囲とし、ａ５〜ａ８の部分を右窓の範囲として計算された結束度である。
【００６２】
次のｃ２は、窓をｔｉｃ分だけ右へずらして計算された結束度を表し、ａ５とａ６の境界を基準点とする窓幅ｗの結束度である。このようにして、窓をｔｉｃ分ずつ順に右へずらして計算したｃ１，ｃ２，ｃ３，ｃ４，．．．を、文書の冒頭から末尾へ向かう窓幅ｗの結束度系列と呼ぶ。
【００６３】
図１３は、上述の単語認定結果において、文書の冒頭から各基準点までの間に出現した内容語の延べ数を横軸にとり、最小窓幅（４０語）の結束度系列をプロットしたグラフである。例えば、図１２の結束度ｃ２の場合は、ａ１〜ａ５の領域中の内容語の延べ数が、文書における基準点の位置となる。ここでは、４０語の窓幅の１／８（５語）を刻み幅ｔｉｃとして、文書の冒頭から末尾に向かって結束度を計算している。
【００６４】
次に、話題階層認定部２５は、サブモジュールの話題境界候補区間認定部２６を使って、それぞれの窓幅の結束度系列を解析し、結束度の低い区間を話題境界候補区間として認定する（ステップＳ４４）。具体的には、結束度系列の極小点を手掛かりに、それぞれの結束度系列の窓幅程度の大きさの話題のまとまりの境界位置を区間推定する。本実施形態では、この処理を、移動平均法を用いて実現している。
【００６５】
次に、話題階層認定部２５は、異なる窓幅の結束度系列に基づいて求めた話題境界候補区間を互いに関連付け、話題の境界位置を語の単位で決定する（ステップＳ４５）。そして、語の単位で決定された話題の境界位置を微調整し、文境界（句点で区切られた部分の開始位置）に合わせてから、話題階層データを作成して出力する（ステップＳ４６）。これにより、話題階層認定処理が終了する。
【００６６】
なお、ステップＳ４６において話題境界位置を文境界に合わせるためには、認定された境界位置に最も近い文の開始位置を求め、それを最終的な話題境界の位置とすればよい。あるいは、先願の特願平１１−２０５０６１「文書要約装置およびその方法」で開示された境界文認定技術を使って、より適切な話題境界（話題の開始位置）を求めることも可能である。
【００６７】
次に、図１１のステップＳ４４における話題境界候補区間認定処理について、図１２および図１４を使って説明する。ここで用いられる移動平均法は、株価の変動などの統計的分析方法である時系列分析（time series analysis）において、細かい変動を取り除いて大局的な傾向を把握するために使われている。本実施形態では、結束度系列の移動平均値を細かい変動を無視するために用いるだけでなく、それを移動平均の開始点における順方向結束力および移動平均の終了点における逆方向結束力とみなすことで、話題境界候補区間認定のための直接的な手掛かりとしている。
【００６８】
図１２は、前述したように、結束度の系列ｃ１〜ｃ４と文書領域ａ１〜ａ１１との関係を示している。結束度系列の移動平均値とは、例えば、（ｃ１＋ｃ２）／２（２項の移動平均）、（ｃ１＋ｃ２＋ｃ３）／３（３項の移動平均）、（ｃ１＋ｃ２＋ｃ３＋ｃ４）／４（４項の移動平均）のように、結束度系列において連続するｎ個の値を算術平均した値である。
【００６９】
図１４は、図１２の結束度系列の移動平均の例と文書領域との関係を示している。ここでは、移動平均の例として、図１２の結束度の２項〜４項の移動平均が示され、それぞれの移動平均に関わる結束度の計算において、各文書領域が使用された回数が示されている。このうち、下線を付けた値は、対応する文書領域が移動平均に関わるすべての結束度の計算に用いられていることを表す。
【００７０】
例えば、左上角の値“１”は、ｃ１〜ｃ４までの４項の移動平均において、文書領域ａ１が一度だけ左窓の一部として扱われたことを示している。また、その右の値“２”は、ｃ１〜ｃ４までの４項の移動平均において、文書領域ａ２が２回左窓の一部として扱われたことを示している。他の使用回数についても、同様である。
【００７１】
結束度は境界の前後の部分の結び付きの強さを表す指標であるので、領域ａ１を左窓に含んで得られた結束度ｃ１を用いて計算された移動平均値も、領域ａ１がそれより右側（文書の末尾側）の部分に結び付いているかどうかを示す指標の１つと考えられる。
【００７２】
言い換えれば、移動平均値は、移動平均をとった結束度の左窓部分の領域（ｃ１〜ｃ４の４項平均に対してはａ１〜ａ７）が文書の末尾へ向かう方向（順方向：図１５では右方向）に引っ張られる強さの指標（順方向結束力）になっていると言える。一方、逆に、移動平均をとった結束度の右窓部分の領域（ｃ１〜ｃ４の４項平均に対してａ５〜ａ１１）が文章の冒頭方向（逆方向：図１５では左方向）に引っ張られる強さの指標（逆方向結束力）になっているとも言える。
【００７３】
ここで、結束力とそれぞれの文書領域との関連性を考察すると、結束度の計算においてより多く窓に含まれていた領域との関連が強いと考えられる。また、語彙的結束性は、一般に、近傍で繰り返される語彙に基づくものほど強いと考えられるので、移動平均をとった結束度の基準点（左右の窓の境界位置）に近い位置にある領域ほど関連が強いとも言える。
【００７４】
例えば、図１４の４項の移動平均については、結束度の基準点は、ａ４とａ５の境界、ａ５とａ６の境界、ａ６とａ７の境界、およびａ７とａ８の境界の４つである。この場合、ａ４は最も多く左窓に含まれており、かつ、これらの基準点に最も近いことが分かる。また、ａ８は最も多く右窓に含まれており、かつ、これらの基準点に最も近いことが分かる。したがって、移動平均値と最も関連の強い領域は、左窓についてはａ４、右窓についてはａ８となる。
【００７５】
同様にして、３項の移動平均と最も関連の強い領域を選ぶと、左窓についてはａ４、右窓についてはａ７となり、２項の移動平均と最も関連の強い領域を選ぶと、左窓についてはａ４、右窓についてはａ６となる。これらの領域の使用回数は、図１４では太線の枠で囲んで示されている。
【００７６】
以上の考察に基づき、話題境界候補区間認定部２６は、結束度の移動平均値を、移動平均をとった領域内の最初の基準点における順方向結束力および最後の基準点における逆方向結束力の指標として取り扱う。例えば、ｃ１〜ｃ４の４項の移動平均値は、ａ４とａ５の境界における順方向結束力およびａ７とａ８の境界における逆方向結束力となる。
【００７７】
図１５は、話題境界候補区間認定部２６による話題境界候補区間認定処理のフローチャートである。候補区間認定部２６は、まず、話題階層認定部２５から結束度系列の刻み幅ｔｉｃを受け取り、利用者から移動平均の項数ｎを受け取る（ステップＳ５１）。
【００７８】
これらのパラメータの値の目安は、刻み幅ｔｉｃについては、例えば、窓幅ｗの１／８〜１／１０程度の大きさであり、項数ｎについては、ｗ／ｔｉｃの半分（４〜５）程度である。また、移動平均をとる領域の最初の基準点から最後の基準点までの隔たりを、（ｎ−１）＊ｔｉｃにより計算して、それを移動平均の幅ｄ（語）とする。
【００７９】
次に、文書中の各位置ｐについて、ｐ〜ｐ＋ｄの範囲内で結束度の移動平均をとり、平均値を位置ｐにおける順方向結束力として記録する（ステップＳ５２）。この値は、同時に、移動平均をとった範囲の終了位置ｐ＋ｄにおける逆方向結束力としても記録される。
【００８０】
次に、記録された順方向結束力をもとに、文書中の冒頭から末尾に向かって各位置における順方向結束力と逆方向結束力の差（順方向結束力−逆方向結束力）を調べ、その値が負から正に変化する位置を負の結束力拮抗点ｍｐとして記録する（ステップＳ５３）。
【００８１】
負の結束力拮抗点とは、その位置の左では逆方向結束力が優勢であり、その位置の右では順方向結束力が優勢であるような点である。したがって、この点の左右の部分は意味的な結び付きが弱いと考えられ、負の結束力拮抗点は話題境界の候補位置となる。
【００８２】
次に、記録された負の結束力拮抗点ｍｐの直前・直後のｄ語以内の範囲［ｍｐ−ｄ，ｍｐ＋ｄ］を話題境界候補区間と認定して（ステップＳ５３）、処理を終了する。
【００８３】
ここで、順・逆方向の結束力の差に基づいて話題境界候補区間を認定する意味を、図１６を使って説明する。図１６は、図１３の４００語付近（３７０語〜４００語）における４０語幅の窓による結束度と順・逆方向の結束力の分布を示している。刻み幅ｔｉｃとしては、窓幅の１／８を採用している。
【００８４】
図１６において、記号＋でプロットした折れ線グラフは、結束度Ｃの系列を表し、記号＊でプロットした折れ線グラフは、順方向結束力ＦＣの系列を表し、記号□でプロットした折れ線グラフは、逆方向結束力ＢＣの系列を表す。話題境界候補区間を表す矩形で示された領域については、後述することにする。
【００８５】
また、点線で示されたｅｐ１、ｅｐ２、ｅｐ３は、順・逆方向の結束力の差が０になる３つの点（結束力拮抗点）を表す。最初の点ｅｐ１の左側では、逆方向結束力が順方向結束力より優勢であり、その右側から次の点ｅｐ２までは、順方向結束力が逆方向結束力より優勢である。さらに、その右側から最後の点ｅｐ３までは、逆方向結束力が順方向結束力より優勢であり、その右側では、順方向結束力が逆方向結束力より優勢である。
【００８６】
したがって、ｅｐ１とｅｐ３は、順方向結束力と逆方向結束力の差が負から正に変化する負の結束力拮抗点であり、ｅｐ２は、その差が正から負に変化する正の結束力拮抗点である。
【００８７】
このような結束力の変化から、最初の点ｅｐ１の左側の領域は、それより左側のいずれかの部分と比較的強い結束性を示しており、真中の点ｅｐ２の両側の領域は、ｅｐ２に向かって強い結束性を示しており、最後の点ｅｐ３の右側の領域は、それより右側のいずれかの部分と比較的強い結束性を示していることが分かる。実際、順・逆方向の結束力と共にプロットした結束度は、ｅｐ１とｅｐ３の近傍で極小値をとり、ｅｐ２の近傍で極大値をとっている。このように、順・逆方向の結束力の変化と結束度の変化は密接に関連している。
【００８８】
例えば、図１６の結束力拮抗点ｅｐ３の近傍には、結束度の極小点（この場合はｃ３）がある。上向き矢印で示したＦＣ、ＢＣの極小値は、水平矢印の部分の結束度（ｃ１〜ｃ４の４項）を移動平均した値である。このように、通常は、結束度の極小点に対応して、その近傍（移動平均の幅以内）で、結束力も極小値をとる。ただし、移動平均をとる領域より狭い範囲で細かい変動がある場合には、移動平均の平滑化作用により、移動平均値すなわち結束力が極小値をとらないこともある。
【００８９】
また、順方向結束力は移動平均値を移動平均をとる領域の開始位置に記録した指標であるので、順方向結束力の極小位置は結束度の極小位置の左になる。同様の理由により、逆方向結束力の極小位置は結束度の極小位置の右になる。そして、結束度の変動が十分に大きければ、移動平均をとる領域内に結束力拮抗点が生成されることになる。
【００９０】
図１７は、図１１のステップＳ４５において行われる話題境界認定処理のフローチャートである。話題階層認定部２５は、まず、認定された話題境界候補区間を、認定に使った結束度系列の窓幅と、話題境界候補区間内の結束力拮抗点の文書における出現位置とによってソートしてまとめ、話題境界候補区間データの系列Ｂ（ｊ）［ｐ］を作成する（ステップＳ６１）。
【００９１】
ここで、制御変数ｊは、窓幅ｗｊの結束度系列により認定されたことを表す系列番号であり、制御変数ｐは、系列内の各話題境界候補区間を表すデータ番号である。実際には、ｊは、窓幅の大きい順に１，２，．．．の値をとり、ｐは、結束力拮抗点の出現順に１，２，．．．の値をとる。それぞれのデータＢ（ｊ）［ｐ］は、次のような要素データを含む。
【００９２】
・Ｂ（ｊ）［ｐ］．ｒａｎｇｅ：話題境界候補区間。（開始位置、終了位置）の組。
・Ｂ（ｊ）［ｐ］．ｅｐ：結束力拮抗点。
【００９３】
・Ｂ（ｊ）［ｐ］．ｃｈｉｌｄ：境界位置の話題境界候補区間の範囲で一致するＢ（ｊ＋１）系列の話題境界候補区間（子候補区間）。
なお、結束力拮抗点は理論的には点であるが、前述のように、順方向結束力と逆方向結束力の差の符号が反転する地点を拮抗点として認定しているので、実際には、差が負の点（開始位置）と差が正の点（終了位置）の組により表される。そこで、本実施形態では、結束力拮抗点の開始位置ｌｐと終了位置ｒｐにおける（順方向結束力−逆方向結束力）の値を、それぞれ、ＤＣ（ｌｐ）とＤＣ（ｒｐ）として、左右の結束力が０になる点ｅｐを、次式により補間して求める。

そして、得られたｅｐを、Ｂ（ｊ）［ｐ］．ｅｐとする。
【００９４】
次に、話題階層認定部２５は、窓幅の異なる話題境界候補区間データを関連付ける処理を行う。ここでは、１つの系列に属するＢ（ｊ）［ｐ］をまとめてＢ（ｊ）と記し、さらに、次のような表記法を用いて、以下の処理を説明する。
【００９５】
・ｉｅ：最小窓幅ｗ＿ｍｉｎに対応する系列番号。
・｜Ｂ（ｊ）｜：Ｂ（ｊ）におけるデータ番号ｐの最大値。
まず、処理対象を表す系列番号ｉを１に初期化する（ステップＳ６２）。これにより、最大窓幅ｗ１による話題境界候補区間の系列が処理対象に設定される。そして、ｊ＋１≦ｊｅである限り、ｊをインクリメントしながら、Ｂ（ｊ＋１）を関連付け対象の系列とする関連付け処理を行う。
【００９６】
この関連付け処理では、処理対象系列中のそれぞれの話題境界候補区間データＢ（ｊ）［ｐ］（ｐ＝１，．．．，｜Ｂ（ｊ）｜）について、それと同じ付近を境界候補としている関連付け対象系列中のデータＢ（ｊ＋１）［ｑ］のうち、Ｂ（ｊ＋１）［ｑ］．ｅｐがＢ（ｊ）［ｐ］．ｅｐに最も近いデータが選ばれ、関連境界候補区間データとしてＢ（ｊ）［ｐ］．ｃｈｉｌｄに格納される。
【００９７】
具体的な手順は以下の通りである。まず、ｊ＋１とｊｅを比較し（ステップＳ６３）、ｊ＋１≦ｊｅであれば、ｐに１を代入して（ステップＳ６４）、ｐと｜Ｂ（ｊ）｜を比較する（ステップＳ６５）。ｐ≦｜Ｂ（ｊ）｜であれば、ステップＳ６６以降の関連付け処理を行い、ｐが｜Ｂ（ｊ）｜を越えれば、ｊ＝ｊ＋１とおいて（ステップＳ７１）、ステップＳ６３以降の処理を繰り返す。
【００９８】
ステップＳ６６では、話題階層認定部２５は、関連付け候補となる系列中のデータＢ（ｊ＋１）［ｑ］（ｑ＝１，．．．，｜Ｂ（ｊ＋１）｜）の中から、Ｂ（ｊ＋１）［ｑ］．ｅｐ∈Ｂ（ｊ）［ｐ］．ｒａｎｇｅとなるデータでＢ（ｊ＋１）［ｑ］．ｅｐがＢ（ｊ）［ｐ］．ｅｐに最も近いデータを、関連付け対象データとして選択し、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄに格納する。
【００９９】
ここで、Ｂ（ｊ＋１）［ｑ］．ｅｐ∈Ｂ（ｊ）［ｐ］．ｒａｎｇｅという条件は、Ｂ（ｊ）［ｐ］の話題境界候補区間の中にＢ（ｊ＋１）［ｑ］の結束力拮抗点が含まれていることを表す。
【０１００】
図１８は、関連付け対象データの選択例を示している。図１８において、記号＋でプロットした折れ線グラフは、処理対象に対応する８０語幅の窓による順方向結束力の系列を表し、記号×でプロットした折れ線グラフは、８０語幅の窓による逆方向結束力の系列を表す。また、記号＊でプロットした折れ線グラフは、関連付け対象に対応する４０語幅の窓による順方向結束力の系列を表し、記号□でプロットした折れ線グラフは、４０語幅の窓による逆方向結束力の系列を表す。また、矩形で示された領域は、話題境界候補区間に対応し、点線で示されたｅｐ１、ｅｐ３は、４０語幅の窓による結束力の拮抗点に対応する。
【０１０１】
例えば、処理対象データをＢ（３）［４］とすると、その近傍には結束力拮抗点ｅｐ１、ｅｐ３があり、それらに対応して関連付け対象系列の２つのデータＢ（４）［６］とＢ（４）［７］がある。このうち、Ｂ（４）［７］の結束力拮抗点ｅｐ３は、Ｂ（３）［４］の話題境界候補区間（上方の矩形）に含まれているので、Ｂ（４）［７］が関連付け対象データとして選択される。
【０１０２】
次に、話題階層認定部２５は、関連付け対象データが選択できたかどうかを判定し（ステップＳ６７）、関連付け対象データが選択できた場合は、ｐ＝ｐ＋１とおいて（ステップＳ７０）、ステップＳ６５以降の処理を繰り返す。
【０１０３】
条件を満たす関連付け対象データが見つからなかった場合には、Ｂ（ｊ）［ｐ］と同じ話題境界候補区間を持つ疑似的な関連付け対象データ（ダミーデータ）Ｂ（ｊ＋１）［ｑ］を作成し、Ｂ（ｊ＋１）の系列に挿入する（ステップＳ６８）。
【０１０４】
ステップＳ６８では、まず、Ｂ（ｊ＋１）［ｑ］．ｒａｎｇｅとＢ（ｊ＋１）［ｑ］．ｅｐに、それぞれ、Ｂ（ｊ）［ｐ］．ｒａｎｇｅとＢ（ｊ）［ｐ］．ｅｐの値を設定して、新たなデータＢ（ｊ＋１）［ｑ］を作成する。そして、系列Ｂ（ｊ＋１）の中で、Ｂ（ｊ＋１）［ｑ−１］．ｅｐ＜Ｂ（ｊ＋１）［ｑ］．ｅｐかつＢ（ｊ＋１）［ｑ］．ｅｐ＜Ｂ（ｊ＋１）［ｑ＋１］．ｅｐとなるような位置に、作成したデータＢ（ｊ＋１）［ｑ］を挿入する。
【０１０５】
これにより、疑似的な関連付け対象データのデータ番号ｑが決定され、それ以降の既存データのデータ番号は書き換えられる。ここで、擬似的な話題境界候補区間データを作成するのは、以降の処理において、ｊ以下のすべての系列番号の話題階層において話題文を抽出するためである。
【０１０６】
次に、作成されたダミーデータＢ（ｊ＋１）［ｑ］をＢ（ｊ）［ｐ］．ｃｈｉｌｄに格納し（ステップＳ６９）、ステップＳ７０以降の処理を行う。そして、ステップＳ６３においてｊ＋１がｊｅを越えれば、処理を終了する。
【０１０７】
最終的には、ｊｅ未満のすべての系列番号ｊのデータに対して、その話題境界候補区間内に結束力拮抗点を持つ系列番号ｊ＋１のデータが、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄに設定される。したがって、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄにより、複数の階層の話題境界候補区間データが連鎖的に関連付けられることになる。
【０１０８】
図１９は、こうして得られた話題境界の認定結果を示している。図１９において、３２０語、１６０語、８０語、４０語の各窓幅（縦軸）の高さまで伸びた棒グラフが、それぞれの窓幅に対応する粒度の話題の最終的な話題境界、すなわち最小窓幅（４０語）の結束力拮抗点の位置を表している。棒グラフと交差している矩形領域は、各窓幅の結束力により認定された話題境界候補区間を表す。
【０１０９】
図１１のステップＳ４６では、図１９に示された話題境界を微調整して文の開始位置に合わせてから、各境界の間を１つの話題とする話題階層を作成する。この微調整により図１９の話題境界の一部がシフトし、その結果、図２０に示すような木構造の話題階層が生成される。
【０１１０】
例えば、図１９の最小窓幅に対応する境界からは、矢印で示された１５個の区画に対応して、図２０の１５個の話題が最下層の話題として認定される。また、８０語の窓幅に対応する境界からは、１５個の話題のうち、区画２と区画３、区画４から区画６まで、区画１１と区画１２、区画１３と区画１４の４つのグループに対応する話題をグループ毎に統合して得られる、計１０個の話題が第２層の話題として認定される。
【０１１１】
図２０の話題階層において、矩形で表されたノードは、認定されたそれぞれの話題に対応し、矩形内の数字は、図１９の区画の番号に対応する。第２の閲覧対象文書に対しても同様の処理を行うことで、図２１のような話題階層が生成される。
【０１１２】
次に、関連話題抽出部２７の処理について説明する。図２２は、関連話題抽出部２７による関連話題抽出処理のフローチャートである。話題文抽出部２７は、まず、第１の閲覧対象文書の話題階層Ｔ１と第２の閲覧対象文書の話題階層Ｔ２の２つの話題階層を入力として受け取る（ステップＳ１０１）。そして、話題階層Ｔ１中の任意の話題ｔ１と話題階層Ｔ２中の任意の話題ｔ２からなる話題対（ｔ１，ｔ２）のすべてについて、関連度を計算する（ステップＳ１０２）。
【０１１３】
本実施形態では、話題ｔ１と話題ｔ２の間の関連度Ｒ（ｔ１，ｔ２）を、ｔ１、ｔ２のそれぞれに対応する文書の区画ｓ１、ｓ２に含まれる語彙の類似性により求める。具体的には、Ｒ（ｔ１，ｔ２）は次式により計算される。
【０１１４】
【数２】

【０１１５】
ここで、ｗｔ，ｓ１、ｗｔ，ｓ２は、それぞれ、区画ｓ１、ｓ２における単語ｔの重要度に相当する重みを表し、次式により計算される。
【０１１６】
【数３】

【０１１７】
（４）式において、ｔｆｔ，ｓは、区画ｓにおける単語ｔの出現頻度を表し、｜Ｄ｜は、区画ｓを含む文書を固定幅（８０語）刻みに区切って得られるブロックの数を表し、ｄｆｔは、単語ｔが出現しているブロックの数を表す。
【０１１８】
（３）、（４）式は、情報検索分野で検索対象文書と質問文との関連度計算等でよく使われる、ｔｆ×ｉｄｆ法と呼ばれる計算法の変形例である。ｔｆ×ｉｄｆ法では、（４）式の｜Ｄ｜／ｄｆｔの部分を、文書内の区画ではなく、検索対象文書集合に含まれる文書を単位に計算する。すなわち、｜Ｄ｜を検索対象文書集合中の文書数とし、ｄｆｔを単語ｔが出現する文書数とすると、これらの式は通常のｔｆ×ｉｄｆ法の計算式となる。
【０１１９】
関連度Ｒ（ｔ１，ｔ２）はｔｆ×ｉｄｆ法により求めてもよいが、本実施形態の（３）、（４）式によれば、閲覧対象文書だけから関連度を計算することができ、また、後述するように、これらの計算式で十分に有効な結果が得られているため、ここではこの計算法を採用している。
【０１２０】
関連話題抽出部２７は、次に、第１の閲覧対象文書中の話題ｔ１と第２の閲覧対象文書中の話題ｔ２のすべてに対して、話題階層を利用しながら、話題対選別用の閾値を求める。閾値としては、例えば、話題階層の部分木中の最大関連度が用いられる。ここで、ある話題ｔに対する話題階層の部分木中の最大関連度とは、ｔもしくは話題階層におけるｔの子孫（ｔを構成するいずれかのより小さい話題）に対して計算された関連度の最大値のことである。
【０１２１】
関連話題抽出部２７は、まず、話題ｔ１について最大関連度を求め、それをｔ１．ｍａｘに記録し（ステップＳ１０３）、次に、話題ｔ２についても同様に、最大関連度をｔ２．ｍａｘに記録する（ステップＳ１０４）。そして、Ｔ≡｛（ｔ１，ｔ２）｜Ｒ（ｔ１，ｔ２）≧ｍａｘ（ｔ１．ｍａｘ，ｔ２．ｍａｘ）｝により定義される話題対の集合Ｔを求めて、関連話題として出力し（ステップＳ１０５）、処理を終了する。
【０１２２】
ここで、最大関連度に基づく関連話題抽出処理の具体例を、図２３および図２４を使って説明する。図２３は、図２２のステップＳ１０２における関連度の計算結果を示している。ここでは、関連度が０．２５以上の値を持つ話題対が点線のアークで示されており、アークに添えられた数値が関連度を表す。また、２つの木構造グラフのうち、左のグラフが図２０の話題階層に対応し、右のグラフが図２１の話題階層に対応する。
【０１２３】
ここで、右のグラフの右下角のノード（以下では、「ノード右７」のように表記する）に着目する。このノードは、第２の閲覧対象文書の最後の最小区画に対応する話題を表すノードであり、グラフ上では、末端ノード（子ノードを持たないノード）となっている。
【０１２４】
したがって、このノードにおける最大関連度は、このノードに直接結びつけられたアークの関連度の最大値である。ノード右７では、（ノード左１３−１４，ノード右７）の話題対の関連度０．３５が最大関連度となる。そして、ノード左１３−１４からは、０．３５を超える関連度をもつアークはないので、（ノード左１３−１４，ノード右７）の話題対は関連話題として出力される。
【０１２５】
一方、ノード右６−７に着目すると、このノード以下の部分木にノード右７が含まれているので、ノード右６−７に直結しているアークの話題対は、少なくともノード右７の最大関連度（０．３５）以上でなければ、関連話題として出力されない。ノード右６−７はこのようなアークを持たないので、ノード右６−７を含む話題対は関連話題としては出力されないことになる。
【０１２６】
以上のように、部分木における最大関連度を基準に話題対を選別することで、２つの閲覧対象文書間の関連話題を、図２４に示す話題対に絞り込むことができる。図２４では、閲覧対象文書全体同士の話題対を除いて、７対の関連話題しか抽出されていないのにも関わらず、関連話題に含まれなかった話題は、ノード左１、ノード左１１、およびノード左１５のみである。これらの話題のうち、質問項目を含むのはノード左１５のみで、残りは後続の話題を導入するための役割を担った、答弁とは直接的に関連しない内容の部分であった。
【０１２７】
また、抽出された７対の関連話題は、後で示す結果に見られる通り、いずれも適切に対応している内容を含む部分であった。このように、本実施形態によれば、話題階層を利用して関連話題を絞り込むことで、あらかじめ特別な閾値を設定しなくても、過不足なく適切な話題対を選択することができる。
【０１２８】
次に、出力部２８は、関連話題抽出部２７が抽出した話題対のそれぞれについて、関連話題に対応する関連箇所をそれぞれの閲覧対象文書から切り出し、出力する。例えば、図２４の（ノード左９−１０，ノード右４−５）の関連度０．３０の話題対については、ノード左９−１０の話題に対応して、第１の閲覧対象文書中の区画９と区画１０を、ノード右４−５の話題に対応して、第２の閲覧対象文書中の区画４と区画５を、それぞれ抽出し、利用者が対比しやすい形に整形して出力する。
【０１２９】
図２５は、この話題対に対する関連箇所の出力結果の例を示している。図２５の出力例では、左コラムが第１の閲覧対象文書の関連箇所に対応し、右コラムが第２の閲覧対象文書の関連箇所に対応している。それぞれの関連箇所は、話題階層認定部２５により認定された最小の話題（最小区画）の単位に分けて、出力されている。また、太字で強調出力されている語は、両方の関連箇所に出現し、かつ、それぞれの関連箇所において（４）式により求めた重要度が比較的大きい語である。具体的には、これらの語は、以下のような手順で抽出される。
【０１３０】
まず、両方の関連箇所に現れた語を重要語候補として抽出し、抽出された各語についてそれぞれの箇所における（４）式の値を、各語の各箇所における重要度として求める。そして、それぞれの箇所について、重要度の大きい順に重要語を抽出し、抽出した重要語における重要度の累積値が、重要語候補全体における重要度の合計値の１／２を超えた時点で、抽出処理を打ち切る。
【０１３１】
なお、図２５に示した関連話題は、本実施形態で用いた閲覧対象文書対において、重複して関連話題が抽出された唯一の部分である。この部分では、上位層の（ノード左９−１０，ノード右４−５）の話題対だけでなく、それを構成する話題に関する（ノード左９，ノード右４）と（ノード左１０，ノード右５）の話題対も関連話題として抽出されている。
【０１３２】
図２５に示された内容に見られるように、ノード左９の質問に対する答弁はノード右４であり、ノード左１０の質問に対する答弁はノード右５であると考えられるが、ノード左９とノード左１０との間、および、ノード右４とノード右５との間にも、強い関連性が読み取れる。
【０１３３】
したがって、これらの関連話題が重複して抽出されてはいるが、単に冗長なわけではなく、２ノードずつのまとまり間の関係も、個々のノード間の関係も、ともに重要な意味を持っていることが分かる。そこで、図２５では、まとまり全体を対比するだけでなく、個々の話題も対比できるように、対応する話題の開始位置を揃えて出力している。
【０１３４】
また、出力部２８は、関連箇所の内容を要約して提示することで、関連箇所の一覧性を向上させることもできる。例えば、上述した特開平１１−２７２６９９の技術を用いれば、上記の手順で抽出した重要語を多く含み、かつ、簡潔な要約を作成することができる。
【０１３５】
図２６は、このような要約処理の手順を簡略化して示したフローチャートである。出力部２８は、まず、関連話題対に対応して、第１の閲覧対象文書から切り出された関連箇所Ｐ１と第２の閲覧対象文書から切り出された関連箇所Ｐ２を、入力として受け取る（ステップＳ１２１）。そして、関連箇所Ｐ１、Ｐ２のそれぞれから重要語を抽出し、それらの重要語をマージする（ステップＳ１２２）。
【０１３６】
次に、関連箇所Ｐ１から重要文を選択して要約を作成し（ステップＳ１２３）、関連箇所Ｐ２からも同様にして要約を作成する（ステップＳ１２４）。そして、各関連箇所から作成された要約を比較しやすい形に整形し、対置して出力して（ステップＳ１２５）、処理を終了する。
【０１３７】
図２７は、図２６のステップＳ１２３およびＳ１２４における重要文選択処理のフローチャートである。この処理では、出力部２８は、まず、Ｐ１またはＰ２を重要文の選択対象箇所Ｐに設定し、ステップＳ１２２で抽出された重要語を、重要文の手掛かりとして重要語リストＫＷＬに設定する（ステップＳ１３１）。そして、対象箇所Ｐから重要語を最も多く含む文を重要文として選択し（ステップＳ１３２）、そのような文が選択できたか否かを判定する（ステップＳ１３３）。
【０１３８】
文が選択できた場合は、次に、選択した文に含まれる重要語を重要語リストＫＷＬから取り除き（ステップＳ１３４）、ＫＷＬが空か否かをチェックする（ステップＳ１３５）。ＫＷＬが空でなければ、ステップＳ１３２以降の処理を繰り返す。そして、すべての重要語に対して少なくとも１文以上の重要文が選択できた時点で選択処理を終了し、選択した文を元の文書における出現順に並べて、要約として出力して（ステップＳ１３６）、処理を終了する。
【０１３９】
また、ステップＳ１３３において、重要語を含む文がまったく選択できない場合は、処理を打ち切り、ステップＳ１３６の処理を行う。図２６および図２７に示した処理により、図２８、２９、および３０に示すような要約が作成される。
【０１４０】
このように、個々の関連話題に対応する関連箇所を個別に提示するだけでなく、要約機能により抽出された関連話題を短くまとめることで、関連箇所全体を一覧しやすい形で出力することができる。したがって、長い文書の比較・閲覧の際等に多くの関連話題が抽出されても、比較・閲覧作業を効果的に支援できる。
【０１４１】
また、出力部２８は、関連箇所と原文書である閲覧対象文書の全文とを対置して提示することで、閲覧対象文書における関連箇所の位置付け等を吟味しながら、関連箇所を分析する作業等を支援することができる。この場合、例えば、図３１に示すような形態で、関連箇所の要約と閲覧対象文書の全文とを対置して提示すればよい。また、関連箇所と閲覧対象文書中の対応箇所との間にハイパーリンクを設定すれば、より一層閲覧効率を高めることができる。
【０１４２】
図３１では、左フレームが関連箇所参照のウィンドウであり、右フレームが閲覧対象文書参照用のウィンドウである。ここでは、左フレームに、作成された関連箇所の要約が表示されており、発言者名の後ろのかぎ括弧内（下線部）には、閲覧対象文書の対象箇所へのハイパーリンクのアンカーが設定されている。そして、利用者が必要に応じてアンカーを指定することで、第１の閲覧対象文書の指定箇所が右上のウィンドウに表示され、第２の閲覧対象文書の指定箇所が右下のウィンドウに表示される。
【０１４３】
右フレームに提示された閲覧対象文書では、関連箇所が下線付きで強調表示され、関連箇所とその前後の文脈とを区別できるようになっている。強調表示の方法としては、カラー表示、網かけ表示等を用いることもできる。この例では、左フレームに関連箇所の要約が表示されているが、代わりに、関連箇所そのものを表示してもよい。また、利用者の要望に応じて、関連箇所を要約で提示するか、関連箇所の内容全体を提示するかを切り換えられるようにすることも考えられる。
【０１４４】
また、出力部２８は、閲覧対象文書間の関連箇所の関係をグラフ等を用いて図面で表現することで、閲覧対象文書相互の全体的な関連性を一目で把握できるようにすることもできる。この場合、例えば、図３２に示すような形態で、閲覧対象文書中の関連箇所の出現状況を提示すればよい。
【０１４５】
図３２では、上フレームに、２つの閲覧対象文書の話題階層が、図２４と同様のグラフ形式で表示されており、下フレームに、第１および第２の閲覧対象文書が対置して表示されている。話題階層のグラフには、関連話題を示すアークが付加されており、それぞれのアークには、両方の文書の関連箇所を同期して提示するためのハイパーリンクが設定されている。また、話題に対応する各ノードには、個々の閲覧対象文書の対応箇所へのハイパーリンクが設定されている。さらに、各閲覧対象文書には、図３１と同様に、関連箇所に強調表示が施されている。
【０１４６】
このように、閲覧対象文書間の関連箇所の出現状況をグラフ等により提示すれば、閲覧対象文書間の全体的な関連性の理解が促進される。これにより、例えば、本実施形態の閲覧対象文書のように全体として１対１で対応するような文書であるのか、それとも、特定の部分のみに集中して関連箇所が現れる文書であるのかを、利用者が一目で読み取れるようになる。そして、後者のような文書であれば、利用者は、関連箇所が集中している部分に絞って、効率的に文書の閲覧を進めることも可能になる。
【０１４７】
以上の実施形態では、主として、閲覧対象文書が２つの場合について説明したが、この処理を応用して、３つ以上の文書に対する比較・閲覧を支援することも可能である。例えば、いずれか１つの文書を基準（軸）として他の文書を比較するか、または、すべての閲覧対象文書の対に対して上述のような処理を行い、抽出された関連話題を何らかの方法で整理・統合して出力すればよい。後者の場合、関連話題の整理・統合の方法としては、例えば、いずれか１つの文書中の同一箇所に対応する他の文書の話題を統合することが考えられる。
【０１４８】
例えば、上述の「第１４９回衆議院本会議会議録第２号」に含まれる全８件の代表質問（答弁は除外）を、それぞれ異なる文書として切り出し、「第１４９回衆議院本会議会議録第１号」（２０００年７月２８日）中の首相の所信表明演説を基準文書として比較したところ、上述の第１の閲覧対象文書（水島広子議員による代表質問）にも関連する関連箇所として、図３３のような関連箇所が抽出された。
【０１４９】
図３３では、左コラムが基準文書の関連箇所の要約に対応し、中央のコラムが第１の閲覧対象文書の関連箇所の要約に対応し、右コラムが他の文書の関連箇所に対応している。ここでは、第１の閲覧対象文書に関連する箇所のみを例として示したが、他の質問者による代表質問についても、同様に、基準文書の適切な箇所と対応付けることが可能である。
【０１５０】
さらに、このような関連箇所を、基準文書に併合して出力することもできる。これにより、例えば、「所信表明演説のポイントとそれに対する各党代表者の見解」のような、統合的な文書の作成を支援することができる。
【０１５１】
図３４は、このような文書統合処理のフローチャートである。文書閲覧装置は、まず、利用者からの指示等に基づいて、複数の閲覧対象文書の中から基準文書を選択し（ステップＳ１４１）、上述の処理手順に従って、基準文書と他の各文書の間の関連箇所を抽出する（ステップＳ１４２）。そして、出力部２８は、抽出された関連箇所を基準文書における出現順にマージして、統合文書を作成し（ステップＳ１４３）、その文書を出力して（ステップＳ１４４）、処理を終了する。
【０１５２】
次に、英語の文書に対する処理について、１９９９年のケルンサミットと２０００年の沖縄サミットにおけるＧ８による２つのコミュニケを対象とした場合を例に挙げて説明する。ここでは、外１を第１の英語閲覧対象文書とし、外２を第２の英語閲覧対象文書とした。
【０１５３】
【外１】

【０１５４】
【外２】

【０１５５】
これらの文書の全文は、それぞれ、４千５百語および７千語であり、本明細書および図面にすべての処理結果を記載するには長すぎるため、以下では全体の半分ほどの部分のみを対象として処理を行った。全体で１０節からなる第１の閲覧対象文書では、以下の５節（１千８百語）を処理対象とし、第２の閲覧対象文書では、前置き（Preamble）の次に位置する以下の１パート（３千５百語）を処理対象とした。
（１）第１の閲覧対象文書の処理対象部分
I. Getting the World Economy on Track for Sustained Growth
II. Building a World Trading System That Works for Everyone
III. Designing Policies for More Employment
IV. Investing in People
V. Strengthening Social Safeguards
（２）第２の閲覧対象文書の処理対象部分
Toward a 21st century of greater prosperity
また、ここでは、次のような処理方法およびパラメータを採用した。
（１）単語認定の方法：ストップワードリストを用いた方法
（２）結束度計算用の窓の幅：
最小窓幅ｗ＿ｍｉｎ＝８０（語）
最大窓幅ｗ１ｗ＿ｍｉｎの２の巾乗倍で、文書全体の１／２を超えない値の語数
刻み幅窓幅の１／８
図３５は、第１の閲覧対象文書の先頭部分を示しており、図３６は、その部分に対する単語認定部２２の処理結果を示している。図３６において、［］で括られた部分が、認定された単語に対応する。先頭の１文字のみが大文字の単語は、［］内ではすべて小文字に置き換えられている。
【０１５６】
この場合、単語認定部２２は、まず、空白および“，”、“．”、“：”、“；”等の区切り記号を手掛かりに単語を切り出し、次に、それらの単語のうち、図３７に示すようなストップワードリストに含まれる単語を取り除く、という手順で単語認定を行う。ストップワードリストとは、重要語として抽出したくない冠詞、前置詞等の単語を、あらかじめ定義したリストである。
【０１５７】
図３８は、上述の文書対に対する関連話題の抽出結果を示している。図３８において、左の木構造グラフが、第１の英語閲覧対象文書に対する話題階層認定部２５の出力、すなわち、第１の英語閲覧対象文書の話題階層の認定結果に対応し、右の木構造グラフが、第２の英語閲覧対象文書の話題階層の認定結果に対応する。また、これらの木構造のノード間のアークは、関連話題抽出部２７が抽出した関連話題対を表す。
【０１５８】
こうして抽出された関連話題を、出力部２８が図２６および図２７の手順により要約した結果、図３９、４０、および４１に示すような要約が得られた。
このように、本発明は、英語の閲覧対象文書に対しても、日本語の文書と同様に適用可能であり、また、任意の言語および任意の形式の文書に対して適用され、同様の結果を得ることができる。
（付記１）閲覧対象として指定された複数の文書を利用者に提示する文書閲覧装置であって、
前記複数の文書のそれぞれの話題階層を認定する話題階層認定手段と、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出する関連話題抽出手段と、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する関連話題提示手段と
を備えることを特徴とする文書閲覧装置。
（付記２）前記関連話題抽出手段は、前記認定された話題階層中の様々な粒度の話題からなる話題対について、該話題対の各話題に対応する記述箇所の語彙的類似性に基づき、該話題対の話題間の関連度を求め、話題の包含関係に基づいて設定された閾値以上の関連度を持つ話題対を、前記関連話題として抽出することを特徴とする付記１記載の文書閲覧装置。
（付記３）前記関連話題提示手段は、切り出された記述箇所を、前記複数の文書間の関連箇所として対置して提示することを特徴とする付記１記載の文書閲覧装置。
（付記４）前記関連話題提示手段は、前記関連箇所と元の文書とを対置・連動して提示することを特徴とする付記３記載の文書閲覧装置。
（付記５）前記関連話題提示手段は、前記関連箇所の内容を要約して提示することを特徴とする付記３記載の文書閲覧装置。
（付記６）前記関連話題提示手段は、前記関連箇所の要約と元の文書とを対置・連動して提示することを特徴とする付記５記載の文書閲覧装置。
（付記７）前記関連話題提示手段は、前記複数の文書に対応する複数の話題階層と、前記複数の関連話題に基づく、該複数の話題階層中の話題間の対応関係とを、図面を用いて提示し、該図面上における前記利用者の指示に応じて、該複数の文書中の対応箇所を連動して提示することを特徴とする付記３記載の文書閲覧装置。
（付記８）前記関連話題提示手段は、前記複数の文書のうちの１つの文書を基準文書として、前記関連話題に対応する記述箇所を他の文書から該基準文書に取り込んで新たな統合文書を作成し、該統合文書を出力することを特徴とする付記１記載の文書閲覧装置。
（付記９）閲覧対象として指定された複数の文書を利用者に提示するコンピュータのためのプログラムを記録した記録媒体であって、該プログラムは、
前記複数の文書のそれぞれの話題階層を認定し、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出し、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する
処理を前記コンピュータに実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
（付記１０）閲覧対象として指定された複数の文書を利用者に提示するコンピュータにプログラムを伝送する伝搬信号であって、該プログラムは、
前記複数の文書のそれぞれの話題階層を認定し、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出し、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する
処理を前記コンピュータに実行させることを特徴とする伝搬信号。
（付記１１）閲覧対象として指定された複数の文書を利用者に提示する文書提示方法であって、
前記複数の文書のそれぞれの話題階層を認定し、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出し、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する
ことを特徴とする文書提示方法。
【０１５９】
【発明の効果】
本発明によれば、個々の閲覧対象文書の話題階層を用いて、複数の閲覧対象文書中の様々な粒度の話題が比較できるため、文書間で記述量の大きく異なる関連話題を適切に抽出することができる。また、抽出された関連話題に対応する関連箇所をそれぞれの閲覧対象文書から切り出し、それらを対置して出力することで、関連箇所を容易に比較・分析することが可能になる。このように、本発明によれば、複数の文書の比較閲覧作業が効果的に支援される。
【図面の簡単な説明】
【図１】本発明の文書閲覧装置の原理図である。
【図２】本発明の文書閲覧装置の構成図である。
【図３】情報処理装置の構成図である。
【図４】記録媒体を示す図である。
【図５】閲覧対象文書を示す図である。
【図６】単語認定処理のフローチャートである。
【図７】単語認定結果の例を示す図である。
【図８】形態素解析処理のフローチャートである。
【図９】日本語の辞書引きの例を示す図である。
【図１０】英語の辞書引きの例を示す図である。
【図１１】話題階層認定処理のフローチャートである。
【図１２】結束度の系列を示す図である。
【図１３】結束度分布の例を示す図である。
【図１４】移動平均値と文書領域との関係を示す図である。
【図１５】話題境界候補区間認定処理のフローチャートである。
【図１６】結束力拮抗点を示す図である。
【図１７】話題境界認定処理のフローチャートである。
【図１８】関連付け対象データを示す図である。
【図１９】話題境界の認定結果を示す図である。
【図２０】第１の閲覧対象文書の話題階層を示す図である。
【図２１】第２の閲覧対象文書の話題階層を示す図である。
【図２２】関連話題抽出処理のフローチャートである。
【図２３】関連度の計算結果を示す図である。
【図２４】関連話題の抽出結果を示す図である。
【図２５】関連箇所の出力例を示す図である。
【図２６】要約処理のフローチャートである。
【図２７】重要文選択処理のフローチャートである。
【図２８】関連箇所の要約例を示す図（その１）である。
【図２９】関連箇所の要約例を示す図（その２）である。
【図３０】関連箇所の要約例を示す図（その３）である。
【図３１】原文書参照機能付き関連箇所提示の例を示す図である。
【図３２】グラフ付き関連箇所提示の例を示す図である。
【図３３】３文書に対する関連箇所の出力例を示す図である。
【図３４】文書統合処理のフローチャートである。
【図３５】英語閲覧対象文書の先頭部分を示す図である。
【図３６】英語閲覧対象文書の単語認定結果を示す図である。
【図３７】ストップワードの例を示す図である。
【図３８】英語の関連話題の抽出結果を示す図である。
【図３９】英語の関連箇所の要約例を示す図（その１）である。
【図４０】英語の関連箇所の要約例を示す図（その２）である。
【図４１】英語の関連箇所の要約例を示す図（その３）である。
【符号の説明】
１話題階層認定手段
２関連話題抽出手段
３関連話題提示手段
１１閲覧対象文書
１２文書閲覧装置
１３利用者
２１入力部
２２単語認定部
２３形態素解析部
２４単語辞書
２５話題階層認定部
２６話題境界候補区間認定部
２７関連話題抽出部
２８出力部
４１出力装置
４２入力装置
４３ＣＰＵ
４４ネットワーク接続装置
４５媒体駆動装置
４６補助記憶装置
４７主記憶
４８バス
４９可搬記録媒体
５０サーバ
５１データベース

Claims

閲覧対象として指定された複数の文書を利用者に提示する文書閲覧装置であって、
前記複数の文書のそれぞれについて、文書中の各位置の前後に設定した２つの窓中に出現している語彙をもとに該２つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の包含関係を認定し、認定された包含関係を示す話題階層のデータを生成する話題階層認定手段と、
前記複数の文書のうち第１の文書の話題階層に含まれる各話題と、第２の文書の話題階層に含まれる各話題からなる話題対について、それぞれの話題対における話題間の関連度を求め、閾値以上の関連度を持つ話題対を、前記複数の文書に共通して現れる関連話題として抽出する関連話題抽出手段と、
抽出された話題対の各話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する関連話題提示手段と
を備えることを特徴とする文書閲覧装置。