JP2002169803A

JP2002169803A - 複数の文書を閲覧するための装置および方法

Info

Publication number: JP2002169803A
Application number: JP2001265996A
Authority: JP
Inventors: Yoshio Nakao; 由雄仲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-09-25
Filing date: 2001-09-03
Publication date: 2002-06-14
Anticipated expiration: 2021-09-03
Also published as: JP4108948B2

Abstract

(57)【要約】【課題】複数の文書に含まれる粒度の異なる話題につ
いて、適切な関連箇所を切り出して提示することが課題
である。【解決手段】話題階層認定手段１は、複数の閲覧対象
文書のそれぞれの話題階層を認定し、関連話題抽出手段
２は、認定された話題階層に基づき、複数の文書に共通
して現れる関連話題を抽出する。関連話題提示手段３
は、複数の文書の比較作業を支援するために、抽出され
た関連話題に対応する記述箇所を、それぞれの文書から
切り出し、関連箇所として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、機械可読文書をコ
ンピュータの画面上で閲覧するための装置およびその方
法に関し、特に、複数文書の内容を対比して閲覧可能な
形で提示することで、関連文書の比較閲覧作業を支援す
ることを意図したものである。

【０００２】

【従来の技術】利用者が複数の関連文書を比較しながら
閲覧する場合、それらの文書の関連箇所をわかりやすく
提示する技術があれば、比較作業の効率が向上する。例
えば、ある調査項目について複数の地域の実情を調査レ
ポートにまとめるために、各地域の調査担当者から寄せ
られた調査レポートを読む場合、あるいは、質問状と回
答書を読み比べる場合等に、関連箇所の比較を支援する
技術が要望される。このような複数文書の比較支援に関
する文献として、例えば、以下の７つが挙げられる。［１］Christine M. Neuwirth and David S. Kaufer. T
he role of external representations in the writing
process: Implications for the design of hypertext
-based writing tools. In Proc. of Hypertext '89, p
p.319-341. the Association for Computing Machiner
y, Nov. 1989. ［２］大森信行(Nobuyuki Omori), 岡村潤(Jun Okamur
a), 森辰則(Tatsunori Mori), 中川裕志(Hiroshi Naka
gawa). ｔｆ・ｉｄｆ法を用いた関連マニュアル群のハ
イパーテキスト化. 情報処理学会研究報告FI-47-8/NL-1
21-16, 情報処理学会, Sep. 1997. ［３］Gerard Salton, Amit Singhal, Chris Buckley,
and Mandar Mitra. Automatic text decomposition usi
ng text segments and text themes. In Proc. of Hype
rtext '96, pp. 53-65. the Association for Computin
g Machinery, Mar. 1996. ［４］Inderjeet Mani and Eric Bloedorn. Summarizin
g similarities and differences among related docum
ent. chapter 23, pp. 357-379. The MIT Press,Londo
n, 1999. (reprint of Information Processing and Ma
nagement, Vol. 1, No. 1, pp. 1-23, 1999). ［５］特開平７−３２５８２７［６］特開２０００−５７１５２（Ｐ２０００−５７１
５２Ａ）［７］特開平１１−３９３３４このうち、文献［１］では、関連論文に見られる一致点
・相違点を、著者と命題(proposition)との２つの観点
で一覧表の形にまとめた、“Synthesis Grid ”という
インタフェース（画面）が提案されている。

【０００３】また、文書の関連箇所を抽出する従来の技
術として、同一語彙の出現を手掛かりに、関連文書中の
関連箇所にハイパーリンクを設定する技術が知られてい
る。例えば、文献［２］では、文書中の一節に相当する
「セグメント」を単位に文書を分割し、語彙的類似度の
高いセグメント間にハイパーリンクを設定する技術が示
されている。また、文献［５］や文献［６］では、関連
文書中の同一キーワードの出現箇所にハイパーリンクを
設定する技術等が示されている。

【０００４】その他、関連箇所の検出に関する技術とし
て、文献［３］では、語彙的類似性の高い段落群を検出
することで、単一文書中の関連箇所を抽出する技術が示
されている。また、文献［４］では、文書中の語彙の連
鎖等に基づく活性伝搬ネットワークを用いて、共通の関
連語群を含む文等を検出する技術が示されている。

【０００５】また、関連文書の一致点・相違点を出力す
る技術としては、文献［７］に、複数の関連記事に対し
て、共通の内容とそれ以外の内容を区別して出力する技
術が示されている。例えば、複数の入力記事のうち、１
つを主記事としてその全体を表示し、残りの記事につい
ては、独自情報（共通情報以外の情報）のみを補足情報
として表示する方法が示されており、また、主記事とし
て全体を表示した記事に関しては、共通情報を強調表示
（網かけして表示）する方法等も示されている。

【０００６】

【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、以下の２つの問題がある。第１の問
題は、関連箇所を認定する単位が固定的であるため、粒
度の異なる話題に対して、適切な関連箇所を検出するこ
とが難しいということである。つまり、上述の従来技術
では、節・段落・文（または語の出現位置そのもの）の
いずれか１つに比較の単位を固定しているため、基本的
に検出できるのは、節対節、段落対段落等、比較の単位
の大きさの箇所同士に限られることになる。

【０００７】このため、例えば、第１の閲覧文書中で２
段落からなる箇所が、ひとつのまとまりとして、第２の
閲覧文書中の数段落以上の大きさの箇所と関連している
場合等には、関連箇所を対比できる形で適切に切り出す
ことが難しい。それを実現するためには、関連箇所とし
て検出された箇所を併合する等、何らかの別の手段を講
じることが必要になる。

【０００８】第２の問題点は、ある話題に関する関連箇
所と、別の話題に関する関連箇所あるいは元の文書全体
との関係を十分に表現できないことである。例えば、長
めで話題が複雑に込み入った文書同士を比較すると、複
数の話題に関する関連箇所が、互いに絡み合って見い出
されることがある。

【０００９】このような場合、個々の話題についてそれ
ぞれの文書から抽出した関連箇所を相互に比較するだけ
でなく、文書間に共通する複数の話題の相互関係や、各
関連箇所が出現する文脈等も考慮して、子細に吟味する
必要が生ずる。このとき、複数の関連箇所を一覧でき、
各関連箇所の周辺部も容易に参照できることが望ましい
が、上述の従来技術ではこのような機能は実現されてい
ない。

【００１０】本発明の第１の課題は、それぞれの文書毎
に粒度の異なる話題に対しても適切な関連箇所を切り出
して提示する文書閲覧装置およびその方法を提供するこ
とである。また、本発明の第２の課題は、複数の話題に
関する関連箇所を、比較・分析しやすい形態で提示する
文書閲覧装置およびその方法を提供することである。

【００１１】

【課題を解決するための手段】図１は、本発明の文書閲
覧装置の原理図である。図１の文書閲覧装置は、話題階
層認定手段１、関連話題抽出手段２、および関連箇所提
示手段３を備え、閲覧対象として指定された複数の文書
を利用者に提示して、それらの文書の比較作業を支援す
る。

【００１２】話題階層認定手段１は、複数の閲覧対象文
書のそれぞれの話題階層を認定する。ここで、話題階層
とは、文書を構成する複数の話題のまとまりが２段以上
の階層構造を成していることを意味する。この階層構造
は、例えば、文書を構成する複数の大きな話題のまとま
りの各々が、１つ以上のより小さな話題のまとまりを含
み、小さな話題のまとまりの各々が、１つ以上のさらに
小さな話題のまとまりを含むというような話題の包含関
係に対応する。

【００１３】関連話題抽出手段２は、認定された話題階
層に基づき、複数の閲覧対象文書に共通して現れる関連
話題を抽出する。このとき、複数の文書にそれぞれ対応
する複数の話題階層を比較し、関連性の強い話題の組み
合わせを抽出し、複数の文書にまたがる関連話題として
出力する。例えば、文書Ｄ１と文書Ｄ２から、第１の話
題階層と第２の話題階層が得られた場合、第１の話題階
層中の様々な粒度の話題それぞれを、第２の話題階層中
の様々な粒度の話題それぞれと比較し、関連性の強い話
題の対を抽出し、それらを関連話題として出力する。

【００１４】関連話題提示手段３は、抽出された関連話
題に対応する記述箇所を、それぞれの閲覧対象文書から
切り出して出力する。このとき、切り出された記述箇所
は、複数の閲覧対象文書にまたがる関連箇所として出力
される。

【００１５】このように、文書閲覧装置は、話題階層認
定手段１によって、個々の閲覧対象文書に含まれる様々
な粒度（大きさ）の話題を検出し、それに基づき、関連
話題抽出手段２によって、文書間にまたがる関連話題を
検出する。そして、関連話題提示手段３によって、関連
話題に対応する文書に記述箇所を切り出して出力する。

【００１６】閲覧対象文書に含まれる様々な粒度の話題
を単位に、網羅的に話題の関連性を調べることで、大き
さの異なる記述箇所の対応関係を検出することができ
る。例えば、文書Ｄ１中の２段落相当の大きさの箇所
が、ひとつのまとまりとして、文書Ｄ２中の数段落以上
の大きさの箇所と関連している場合等にも、適切な関連
箇所を切り出すことが可能になる。

【００１７】さらに、図１の文書閲覧装置は、以下のよ
うな様々な機能を有する。関連話題抽出手段２は、関連
話題の関連度を、各話題に対応する文書中の記述箇所の
語彙的類似性によって求め、話題の包含関係に基づき設
定した閾値により関連話題を選択する。例えば、上位層
の話題Ａと話題Ｂの対が関連度Ｒ１を示している場合、
話題Ａと話題Ｂが包含するより小さな話題のいずれも
が、いずれの話題ともＲ１以上の関連度を示していない
場合にのみ、話題Ａと話題Ｂの対を関連話題として出力
する。

【００１８】これにより、不適切な関連箇所の出力が抑
制され、より効率的に関連箇所を出力できるようにな
る。例えば、２つの閲覧対象文書のそれぞれに、複数段
落からなる話題のまとまりがあり、それらが関連してい
る場合、それらのまとまりを構成する一部の段落もまた
ある粒度の話題として並行的に関連していることがあ
る。

【００１９】すなわち、文書Ｄ１中の第１、第２段落
と、文書Ｄ２の第１、第２段落の間で、２段落のまとま
り同士においても、また第１段落同士、第２段落同士に
おいても、関連が見い出される場合等がある。このよう
な場合にも、まとまり同士の関係として関連箇所を出力
するか、個々の段落同士の関係として関連箇所を出力す
るかを、適切に選択し、冗長な出力を抑制することがで
きる。

【００２０】また、関連話題提示手段３は、関連箇所を
関連話題単位に分け、対置して提示する。これにより、
複数の関連話題が検出された場合においても、利用者
は、個々の話題に関する対応箇所を対比して閲覧するこ
とが可能になる。

【００２１】また、話題関連提示手段３は、各関連箇所
の内容を短く要約して出力することもできる。これによ
り、多くの関連話題が検出された場合においても、利用
者は、関連箇所全体の内容を一覧できるようになる。

【００２２】また、関連話題提示手段３は、各関連箇所
に対応する元の文書の部分を連動して提示することもで
きる。例えば、それぞれの関連箇所に元文書参照用のボ
タン（ハイパーリンク等）を添えて提示し、そのボタン
による要求に応じて、元文書の関連部を、併置した別の
ウィンドウに提示する。これにより、利用者は、各関連
箇所が出現する文脈を参照しながら、関連箇所の内容を
吟味すること等が可能になる。

【００２３】また、関連話題提示手段３は、閲覧対象文
書の話題階層を表現した図面を合わせて提示し、図面上
での利用者の指定に応じて、閲覧対象文書の対応箇所を
連動して提示する。例えば、各話題をノードとする話題
階層の木構造グラフを２つ併置し、また、関連話題をノ
ード間のアークとして提示し、利用者の要求を受け付け
る。そして、利用者がアークを指定した場合には、その
アークに対応する関連箇所を別のウィンドウに提示し、
また、ノードを指定した場合には、そのノードに対応す
る部分を同様に提示する。

【００２４】これにより、利用者は、文書全体の話題の
構成を手掛かりに、必要に応じて別の関連箇所の内容等
を参照しながら、関連箇所を吟味することが可能にな
り、より効率的に複数文書を比較・閲覧できるようにな
る。

【００２５】また、関連話題提示手段３は、複数の閲覧
対象文書の中の１つの文書を基準として、関連話題に関
する記述箇所を他の閲覧対象文書から取り込むことで、
新たな統合文書を作成し、提示する。これにより、例え
ば、利用者は、複数文書をまとめたレポート等の統合文
書を効率的に作成できるようになる。

【００２６】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本発明は、文書の一
致点・相違点をわかりやすく提示するという機能に関
し、現在の技術で自動化可能な範囲で実現したものであ
る。具体的には、文書内の関連箇所の自動抽出技術を利
用して、複数の関連文書における関連箇所を対比して提
示する機能を実現している。

【００２７】図２は、本発明の文書閲覧装置の基本構成
を示している。図２の文書閲覧装置１２は、入力部（in
put unit）２１、単語認定部（tokenizer ）２２、単語
辞書（machine readable dictionary ）２４、話題階層
認定部（thematic hierarchydetector ）２５、関連話
題抽出部（related topic extractor ）２７、および出
力部（output unit ）２８を備える。

【００２８】図１の話題階層認定手段１、関連話題抽出
手段２、および関連話題提示手段３は、それぞれ、図２
の話題階層認定部２５、関連話題抽出部２７、および出
力部２８に対応する。

【００２９】図２において、文書閲覧装置１２は、複数
の閲覧対象文書１１が入力されると、それらの閲覧対象
文書にまたがり、共通話題に関する関連箇所を抽出し、
利用者１３に提示する。

【００３０】入力部２１は、複数の閲覧対象文書１１を
読み込み、それぞれを逐次単語認定部２２に渡す。単語
認定部２２は、サブモジュールの形態素解析部（morpho
logical analyzer）２３を用いてそれぞれの文書１１を
言語的に解析して、文書１１に含まれる内容語（名詞・
動詞・形容詞・形容動詞等）を切り出し、対応する文書
１１の部分に印を付ける。このとき、形態素解析部２３
は、単語辞書２４を参照して、文書１１中の文を、品詞
情報付きの単語リストに変換する。単語辞書２４は、形
態素解析用の単語辞書であって、単語の表記文字列と品
詞・活用の情報との対応関係等を記述している。

【００３１】話題階層認定部２５は、内容語の印付きの
複数の閲覧対象文書１１を受け取り、それぞれの文書１
１の話題階層を認定し、出力する。話題階層認定部２５
は、まず、サブモジュールの話題境界候補区間認定部
（thematic boundary detector）２６を用いて、文書中
の様々な粒度（大きさ）の話題のまとまりを自動認定す
る。ここで、話題のまとまりとは、共通の話題について
記述している文書の部分を指す。そして、大きな話題の
まとまりと小さな話題のまとまりを対応付けて話題階層
データを作成し、出力する。

【００３２】話題境界候補区間認定部２６は、語彙的結
束度の小さい区間を話題境界の候補区間として認定す
る。語彙的結束度とは、文書中の各位置の近傍領域にお
ける語彙的結束性の強さを表す指標であり、例えば、各
位置の前後に設定したある幅の窓内に出現する語彙の類
似性から求められる。

【００３３】関連話題抽出部２７は、複数の閲覧対象文
書１１のそれぞれに対応する、複数の話題階層を、話題
階層認定部２５から受け取り、２つ以上の文書に共通し
て現れる関連話題を検出し、関連話題のリストを出力す
る。

【００３４】出力部２８は、関連話題抽出部２７が抽出
した関連話題に対応する記述箇所をそれぞれの文書から
切り出し、関連話題毎にまとめて（または対応づけ
て）、利用者１３に提示する。

【００３５】図２の文書閲覧装置１２は、例えば、図３
に示すような情報処理装置（コンピュータ）を用いて構
成することができる。図３の情報処理装置は、出力装置
４１、入力装置４２、ＣＰＵ（中央処理装置）４３、ネ
ットワーク接続装置４４、媒体駆動装置４５、補助記憶
装置４６、およびメモリ（主記憶）４７を備え、それら
はバス４８により互いに接続されている。

【００３６】メモリ４７は、例えば、ＲＯＭ（read onl
y memory）、ＲＡＭ（random access memory）等を含
み、文書閲覧処理に用いられるプログラムとデータを格
納する。ここでは、図２に示した入力部２１、単語認定
部２２、形態素解析部２３、話題階層認定部２５、話題
境界候補区間認定部２６、関連話題抽出部２７、および
出力部２８が、プログラムモジュールとして格納されて
いる。ＣＰＵ４３は、メモリ４７を利用してプログラム
を実行することにより、必要な処理を行う。

【００３７】出力装置４１は、例えば、ディスプレイや
プリンタ等であり、利用者１３への問い合わせや、閲覧
対象文書１１および処理結果等の出力に用いられる。入
力装置４２は、例えば、キーボード、ポインティングデ
バイス、タッチパネル、スキャナー等であり、利用者１
３からの指示や閲覧対象文書１１の入力に用いられる。

【００３８】補助記憶装置４６は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク（magneto-op
tical disk）装置等であり、閲覧対象文書１１、単語辞
書２４等の情報を格納する。また、情報処理装置は、こ
の補助記憶装置４６に、上述のプログラムとデータを保
存しておき、必要に応じて、それらをメモリ４７にロー
ドして使用する。

【００３９】媒体駆動装置４５は、可搬記録媒体４９を
駆動し、その記録内容にアクセスする。可搬記録媒体４
９としては、メモリカード、フロッピー（登録商標）デ
ィスク、ＣＤ−ＲＯＭ（compact disk read only memor
y ）、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体が用いられる。利用者１３
は、この可搬記録媒体４９に上述のプログラムとデータ
を格納しておき、必要に応じて、それらをメモリ４７に
ロードして使用する。

【００４０】ネットワーク接続装置４４は、ＬＡＮ（lo
cal area network）等の任意のネットワーク（回線）を
介して外部の装置と通信し、通信に伴うデータ変換を行
う。また、情報処理装置は、上述のプログラムとデータ
をネットワーク接続装置４４を介して、サーバ等の他の
装置から受け取り、必要に応じて、それらをメモリ４７
にロードして使用する。

【００４１】図４は、図３の情報処理装置にプログラム
とデータを供給することのできるコンピュータ読み取り
可能な記録媒体を示している。可搬記録媒体４９やサー
バ５０のデータベース５１に保存されたプログラムとデ
ータは、メモリ４７にロードされる。そして、ＣＰＵ４
３は、そのデータを用いてそのプログラムを実行し、必
要な処理を行う。このとき、サーバ５０は、プログラム
とデータを伝送する伝搬信号を生成し、ネットワーク上
の任意の伝送媒体を介して、情報処理装置に送信する。

【００４２】次に、図２に示した文書閲覧装置１２の各
モジュールの動作を、具体例を用いてより詳細に説明す
る。閲覧対象文書の例としては、「第１４９回衆議院本
会議会議録第２号」（２０００年７月３１日）から、水
島広子議員による代表質問（第１の閲覧対象文書）とそ
れに対する首相の答弁（第２の閲覧対象文書）を、それ
ぞれ１つの文書として切り出したものを用いた。衆議院
の代表質問は、党を代表する議員がいくつかの項目を一
括して質問した後、首相・関係大臣が答弁する形で進め
られるが、この代表質問では、子供の教育、民法改正、
国会運営、有害情報、小児医療、歳費支給方式の６つの
問題に関し、計８項目が質問されている。

【００４３】図５は、代表質問部を切り出した第１の閲
覧対象文書の冒頭部である。なお、図５において、下線
を引いた箇所、すなわち、冒頭の発言議員名および括弧
で囲まれた議事進行に関する補足情報については、代表
質問の内容ではないため、除外してから、以降の処理を
行った。首相の答弁部を切り出した第２の閲覧対象文書
においても、同様に冒頭の発言者名と括弧内の補足情報
は除去して処理を行っている。

【００４４】図６は、単語認定部２２による単語認定処
理のフローチャートである。単語認定部２２は、まず、
個々の閲覧対象文書に形態素解析を施し、品詞付きの単
語リストを作成する（ステップＳ１１）。次に、品詞を
手掛かりに内容語（名詞・動詞・形容詞・形容動詞）を
認定し、内容語に対応する文書の部分に印を付けて（ス
テップＳ１２）、処理を終了する。図７は、図５の文書
部分に対する単語認定部２２の処理結果を示している。

【００４５】図６のステップＳ１１において、形態素解
析部２３は、図８に示すような形態素解析処理を行う。
形態素解析部２３は、まず、単語リストをクリアし（ス
テップＳ２１）、文書の先頭から句点（またはピリオ
ド）等を手掛かりに文の取り出しを試み（ステップＳ２
２）、文が取り出せたかどうかを判定する（ステップＳ
２３）。

【００４６】文が取り出せれば、次に、単語辞書２４を
参照して、文に含まれている単語の候補を求める（ステ
ップＳ２４）。日本語の場合は、図７に示したように、
単語と単語の境界が形式的に明示されていないので、文
に含まれる部分文字列に対応するすべての単語を候補と
して求める。例えば、「東京都は大都市だ」という文が
取り出された場合、図９に示すように、この文に含まれ
るすべての部分文字列が単語の候補となる。

【００４７】これに対して、英語の場合は、単語の境界
が空白（スペース）により明示されているため、空白で
区切られた文字列に対応する単語について、品詞の候補
を求めることが主な処理となる。例えば、“Tokyo is t
he Japanese capital.”という文が取り出された場合、
図１０に示すように、この文に明示的に含まれる５つの
単語の基本形と品詞が求められる。

【００４８】次に、形態素解析部２３は、品詞レベルの
連接の観点から、妥当な単語の並びを選択し（ステップ
Ｓ２５）、選択された単語の並びに品詞と出現位置の情
報を付加して、出現順に単語リストに追加する（ステッ
プＳ２６）。次に、次の文の取り出しを試み（ステップ
Ｓ２７）、ステップＳ２３以降の処理を繰り返す。そし
て、ステップＳ２３において文が取り出せなくなると、
処理を終了する。

【００４９】図１０の単語認定結果において、墨付き括
弧で括られた部分が形態素解析部２３の認定した内容語
である。内容語が活用語（動詞・形容詞）の場合、墨付
き括弧内で、スラッシュ（／）の前の部分は語幹を表
し、スラッシュの後の部分は終止形の活用語尾を表す。
これは、後の処理で単語の区別を行うために用いられる
情報であるが、この情報の代わりに、品詞と活用を付加
しておいてもよい。要するに、例えば、「い／う」と
「い／る」のように、語幹だけでは区別の付かない単語
を区別するための識別情報であれば、任意のものを用い
ることができる。

【００５０】また、ステップＳ２５において、単語の並
びの妥当性を評価する方法は、形態素解析法として各種
のものが知られており、任意のものを用いることができ
る。例えば、以下の文献［８］、［９］、および［１
０］では、単語の並びの妥当性を訓練データにより推定
された出現確率を用いて評価する方法が報告されてい
る。［８］Eugene Charniak. Hidden markov models and tw
o applications. In Statistical Language Learning,
chapter 3, pp. 37-73. The MIT Press, 1993. ［９］永田昌明. 前向きＤＰ後向きＡ＊アルゴリズム
を用いた確率的日本語形態素解析システム. 情報処理学
会研究報告NL-101-10, 情報処理学会, May 1994. ［１０］Masaaki Nagata. A stochastic japanese morp
hological analyzer using a forward-DP backward-A＊
N-best search algorithm. In Proc. of COLING'94, p
p. 201-207, Aug. 1994. なお、図７の例では、単語認定部２２がすべての内容語
を切り出しているが、切り出しの対象を名詞だけに絞っ
ても構わない。また、英語の文書を対象に処理する場合
には、形態素解析処理を行う代わりに、空白で区切られ
たすべての語のうち、話題に関わらずどこにでも出現す
る語彙（冠詞、前置詞等の機能語や特に高い頻度で出現
する語）を取り除いて、単語を切り出してもよい。この
ような処理は、単語辞書２４の代わりに、機能語や特に
高い頻度で出現する語を格納したストップワードリスト
（stop word list）を用意すれば、容易に実現できる。

【００５１】次に、話題階層認定部２５の処理について
説明する。本実施形態においては、話題のまとまりは、
先願の特開平１１−２７２６９９「文書要約装置および
その方法」に示された技術に基づいて認定している。こ
の方法では、以下の手順で話題の階層構成が認定され
る。１．話題境界位置の区間推定ある窓幅で計算した結束度に基づき、話題境界が存在し
そうな位置を、話題境界候補区間として求める。そし
て、大きさの異なる複数の窓幅に対してこの処理を繰り
返し、大きな話題の切れ目を示す境界から小さな話題の
切れ目を示す境界まで、話題の大きさ別に話題境界候補
区間を求める。２．話題の階層関係の認定異なる窓幅により求めた話題境界候補区間を統合し、話
題の階層構造とそれぞれの話題境界の位置を決定する。

【００５２】図１１は、話題階層認定部２５による話題
階層認定処理のフローチャートである。話題階層認定部
２５は、まず、最大窓幅ｗ１、最小窓幅ｗ＿ｍｉｎ、窓
幅比ｒの３つのパラメータを利用者から受け取り（ステ
ップＳ４１）、結束度を測定するための窓幅の集合Ｗを
求める（ステップＳ４２）。窓幅の集合Ｗは、初項をｗ
１とし、公比を１／ｒとする等比級数から、ｗ＿ｍｉｎ
以上の大きさの項を集めて作成される。

【００５３】このとき、Ｗにおける最大窓幅ｗ１として
は、文書全体のサイズの１／２〜１／４程度の大きさを
与え、最小窓幅ｗ＿ｍｉｎとしては、段落程度の大きさ
（例えば４０語）を与え、窓幅比ｒとしては２を与えて
おけば、実用上十分である。以下では、ｗ１＝３２０
（語）、ｗ＿ｍｉｎ＝４０（語）、ｒ＝２の値を用いて
いる。

【００５４】次に、話題階層認定部２５は、図７に示し
たように、内容語に印が付けられた文書をもとに、文書
中の各位置の結束度を、Ｗ中のそれぞれの窓幅毎に計算
し、結束度系列として記録する（ステップＳ４３）。

【００５５】ここでは、まず、文書の各位置（基準点）
の前後に設定した２つの窓の中に出現している語彙（こ
こでは内容語）を比較し、共通している語彙が多い程大
きくなるような値を計算して、その位置における結束度
とする。そして、窓の位置を文書の冒頭から末尾に向か
って一定の刻み幅ｔｉｃでずらしながら、結束度の計算
を繰り返し、計算した結束度を、文書の冒頭から末尾に
向かう系列として記録する。

【００５６】刻み幅ｔｉｃは、窓幅より小さければいず
れの値でも構わないが、処理効率を考慮して、ここで
は、窓幅の１／８の値を用いた。このｔｉｃの値は、利
用者により指定することも可能である。

【００５７】結束度の計算方法としては各種の方法が考
えられるが、以下では、情報検索等の分野で類似度の尺
度として広く用いられてきた余弦測度（cosine measur
e）を用いている。余弦測度は次の式により求められ
る。

【００５８】

【数１】

【００５９】ここで、ｂｌとｂｒは、それぞれ、左窓
（文書の冒頭側の窓）、右窓（文書の末尾側の窓）に含
まれる文書の部分を表し、ｗｔ，ｂｌ、ｗｔ，ｂｒは、
それぞれ、左窓、右窓に出現する単語ｔの出現頻度を表
す。また、（１）式の右辺のΣｔは、単語ｔに関する
総和を表す。

【００６０】（１）式の類似度は、左右の窓に含まれる
語彙に共通のものが多いほど大きくなり（最大１）、共
通のものがない時に０となる。つまり、この値が大きい
部分は、左右の窓で共通の話題を扱っている可能性が高
く、逆に、この値が小さい部分は、話題の境界である可
能性が高いことになる。

【００６１】次に、図１２は、ステップＳ４３で記録さ
れた結束度の系列の例を示している。図１２では、簡単
のため、窓幅ｗの１／４を刻み幅ｔｉｃとして用いてお
り、文書領域ａ１〜ａ１１は、刻み幅ｔｉｃに対応する
一定幅の領域である。また、ｃ１は、文書中のａ４とａ
５の境界を基準点として計算した、窓幅ｗの結束度を表
す。すなわち、ｃ１は、文書領域ａ１〜ａ４の部分を左
窓の範囲とし、ａ５〜ａ８の部分を右窓の範囲として計
算された結束度である。

【００６２】次のｃ２は、窓をｔｉｃ分だけ右へずらし
て計算された結束度を表し、ａ５とａ６の境界を基準点
とする窓幅ｗの結束度である。このようにして、窓をｔ
ｉｃ分ずつ順に右へずらして計算したｃ１，ｃ２，ｃ
３，ｃ４，．．．を、文書の冒頭から末尾へ向かう窓幅
ｗの結束度系列と呼ぶ。

【００６３】図１３は、上述の単語認定結果において、
文書の冒頭から各基準点までの間に出現した内容語の延
べ数を横軸にとり、最小窓幅（４０語）の結束度系列を
プロットしたグラフである。例えば、図１２の結束度ｃ
２の場合は、ａ１〜ａ５の領域中の内容語の延べ数が、
文書における基準点の位置となる。ここでは、４０語の
窓幅の１／８（５語）を刻み幅ｔｉｃとして、文書の冒
頭から末尾に向かって結束度を計算している。

【００６４】次に、話題階層認定部２５は、サブモジュ
ールの話題境界候補区間認定部２６を使って、それぞれ
の窓幅の結束度系列を解析し、結束度の低い区間を話題
境界候補区間として認定する（ステップＳ４４）。具体
的には、結束度系列の極小点を手掛かりに、それぞれの
結束度系列の窓幅程度の大きさの話題のまとまりの境界
位置を区間推定する。本実施形態では、この処理を、移
動平均法を用いて実現している。

【００６５】次に、話題階層認定部２５は、異なる窓幅
の結束度系列に基づいて求めた話題境界候補区間を互い
に関連付け、話題の境界位置を語の単位で決定する（ス
テップＳ４５）。そして、語の単位で決定された話題の
境界位置を微調整し、文境界（句点で区切られた部分の
開始位置）に合わせてから、話題階層データを作成して
出力する（ステップＳ４６）。これにより、話題階層認
定処理が終了する。

【００６６】なお、ステップＳ４６において話題境界位
置を文境界に合わせるためには、認定された境界位置に
最も近い文の開始位置を求め、それを最終的な話題境界
の位置とすればよい。あるいは、先願の特願平１１−２
０５０６１「文書要約装置およびその方法」で開示され
た境界文認定技術を使って、より適切な話題境界（話題
の開始位置）を求めることも可能である。

【００６７】次に、図１１のステップＳ４４における話
題境界候補区間認定処理について、図１２および図１４
を使って説明する。ここで用いられる移動平均法は、株
価の変動などの統計的分析方法である時系列分析（time
series analysis）において、細かい変動を取り除いて
大局的な傾向を把握するために使われている。本実施形
態では、結束度系列の移動平均値を細かい変動を無視す
るために用いるだけでなく、それを移動平均の開始点に
おける順方向結束力および移動平均の終了点における逆
方向結束力とみなすことで、話題境界候補区間認定のた
めの直接的な手掛かりとしている。

【００６８】図１２は、前述したように、結束度の系列
ｃ１〜ｃ４と文書領域ａ１〜ａ１１との関係を示してい
る。結束度系列の移動平均値とは、例えば、（ｃ１＋ｃ
２）／２（２項の移動平均）、（ｃ１＋ｃ２＋ｃ３）／
３（３項の移動平均）、（ｃ１＋ｃ２＋ｃ３＋ｃ４）／
４（４項の移動平均）のように、結束度系列において連
続するｎ個の値を算術平均した値である。

【００６９】図１４は、図１２の結束度系列の移動平均
の例と文書領域との関係を示している。ここでは、移動
平均の例として、図１２の結束度の２項〜４項の移動平
均が示され、それぞれの移動平均に関わる結束度の計算
において、各文書領域が使用された回数が示されてい
る。このうち、下線を付けた値は、対応する文書領域が
移動平均に関わるすべての結束度の計算に用いられてい
ることを表す。

【００７０】例えば、左上角の値“１”は、ｃ１〜ｃ４
までの４項の移動平均において、文書領域ａ１が一度だ
け左窓の一部として扱われたことを示している。また、
その右の値“２”は、ｃ１〜ｃ４までの４項の移動平均
において、文書領域ａ２が２回左窓の一部として扱われ
たことを示している。他の使用回数についても、同様で
ある。

【００７１】結束度は境界の前後の部分の結び付きの強
さを表す指標であるので、領域ａ１を左窓に含んで得ら
れた結束度ｃ１を用いて計算された移動平均値も、領域
ａ１がそれより右側（文書の末尾側）の部分に結び付い
ているかどうかを示す指標の１つと考えられる。

【００７２】言い換えれば、移動平均値は、移動平均を
とった結束度の左窓部分の領域（ｃ１〜ｃ４の４項平均
に対してはａ１〜ａ７）が文書の末尾へ向かう方向（順
方向：図１５では右方向）に引っ張られる強さの指標
（順方向結束力）になっていると言える。一方、逆に、
移動平均をとった結束度の右窓部分の領域（ｃ１〜ｃ４
の４項平均に対してａ５〜ａ１１）が文章の冒頭方向
（逆方向：図１５では左方向）に引っ張られる強さの指
標（逆方向結束力）になっているとも言える。

【００７３】ここで、結束力とそれぞれの文書領域との
関連性を考察すると、結束度の計算においてより多く窓
に含まれていた領域との関連が強いと考えられる。ま
た、語彙的結束性は、一般に、近傍で繰り返される語彙
に基づくものほど強いと考えられるので、移動平均をと
った結束度の基準点（左右の窓の境界位置）に近い位置
にある領域ほど関連が強いとも言える。

【００７４】例えば、図１４の４項の移動平均について
は、結束度の基準点は、ａ４とａ５の境界、ａ５とａ６
の境界、ａ６とａ７の境界、およびａ７とａ８の境界の
４つである。この場合、ａ４は最も多く左窓に含まれて
おり、かつ、これらの基準点に最も近いことが分かる。
また、ａ８は最も多く右窓に含まれており、かつ、これ
らの基準点に最も近いことが分かる。したがって、移動
平均値と最も関連の強い領域は、左窓についてはａ４、
右窓についてはａ８となる。

【００７５】同様にして、３項の移動平均と最も関連の
強い領域を選ぶと、左窓についてはａ４、右窓について
はａ７となり、２項の移動平均と最も関連の強い領域を
選ぶと、左窓についてはａ４、右窓についてはａ６とな
る。これらの領域の使用回数は、図１４では太線の枠で
囲んで示されている。

【００７６】以上の考察に基づき、話題境界候補区間認
定部２６は、結束度の移動平均値を、移動平均をとった
領域内の最初の基準点における順方向結束力および最後
の基準点における逆方向結束力の指標として取り扱う。
例えば、ｃ１〜ｃ４の４項の移動平均値は、ａ４とａ５
の境界における順方向結束力およびａ７とａ８の境界に
おける逆方向結束力となる。

【００７７】図１５は、話題境界候補区間認定部２６に
よる話題境界候補区間認定処理のフローチャートであ
る。候補区間認定部２６は、まず、話題階層認定部２５
から結束度系列の刻み幅ｔｉｃを受け取り、利用者から
移動平均の項数ｎを受け取る（ステップＳ５１）。

【００７８】これらのパラメータの値の目安は、刻み幅
ｔｉｃについては、例えば、窓幅ｗの１／８〜１／１０
程度の大きさであり、項数ｎについては、ｗ／ｔｉｃの
半分（４〜５）程度である。また、移動平均をとる領域
の最初の基準点から最後の基準点までの隔たりを、（ｎ
−１）＊ｔｉｃにより計算して、それを移動平均の幅ｄ
（語）とする。

【００７９】次に、文書中の各位置ｐについて、ｐ〜ｐ
＋ｄの範囲内で結束度の移動平均をとり、平均値を位置
ｐにおける順方向結束力として記録する（ステップＳ５
２）。この値は、同時に、移動平均をとった範囲の終了
位置ｐ＋ｄにおける逆方向結束力としても記録される。

【００８０】次に、記録された順方向結束力をもとに、
文書中の冒頭から末尾に向かって各位置における順方向
結束力と逆方向結束力の差（順方向結束力−逆方向結束
力）を調べ、その値が負から正に変化する位置を負の結
束力拮抗点ｍｐとして記録する（ステップＳ５３）。

【００８１】負の結束力拮抗点とは、その位置の左では
逆方向結束力が優勢であり、その位置の右では順方向結
束力が優勢であるような点である。したがって、この点
の左右の部分は意味的な結び付きが弱いと考えられ、負
の結束力拮抗点は話題境界の候補位置となる。

【００８２】次に、記録された負の結束力拮抗点ｍｐの
直前・直後のｄ語以内の範囲［ｍｐ−ｄ，ｍｐ＋ｄ］を
話題境界候補区間と認定して（ステップＳ５３）、処理
を終了する。

【００８３】ここで、順・逆方向の結束力の差に基づい
て話題境界候補区間を認定する意味を、図１６を使って
説明する。図１６は、図１３の４００語付近（３７０語
〜４００語）における４０語幅の窓による結束度と順・
逆方向の結束力の分布を示している。刻み幅ｔｉｃとし
ては、窓幅の１／８を採用している。

【００８４】図１６において、記号＋でプロットした折
れ線グラフは、結束度Ｃの系列を表し、記号＊でプロッ
トした折れ線グラフは、順方向結束力ＦＣの系列を表
し、記号□でプロットした折れ線グラフは、逆方向結束
力ＢＣの系列を表す。話題境界候補区間を表す矩形で示
された領域については、後述することにする。

【００８５】また、点線で示されたｅｐ１、ｅｐ２、ｅ
ｐ３は、順・逆方向の結束力の差が０になる３つの点
（結束力拮抗点）を表す。最初の点ｅｐ１の左側では、
逆方向結束力が順方向結束力より優勢であり、その右側
から次の点ｅｐ２までは、順方向結束力が逆方向結束力
より優勢である。さらに、その右側から最後の点ｅｐ３
までは、逆方向結束力が順方向結束力より優勢であり、
その右側では、順方向結束力が逆方向結束力より優勢で
ある。

【００８６】したがって、ｅｐ１とｅｐ３は、順方向結
束力と逆方向結束力の差が負から正に変化する負の結束
力拮抗点であり、ｅｐ２は、その差が正から負に変化す
る正の結束力拮抗点である。

【００８７】このような結束力の変化から、最初の点ｅ
ｐ１の左側の領域は、それより左側のいずれかの部分と
比較的強い結束性を示しており、真中の点ｅｐ２の両側
の領域は、ｅｐ２に向かって強い結束性を示しており、
最後の点ｅｐ３の右側の領域は、それより右側のいずれ
かの部分と比較的強い結束性を示していることが分か
る。実際、順・逆方向の結束力と共にプロットした結束
度は、ｅｐ１とｅｐ３の近傍で極小値をとり、ｅｐ２の
近傍で極大値をとっている。このように、順・逆方向の
結束力の変化と結束度の変化は密接に関連している。

【００８８】例えば、図１６の結束力拮抗点ｅｐ３の近
傍には、結束度の極小点（この場合はｃ３）がある。上
向き矢印で示したＦＣ、ＢＣの極小値は、水平矢印の部
分の結束度（ｃ１〜ｃ４の４項）を移動平均した値であ
る。このように、通常は、結束度の極小点に対応して、
その近傍（移動平均の幅以内）で、結束力も極小値をと
る。ただし、移動平均をとる領域より狭い範囲で細かい
変動がある場合には、移動平均の平滑化作用により、移
動平均値すなわち結束力が極小値をとらないこともあ
る。

【００８９】また、順方向結束力は移動平均値を移動平
均をとる領域の開始位置に記録した指標であるので、順
方向結束力の極小位置は結束度の極小位置の左になる。
同様の理由により、逆方向結束力の極小位置は結束度の
極小位置の右になる。そして、結束度の変動が十分に大
きければ、移動平均をとる領域内に結束力拮抗点が生成
されることになる。

【００９０】図１７は、図１１のステップＳ４５におい
て行われる話題境界認定処理のフローチャートである。
話題階層認定部２５は、まず、認定された話題境界候補
区間を、認定に使った結束度系列の窓幅と、話題境界候
補区間内の結束力拮抗点の文書における出現位置とによ
ってソートしてまとめ、話題境界候補区間データの系列
Ｂ（ｊ）［ｐ］を作成する（ステップＳ６１）。

【００９１】ここで、制御変数ｊは、窓幅ｗｊの結束度
系列により認定されたことを表す系列番号であり、制御
変数ｐは、系列内の各話題境界候補区間を表すデータ番
号である。実際には、ｊは、窓幅の大きい順に１，
２，．．．の値をとり、ｐは、結束力拮抗点の出現順に
１，２，．．．の値をとる。それぞれのデータＢ（ｊ）
［ｐ］は、次のような要素データを含む。

【００９２】・Ｂ（ｊ）［ｐ］．ｒａｎｇｅ：話題境界
候補区間。（開始位置、終了位置）の組。・Ｂ（ｊ）［ｐ］．ｅｐ：結束力拮抗点。

【００９３】・Ｂ（ｊ）［ｐ］．ｃｈｉｌｄ：境界位置
の話題境界候補区間の範囲で一致するＢ（ｊ＋１）系列
の話題境界候補区間（子候補区間）。なお、結束力拮抗点は理論的には点であるが、前述のよ
うに、順方向結束力と逆方向結束力の差の符号が反転す
る地点を拮抗点として認定しているので、実際には、差
が負の点（開始位置）と差が正の点（終了位置）の組に
より表される。そこで、本実施形態では、結束力拮抗点
の開始位置ｌｐと終了位置ｒｐにおける（順方向結束力
−逆方向結束力）の値を、それぞれ、ＤＣ（ｌｐ）とＤ
Ｃ（ｒｐ）として、左右の結束力が０になる点ｅｐを、
次式により補間して求める。ｅｐ＝（ＤＣ（ｒｐ）＊ｌｐ−ＤＣ（ｌｐ）＊ｒｐ）／（ＤＣ（ｒｐ）−ＤＣ（ｌｐ））（２）そして、得られたｅｐを、Ｂ（ｊ）［ｐ］．ｅｐとす
る。

【００９４】次に、話題階層認定部２５は、窓幅の異な
る話題境界候補区間データを関連付ける処理を行う。こ
こでは、１つの系列に属するＢ（ｊ）［ｐ］をまとめて
Ｂ（ｊ）と記し、さらに、次のような表記法を用いて、
以下の処理を説明する。

【００９５】・ｉｅ：最小窓幅ｗ＿ｍｉｎに対応する系
列番号。・｜Ｂ（ｊ）｜：Ｂ（ｊ）におけるデータ番号ｐの最大
値。まず、処理対象を表す系列番号ｉを１に初期化する（ス
テップＳ６２）。これにより、最大窓幅ｗ１による話題
境界候補区間の系列が処理対象に設定される。そして、
ｊ＋１≦ｊｅである限り、ｊをインクリメントしなが
ら、Ｂ（ｊ＋１）を関連付け対象の系列とする関連付け
処理を行う。

【００９６】この関連付け処理では、処理対象系列中の
それぞれの話題境界候補区間データＢ（ｊ）［ｐ］（ｐ
＝１，．．．，｜Ｂ（ｊ）｜）について、それと同じ付
近を境界候補としている関連付け対象系列中のデータＢ
（ｊ＋１）［ｑ］のうち、Ｂ（ｊ＋１）［ｑ］．ｅｐが
Ｂ（ｊ）［ｐ］．ｅｐに最も近いデータが選ばれ、関連
境界候補区間データとしてＢ（ｊ）［ｐ］．ｃｈｉｌｄ
に格納される。

【００９７】具体的な手順は以下の通りである。まず、
ｊ＋１とｊｅを比較し（ステップＳ６３）、ｊ＋１≦ｊ
ｅであれば、ｐに１を代入して（ステップＳ６４）、ｐ
と｜Ｂ（ｊ）｜を比較する（ステップＳ６５）。ｐ≦｜
Ｂ（ｊ）｜であれば、ステップＳ６６以降の関連付け処
理を行い、ｐが｜Ｂ（ｊ）｜を越えれば、ｊ＝ｊ＋１と
おいて（ステップＳ７１）、ステップＳ６３以降の処理
を繰り返す。

【００９８】ステップＳ６６では、話題階層認定部２５
は、関連付け候補となる系列中のデータＢ（ｊ＋１）
［ｑ］（ｑ＝１，．．．，｜Ｂ（ｊ＋１）｜）の中か
ら、Ｂ（ｊ＋１）［ｑ］．ｅｐ∈Ｂ（ｊ）［ｐ］．ｒａ
ｎｇｅとなるデータでＢ（ｊ＋１）［ｑ］．ｅｐがＢ
（ｊ）［ｐ］．ｅｐに最も近いデータを、関連付け対象
データとして選択し、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄに格
納する。

【００９９】ここで、Ｂ（ｊ＋１）［ｑ］．ｅｐ∈Ｂ
（ｊ）［ｐ］．ｒａｎｇｅという条件は、Ｂ（ｊ）
［ｐ］の話題境界候補区間の中にＢ（ｊ＋１）［ｑ］の
結束力拮抗点が含まれていることを表す。

【０１００】図１８は、関連付け対象データの選択例を
示している。図１８において、記号＋でプロットした折
れ線グラフは、処理対象に対応する８０語幅の窓による
順方向結束力の系列を表し、記号×でプロットした折れ
線グラフは、８０語幅の窓による逆方向結束力の系列を
表す。また、記号＊でプロットした折れ線グラフは、関
連付け対象に対応する４０語幅の窓による順方向結束力
の系列を表し、記号□でプロットした折れ線グラフは、
４０語幅の窓による逆方向結束力の系列を表す。また、
矩形で示された領域は、話題境界候補区間に対応し、点
線で示されたｅｐ１、ｅｐ３は、４０語幅の窓による結
束力の拮抗点に対応する。

【０１０１】例えば、処理対象データをＢ（３）［４］
とすると、その近傍には結束力拮抗点ｅｐ１、ｅｐ３が
あり、それらに対応して関連付け対象系列の２つのデー
タＢ（４）［６］とＢ（４）［７］がある。このうち、
Ｂ（４）［７］の結束力拮抗点ｅｐ３は、Ｂ（３）
［４］の話題境界候補区間（上方の矩形）に含まれてい
るので、Ｂ（４）［７］が関連付け対象データとして選
択される。

【０１０２】次に、話題階層認定部２５は、関連付け対
象データが選択できたかどうかを判定し（ステップＳ６
７）、関連付け対象データが選択できた場合は、ｐ＝ｐ
＋１とおいて（ステップＳ７０）、ステップＳ６５以降
の処理を繰り返す。

【０１０３】条件を満たす関連付け対象データが見つか
らなかった場合には、Ｂ（ｊ）［ｐ］と同じ話題境界候
補区間を持つ疑似的な関連付け対象データ（ダミーデー
タ）Ｂ（ｊ＋１）［ｑ］を作成し、Ｂ（ｊ＋１）の系列
に挿入する（ステップＳ６８）。

【０１０４】ステップＳ６８では、まず、Ｂ（ｊ＋１）
［ｑ］．ｒａｎｇｅとＢ（ｊ＋１）［ｑ］．ｅｐに、そ
れぞれ、Ｂ（ｊ）［ｐ］．ｒａｎｇｅとＢ（ｊ）
［ｐ］．ｅｐの値を設定して、新たなデータＢ（ｊ＋
１）［ｑ］を作成する。そして、系列Ｂ（ｊ＋１）の中
で、Ｂ（ｊ＋１）［ｑ−１］．ｅｐ＜Ｂ（ｊ＋１）
［ｑ］．ｅｐかつＢ（ｊ＋１）［ｑ］．ｅｐ＜Ｂ（ｊ＋
１）［ｑ＋１］．ｅｐとなるような位置に、作成したデ
ータＢ（ｊ＋１）［ｑ］を挿入する。

【０１０５】これにより、疑似的な関連付け対象データ
のデータ番号ｑが決定され、それ以降の既存データのデ
ータ番号は書き換えられる。ここで、擬似的な話題境界
候補区間データを作成するのは、以降の処理において、
ｊ以下のすべての系列番号の話題階層において話題文を
抽出するためである。

【０１０６】次に、作成されたダミーデータＢ（ｊ＋
１）［ｑ］をＢ（ｊ）［ｐ］．ｃｈｉｌｄに格納し（ス
テップＳ６９）、ステップＳ７０以降の処理を行う。そ
して、ステップＳ６３においてｊ＋１がｊｅを越えれ
ば、処理を終了する。

【０１０７】最終的には、ｊｅ未満のすべての系列番号
ｊのデータに対して、その話題境界候補区間内に結束力
拮抗点を持つ系列番号ｊ＋１のデータが、Ｂ（ｊ）
［ｐ］．ｃｈｉｌｄに設定される。したがって、Ｂ
（ｊ）［ｐ］．ｃｈｉｌｄにより、複数の階層の話題境
界候補区間データが連鎖的に関連付けられることにな
る。

【０１０８】図１９は、こうして得られた話題境界の認
定結果を示している。図１９において、３２０語、１６
０語、８０語、４０語の各窓幅（縦軸）の高さまで伸び
た棒グラフが、それぞれの窓幅に対応する粒度の話題の
最終的な話題境界、すなわち最小窓幅（４０語）の結束
力拮抗点の位置を表している。棒グラフと交差している
矩形領域は、各窓幅の結束力により認定された話題境界
候補区間を表す。

【０１０９】図１１のステップＳ４６では、図１９に示
された話題境界を微調整して文の開始位置に合わせてか
ら、各境界の間を１つの話題とする話題階層を作成す
る。この微調整により図１９の話題境界の一部がシフト
し、その結果、図２０に示すような木構造の話題階層が
生成される。

【０１１０】例えば、図１９の最小窓幅に対応する境界
からは、矢印で示された１５個の区画に対応して、図２
０の１５個の話題が最下層の話題として認定される。ま
た、８０語の窓幅に対応する境界からは、１５個の話題
のうち、区画２と区画３、区画４から区画６まで、区画
１１と区画１２、区画１３と区画１４の４つのグループ
に対応する話題をグループ毎に統合して得られる、計１
０個の話題が第２層の話題として認定される。

【０１１１】図２０の話題階層において、矩形で表され
たノードは、認定されたそれぞれの話題に対応し、矩形
内の数字は、図１９の区画の番号に対応する。第２の閲
覧対象文書に対しても同様の処理を行うことで、図２１
のような話題階層が生成される。

【０１１２】次に、関連話題抽出部２７の処理について
説明する。図２２は、関連話題抽出部２７による関連話
題抽出処理のフローチャートである。話題文抽出部２７
は、まず、第１の閲覧対象文書の話題階層Ｔ１と第２の
閲覧対象文書の話題階層Ｔ２の２つの話題階層を入力と
して受け取る（ステップＳ１０１）。そして、話題階層
Ｔ１中の任意の話題ｔ１と話題階層Ｔ２中の任意の話題
ｔ２からなる話題対（ｔ１，ｔ２）のすべてについて、
関連度を計算する（ステップＳ１０２）。

【０１１３】本実施形態では、話題ｔ１と話題ｔ２の間
の関連度Ｒ（ｔ１，ｔ２）を、ｔ１、ｔ２のそれぞれに
対応する文書の区画ｓ１、ｓ２に含まれる語彙の類似性
により求める。具体的には、Ｒ（ｔ１，ｔ２）は次式に
より計算される。

【０１１４】

【数２】

【０１１５】ここで、ｗｔ，ｓ１、ｗｔ，ｓ２は、それ
ぞれ、区画ｓ１、ｓ２における単語ｔの重要度に相当す
る重みを表し、次式により計算される。

【０１１６】

【数３】

【０１１７】（４）式において、ｔｆｔ，ｓは、区画
ｓにおける単語ｔの出現頻度を表し、｜Ｄ｜は、区画ｓ
を含む文書を固定幅（８０語）刻みに区切って得られる
ブロックの数を表し、ｄｆｔは、単語ｔが出現してい
るブロックの数を表す。

【０１１８】（３）、（４）式は、情報検索分野で検索
対象文書と質問文との関連度計算等でよく使われる、ｔ
ｆ×ｉｄｆ法と呼ばれる計算法の変形例である。ｔｆ×
ｉｄｆ法では、（４）式の｜Ｄ｜／ｄｆｔの部分を、
文書内の区画ではなく、検索対象文書集合に含まれる文
書を単位に計算する。すなわち、｜Ｄ｜を検索対象文書
集合中の文書数とし、ｄｆｔを単語ｔが出現する文書
数とすると、これらの式は通常のｔｆ×ｉｄｆ法の計算
式となる。

【０１１９】関連度Ｒ（ｔ１，ｔ２）はｔｆ×ｉｄｆ法
により求めてもよいが、本実施形態の（３）、（４）式
によれば、閲覧対象文書だけから関連度を計算すること
ができ、また、後述するように、これらの計算式で十分
に有効な結果が得られているため、ここではこの計算法
を採用している。

【０１２０】関連話題抽出部２７は、次に、第１の閲覧
対象文書中の話題ｔ１と第２の閲覧対象文書中の話題ｔ
２のすべてに対して、話題階層を利用しながら、話題対
選別用の閾値を求める。閾値としては、例えば、話題階
層の部分木中の最大関連度が用いられる。ここで、ある
話題ｔに対する話題階層の部分木中の最大関連度とは、
ｔもしくは話題階層におけるｔの子孫（ｔを構成するい
ずれかのより小さい話題）に対して計算された関連度の
最大値のことである。

【０１２１】関連話題抽出部２７は、まず、話題ｔ１に
ついて最大関連度を求め、それをｔ１．ｍａｘに記録し
（ステップＳ１０３）、次に、話題ｔ２についても同様
に、最大関連度をｔ２．ｍａｘに記録する（ステップＳ
１０４）。そして、Ｔ≡｛（ｔ１，ｔ２）｜Ｒ（ｔ１，
ｔ２）≧ｍａｘ（ｔ１．ｍａｘ，ｔ２．ｍａｘ）｝によ
り定義される話題対の集合Ｔを求めて、関連話題として
出力し（ステップＳ１０５）、処理を終了する。

【０１２２】ここで、最大関連度に基づく関連話題抽出
処理の具体例を、図２３および図２４を使って説明す
る。図２３は、図２２のステップＳ１０２における関連
度の計算結果を示している。ここでは、関連度が０．２
５以上の値を持つ話題対が点線のアークで示されてお
り、アークに添えられた数値が関連度を表す。また、２
つの木構造グラフのうち、左のグラフが図２０の話題階
層に対応し、右のグラフが図２１の話題階層に対応す
る。

【０１２３】ここで、右のグラフの右下角のノード（以
下では、「ノード右７」のように表記する）に着目す
る。このノードは、第２の閲覧対象文書の最後の最小区
画に対応する話題を表すノードであり、グラフ上では、
末端ノード（子ノードを持たないノード）となってい
る。

【０１２４】したがって、このノードにおける最大関連
度は、このノードに直接結びつけられたアークの関連度
の最大値である。ノード右７では、（ノード左１３−１
４，ノード右７）の話題対の関連度０．３５が最大関連
度となる。そして、ノード左１３−１４からは、０．３
５を超える関連度をもつアークはないので、（ノード左
１３−１４，ノード右７）の話題対は関連話題として出
力される。

【０１２５】一方、ノード右６−７に着目すると、この
ノード以下の部分木にノード右７が含まれているので、
ノード右６−７に直結しているアークの話題対は、少な
くともノード右７の最大関連度（０．３５）以上でなけ
れば、関連話題として出力されない。ノード右６−７は
このようなアークを持たないので、ノード右６−７を含
む話題対は関連話題としては出力されないことになる。

【０１２６】以上のように、部分木における最大関連度
を基準に話題対を選別することで、２つの閲覧対象文書
間の関連話題を、図２４に示す話題対に絞り込むことが
できる。図２４では、閲覧対象文書全体同士の話題対を
除いて、７対の関連話題しか抽出されていないのにも関
わらず、関連話題に含まれなかった話題は、ノード左
１、ノード左１１、およびノード左１５のみである。こ
れらの話題のうち、質問項目を含むのはノード左１５の
みで、残りは後続の話題を導入するための役割を担っ
た、答弁とは直接的に関連しない内容の部分であった。

【０１２７】また、抽出された７対の関連話題は、後で
示す結果に見られる通り、いずれも適切に対応している
内容を含む部分であった。このように、本実施形態によ
れば、話題階層を利用して関連話題を絞り込むことで、
あらかじめ特別な閾値を設定しなくても、過不足なく適
切な話題対を選択することができる。

【０１２８】次に、出力部２８は、関連話題抽出部２７
が抽出した話題対のそれぞれについて、関連話題に対応
する関連箇所をそれぞれの閲覧対象文書から切り出し、
出力する。例えば、図２４の（ノード左９−１０，ノー
ド右４−５）の関連度０．３０の話題対については、ノ
ード左９−１０の話題に対応して、第１の閲覧対象文書
中の区画９と区画１０を、ノード右４−５の話題に対応
して、第２の閲覧対象文書中の区画４と区画５を、それ
ぞれ抽出し、利用者が対比しやすい形に整形して出力す
る。

【０１２９】図２５は、この話題対に対する関連箇所の
出力結果の例を示している。図２５の出力例では、左コ
ラムが第１の閲覧対象文書の関連箇所に対応し、右コラ
ムが第２の閲覧対象文書の関連箇所に対応している。そ
れぞれの関連箇所は、話題階層認定部２５により認定さ
れた最小の話題（最小区画）の単位に分けて、出力され
ている。また、太字で強調出力されている語は、両方の
関連箇所に出現し、かつ、それぞれの関連箇所において
（４）式により求めた重要度が比較的大きい語である。
具体的には、これらの語は、以下のような手順で抽出さ
れる。

【０１３０】まず、両方の関連箇所に現れた語を重要語
候補として抽出し、抽出された各語についてそれぞれの
箇所における（４）式の値を、各語の各箇所における重
要度として求める。そして、それぞれの箇所について、
重要度の大きい順に重要語を抽出し、抽出した重要語に
おける重要度の累積値が、重要語候補全体における重要
度の合計値の１／２を超えた時点で、抽出処理を打ち切
る。

【０１３１】なお、図２５に示した関連話題は、本実施
形態で用いた閲覧対象文書対において、重複して関連話
題が抽出された唯一の部分である。この部分では、上位
層の（ノード左９−１０，ノード右４−５）の話題対だ
けでなく、それを構成する話題に関する（ノード左９，
ノード右４）と（ノード左１０，ノード右５）の話題対
も関連話題として抽出されている。

【０１３２】図２５に示された内容に見られるように、
ノード左９の質問に対する答弁はノード右４であり、ノ
ード左１０の質問に対する答弁はノード右５であると考
えられるが、ノード左９とノード左１０との間、およ
び、ノード右４とノード右５との間にも、強い関連性が
読み取れる。

【０１３３】したがって、これらの関連話題が重複して
抽出されてはいるが、単に冗長なわけではなく、２ノー
ドずつのまとまり間の関係も、個々のノード間の関係
も、ともに重要な意味を持っていることが分かる。そこ
で、図２５では、まとまり全体を対比するだけでなく、
個々の話題も対比できるように、対応する話題の開始位
置を揃えて出力している。

【０１３４】また、出力部２８は、関連箇所の内容を要
約して提示することで、関連箇所の一覧性を向上させる
こともできる。例えば、上述した特開平１１−２７２６
９９の技術を用いれば、上記の手順で抽出した重要語を
多く含み、かつ、簡潔な要約を作成することができる。

【０１３５】図２６は、このような要約処理の手順を簡
略化して示したフローチャートである。出力部２８は、
まず、関連話題対に対応して、第１の閲覧対象文書から
切り出された関連箇所Ｐ１と第２の閲覧対象文書から切
り出された関連箇所Ｐ２を、入力として受け取る（ステ
ップＳ１２１）。そして、関連箇所Ｐ１、Ｐ２のそれぞ
れから重要語を抽出し、それらの重要語をマージする
（ステップＳ１２２）。

【０１３６】次に、関連箇所Ｐ１から重要文を選択して
要約を作成し（ステップＳ１２３）、関連箇所Ｐ２から
も同様にして要約を作成する（ステップＳ１２４）。そ
して、各関連箇所から作成された要約を比較しやすい形
に整形し、対置して出力して（ステップＳ１２５）、処
理を終了する。

【０１３７】図２７は、図２６のステップＳ１２３およ
びＳ１２４における重要文選択処理のフローチャートで
ある。この処理では、出力部２８は、まず、Ｐ１または
Ｐ２を重要文の選択対象箇所Ｐに設定し、ステップＳ１
２２で抽出された重要語を、重要文の手掛かりとして重
要語リストＫＷＬに設定する（ステップＳ１３１）。そ
して、対象箇所Ｐから重要語を最も多く含む文を重要文
として選択し（ステップＳ１３２）、そのような文が選
択できたか否かを判定する（ステップＳ１３３）。

【０１３８】文が選択できた場合は、次に、選択した文
に含まれる重要語を重要語リストＫＷＬから取り除き
（ステップＳ１３４）、ＫＷＬが空か否かをチェックす
る（ステップＳ１３５）。ＫＷＬが空でなければ、ステ
ップＳ１３２以降の処理を繰り返す。そして、すべての
重要語に対して少なくとも１文以上の重要文が選択でき
た時点で選択処理を終了し、選択した文を元の文書にお
ける出現順に並べて、要約として出力して（ステップＳ
１３６）、処理を終了する。

【０１３９】また、ステップＳ１３３において、重要語
を含む文がまったく選択できない場合は、処理を打ち切
り、ステップＳ１３６の処理を行う。図２６および図２
７に示した処理により、図２８、２９、および３０に示
すような要約が作成される。

【０１４０】このように、個々の関連話題に対応する関
連箇所を個別に提示するだけでなく、要約機能により抽
出された関連話題を短くまとめることで、関連箇所全体
を一覧しやすい形で出力することができる。したがっ
て、長い文書の比較・閲覧の際等に多くの関連話題が抽
出されても、比較・閲覧作業を効果的に支援できる。

【０１４１】また、出力部２８は、関連箇所と原文書で
ある閲覧対象文書の全文とを対置して提示することで、
閲覧対象文書における関連箇所の位置付け等を吟味しな
がら、関連箇所を分析する作業等を支援することができ
る。この場合、例えば、図３１に示すような形態で、関
連箇所の要約と閲覧対象文書の全文とを対置して提示す
ればよい。また、関連箇所と閲覧対象文書中の対応箇所
との間にハイパーリンクを設定すれば、より一層閲覧効
率を高めることができる。

【０１４２】図３１では、左フレームが関連箇所参照の
ウィンドウであり、右フレームが閲覧対象文書参照用の
ウィンドウである。ここでは、左フレームに、作成され
た関連箇所の要約が表示されており、発言者名の後ろの
かぎ括弧内（下線部）には、閲覧対象文書の対象箇所へ
のハイパーリンクのアンカーが設定されている。そし
て、利用者が必要に応じてアンカーを指定することで、
第１の閲覧対象文書の指定箇所が右上のウィンドウに表
示され、第２の閲覧対象文書の指定箇所が右下のウィン
ドウに表示される。

【０１４３】右フレームに提示された閲覧対象文書で
は、関連箇所が下線付きで強調表示され、関連箇所とそ
の前後の文脈とを区別できるようになっている。強調表
示の方法としては、カラー表示、網かけ表示等を用いる
こともできる。この例では、左フレームに関連箇所の要
約が表示されているが、代わりに、関連箇所そのものを
表示してもよい。また、利用者の要望に応じて、関連箇
所を要約で提示するか、関連箇所の内容全体を提示する
かを切り換えられるようにすることも考えられる。

【０１４４】また、出力部２８は、閲覧対象文書間の関
連箇所の関係をグラフ等を用いて図面で表現すること
で、閲覧対象文書相互の全体的な関連性を一目で把握で
きるようにすることもできる。この場合、例えば、図３
２に示すような形態で、閲覧対象文書中の関連箇所の出
現状況を提示すればよい。

【０１４５】図３２では、上フレームに、２つの閲覧対
象文書の話題階層が、図２４と同様のグラフ形式で表示
されており、下フレームに、第１および第２の閲覧対象
文書が対置して表示されている。話題階層のグラフに
は、関連話題を示すアークが付加されており、それぞれ
のアークには、両方の文書の関連箇所を同期して提示す
るためのハイパーリンクが設定されている。また、話題
に対応する各ノードには、個々の閲覧対象文書の対応箇
所へのハイパーリンクが設定されている。さらに、各閲
覧対象文書には、図３１と同様に、関連箇所に強調表示
が施されている。

【０１４６】このように、閲覧対象文書間の関連箇所の
出現状況をグラフ等により提示すれば、閲覧対象文書間
の全体的な関連性の理解が促進される。これにより、例
えば、本実施形態の閲覧対象文書のように全体として１
対１で対応するような文書であるのか、それとも、特定
の部分のみに集中して関連箇所が現れる文書であるのか
を、利用者が一目で読み取れるようになる。そして、後
者のような文書であれば、利用者は、関連箇所が集中し
ている部分に絞って、効率的に文書の閲覧を進めること
も可能になる。

【０１４７】以上の実施形態では、主として、閲覧対象
文書が２つの場合について説明したが、この処理を応用
して、３つ以上の文書に対する比較・閲覧を支援するこ
とも可能である。例えば、いずれか１つの文書を基準
（軸）として他の文書を比較するか、または、すべての
閲覧対象文書の対に対して上述のような処理を行い、抽
出された関連話題を何らかの方法で整理・統合して出力
すればよい。後者の場合、関連話題の整理・統合の方法
としては、例えば、いずれか１つの文書中の同一箇所に
対応する他の文書の話題を統合することが考えられる。

【０１４８】例えば、上述の「第１４９回衆議院本会議
会議録第２号」に含まれる全８件の代表質問（答弁は除
外）を、それぞれ異なる文書として切り出し、「第１４
９回衆議院本会議会議録第１号」（２０００年７月２８
日）中の首相の所信表明演説を基準文書として比較した
ところ、上述の第１の閲覧対象文書（水島広子議員によ
る代表質問）にも関連する関連箇所として、図３３のよ
うな関連箇所が抽出された。

【０１４９】図３３では、左コラムが基準文書の関連箇
所の要約に対応し、中央のコラムが第１の閲覧対象文書
の関連箇所の要約に対応し、右コラムが他の文書の関連
箇所に対応している。ここでは、第１の閲覧対象文書に
関連する箇所のみを例として示したが、他の質問者によ
る代表質問についても、同様に、基準文書の適切な箇所
と対応付けることが可能である。

【０１５０】さらに、このような関連箇所を、基準文書
に併合して出力することもできる。これにより、例え
ば、「所信表明演説のポイントとそれに対する各党代表
者の見解」のような、統合的な文書の作成を支援するこ
とができる。

【０１５１】図３４は、このような文書統合処理のフロ
ーチャートである。文書閲覧装置は、まず、利用者から
の指示等に基づいて、複数の閲覧対象文書の中から基準
文書を選択し（ステップＳ１４１）、上述の処理手順に
従って、基準文書と他の各文書の間の関連箇所を抽出す
る（ステップＳ１４２）。そして、出力部２８は、抽出
された関連箇所を基準文書における出現順にマージし
て、統合文書を作成し（ステップＳ１４３）、その文書
を出力して（ステップＳ１４４）、処理を終了する。

【０１５２】次に、英語の文書に対する処理について、
１９９９年のケルンサミットと２０００年の沖縄サミッ
トにおけるＧ８による２つのコミュニケを対象とした場
合を例に挙げて説明する。ここでは、外１を第１の
英語閲覧対象文書とし、外２を第２の英語閲覧対象
文書とした。

【０１５３】

【外１】

【０１５４】

【外２】

【０１５５】これらの文書の全文は、それぞれ、４千５
百語および７千語であり、本明細書および図面にすべて
の処理結果を記載するには長すぎるため、以下では全体
の半分ほどの部分のみを対象として処理を行った。全体
で１０節からなる第１の閲覧対象文書では、以下の５節
（１千８百語）を処理対象とし、第２の閲覧対象文書で
は、前置き（Preamble）の次に位置する以下の１パート
（３千５百語）を処理対象とした。（１）第１の閲覧対象文書の処理対象部分 I. Getting the World Economy on Track for Susta
ined Growth II. Building a World Trading System That Works f
or Everyone III. Designing Policies for More Employment IV. Investing in People V. Strengthening Social Safeguards （２）第２の閲覧対象文書の処理対象部分 Toward a 21st century of greater prosperityまた、
ここでは、次のような処理方法およびパラメータを採用
した。（１）単語認定の方法：ストップワードリストを用いた
方法（２）結束度計算用の窓の幅：最小窓幅ｗ＿ｍｉｎ＝８０（語）最大窓幅ｗ１ｗ＿ｍｉｎの２の巾乗倍で、文書全体の
１／２を超えない値の語数刻み幅窓幅の１／８図３５は、第１の閲覧対象文書の先頭部分を示してお
り、図３６は、その部分に対する単語認定部２２の処理
結果を示している。図３６において、［］で括られた部
分が、認定された単語に対応する。先頭の１文字のみが
大文字の単語は、［］内ではすべて小文字に置き換えら
れている。

【０１５６】この場合、単語認定部２２は、まず、空白
および“，”、“．”、“：”、“；”等の区切り記号
を手掛かりに単語を切り出し、次に、それらの単語のう
ち、図３７に示すようなストップワードリストに含まれ
る単語を取り除く、という手順で単語認定を行う。スト
ップワードリストとは、重要語として抽出したくない冠
詞、前置詞等の単語を、あらかじめ定義したリストであ
る。

【０１５７】図３８は、上述の文書対に対する関連話題
の抽出結果を示している。図３８において、左の木構造
グラフが、第１の英語閲覧対象文書に対する話題階層認
定部２５の出力、すなわち、第１の英語閲覧対象文書の
話題階層の認定結果に対応し、右の木構造グラフが、第
２の英語閲覧対象文書の話題階層の認定結果に対応す
る。また、これらの木構造のノード間のアークは、関連
話題抽出部２７が抽出した関連話題対を表す。

【０１５８】こうして抽出された関連話題を、出力部２
８が図２６および図２７の手順により要約した結果、図
３９、４０、および４１に示すような要約が得られた。
このように、本発明は、英語の閲覧対象文書に対して
も、日本語の文書と同様に適用可能であり、また、任意
の言語および任意の形式の文書に対して適用され、同様
の結果を得ることができる。（付記１）閲覧対象として指定された複数の文書を利
用者に提示する文書閲覧装置であって、前記複数の文書
のそれぞれの話題階層を認定する話題階層認定手段と、
認定された話題階層に基づき、前記複数の文書に共通し
て現れる関連話題を抽出する関連話題抽出手段と、抽出
された関連話題に対応する記述箇所を、該複数の文書の
それぞれから切り出して出力する関連話題提示手段とを
備えることを特徴とする文書閲覧装置。（付記２）前記関連話題抽出手段は、前記認定された
話題階層中の様々な粒度の話題からなる話題対につい
て、該話題対の各話題に対応する記述箇所の語彙的類似
性に基づき、該話題対の話題間の関連度を求め、話題の
包含関係に基づいて設定された閾値以上の関連度を持つ
話題対を、前記関連話題として抽出することを特徴とす
る付記１記載の文書閲覧装置。（付記３）前記関連話題提示手段は、切り出された記
述箇所を、前記複数の文書間の関連箇所として対置して
提示することを特徴とする付記１記載の文書閲覧装置。（付記４）前記関連話題提示手段は、前記関連箇所と
元の文書とを対置・連動して提示することを特徴とする
付記３記載の文書閲覧装置。（付記５）前記関連話題提示手段は、前記関連箇所の
内容を要約して提示することを特徴とする付記３記載の
文書閲覧装置。（付記６）前記関連話題提示手段は、前記関連箇所の
要約と元の文書とを対置・連動して提示することを特徴
とする付記５記載の文書閲覧装置。（付記７）前記関連話題提示手段は、前記複数の文書
に対応する複数の話題階層と、前記複数の関連話題に基
づく、該複数の話題階層中の話題間の対応関係とを、図
面を用いて提示し、該図面上における前記利用者の指示
に応じて、該複数の文書中の対応箇所を連動して提示す
ることを特徴とする付記３記載の文書閲覧装置。（付記８）前記関連話題提示手段は、前記複数の文書
のうちの１つの文書を基準文書として、前記関連話題に
対応する記述箇所を他の文書から該基準文書に取り込ん
で新たな統合文書を作成し、該統合文書を出力すること
を特徴とする付記１記載の文書閲覧装置。（付記９）閲覧対象として指定された複数の文書を利
用者に提示するコンピュータのためのプログラムを記録
した記録媒体であって、該プログラムは、前記複数の文
書のそれぞれの話題階層を認定し、認定された話題階層
に基づき、前記複数の文書に共通して現れる関連話題を
抽出し、抽出された関連話題に対応する記述箇所を、該
複数の文書のそれぞれから切り出して出力する処理を前
記コンピュータに実行させることを特徴とするコンピュ
ータ読み取り可能な記録媒体。（付記１０）閲覧対象として指定された複数の文書を
利用者に提示するコンピュータにプログラムを伝送する
伝搬信号であって、該プログラムは、前記複数の文書の
それぞれの話題階層を認定し、認定された話題階層に基
づき、前記複数の文書に共通して現れる関連話題を抽出
し、抽出された関連話題に対応する記述箇所を、該複数
の文書のそれぞれから切り出して出力する処理を前記コ
ンピュータに実行させることを特徴とする伝搬信号。（付記１１）閲覧対象として指定された複数の文書を
利用者に提示する文書提示方法であって、前記複数の文
書のそれぞれの話題階層を認定し、認定された話題階層
に基づき、前記複数の文書に共通して現れる関連話題を
抽出し、抽出された関連話題に対応する記述箇所を、該
複数の文書のそれぞれから切り出して出力することを特
徴とする文書提示方法。

【０１５９】

【発明の効果】本発明によれば、個々の閲覧対象文書の
話題階層を用いて、複数の閲覧対象文書中の様々な粒度
の話題が比較できるため、文書間で記述量の大きく異な
る関連話題を適切に抽出することができる。また、抽出
された関連話題に対応する関連箇所をそれぞれの閲覧対
象文書から切り出し、それらを対置して出力すること
で、関連箇所を容易に比較・分析することが可能にな
る。このように、本発明によれば、複数の文書の比較閲
覧作業が効果的に支援される。

【図面の簡単な説明】

【図１】本発明の文書閲覧装置の原理図である。

【図２】本発明の文書閲覧装置の構成図である。

【図３】情報処理装置の構成図である。

【図４】記録媒体を示す図である。

【図５】閲覧対象文書を示す図である。

【図６】単語認定処理のフローチャートである。

【図７】単語認定結果の例を示す図である。

【図８】形態素解析処理のフローチャートである。

【図９】日本語の辞書引きの例を示す図である。

【図１０】英語の辞書引きの例を示す図である。

【図１１】話題階層認定処理のフローチャートである。

【図１２】結束度の系列を示す図である。

【図１３】結束度分布の例を示す図である。

【図１４】移動平均値と文書領域との関係を示す図であ
る。

【図１５】話題境界候補区間認定処理のフローチャート
である。

【図１６】結束力拮抗点を示す図である。

【図１７】話題境界認定処理のフローチャートである。

【図１８】関連付け対象データを示す図である。

【図１９】話題境界の認定結果を示す図である。

【図２０】第１の閲覧対象文書の話題階層を示す図であ
る。

【図２１】第２の閲覧対象文書の話題階層を示す図であ
る。

【図２２】関連話題抽出処理のフローチャートである。

【図２３】関連度の計算結果を示す図である。

【図２４】関連話題の抽出結果を示す図である。

【図２５】関連箇所の出力例を示す図である。

【図２６】要約処理のフローチャートである。

【図２７】重要文選択処理のフローチャートである。

【図２８】関連箇所の要約例を示す図（その１）であ
る。

【図２９】関連箇所の要約例を示す図（その２）であ
る。

【図３０】関連箇所の要約例を示す図（その３）であ
る。

【図３１】原文書参照機能付き関連箇所提示の例を示す
図である。

【図３２】グラフ付き関連箇所提示の例を示す図であ
る。

【図３３】３文書に対する関連箇所の出力例を示す図で
ある。

【図３４】文書統合処理のフローチャートである。

【図３５】英語閲覧対象文書の先頭部分を示す図であ
る。

【図３６】英語閲覧対象文書の単語認定結果を示す図で
ある。

【図３７】ストップワードの例を示す図である。

【図３８】英語の関連話題の抽出結果を示す図である。

【図３９】英語の関連箇所の要約例を示す図（その１）
である。

【図４０】英語の関連箇所の要約例を示す図（その２）
である。

【図４１】英語の関連箇所の要約例を示す図（その３）
である。

【符号の説明】

１話題階層認定手段２関連話題抽出手段３関連話題提示手段１１閲覧対象文書１２文書閲覧装置１３利用者２１入力部２２単語認定部２３形態素解析部２４単語辞書２５話題階層認定部２６話題境界候補区間認定部２７関連話題抽出部２８出力部４１出力装置４２入力装置４３ＣＰＵ４４ネットワーク接続装置４５媒体駆動装置４６補助記憶装置４７主記憶４８バス４９可搬記録媒体５０サーバ５１データベース

Claims

【特許請求の範囲】

【請求項１】閲覧対象として指定された複数の文書を
利用者に提示する文書閲覧装置であって、前記複数の文書のそれぞれの話題階層を認定する話題階
層認定手段と、認定された話題階層に基づき、前記複数の文書に共通し
て現れる関連話題を抽出する関連話題抽出手段と、抽出された関連話題に対応する記述箇所を、該複数の文
書のそれぞれから切り出して出力する関連話題提示手段
とを備えることを特徴とする文書閲覧装置。
【請求項２】前記関連話題抽出手段は、前記認定され
た話題階層中の様々な粒度の話題からなる話題対につい
て、該話題対の各話題に対応する記述箇所の語彙的類似
性に基づき、該話題対の話題間の関連度を求め、話題の
包含関係に基づいて設定された閾値以上の関連度を持つ
話題対を、前記関連話題として抽出することを特徴とす
る請求項１記載の文書閲覧装置。
【請求項３】前記関連話題提示手段は、切り出された
記述箇所を、前記複数の文書間の関連箇所として対置し
て提示することを特徴とする請求項１記載の文書閲覧装
置。
【請求項４】前記関連話題提示手段は、前記関連箇所
と元の文書とを対置・連動して提示することを特徴とす
る請求項３記載の文書閲覧装置。
【請求項５】前記関連話題提示手段は、前記関連箇所
の内容を要約して提示することを特徴とする請求項３記
載の文書閲覧装置。
【請求項６】前記関連話題提示手段は、前記複数の文
書に対応する複数の話題階層と、前記複数の関連話題に
基づく、該複数の話題階層中の話題間の対応関係とを、
図面を用いて提示し、該図面上における前記利用者の指
示に応じて、該複数の文書中の対応箇所を連動して提示
することを特徴とする請求項３記載の文書閲覧装置。
【請求項７】前記関連話題提示手段は、前記複数の文
書のうちの１つの文書を基準文書として、前記関連話題
に対応する記述箇所を他の文書から該基準文書に取り込
んで新たな統合文書を作成し、該統合文書を出力するこ
とを特徴とする請求項１記載の文書閲覧装置。
【請求項８】閲覧対象として指定された複数の文書を
利用者に提示するコンピュータのためのプログラムを記
録した記録媒体であって、該プログラムは、前記複数の文書のそれぞれの話題階層を認定し、認定された話題階層に基づき、前記複数の文書に共通し
て現れる関連話題を抽出し、抽出された関連話題に対応する記述箇所を、該複数の文
書のそれぞれから切り出して出力する処理を前記コンピ
ュータに実行させることを特徴とするコンピュータ読み
取り可能な記録媒体。
【請求項９】閲覧対象として指定された複数の文書を
利用者に提示する文書提示方法であって、前記複数の文書のそれぞれの話題階層を認定し、認定された話題階層に基づき、前記複数の文書に共通し
て現れる関連話題を抽出し、抽出された関連話題に対応する記述箇所を、該複数の文
書のそれぞれから切り出して出力することを特徴とする
文書提示方法。
【請求項１０】閲覧対象として指定された複数の文書
を利用者に提示するコンピュータのためのプログラムで
あって、前記複数の文書のそれぞれの話題階層を認定し、認定された話題階層に基づき、前記複数の文書に共通し
て現れる関連話題を抽出し、抽出された関連話題に対応する記述箇所を、該複数の文
書のそれぞれから切り出して出力する処理を前記コンピ
ュータに実行させることを特徴とするプログラム。