JP2002169803A - 複数の文書を閲覧するための装置および方法 - Google Patents

複数の文書を閲覧するための装置および方法

Info

Publication number
JP2002169803A
JP2002169803A JP2001265996A JP2001265996A JP2002169803A JP 2002169803 A JP2002169803 A JP 2002169803A JP 2001265996 A JP2001265996 A JP 2001265996A JP 2001265996 A JP2001265996 A JP 2001265996A JP 2002169803 A JP2002169803 A JP 2002169803A
Authority
JP
Japan
Prior art keywords
topic
document
documents
topics
hierarchy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001265996A
Other languages
English (en)
Other versions
JP4108948B2 (ja
Inventor
Yoshio Nakao
由雄 仲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001265996A priority Critical patent/JP4108948B2/ja
Publication of JP2002169803A publication Critical patent/JP2002169803A/ja
Application granted granted Critical
Publication of JP4108948B2 publication Critical patent/JP4108948B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 複数の文書に含まれる粒度の異なる話題につ
いて、適切な関連箇所を切り出して提示することが課題
である。 【解決手段】 話題階層認定手段1は、複数の閲覧対象
文書のそれぞれの話題階層を認定し、関連話題抽出手段
2は、認定された話題階層に基づき、複数の文書に共通
して現れる関連話題を抽出する。関連話題提示手段3
は、複数の文書の比較作業を支援するために、抽出され
た関連話題に対応する記述箇所を、それぞれの文書から
切り出し、関連箇所として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、機械可読文書をコ
ンピュータの画面上で閲覧するための装置およびその方
法に関し、特に、複数文書の内容を対比して閲覧可能な
形で提示することで、関連文書の比較閲覧作業を支援す
ることを意図したものである。
【0002】
【従来の技術】利用者が複数の関連文書を比較しながら
閲覧する場合、それらの文書の関連箇所をわかりやすく
提示する技術があれば、比較作業の効率が向上する。例
えば、ある調査項目について複数の地域の実情を調査レ
ポートにまとめるために、各地域の調査担当者から寄せ
られた調査レポートを読む場合、あるいは、質問状と回
答書を読み比べる場合等に、関連箇所の比較を支援する
技術が要望される。このような複数文書の比較支援に関
する文献として、例えば、以下の7つが挙げられる。 [1]Christine M. Neuwirth and David S. Kaufer. T
he role of external representations in the writing
process: Implications for the design of hypertext
-based writing tools. In Proc. of Hypertext '89, p
p.319-341. the Association for Computing Machiner
y, Nov. 1989. [2]大森信行(Nobuyuki Omori), 岡村潤(Jun Okamur
a), 森辰則(Tatsunori Mori), 中川裕志(Hiroshi Naka
gawa). tf・idf法を用いた関連マニュアル群のハ
イパーテキスト化. 情報処理学会研究報告FI-47-8/NL-1
21-16, 情報処理学会, Sep. 1997. [3]Gerard Salton, Amit Singhal, Chris Buckley,
and Mandar Mitra. Automatic text decomposition usi
ng text segments and text themes. In Proc. of Hype
rtext '96, pp. 53-65. the Association for Computin
g Machinery, Mar. 1996. [4]Inderjeet Mani and Eric Bloedorn. Summarizin
g similarities and differences among related docum
ent. chapter 23, pp. 357-379. The MIT Press,Londo
n, 1999. (reprint of Information Processing and Ma
nagement, Vol. 1, No. 1, pp. 1-23, 1999). [5]特開平7−325827 [6]特開2000−57152(P2000−571
52A) [7]特開平11−39334 このうち、文献[1]では、関連論文に見られる一致点
・相違点を、著者と命題(proposition)との2つの観点
で一覧表の形にまとめた、“Synthesis Grid ”という
インタフェース(画面)が提案されている。
【0003】また、文書の関連箇所を抽出する従来の技
術として、同一語彙の出現を手掛かりに、関連文書中の
関連箇所にハイパーリンクを設定する技術が知られてい
る。例えば、文献[2]では、文書中の一節に相当する
「セグメント」を単位に文書を分割し、語彙的類似度の
高いセグメント間にハイパーリンクを設定する技術が示
されている。また、文献[5]や文献[6]では、関連
文書中の同一キーワードの出現箇所にハイパーリンクを
設定する技術等が示されている。
【0004】その他、関連箇所の検出に関する技術とし
て、文献[3]では、語彙的類似性の高い段落群を検出
することで、単一文書中の関連箇所を抽出する技術が示
されている。また、文献[4]では、文書中の語彙の連
鎖等に基づく活性伝搬ネットワークを用いて、共通の関
連語群を含む文等を検出する技術が示されている。
【0005】また、関連文書の一致点・相違点を出力す
る技術としては、文献[7]に、複数の関連記事に対し
て、共通の内容とそれ以外の内容を区別して出力する技
術が示されている。例えば、複数の入力記事のうち、1
つを主記事としてその全体を表示し、残りの記事につい
ては、独自情報(共通情報以外の情報)のみを補足情報
として表示する方法が示されており、また、主記事とし
て全体を表示した記事に関しては、共通情報を強調表示
(網かけして表示)する方法等も示されている。
【0006】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、以下の2つの問題がある。第1の問
題は、関連箇所を認定する単位が固定的であるため、粒
度の異なる話題に対して、適切な関連箇所を検出するこ
とが難しいということである。つまり、上述の従来技術
では、節・段落・文(または語の出現位置そのもの)の
いずれか1つに比較の単位を固定しているため、基本的
に検出できるのは、節対節、段落対段落等、比較の単位
の大きさの箇所同士に限られることになる。
【0007】このため、例えば、第1の閲覧文書中で2
段落からなる箇所が、ひとつのまとまりとして、第2の
閲覧文書中の数段落以上の大きさの箇所と関連している
場合等には、関連箇所を対比できる形で適切に切り出す
ことが難しい。それを実現するためには、関連箇所とし
て検出された箇所を併合する等、何らかの別の手段を講
じることが必要になる。
【0008】第2の問題点は、ある話題に関する関連箇
所と、別の話題に関する関連箇所あるいは元の文書全体
との関係を十分に表現できないことである。例えば、長
めで話題が複雑に込み入った文書同士を比較すると、複
数の話題に関する関連箇所が、互いに絡み合って見い出
されることがある。
【0009】このような場合、個々の話題についてそれ
ぞれの文書から抽出した関連箇所を相互に比較するだけ
でなく、文書間に共通する複数の話題の相互関係や、各
関連箇所が出現する文脈等も考慮して、子細に吟味する
必要が生ずる。このとき、複数の関連箇所を一覧でき、
各関連箇所の周辺部も容易に参照できることが望ましい
が、上述の従来技術ではこのような機能は実現されてい
ない。
【0010】本発明の第1の課題は、それぞれの文書毎
に粒度の異なる話題に対しても適切な関連箇所を切り出
して提示する文書閲覧装置およびその方法を提供するこ
とである。また、本発明の第2の課題は、複数の話題に
関する関連箇所を、比較・分析しやすい形態で提示する
文書閲覧装置およびその方法を提供することである。
【0011】
【課題を解決するための手段】図1は、本発明の文書閲
覧装置の原理図である。図1の文書閲覧装置は、話題階
層認定手段1、関連話題抽出手段2、および関連箇所提
示手段3を備え、閲覧対象として指定された複数の文書
を利用者に提示して、それらの文書の比較作業を支援す
る。
【0012】話題階層認定手段1は、複数の閲覧対象文
書のそれぞれの話題階層を認定する。ここで、話題階層
とは、文書を構成する複数の話題のまとまりが2段以上
の階層構造を成していることを意味する。この階層構造
は、例えば、文書を構成する複数の大きな話題のまとま
りの各々が、1つ以上のより小さな話題のまとまりを含
み、小さな話題のまとまりの各々が、1つ以上のさらに
小さな話題のまとまりを含むというような話題の包含関
係に対応する。
【0013】関連話題抽出手段2は、認定された話題階
層に基づき、複数の閲覧対象文書に共通して現れる関連
話題を抽出する。このとき、複数の文書にそれぞれ対応
する複数の話題階層を比較し、関連性の強い話題の組み
合わせを抽出し、複数の文書にまたがる関連話題として
出力する。例えば、文書D1と文書D2から、第1の話
題階層と第2の話題階層が得られた場合、第1の話題階
層中の様々な粒度の話題それぞれを、第2の話題階層中
の様々な粒度の話題それぞれと比較し、関連性の強い話
題の対を抽出し、それらを関連話題として出力する。
【0014】関連話題提示手段3は、抽出された関連話
題に対応する記述箇所を、それぞれの閲覧対象文書から
切り出して出力する。このとき、切り出された記述箇所
は、複数の閲覧対象文書にまたがる関連箇所として出力
される。
【0015】このように、文書閲覧装置は、話題階層認
定手段1によって、個々の閲覧対象文書に含まれる様々
な粒度(大きさ)の話題を検出し、それに基づき、関連
話題抽出手段2によって、文書間にまたがる関連話題を
検出する。そして、関連話題提示手段3によって、関連
話題に対応する文書に記述箇所を切り出して出力する。
【0016】閲覧対象文書に含まれる様々な粒度の話題
を単位に、網羅的に話題の関連性を調べることで、大き
さの異なる記述箇所の対応関係を検出することができ
る。例えば、文書D1中の2段落相当の大きさの箇所
が、ひとつのまとまりとして、文書D2中の数段落以上
の大きさの箇所と関連している場合等にも、適切な関連
箇所を切り出すことが可能になる。
【0017】さらに、図1の文書閲覧装置は、以下のよ
うな様々な機能を有する。関連話題抽出手段2は、関連
話題の関連度を、各話題に対応する文書中の記述箇所の
語彙的類似性によって求め、話題の包含関係に基づき設
定した閾値により関連話題を選択する。例えば、上位層
の話題Aと話題Bの対が関連度R1を示している場合、
話題Aと話題Bが包含するより小さな話題のいずれも
が、いずれの話題ともR1以上の関連度を示していない
場合にのみ、話題Aと話題Bの対を関連話題として出力
する。
【0018】これにより、不適切な関連箇所の出力が抑
制され、より効率的に関連箇所を出力できるようにな
る。例えば、2つの閲覧対象文書のそれぞれに、複数段
落からなる話題のまとまりがあり、それらが関連してい
る場合、それらのまとまりを構成する一部の段落もまた
ある粒度の話題として並行的に関連していることがあ
る。
【0019】すなわち、文書D1中の第1、第2段落
と、文書D2の第1、第2段落の間で、2段落のまとま
り同士においても、また第1段落同士、第2段落同士に
おいても、関連が見い出される場合等がある。このよう
な場合にも、まとまり同士の関係として関連箇所を出力
するか、個々の段落同士の関係として関連箇所を出力す
るかを、適切に選択し、冗長な出力を抑制することがで
きる。
【0020】また、関連話題提示手段3は、関連箇所を
関連話題単位に分け、対置して提示する。これにより、
複数の関連話題が検出された場合においても、利用者
は、個々の話題に関する対応箇所を対比して閲覧するこ
とが可能になる。
【0021】また、話題関連提示手段3は、各関連箇所
の内容を短く要約して出力することもできる。これによ
り、多くの関連話題が検出された場合においても、利用
者は、関連箇所全体の内容を一覧できるようになる。
【0022】また、関連話題提示手段3は、各関連箇所
に対応する元の文書の部分を連動して提示することもで
きる。例えば、それぞれの関連箇所に元文書参照用のボ
タン(ハイパーリンク等)を添えて提示し、そのボタン
による要求に応じて、元文書の関連部を、併置した別の
ウィンドウに提示する。これにより、利用者は、各関連
箇所が出現する文脈を参照しながら、関連箇所の内容を
吟味すること等が可能になる。
【0023】また、関連話題提示手段3は、閲覧対象文
書の話題階層を表現した図面を合わせて提示し、図面上
での利用者の指定に応じて、閲覧対象文書の対応箇所を
連動して提示する。例えば、各話題をノードとする話題
階層の木構造グラフを2つ併置し、また、関連話題をノ
ード間のアークとして提示し、利用者の要求を受け付け
る。そして、利用者がアークを指定した場合には、その
アークに対応する関連箇所を別のウィンドウに提示し、
また、ノードを指定した場合には、そのノードに対応す
る部分を同様に提示する。
【0024】これにより、利用者は、文書全体の話題の
構成を手掛かりに、必要に応じて別の関連箇所の内容等
を参照しながら、関連箇所を吟味することが可能にな
り、より効率的に複数文書を比較・閲覧できるようにな
る。
【0025】また、関連話題提示手段3は、複数の閲覧
対象文書の中の1つの文書を基準として、関連話題に関
する記述箇所を他の閲覧対象文書から取り込むことで、
新たな統合文書を作成し、提示する。これにより、例え
ば、利用者は、複数文書をまとめたレポート等の統合文
書を効率的に作成できるようになる。
【0026】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本発明は、文書の一
致点・相違点をわかりやすく提示するという機能に関
し、現在の技術で自動化可能な範囲で実現したものであ
る。具体的には、文書内の関連箇所の自動抽出技術を利
用して、複数の関連文書における関連箇所を対比して提
示する機能を実現している。
【0027】図2は、本発明の文書閲覧装置の基本構成
を示している。図2の文書閲覧装置12は、入力部(in
put unit)21、単語認定部(tokenizer )22、単語
辞書(machine readable dictionary )24、話題階層
認定部(thematic hierarchydetector )25、関連話
題抽出部(related topic extractor )27、および出
力部(output unit )28を備える。
【0028】図1の話題階層認定手段1、関連話題抽出
手段2、および関連話題提示手段3は、それぞれ、図2
の話題階層認定部25、関連話題抽出部27、および出
力部28に対応する。
【0029】図2において、文書閲覧装置12は、複数
の閲覧対象文書11が入力されると、それらの閲覧対象
文書にまたがり、共通話題に関する関連箇所を抽出し、
利用者13に提示する。
【0030】入力部21は、複数の閲覧対象文書11を
読み込み、それぞれを逐次単語認定部22に渡す。単語
認定部22は、サブモジュールの形態素解析部(morpho
logical analyzer)23を用いてそれぞれの文書11を
言語的に解析して、文書11に含まれる内容語(名詞・
動詞・形容詞・形容動詞等)を切り出し、対応する文書
11の部分に印を付ける。このとき、形態素解析部23
は、単語辞書24を参照して、文書11中の文を、品詞
情報付きの単語リストに変換する。単語辞書24は、形
態素解析用の単語辞書であって、単語の表記文字列と品
詞・活用の情報との対応関係等を記述している。
【0031】話題階層認定部25は、内容語の印付きの
複数の閲覧対象文書11を受け取り、それぞれの文書1
1の話題階層を認定し、出力する。話題階層認定部25
は、まず、サブモジュールの話題境界候補区間認定部
(thematic boundary detector)26を用いて、文書中
の様々な粒度(大きさ)の話題のまとまりを自動認定す
る。ここで、話題のまとまりとは、共通の話題について
記述している文書の部分を指す。そして、大きな話題の
まとまりと小さな話題のまとまりを対応付けて話題階層
データを作成し、出力する。
【0032】話題境界候補区間認定部26は、語彙的結
束度の小さい区間を話題境界の候補区間として認定す
る。語彙的結束度とは、文書中の各位置の近傍領域にお
ける語彙的結束性の強さを表す指標であり、例えば、各
位置の前後に設定したある幅の窓内に出現する語彙の類
似性から求められる。
【0033】関連話題抽出部27は、複数の閲覧対象文
書11のそれぞれに対応する、複数の話題階層を、話題
階層認定部25から受け取り、2つ以上の文書に共通し
て現れる関連話題を検出し、関連話題のリストを出力す
る。
【0034】出力部28は、関連話題抽出部27が抽出
した関連話題に対応する記述箇所をそれぞれの文書から
切り出し、関連話題毎にまとめて(または対応づけ
て)、利用者13に提示する。
【0035】図2の文書閲覧装置12は、例えば、図3
に示すような情報処理装置(コンピュータ)を用いて構
成することができる。図3の情報処理装置は、出力装置
41、入力装置42、CPU(中央処理装置)43、ネ
ットワーク接続装置44、媒体駆動装置45、補助記憶
装置46、およびメモリ(主記憶)47を備え、それら
はバス48により互いに接続されている。
【0036】メモリ47は、例えば、ROM(read onl
y memory)、RAM(random access memory)等を含
み、文書閲覧処理に用いられるプログラムとデータを格
納する。ここでは、図2に示した入力部21、単語認定
部22、形態素解析部23、話題階層認定部25、話題
境界候補区間認定部26、関連話題抽出部27、および
出力部28が、プログラムモジュールとして格納されて
いる。CPU43は、メモリ47を利用してプログラム
を実行することにより、必要な処理を行う。
【0037】出力装置41は、例えば、ディスプレイや
プリンタ等であり、利用者13への問い合わせや、閲覧
対象文書11および処理結果等の出力に用いられる。入
力装置42は、例えば、キーボード、ポインティングデ
バイス、タッチパネル、スキャナー等であり、利用者1
3からの指示や閲覧対象文書11の入力に用いられる。
【0038】補助記憶装置46は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク(magneto-op
tical disk)装置等であり、閲覧対象文書11、単語辞
書24等の情報を格納する。また、情報処理装置は、こ
の補助記憶装置46に、上述のプログラムとデータを保
存しておき、必要に応じて、それらをメモリ47にロー
ドして使用する。
【0039】媒体駆動装置45は、可搬記録媒体49を
駆動し、その記録内容にアクセスする。可搬記録媒体4
9としては、メモリカード、フロッピー(登録商標)デ
ィスク、CD−ROM(compact disk read only memor
y )、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体が用いられる。利用者13
は、この可搬記録媒体49に上述のプログラムとデータ
を格納しておき、必要に応じて、それらをメモリ47に
ロードして使用する。
【0040】ネットワーク接続装置44は、LAN(lo
cal area network)等の任意のネットワーク(回線)を
介して外部の装置と通信し、通信に伴うデータ変換を行
う。また、情報処理装置は、上述のプログラムとデータ
をネットワーク接続装置44を介して、サーバ等の他の
装置から受け取り、必要に応じて、それらをメモリ47
にロードして使用する。
【0041】図4は、図3の情報処理装置にプログラム
とデータを供給することのできるコンピュータ読み取り
可能な記録媒体を示している。可搬記録媒体49やサー
バ50のデータベース51に保存されたプログラムとデ
ータは、メモリ47にロードされる。そして、CPU4
3は、そのデータを用いてそのプログラムを実行し、必
要な処理を行う。このとき、サーバ50は、プログラム
とデータを伝送する伝搬信号を生成し、ネットワーク上
の任意の伝送媒体を介して、情報処理装置に送信する。
【0042】次に、図2に示した文書閲覧装置12の各
モジュールの動作を、具体例を用いてより詳細に説明す
る。閲覧対象文書の例としては、「第149回衆議院本
会議会議録第2号」(2000年7月31日)から、水
島広子議員による代表質問(第1の閲覧対象文書)とそ
れに対する首相の答弁(第2の閲覧対象文書)を、それ
ぞれ1つの文書として切り出したものを用いた。衆議院
の代表質問は、党を代表する議員がいくつかの項目を一
括して質問した後、首相・関係大臣が答弁する形で進め
られるが、この代表質問では、子供の教育、民法改正、
国会運営、有害情報、小児医療、歳費支給方式の6つの
問題に関し、計8項目が質問されている。
【0043】図5は、代表質問部を切り出した第1の閲
覧対象文書の冒頭部である。なお、図5において、下線
を引いた箇所、すなわち、冒頭の発言議員名および括弧
で囲まれた議事進行に関する補足情報については、代表
質問の内容ではないため、除外してから、以降の処理を
行った。首相の答弁部を切り出した第2の閲覧対象文書
においても、同様に冒頭の発言者名と括弧内の補足情報
は除去して処理を行っている。
【0044】図6は、単語認定部22による単語認定処
理のフローチャートである。単語認定部22は、まず、
個々の閲覧対象文書に形態素解析を施し、品詞付きの単
語リストを作成する(ステップS11)。次に、品詞を
手掛かりに内容語(名詞・動詞・形容詞・形容動詞)を
認定し、内容語に対応する文書の部分に印を付けて(ス
テップS12)、処理を終了する。図7は、図5の文書
部分に対する単語認定部22の処理結果を示している。
【0045】図6のステップS11において、形態素解
析部23は、図8に示すような形態素解析処理を行う。
形態素解析部23は、まず、単語リストをクリアし(ス
テップS21)、文書の先頭から句点(またはピリオ
ド)等を手掛かりに文の取り出しを試み(ステップS2
2)、文が取り出せたかどうかを判定する(ステップS
23)。
【0046】文が取り出せれば、次に、単語辞書24を
参照して、文に含まれている単語の候補を求める(ステ
ップS24)。日本語の場合は、図7に示したように、
単語と単語の境界が形式的に明示されていないので、文
に含まれる部分文字列に対応するすべての単語を候補と
して求める。例えば、「東京都は大都市だ」という文が
取り出された場合、図9に示すように、この文に含まれ
るすべての部分文字列が単語の候補となる。
【0047】これに対して、英語の場合は、単語の境界
が空白(スペース)により明示されているため、空白で
区切られた文字列に対応する単語について、品詞の候補
を求めることが主な処理となる。例えば、“Tokyo is t
he Japanese capital.”という文が取り出された場合、
図10に示すように、この文に明示的に含まれる5つの
単語の基本形と品詞が求められる。
【0048】次に、形態素解析部23は、品詞レベルの
連接の観点から、妥当な単語の並びを選択し(ステップ
S25)、選択された単語の並びに品詞と出現位置の情
報を付加して、出現順に単語リストに追加する(ステッ
プS26)。次に、次の文の取り出しを試み(ステップ
S27)、ステップS23以降の処理を繰り返す。そし
て、ステップS23において文が取り出せなくなると、
処理を終了する。
【0049】図10の単語認定結果において、墨付き括
弧で括られた部分が形態素解析部23の認定した内容語
である。内容語が活用語(動詞・形容詞)の場合、墨付
き括弧内で、スラッシュ(/)の前の部分は語幹を表
し、スラッシュの後の部分は終止形の活用語尾を表す。
これは、後の処理で単語の区別を行うために用いられる
情報であるが、この情報の代わりに、品詞と活用を付加
しておいてもよい。要するに、例えば、「い/う」と
「い/る」のように、語幹だけでは区別の付かない単語
を区別するための識別情報であれば、任意のものを用い
ることができる。
【0050】また、ステップS25において、単語の並
びの妥当性を評価する方法は、形態素解析法として各種
のものが知られており、任意のものを用いることができ
る。例えば、以下の文献[8]、[9]、および[1
0]では、単語の並びの妥当性を訓練データにより推定
された出現確率を用いて評価する方法が報告されてい
る。 [8]Eugene Charniak. Hidden markov models and tw
o applications. In Statistical Language Learning,
chapter 3, pp. 37-73. The MIT Press, 1993. [9]永田昌明. 前向きDP後向きA* アルゴリズム
を用いた確率的日本語形態素解析システム. 情報処理学
会研究報告NL-101-10, 情報処理学会, May 1994. [10]Masaaki Nagata. A stochastic japanese morp
hological analyzer using a forward-DP backward-A*
N-best search algorithm. In Proc. of COLING'94, p
p. 201-207, Aug. 1994. なお、図7の例では、単語認定部22がすべての内容語
を切り出しているが、切り出しの対象を名詞だけに絞っ
ても構わない。また、英語の文書を対象に処理する場合
には、形態素解析処理を行う代わりに、空白で区切られ
たすべての語のうち、話題に関わらずどこにでも出現す
る語彙(冠詞、前置詞等の機能語や特に高い頻度で出現
する語)を取り除いて、単語を切り出してもよい。この
ような処理は、単語辞書24の代わりに、機能語や特に
高い頻度で出現する語を格納したストップワードリスト
(stop word list)を用意すれば、容易に実現できる。
【0051】次に、話題階層認定部25の処理について
説明する。本実施形態においては、話題のまとまりは、
先願の特開平11−272699「文書要約装置および
その方法」に示された技術に基づいて認定している。こ
の方法では、以下の手順で話題の階層構成が認定され
る。 1.話題境界位置の区間推定 ある窓幅で計算した結束度に基づき、話題境界が存在し
そうな位置を、話題境界候補区間として求める。そし
て、大きさの異なる複数の窓幅に対してこの処理を繰り
返し、大きな話題の切れ目を示す境界から小さな話題の
切れ目を示す境界まで、話題の大きさ別に話題境界候補
区間を求める。 2.話題の階層関係の認定 異なる窓幅により求めた話題境界候補区間を統合し、話
題の階層構造とそれぞれの話題境界の位置を決定する。
【0052】図11は、話題階層認定部25による話題
階層認定処理のフローチャートである。話題階層認定部
25は、まず、最大窓幅w1、最小窓幅w_min、窓
幅比rの3つのパラメータを利用者から受け取り(ステ
ップS41)、結束度を測定するための窓幅の集合Wを
求める(ステップS42)。窓幅の集合Wは、初項をw
1とし、公比を1/rとする等比級数から、w_min
以上の大きさの項を集めて作成される。
【0053】このとき、Wにおける最大窓幅w1として
は、文書全体のサイズの1/2〜1/4程度の大きさを
与え、最小窓幅w_minとしては、段落程度の大きさ
(例えば40語)を与え、窓幅比rとしては2を与えて
おけば、実用上十分である。以下では、w1=320
(語)、w_min=40(語)、r=2の値を用いて
いる。
【0054】次に、話題階層認定部25は、図7に示し
たように、内容語に印が付けられた文書をもとに、文書
中の各位置の結束度を、W中のそれぞれの窓幅毎に計算
し、結束度系列として記録する(ステップS43)。
【0055】ここでは、まず、文書の各位置(基準点)
の前後に設定した2つの窓の中に出現している語彙(こ
こでは内容語)を比較し、共通している語彙が多い程大
きくなるような値を計算して、その位置における結束度
とする。そして、窓の位置を文書の冒頭から末尾に向か
って一定の刻み幅ticでずらしながら、結束度の計算
を繰り返し、計算した結束度を、文書の冒頭から末尾に
向かう系列として記録する。
【0056】刻み幅ticは、窓幅より小さければいず
れの値でも構わないが、処理効率を考慮して、ここで
は、窓幅の1/8の値を用いた。このticの値は、利
用者により指定することも可能である。
【0057】結束度の計算方法としては各種の方法が考
えられるが、以下では、情報検索等の分野で類似度の尺
度として広く用いられてきた余弦測度(cosine measur
e)を用いている。余弦測度は次の式により求められ
る。
【0058】
【数1】
【0059】ここで、bl とbr は、それぞれ、左窓
(文書の冒頭側の窓)、右窓(文書の末尾側の窓)に含
まれる文書の部分を表し、wt,bl、wt,brは、
それぞれ、左窓、右窓に出現する単語tの出現頻度を表
す。また、(1)式の右辺のΣt は、単語tに関する
総和を表す。
【0060】(1)式の類似度は、左右の窓に含まれる
語彙に共通のものが多いほど大きくなり(最大1)、共
通のものがない時に0となる。つまり、この値が大きい
部分は、左右の窓で共通の話題を扱っている可能性が高
く、逆に、この値が小さい部分は、話題の境界である可
能性が高いことになる。
【0061】次に、図12は、ステップS43で記録さ
れた結束度の系列の例を示している。図12では、簡単
のため、窓幅wの1/4を刻み幅ticとして用いてお
り、文書領域a1〜a11は、刻み幅ticに対応する
一定幅の領域である。また、c1は、文書中のa4とa
5の境界を基準点として計算した、窓幅wの結束度を表
す。すなわち、c1は、文書領域a1〜a4の部分を左
窓の範囲とし、a5〜a8の部分を右窓の範囲として計
算された結束度である。
【0062】次のc2は、窓をtic分だけ右へずらし
て計算された結束度を表し、a5とa6の境界を基準点
とする窓幅wの結束度である。このようにして、窓をt
ic分ずつ順に右へずらして計算したc1,c2,c
3,c4,...を、文書の冒頭から末尾へ向かう窓幅
wの結束度系列と呼ぶ。
【0063】図13は、上述の単語認定結果において、
文書の冒頭から各基準点までの間に出現した内容語の延
べ数を横軸にとり、最小窓幅(40語)の結束度系列を
プロットしたグラフである。例えば、図12の結束度c
2の場合は、a1〜a5の領域中の内容語の延べ数が、
文書における基準点の位置となる。ここでは、40語の
窓幅の1/8(5語)を刻み幅ticとして、文書の冒
頭から末尾に向かって結束度を計算している。
【0064】次に、話題階層認定部25は、サブモジュ
ールの話題境界候補区間認定部26を使って、それぞれ
の窓幅の結束度系列を解析し、結束度の低い区間を話題
境界候補区間として認定する(ステップS44)。具体
的には、結束度系列の極小点を手掛かりに、それぞれの
結束度系列の窓幅程度の大きさの話題のまとまりの境界
位置を区間推定する。本実施形態では、この処理を、移
動平均法を用いて実現している。
【0065】次に、話題階層認定部25は、異なる窓幅
の結束度系列に基づいて求めた話題境界候補区間を互い
に関連付け、話題の境界位置を語の単位で決定する(ス
テップS45)。そして、語の単位で決定された話題の
境界位置を微調整し、文境界(句点で区切られた部分の
開始位置)に合わせてから、話題階層データを作成して
出力する(ステップS46)。これにより、話題階層認
定処理が終了する。
【0066】なお、ステップS46において話題境界位
置を文境界に合わせるためには、認定された境界位置に
最も近い文の開始位置を求め、それを最終的な話題境界
の位置とすればよい。あるいは、先願の特願平11−2
05061「文書要約装置およびその方法」で開示され
た境界文認定技術を使って、より適切な話題境界(話題
の開始位置)を求めることも可能である。
【0067】次に、図11のステップS44における話
題境界候補区間認定処理について、図12および図14
を使って説明する。ここで用いられる移動平均法は、株
価の変動などの統計的分析方法である時系列分析(time
series analysis)において、細かい変動を取り除いて
大局的な傾向を把握するために使われている。本実施形
態では、結束度系列の移動平均値を細かい変動を無視す
るために用いるだけでなく、それを移動平均の開始点に
おける順方向結束力および移動平均の終了点における逆
方向結束力とみなすことで、話題境界候補区間認定のた
めの直接的な手掛かりとしている。
【0068】図12は、前述したように、結束度の系列
c1〜c4と文書領域a1〜a11との関係を示してい
る。結束度系列の移動平均値とは、例えば、(c1+c
2)/2(2項の移動平均)、(c1+c2+c3)/
3(3項の移動平均)、(c1+c2+c3+c4)/
4(4項の移動平均)のように、結束度系列において連
続するn個の値を算術平均した値である。
【0069】図14は、図12の結束度系列の移動平均
の例と文書領域との関係を示している。ここでは、移動
平均の例として、図12の結束度の2項〜4項の移動平
均が示され、それぞれの移動平均に関わる結束度の計算
において、各文書領域が使用された回数が示されてい
る。このうち、下線を付けた値は、対応する文書領域が
移動平均に関わるすべての結束度の計算に用いられてい
ることを表す。
【0070】例えば、左上角の値“1”は、c1〜c4
までの4項の移動平均において、文書領域a1が一度だ
け左窓の一部として扱われたことを示している。また、
その右の値“2”は、c1〜c4までの4項の移動平均
において、文書領域a2が2回左窓の一部として扱われ
たことを示している。他の使用回数についても、同様で
ある。
【0071】結束度は境界の前後の部分の結び付きの強
さを表す指標であるので、領域a1を左窓に含んで得ら
れた結束度c1を用いて計算された移動平均値も、領域
a1がそれより右側(文書の末尾側)の部分に結び付い
ているかどうかを示す指標の1つと考えられる。
【0072】言い換えれば、移動平均値は、移動平均を
とった結束度の左窓部分の領域(c1〜c4の4項平均
に対してはa1〜a7)が文書の末尾へ向かう方向(順
方向:図15では右方向)に引っ張られる強さの指標
(順方向結束力)になっていると言える。一方、逆に、
移動平均をとった結束度の右窓部分の領域(c1〜c4
の4項平均に対してa5〜a11)が文章の冒頭方向
(逆方向:図15では左方向)に引っ張られる強さの指
標(逆方向結束力)になっているとも言える。
【0073】ここで、結束力とそれぞれの文書領域との
関連性を考察すると、結束度の計算においてより多く窓
に含まれていた領域との関連が強いと考えられる。ま
た、語彙的結束性は、一般に、近傍で繰り返される語彙
に基づくものほど強いと考えられるので、移動平均をと
った結束度の基準点(左右の窓の境界位置)に近い位置
にある領域ほど関連が強いとも言える。
【0074】例えば、図14の4項の移動平均について
は、結束度の基準点は、a4とa5の境界、a5とa6
の境界、a6とa7の境界、およびa7とa8の境界の
4つである。この場合、a4は最も多く左窓に含まれて
おり、かつ、これらの基準点に最も近いことが分かる。
また、a8は最も多く右窓に含まれており、かつ、これ
らの基準点に最も近いことが分かる。したがって、移動
平均値と最も関連の強い領域は、左窓についてはa4、
右窓についてはa8となる。
【0075】同様にして、3項の移動平均と最も関連の
強い領域を選ぶと、左窓についてはa4、右窓について
はa7となり、2項の移動平均と最も関連の強い領域を
選ぶと、左窓についてはa4、右窓についてはa6とな
る。これらの領域の使用回数は、図14では太線の枠で
囲んで示されている。
【0076】以上の考察に基づき、話題境界候補区間認
定部26は、結束度の移動平均値を、移動平均をとった
領域内の最初の基準点における順方向結束力および最後
の基準点における逆方向結束力の指標として取り扱う。
例えば、c1〜c4の4項の移動平均値は、a4とa5
の境界における順方向結束力およびa7とa8の境界に
おける逆方向結束力となる。
【0077】図15は、話題境界候補区間認定部26に
よる話題境界候補区間認定処理のフローチャートであ
る。候補区間認定部26は、まず、話題階層認定部25
から結束度系列の刻み幅ticを受け取り、利用者から
移動平均の項数nを受け取る(ステップS51)。
【0078】これらのパラメータの値の目安は、刻み幅
ticについては、例えば、窓幅wの1/8〜1/10
程度の大きさであり、項数nについては、w/ticの
半分(4〜5)程度である。また、移動平均をとる領域
の最初の基準点から最後の基準点までの隔たりを、(n
−1)*ticにより計算して、それを移動平均の幅d
(語)とする。
【0079】次に、文書中の各位置pについて、p〜p
+dの範囲内で結束度の移動平均をとり、平均値を位置
pにおける順方向結束力として記録する(ステップS5
2)。この値は、同時に、移動平均をとった範囲の終了
位置p+dにおける逆方向結束力としても記録される。
【0080】次に、記録された順方向結束力をもとに、
文書中の冒頭から末尾に向かって各位置における順方向
結束力と逆方向結束力の差(順方向結束力−逆方向結束
力)を調べ、その値が負から正に変化する位置を負の結
束力拮抗点mpとして記録する(ステップS53)。
【0081】負の結束力拮抗点とは、その位置の左では
逆方向結束力が優勢であり、その位置の右では順方向結
束力が優勢であるような点である。したがって、この点
の左右の部分は意味的な結び付きが弱いと考えられ、負
の結束力拮抗点は話題境界の候補位置となる。
【0082】次に、記録された負の結束力拮抗点mpの
直前・直後のd語以内の範囲[mp−d,mp+d]を
話題境界候補区間と認定して(ステップS53)、処理
を終了する。
【0083】ここで、順・逆方向の結束力の差に基づい
て話題境界候補区間を認定する意味を、図16を使って
説明する。図16は、図13の400語付近(370語
〜400語)における40語幅の窓による結束度と順・
逆方向の結束力の分布を示している。刻み幅ticとし
ては、窓幅の1/8を採用している。
【0084】図16において、記号+でプロットした折
れ線グラフは、結束度Cの系列を表し、記号*でプロッ
トした折れ線グラフは、順方向結束力FCの系列を表
し、記号□でプロットした折れ線グラフは、逆方向結束
力BCの系列を表す。話題境界候補区間を表す矩形で示
された領域については、後述することにする。
【0085】また、点線で示されたep1、ep2、e
p3は、順・逆方向の結束力の差が0になる3つの点
(結束力拮抗点)を表す。最初の点ep1の左側では、
逆方向結束力が順方向結束力より優勢であり、その右側
から次の点ep2までは、順方向結束力が逆方向結束力
より優勢である。さらに、その右側から最後の点ep3
までは、逆方向結束力が順方向結束力より優勢であり、
その右側では、順方向結束力が逆方向結束力より優勢で
ある。
【0086】したがって、ep1とep3は、順方向結
束力と逆方向結束力の差が負から正に変化する負の結束
力拮抗点であり、ep2は、その差が正から負に変化す
る正の結束力拮抗点である。
【0087】このような結束力の変化から、最初の点e
p1の左側の領域は、それより左側のいずれかの部分と
比較的強い結束性を示しており、真中の点ep2の両側
の領域は、ep2に向かって強い結束性を示しており、
最後の点ep3の右側の領域は、それより右側のいずれ
かの部分と比較的強い結束性を示していることが分か
る。実際、順・逆方向の結束力と共にプロットした結束
度は、ep1とep3の近傍で極小値をとり、ep2の
近傍で極大値をとっている。このように、順・逆方向の
結束力の変化と結束度の変化は密接に関連している。
【0088】例えば、図16の結束力拮抗点ep3の近
傍には、結束度の極小点(この場合はc3)がある。上
向き矢印で示したFC、BCの極小値は、水平矢印の部
分の結束度(c1〜c4の4項)を移動平均した値であ
る。このように、通常は、結束度の極小点に対応して、
その近傍(移動平均の幅以内)で、結束力も極小値をと
る。ただし、移動平均をとる領域より狭い範囲で細かい
変動がある場合には、移動平均の平滑化作用により、移
動平均値すなわち結束力が極小値をとらないこともあ
る。
【0089】また、順方向結束力は移動平均値を移動平
均をとる領域の開始位置に記録した指標であるので、順
方向結束力の極小位置は結束度の極小位置の左になる。
同様の理由により、逆方向結束力の極小位置は結束度の
極小位置の右になる。そして、結束度の変動が十分に大
きければ、移動平均をとる領域内に結束力拮抗点が生成
されることになる。
【0090】図17は、図11のステップS45におい
て行われる話題境界認定処理のフローチャートである。
話題階層認定部25は、まず、認定された話題境界候補
区間を、認定に使った結束度系列の窓幅と、話題境界候
補区間内の結束力拮抗点の文書における出現位置とによ
ってソートしてまとめ、話題境界候補区間データの系列
B(j)[p]を作成する(ステップS61)。
【0091】ここで、制御変数jは、窓幅wjの結束度
系列により認定されたことを表す系列番号であり、制御
変数pは、系列内の各話題境界候補区間を表すデータ番
号である。実際には、jは、窓幅の大きい順に1,
2,...の値をとり、pは、結束力拮抗点の出現順に
1,2,...の値をとる。それぞれのデータB(j)
[p]は、次のような要素データを含む。
【0092】・B(j)[p].range:話題境界
候補区間。(開始位置、終了位置)の組。 ・B(j)[p].ep:結束力拮抗点。
【0093】・B(j)[p].child:境界位置
の話題境界候補区間の範囲で一致するB(j+1)系列
の話題境界候補区間(子候補区間)。 なお、結束力拮抗点は理論的には点であるが、前述のよ
うに、順方向結束力と逆方向結束力の差の符号が反転す
る地点を拮抗点として認定しているので、実際には、差
が負の点(開始位置)と差が正の点(終了位置)の組に
より表される。そこで、本実施形態では、結束力拮抗点
の開始位置lpと終了位置rpにおける(順方向結束力
−逆方向結束力)の値を、それぞれ、DC(lp)とD
C(rp)として、左右の結束力が0になる点epを、
次式により補間して求める。 ep=(DC(rp)*lp−DC(lp)*rp) /(DC(rp)−DC(lp)) (2) そして、得られたepを、B(j)[p].epとす
る。
【0094】次に、話題階層認定部25は、窓幅の異な
る話題境界候補区間データを関連付ける処理を行う。こ
こでは、1つの系列に属するB(j)[p]をまとめて
B(j)と記し、さらに、次のような表記法を用いて、
以下の処理を説明する。
【0095】・ie:最小窓幅w_minに対応する系
列番号。 ・|B(j)|:B(j)におけるデータ番号pの最大
値。 まず、処理対象を表す系列番号iを1に初期化する(ス
テップS62)。これにより、最大窓幅w1による話題
境界候補区間の系列が処理対象に設定される。そして、
j+1≦jeである限り、jをインクリメントしなが
ら、B(j+1)を関連付け対象の系列とする関連付け
処理を行う。
【0096】この関連付け処理では、処理対象系列中の
それぞれの話題境界候補区間データB(j)[p](p
=1,...,|B(j)|)について、それと同じ付
近を境界候補としている関連付け対象系列中のデータB
(j+1)[q]のうち、B(j+1)[q].epが
B(j)[p].epに最も近いデータが選ばれ、関連
境界候補区間データとしてB(j)[p].child
に格納される。
【0097】具体的な手順は以下の通りである。まず、
j+1とjeを比較し(ステップS63)、j+1≦j
eであれば、pに1を代入して(ステップS64)、p
と|B(j)|を比較する(ステップS65)。p≦|
B(j)|であれば、ステップS66以降の関連付け処
理を行い、pが|B(j)|を越えれば、j=j+1と
おいて(ステップS71)、ステップS63以降の処理
を繰り返す。
【0098】ステップS66では、話題階層認定部25
は、関連付け候補となる系列中のデータB(j+1)
[q](q=1,...,|B(j+1)|)の中か
ら、B(j+1)[q].ep∈B(j)[p].ra
ngeとなるデータでB(j+1)[q].epがB
(j)[p].epに最も近いデータを、関連付け対象
データとして選択し、B(j)[p].childに格
納する。
【0099】ここで、B(j+1)[q].ep∈B
(j)[p].rangeという条件は、B(j)
[p]の話題境界候補区間の中にB(j+1)[q]の
結束力拮抗点が含まれていることを表す。
【0100】図18は、関連付け対象データの選択例を
示している。図18において、記号+でプロットした折
れ線グラフは、処理対象に対応する80語幅の窓による
順方向結束力の系列を表し、記号×でプロットした折れ
線グラフは、80語幅の窓による逆方向結束力の系列を
表す。また、記号*でプロットした折れ線グラフは、関
連付け対象に対応する40語幅の窓による順方向結束力
の系列を表し、記号□でプロットした折れ線グラフは、
40語幅の窓による逆方向結束力の系列を表す。また、
矩形で示された領域は、話題境界候補区間に対応し、点
線で示されたep1、ep3は、40語幅の窓による結
束力の拮抗点に対応する。
【0101】例えば、処理対象データをB(3)[4]
とすると、その近傍には結束力拮抗点ep1、ep3が
あり、それらに対応して関連付け対象系列の2つのデー
タB(4)[6]とB(4)[7]がある。このうち、
B(4)[7]の結束力拮抗点ep3は、B(3)
[4]の話題境界候補区間(上方の矩形)に含まれてい
るので、B(4)[7]が関連付け対象データとして選
択される。
【0102】次に、話題階層認定部25は、関連付け対
象データが選択できたかどうかを判定し(ステップS6
7)、関連付け対象データが選択できた場合は、p=p
+1とおいて(ステップS70)、ステップS65以降
の処理を繰り返す。
【0103】条件を満たす関連付け対象データが見つか
らなかった場合には、B(j)[p]と同じ話題境界候
補区間を持つ疑似的な関連付け対象データ(ダミーデー
タ)B(j+1)[q]を作成し、B(j+1)の系列
に挿入する(ステップS68)。
【0104】ステップS68では、まず、B(j+1)
[q].rangeとB(j+1)[q].epに、そ
れぞれ、B(j)[p].rangeとB(j)
[p].epの値を設定して、新たなデータB(j+
1)[q]を作成する。そして、系列B(j+1)の中
で、B(j+1)[q−1].ep<B(j+1)
[q].epかつB(j+1)[q].ep<B(j+
1)[q+1].epとなるような位置に、作成したデ
ータB(j+1)[q]を挿入する。
【0105】これにより、疑似的な関連付け対象データ
のデータ番号qが決定され、それ以降の既存データのデ
ータ番号は書き換えられる。ここで、擬似的な話題境界
候補区間データを作成するのは、以降の処理において、
j以下のすべての系列番号の話題階層において話題文を
抽出するためである。
【0106】次に、作成されたダミーデータB(j+
1)[q]をB(j)[p].childに格納し(ス
テップS69)、ステップS70以降の処理を行う。そ
して、ステップS63においてj+1がjeを越えれ
ば、処理を終了する。
【0107】最終的には、je未満のすべての系列番号
jのデータに対して、その話題境界候補区間内に結束力
拮抗点を持つ系列番号j+1のデータが、B(j)
[p].childに設定される。したがって、B
(j)[p].childにより、複数の階層の話題境
界候補区間データが連鎖的に関連付けられることにな
る。
【0108】図19は、こうして得られた話題境界の認
定結果を示している。図19において、320語、16
0語、80語、40語の各窓幅(縦軸)の高さまで伸び
た棒グラフが、それぞれの窓幅に対応する粒度の話題の
最終的な話題境界、すなわち最小窓幅(40語)の結束
力拮抗点の位置を表している。棒グラフと交差している
矩形領域は、各窓幅の結束力により認定された話題境界
候補区間を表す。
【0109】図11のステップS46では、図19に示
された話題境界を微調整して文の開始位置に合わせてか
ら、各境界の間を1つの話題とする話題階層を作成す
る。この微調整により図19の話題境界の一部がシフト
し、その結果、図20に示すような木構造の話題階層が
生成される。
【0110】例えば、図19の最小窓幅に対応する境界
からは、矢印で示された15個の区画に対応して、図2
0の15個の話題が最下層の話題として認定される。ま
た、80語の窓幅に対応する境界からは、15個の話題
のうち、区画2と区画3、区画4から区画6まで、区画
11と区画12、区画13と区画14の4つのグループ
に対応する話題をグループ毎に統合して得られる、計1
0個の話題が第2層の話題として認定される。
【0111】図20の話題階層において、矩形で表され
たノードは、認定されたそれぞれの話題に対応し、矩形
内の数字は、図19の区画の番号に対応する。第2の閲
覧対象文書に対しても同様の処理を行うことで、図21
のような話題階層が生成される。
【0112】次に、関連話題抽出部27の処理について
説明する。図22は、関連話題抽出部27による関連話
題抽出処理のフローチャートである。話題文抽出部27
は、まず、第1の閲覧対象文書の話題階層T1と第2の
閲覧対象文書の話題階層T2の2つの話題階層を入力と
して受け取る(ステップS101)。そして、話題階層
T1中の任意の話題t1と話題階層T2中の任意の話題
t2からなる話題対(t1,t2)のすべてについて、
関連度を計算する(ステップS102)。
【0113】本実施形態では、話題t1と話題t2の間
の関連度R(t1,t2)を、t1、t2のそれぞれに
対応する文書の区画s1、s2に含まれる語彙の類似性
により求める。具体的には、R(t1,t2)は次式に
より計算される。
【0114】
【数2】
【0115】ここで、wt,s1、wt,s2は、それ
ぞれ、区画s1、s2における単語tの重要度に相当す
る重みを表し、次式により計算される。
【0116】
【数3】
【0117】(4)式において、tft,s は、区画
sにおける単語tの出現頻度を表し、|D|は、区画s
を含む文書を固定幅(80語)刻みに区切って得られる
ブロックの数を表し、dft は、単語tが出現してい
るブロックの数を表す。
【0118】(3)、(4)式は、情報検索分野で検索
対象文書と質問文との関連度計算等でよく使われる、t
f×idf法と呼ばれる計算法の変形例である。tf×
idf法では、(4)式の|D|/dft の部分を、
文書内の区画ではなく、検索対象文書集合に含まれる文
書を単位に計算する。すなわち、|D|を検索対象文書
集合中の文書数とし、dft を単語tが出現する文書
数とすると、これらの式は通常のtf×idf法の計算
式となる。
【0119】関連度R(t1,t2)はtf×idf法
により求めてもよいが、本実施形態の(3)、(4)式
によれば、閲覧対象文書だけから関連度を計算すること
ができ、また、後述するように、これらの計算式で十分
に有効な結果が得られているため、ここではこの計算法
を採用している。
【0120】関連話題抽出部27は、次に、第1の閲覧
対象文書中の話題t1と第2の閲覧対象文書中の話題t
2のすべてに対して、話題階層を利用しながら、話題対
選別用の閾値を求める。閾値としては、例えば、話題階
層の部分木中の最大関連度が用いられる。ここで、ある
話題tに対する話題階層の部分木中の最大関連度とは、
tもしくは話題階層におけるtの子孫(tを構成するい
ずれかのより小さい話題)に対して計算された関連度の
最大値のことである。
【0121】関連話題抽出部27は、まず、話題t1に
ついて最大関連度を求め、それをt1.maxに記録し
(ステップS103)、次に、話題t2についても同様
に、最大関連度をt2.maxに記録する(ステップS
104)。そして、T≡{(t1,t2)|R(t1,
t2)≧max(t1.max,t2.max)}によ
り定義される話題対の集合Tを求めて、関連話題として
出力し(ステップS105)、処理を終了する。
【0122】ここで、最大関連度に基づく関連話題抽出
処理の具体例を、図23および図24を使って説明す
る。図23は、図22のステップS102における関連
度の計算結果を示している。ここでは、関連度が0.2
5以上の値を持つ話題対が点線のアークで示されてお
り、アークに添えられた数値が関連度を表す。また、2
つの木構造グラフのうち、左のグラフが図20の話題階
層に対応し、右のグラフが図21の話題階層に対応す
る。
【0123】ここで、右のグラフの右下角のノード(以
下では、「ノード右7」のように表記する)に着目す
る。このノードは、第2の閲覧対象文書の最後の最小区
画に対応する話題を表すノードであり、グラフ上では、
末端ノード(子ノードを持たないノード)となってい
る。
【0124】したがって、このノードにおける最大関連
度は、このノードに直接結びつけられたアークの関連度
の最大値である。ノード右7では、(ノード左13−1
4,ノード右7)の話題対の関連度0.35が最大関連
度となる。そして、ノード左13−14からは、0.3
5を超える関連度をもつアークはないので、(ノード左
13−14,ノード右7)の話題対は関連話題として出
力される。
【0125】一方、ノード右6−7に着目すると、この
ノード以下の部分木にノード右7が含まれているので、
ノード右6−7に直結しているアークの話題対は、少な
くともノード右7の最大関連度(0.35)以上でなけ
れば、関連話題として出力されない。ノード右6−7は
このようなアークを持たないので、ノード右6−7を含
む話題対は関連話題としては出力されないことになる。
【0126】以上のように、部分木における最大関連度
を基準に話題対を選別することで、2つの閲覧対象文書
間の関連話題を、図24に示す話題対に絞り込むことが
できる。図24では、閲覧対象文書全体同士の話題対を
除いて、7対の関連話題しか抽出されていないのにも関
わらず、関連話題に含まれなかった話題は、ノード左
1、ノード左11、およびノード左15のみである。こ
れらの話題のうち、質問項目を含むのはノード左15の
みで、残りは後続の話題を導入するための役割を担っ
た、答弁とは直接的に関連しない内容の部分であった。
【0127】また、抽出された7対の関連話題は、後で
示す結果に見られる通り、いずれも適切に対応している
内容を含む部分であった。このように、本実施形態によ
れば、話題階層を利用して関連話題を絞り込むことで、
あらかじめ特別な閾値を設定しなくても、過不足なく適
切な話題対を選択することができる。
【0128】次に、出力部28は、関連話題抽出部27
が抽出した話題対のそれぞれについて、関連話題に対応
する関連箇所をそれぞれの閲覧対象文書から切り出し、
出力する。例えば、図24の(ノード左9−10,ノー
ド右4−5)の関連度0.30の話題対については、ノ
ード左9−10の話題に対応して、第1の閲覧対象文書
中の区画9と区画10を、ノード右4−5の話題に対応
して、第2の閲覧対象文書中の区画4と区画5を、それ
ぞれ抽出し、利用者が対比しやすい形に整形して出力す
る。
【0129】図25は、この話題対に対する関連箇所の
出力結果の例を示している。図25の出力例では、左コ
ラムが第1の閲覧対象文書の関連箇所に対応し、右コラ
ムが第2の閲覧対象文書の関連箇所に対応している。そ
れぞれの関連箇所は、話題階層認定部25により認定さ
れた最小の話題(最小区画)の単位に分けて、出力され
ている。また、太字で強調出力されている語は、両方の
関連箇所に出現し、かつ、それぞれの関連箇所において
(4)式により求めた重要度が比較的大きい語である。
具体的には、これらの語は、以下のような手順で抽出さ
れる。
【0130】まず、両方の関連箇所に現れた語を重要語
候補として抽出し、抽出された各語についてそれぞれの
箇所における(4)式の値を、各語の各箇所における重
要度として求める。そして、それぞれの箇所について、
重要度の大きい順に重要語を抽出し、抽出した重要語に
おける重要度の累積値が、重要語候補全体における重要
度の合計値の1/2を超えた時点で、抽出処理を打ち切
る。
【0131】なお、図25に示した関連話題は、本実施
形態で用いた閲覧対象文書対において、重複して関連話
題が抽出された唯一の部分である。この部分では、上位
層の(ノード左9−10,ノード右4−5)の話題対だ
けでなく、それを構成する話題に関する(ノード左9,
ノード右4)と(ノード左10,ノード右5)の話題対
も関連話題として抽出されている。
【0132】図25に示された内容に見られるように、
ノード左9の質問に対する答弁はノード右4であり、ノ
ード左10の質問に対する答弁はノード右5であると考
えられるが、ノード左9とノード左10との間、およ
び、ノード右4とノード右5との間にも、強い関連性が
読み取れる。
【0133】したがって、これらの関連話題が重複して
抽出されてはいるが、単に冗長なわけではなく、2ノー
ドずつのまとまり間の関係も、個々のノード間の関係
も、ともに重要な意味を持っていることが分かる。そこ
で、図25では、まとまり全体を対比するだけでなく、
個々の話題も対比できるように、対応する話題の開始位
置を揃えて出力している。
【0134】また、出力部28は、関連箇所の内容を要
約して提示することで、関連箇所の一覧性を向上させる
こともできる。例えば、上述した特開平11−2726
99の技術を用いれば、上記の手順で抽出した重要語を
多く含み、かつ、簡潔な要約を作成することができる。
【0135】図26は、このような要約処理の手順を簡
略化して示したフローチャートである。出力部28は、
まず、関連話題対に対応して、第1の閲覧対象文書から
切り出された関連箇所P1と第2の閲覧対象文書から切
り出された関連箇所P2を、入力として受け取る(ステ
ップS121)。そして、関連箇所P1、P2のそれぞ
れから重要語を抽出し、それらの重要語をマージする
(ステップS122)。
【0136】次に、関連箇所P1から重要文を選択して
要約を作成し(ステップS123)、関連箇所P2から
も同様にして要約を作成する(ステップS124)。そ
して、各関連箇所から作成された要約を比較しやすい形
に整形し、対置して出力して(ステップS125)、処
理を終了する。
【0137】図27は、図26のステップS123およ
びS124における重要文選択処理のフローチャートで
ある。この処理では、出力部28は、まず、P1または
P2を重要文の選択対象箇所Pに設定し、ステップS1
22で抽出された重要語を、重要文の手掛かりとして重
要語リストKWLに設定する(ステップS131)。そ
して、対象箇所Pから重要語を最も多く含む文を重要文
として選択し(ステップS132)、そのような文が選
択できたか否かを判定する(ステップS133)。
【0138】文が選択できた場合は、次に、選択した文
に含まれる重要語を重要語リストKWLから取り除き
(ステップS134)、KWLが空か否かをチェックす
る(ステップS135)。KWLが空でなければ、ステ
ップS132以降の処理を繰り返す。そして、すべての
重要語に対して少なくとも1文以上の重要文が選択でき
た時点で選択処理を終了し、選択した文を元の文書にお
ける出現順に並べて、要約として出力して(ステップS
136)、処理を終了する。
【0139】また、ステップS133において、重要語
を含む文がまったく選択できない場合は、処理を打ち切
り、ステップS136の処理を行う。図26および図2
7に示した処理により、図28、29、および30に示
すような要約が作成される。
【0140】このように、個々の関連話題に対応する関
連箇所を個別に提示するだけでなく、要約機能により抽
出された関連話題を短くまとめることで、関連箇所全体
を一覧しやすい形で出力することができる。したがっ
て、長い文書の比較・閲覧の際等に多くの関連話題が抽
出されても、比較・閲覧作業を効果的に支援できる。
【0141】また、出力部28は、関連箇所と原文書で
ある閲覧対象文書の全文とを対置して提示することで、
閲覧対象文書における関連箇所の位置付け等を吟味しな
がら、関連箇所を分析する作業等を支援することができ
る。この場合、例えば、図31に示すような形態で、関
連箇所の要約と閲覧対象文書の全文とを対置して提示す
ればよい。また、関連箇所と閲覧対象文書中の対応箇所
との間にハイパーリンクを設定すれば、より一層閲覧効
率を高めることができる。
【0142】図31では、左フレームが関連箇所参照の
ウィンドウであり、右フレームが閲覧対象文書参照用の
ウィンドウである。ここでは、左フレームに、作成され
た関連箇所の要約が表示されており、発言者名の後ろの
かぎ括弧内(下線部)には、閲覧対象文書の対象箇所へ
のハイパーリンクのアンカーが設定されている。そし
て、利用者が必要に応じてアンカーを指定することで、
第1の閲覧対象文書の指定箇所が右上のウィンドウに表
示され、第2の閲覧対象文書の指定箇所が右下のウィン
ドウに表示される。
【0143】右フレームに提示された閲覧対象文書で
は、関連箇所が下線付きで強調表示され、関連箇所とそ
の前後の文脈とを区別できるようになっている。強調表
示の方法としては、カラー表示、網かけ表示等を用いる
こともできる。この例では、左フレームに関連箇所の要
約が表示されているが、代わりに、関連箇所そのものを
表示してもよい。また、利用者の要望に応じて、関連箇
所を要約で提示するか、関連箇所の内容全体を提示する
かを切り換えられるようにすることも考えられる。
【0144】また、出力部28は、閲覧対象文書間の関
連箇所の関係をグラフ等を用いて図面で表現すること
で、閲覧対象文書相互の全体的な関連性を一目で把握で
きるようにすることもできる。この場合、例えば、図3
2に示すような形態で、閲覧対象文書中の関連箇所の出
現状況を提示すればよい。
【0145】図32では、上フレームに、2つの閲覧対
象文書の話題階層が、図24と同様のグラフ形式で表示
されており、下フレームに、第1および第2の閲覧対象
文書が対置して表示されている。話題階層のグラフに
は、関連話題を示すアークが付加されており、それぞれ
のアークには、両方の文書の関連箇所を同期して提示す
るためのハイパーリンクが設定されている。また、話題
に対応する各ノードには、個々の閲覧対象文書の対応箇
所へのハイパーリンクが設定されている。さらに、各閲
覧対象文書には、図31と同様に、関連箇所に強調表示
が施されている。
【0146】このように、閲覧対象文書間の関連箇所の
出現状況をグラフ等により提示すれば、閲覧対象文書間
の全体的な関連性の理解が促進される。これにより、例
えば、本実施形態の閲覧対象文書のように全体として1
対1で対応するような文書であるのか、それとも、特定
の部分のみに集中して関連箇所が現れる文書であるのか
を、利用者が一目で読み取れるようになる。そして、後
者のような文書であれば、利用者は、関連箇所が集中し
ている部分に絞って、効率的に文書の閲覧を進めること
も可能になる。
【0147】以上の実施形態では、主として、閲覧対象
文書が2つの場合について説明したが、この処理を応用
して、3つ以上の文書に対する比較・閲覧を支援するこ
とも可能である。例えば、いずれか1つの文書を基準
(軸)として他の文書を比較するか、または、すべての
閲覧対象文書の対に対して上述のような処理を行い、抽
出された関連話題を何らかの方法で整理・統合して出力
すればよい。後者の場合、関連話題の整理・統合の方法
としては、例えば、いずれか1つの文書中の同一箇所に
対応する他の文書の話題を統合することが考えられる。
【0148】例えば、上述の「第149回衆議院本会議
会議録第2号」に含まれる全8件の代表質問(答弁は除
外)を、それぞれ異なる文書として切り出し、「第14
9回衆議院本会議会議録第1号」(2000年7月28
日)中の首相の所信表明演説を基準文書として比較した
ところ、上述の第1の閲覧対象文書(水島広子議員によ
る代表質問)にも関連する関連箇所として、図33のよ
うな関連箇所が抽出された。
【0149】図33では、左コラムが基準文書の関連箇
所の要約に対応し、中央のコラムが第1の閲覧対象文書
の関連箇所の要約に対応し、右コラムが他の文書の関連
箇所に対応している。ここでは、第1の閲覧対象文書に
関連する箇所のみを例として示したが、他の質問者によ
る代表質問についても、同様に、基準文書の適切な箇所
と対応付けることが可能である。
【0150】さらに、このような関連箇所を、基準文書
に併合して出力することもできる。これにより、例え
ば、「所信表明演説のポイントとそれに対する各党代表
者の見解」のような、統合的な文書の作成を支援するこ
とができる。
【0151】図34は、このような文書統合処理のフロ
ーチャートである。文書閲覧装置は、まず、利用者から
の指示等に基づいて、複数の閲覧対象文書の中から基準
文書を選択し(ステップS141)、上述の処理手順に
従って、基準文書と他の各文書の間の関連箇所を抽出す
る(ステップS142)。そして、出力部28は、抽出
された関連箇所を基準文書における出現順にマージし
て、統合文書を作成し(ステップS143)、その文書
を出力して(ステップS144)、処理を終了する。
【0152】次に、英語の文書に対する処理について、
1999年のケルンサミットと2000年の沖縄サミッ
トにおけるG8による2つのコミュニケを対象とした場
合を例に挙げて説明する。ここでは、 外1 を第1の
英語閲覧対象文書とし、 外2 を第2の英語閲覧対象
文書とした。
【0153】
【外1】
【0154】
【外2】
【0155】これらの文書の全文は、それぞれ、4千5
百語および7千語であり、本明細書および図面にすべて
の処理結果を記載するには長すぎるため、以下では全体
の半分ほどの部分のみを対象として処理を行った。全体
で10節からなる第1の閲覧対象文書では、以下の5節
(1千8百語)を処理対象とし、第2の閲覧対象文書で
は、前置き(Preamble)の次に位置する以下の1パート
(3千5百語)を処理対象とした。 (1)第1の閲覧対象文書の処理対象部分 I. Getting the World Economy on Track for Susta
ined Growth II. Building a World Trading System That Works f
or Everyone III. Designing Policies for More Employment IV. Investing in People V. Strengthening Social Safeguards (2)第2の閲覧対象文書の処理対象部分 Toward a 21st century of greater prosperityまた、
ここでは、次のような処理方法およびパラメータを採用
した。 (1)単語認定の方法:ストップワードリストを用いた
方法 (2)結束度計算用の窓の幅: 最小窓幅 w_min=80(語) 最大窓幅w1 w_minの2の巾乗倍で、文書全体の
1/2を超えない値の語数 刻み幅 窓幅の1/8 図35は、第1の閲覧対象文書の先頭部分を示してお
り、図36は、その部分に対する単語認定部22の処理
結果を示している。図36において、[]で括られた部
分が、認定された単語に対応する。先頭の1文字のみが
大文字の単語は、[]内ではすべて小文字に置き換えら
れている。
【0156】この場合、単語認定部22は、まず、空白
および“,”、“.”、“:”、“;”等の区切り記号
を手掛かりに単語を切り出し、次に、それらの単語のう
ち、図37に示すようなストップワードリストに含まれ
る単語を取り除く、という手順で単語認定を行う。スト
ップワードリストとは、重要語として抽出したくない冠
詞、前置詞等の単語を、あらかじめ定義したリストであ
る。
【0157】図38は、上述の文書対に対する関連話題
の抽出結果を示している。図38において、左の木構造
グラフが、第1の英語閲覧対象文書に対する話題階層認
定部25の出力、すなわち、第1の英語閲覧対象文書の
話題階層の認定結果に対応し、右の木構造グラフが、第
2の英語閲覧対象文書の話題階層の認定結果に対応す
る。また、これらの木構造のノード間のアークは、関連
話題抽出部27が抽出した関連話題対を表す。
【0158】こうして抽出された関連話題を、出力部2
8が図26および図27の手順により要約した結果、図
39、40、および41に示すような要約が得られた。
このように、本発明は、英語の閲覧対象文書に対して
も、日本語の文書と同様に適用可能であり、また、任意
の言語および任意の形式の文書に対して適用され、同様
の結果を得ることができる。 (付記1) 閲覧対象として指定された複数の文書を利
用者に提示する文書閲覧装置であって、前記複数の文書
のそれぞれの話題階層を認定する話題階層認定手段と、
認定された話題階層に基づき、前記複数の文書に共通し
て現れる関連話題を抽出する関連話題抽出手段と、抽出
された関連話題に対応する記述箇所を、該複数の文書の
それぞれから切り出して出力する関連話題提示手段とを
備えることを特徴とする文書閲覧装置。 (付記2) 前記関連話題抽出手段は、前記認定された
話題階層中の様々な粒度の話題からなる話題対につい
て、該話題対の各話題に対応する記述箇所の語彙的類似
性に基づき、該話題対の話題間の関連度を求め、話題の
包含関係に基づいて設定された閾値以上の関連度を持つ
話題対を、前記関連話題として抽出することを特徴とす
る付記1記載の文書閲覧装置。 (付記3) 前記関連話題提示手段は、切り出された記
述箇所を、前記複数の文書間の関連箇所として対置して
提示することを特徴とする付記1記載の文書閲覧装置。 (付記4) 前記関連話題提示手段は、前記関連箇所と
元の文書とを対置・連動して提示することを特徴とする
付記3記載の文書閲覧装置。 (付記5) 前記関連話題提示手段は、前記関連箇所の
内容を要約して提示することを特徴とする付記3記載の
文書閲覧装置。 (付記6) 前記関連話題提示手段は、前記関連箇所の
要約と元の文書とを対置・連動して提示することを特徴
とする付記5記載の文書閲覧装置。 (付記7) 前記関連話題提示手段は、前記複数の文書
に対応する複数の話題階層と、前記複数の関連話題に基
づく、該複数の話題階層中の話題間の対応関係とを、図
面を用いて提示し、該図面上における前記利用者の指示
に応じて、該複数の文書中の対応箇所を連動して提示す
ることを特徴とする付記3記載の文書閲覧装置。 (付記8) 前記関連話題提示手段は、前記複数の文書
のうちの1つの文書を基準文書として、前記関連話題に
対応する記述箇所を他の文書から該基準文書に取り込ん
で新たな統合文書を作成し、該統合文書を出力すること
を特徴とする付記1記載の文書閲覧装置。 (付記9) 閲覧対象として指定された複数の文書を利
用者に提示するコンピュータのためのプログラムを記録
した記録媒体であって、該プログラムは、前記複数の文
書のそれぞれの話題階層を認定し、認定された話題階層
に基づき、前記複数の文書に共通して現れる関連話題を
抽出し、抽出された関連話題に対応する記述箇所を、該
複数の文書のそれぞれから切り出して出力する処理を前
記コンピュータに実行させることを特徴とするコンピュ
ータ読み取り可能な記録媒体。 (付記10) 閲覧対象として指定された複数の文書を
利用者に提示するコンピュータにプログラムを伝送する
伝搬信号であって、該プログラムは、前記複数の文書の
それぞれの話題階層を認定し、認定された話題階層に基
づき、前記複数の文書に共通して現れる関連話題を抽出
し、抽出された関連話題に対応する記述箇所を、該複数
の文書のそれぞれから切り出して出力する処理を前記コ
ンピュータに実行させることを特徴とする伝搬信号。 (付記11) 閲覧対象として指定された複数の文書を
利用者に提示する文書提示方法であって、前記複数の文
書のそれぞれの話題階層を認定し、認定された話題階層
に基づき、前記複数の文書に共通して現れる関連話題を
抽出し、抽出された関連話題に対応する記述箇所を、該
複数の文書のそれぞれから切り出して出力することを特
徴とする文書提示方法。
【0159】
【発明の効果】本発明によれば、個々の閲覧対象文書の
話題階層を用いて、複数の閲覧対象文書中の様々な粒度
の話題が比較できるため、文書間で記述量の大きく異な
る関連話題を適切に抽出することができる。また、抽出
された関連話題に対応する関連箇所をそれぞれの閲覧対
象文書から切り出し、それらを対置して出力すること
で、関連箇所を容易に比較・分析することが可能にな
る。このように、本発明によれば、複数の文書の比較閲
覧作業が効果的に支援される。
【図面の簡単な説明】
【図1】本発明の文書閲覧装置の原理図である。
【図2】本発明の文書閲覧装置の構成図である。
【図3】情報処理装置の構成図である。
【図4】記録媒体を示す図である。
【図5】閲覧対象文書を示す図である。
【図6】単語認定処理のフローチャートである。
【図7】単語認定結果の例を示す図である。
【図8】形態素解析処理のフローチャートである。
【図9】日本語の辞書引きの例を示す図である。
【図10】英語の辞書引きの例を示す図である。
【図11】話題階層認定処理のフローチャートである。
【図12】結束度の系列を示す図である。
【図13】結束度分布の例を示す図である。
【図14】移動平均値と文書領域との関係を示す図であ
る。
【図15】話題境界候補区間認定処理のフローチャート
である。
【図16】結束力拮抗点を示す図である。
【図17】話題境界認定処理のフローチャートである。
【図18】関連付け対象データを示す図である。
【図19】話題境界の認定結果を示す図である。
【図20】第1の閲覧対象文書の話題階層を示す図であ
る。
【図21】第2の閲覧対象文書の話題階層を示す図であ
る。
【図22】関連話題抽出処理のフローチャートである。
【図23】関連度の計算結果を示す図である。
【図24】関連話題の抽出結果を示す図である。
【図25】関連箇所の出力例を示す図である。
【図26】要約処理のフローチャートである。
【図27】重要文選択処理のフローチャートである。
【図28】関連箇所の要約例を示す図(その1)であ
る。
【図29】関連箇所の要約例を示す図(その2)であ
る。
【図30】関連箇所の要約例を示す図(その3)であ
る。
【図31】原文書参照機能付き関連箇所提示の例を示す
図である。
【図32】グラフ付き関連箇所提示の例を示す図であ
る。
【図33】3文書に対する関連箇所の出力例を示す図で
ある。
【図34】文書統合処理のフローチャートである。
【図35】英語閲覧対象文書の先頭部分を示す図であ
る。
【図36】英語閲覧対象文書の単語認定結果を示す図で
ある。
【図37】ストップワードの例を示す図である。
【図38】英語の関連話題の抽出結果を示す図である。
【図39】英語の関連箇所の要約例を示す図(その1)
である。
【図40】英語の関連箇所の要約例を示す図(その2)
である。
【図41】英語の関連箇所の要約例を示す図(その3)
である。
【符号の説明】
1 話題階層認定手段 2 関連話題抽出手段 3 関連話題提示手段 11 閲覧対象文書 12 文書閲覧装置 13 利用者 21 入力部 22 単語認定部 23 形態素解析部 24 単語辞書 25 話題階層認定部 26 話題境界候補区間認定部 27 関連話題抽出部 28 出力部 41 出力装置 42 入力装置 43 CPU 44 ネットワーク接続装置 45 媒体駆動装置 46 補助記憶装置 47 主記憶 48 バス 49 可搬記録媒体 50 サーバ 51 データベース

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 閲覧対象として指定された複数の文書を
    利用者に提示する文書閲覧装置であって、 前記複数の文書のそれぞれの話題階層を認定する話題階
    層認定手段と、 認定された話題階層に基づき、前記複数の文書に共通し
    て現れる関連話題を抽出する関連話題抽出手段と、 抽出された関連話題に対応する記述箇所を、該複数の文
    書のそれぞれから切り出して出力する関連話題提示手段
    とを備えることを特徴とする文書閲覧装置。
  2. 【請求項2】 前記関連話題抽出手段は、前記認定され
    た話題階層中の様々な粒度の話題からなる話題対につい
    て、該話題対の各話題に対応する記述箇所の語彙的類似
    性に基づき、該話題対の話題間の関連度を求め、話題の
    包含関係に基づいて設定された閾値以上の関連度を持つ
    話題対を、前記関連話題として抽出することを特徴とす
    る請求項1記載の文書閲覧装置。
  3. 【請求項3】 前記関連話題提示手段は、切り出された
    記述箇所を、前記複数の文書間の関連箇所として対置し
    て提示することを特徴とする請求項1記載の文書閲覧装
    置。
  4. 【請求項4】 前記関連話題提示手段は、前記関連箇所
    と元の文書とを対置・連動して提示することを特徴とす
    る請求項3記載の文書閲覧装置。
  5. 【請求項5】 前記関連話題提示手段は、前記関連箇所
    の内容を要約して提示することを特徴とする請求項3記
    載の文書閲覧装置。
  6. 【請求項6】 前記関連話題提示手段は、前記複数の文
    書に対応する複数の話題階層と、前記複数の関連話題に
    基づく、該複数の話題階層中の話題間の対応関係とを、
    図面を用いて提示し、該図面上における前記利用者の指
    示に応じて、該複数の文書中の対応箇所を連動して提示
    することを特徴とする請求項3記載の文書閲覧装置。
  7. 【請求項7】 前記関連話題提示手段は、前記複数の文
    書のうちの1つの文書を基準文書として、前記関連話題
    に対応する記述箇所を他の文書から該基準文書に取り込
    んで新たな統合文書を作成し、該統合文書を出力するこ
    とを特徴とする請求項1記載の文書閲覧装置。
  8. 【請求項8】 閲覧対象として指定された複数の文書を
    利用者に提示するコンピュータのためのプログラムを記
    録した記録媒体であって、該プログラムは、 前記複数の文書のそれぞれの話題階層を認定し、 認定された話題階層に基づき、前記複数の文書に共通し
    て現れる関連話題を抽出し、 抽出された関連話題に対応する記述箇所を、該複数の文
    書のそれぞれから切り出して出力する処理を前記コンピ
    ュータに実行させることを特徴とするコンピュータ読み
    取り可能な記録媒体。
  9. 【請求項9】 閲覧対象として指定された複数の文書を
    利用者に提示する文書提示方法であって、 前記複数の文書のそれぞれの話題階層を認定し、 認定された話題階層に基づき、前記複数の文書に共通し
    て現れる関連話題を抽出し、 抽出された関連話題に対応する記述箇所を、該複数の文
    書のそれぞれから切り出して出力することを特徴とする
    文書提示方法。
  10. 【請求項10】 閲覧対象として指定された複数の文書
    を利用者に提示するコンピュータのためのプログラムで
    あって、 前記複数の文書のそれぞれの話題階層を認定し、 認定された話題階層に基づき、前記複数の文書に共通し
    て現れる関連話題を抽出し、 抽出された関連話題に対応する記述箇所を、該複数の文
    書のそれぞれから切り出して出力する処理を前記コンピ
    ュータに実行させることを特徴とするプログラム。
JP2001265996A 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法 Expired - Fee Related JP4108948B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001265996A JP4108948B2 (ja) 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000290886 2000-09-25
JP2000-290886 2000-09-25
JP2001265996A JP4108948B2 (ja) 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法

Publications (2)

Publication Number Publication Date
JP2002169803A true JP2002169803A (ja) 2002-06-14
JP4108948B2 JP4108948B2 (ja) 2008-06-25

Family

ID=26600671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001265996A Expired - Fee Related JP4108948B2 (ja) 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法

Country Status (1)

Country Link
JP (1) JP4108948B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8000963B2 (en) 2004-12-17 2011-08-16 Fujitsu Limited Sound reproducing apparatus
JP4940139B2 (ja) * 2004-08-20 2012-05-30 マルチモーダル・テクノロジーズ・インク 音声からの意味内容の自動抽出および構造化文書の生成
WO2014083878A1 (ja) * 2012-11-27 2014-06-05 富士ゼロックス株式会社 情報処理装置及びプログラム
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
JP2020052506A (ja) * 2018-09-25 2020-04-02 京セラドキュメントソリューションズ株式会社 情報処理装置及び文書作成プログラム
JP2020140464A (ja) * 2019-02-28 2020-09-03 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
JP2020201607A (ja) * 2019-06-06 2020-12-17 株式会社日立製作所 文章解析方法、文章解析プログラム、および文章解析システム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940139B2 (ja) * 2004-08-20 2012-05-30 マルチモーダル・テクノロジーズ・インク 音声からの意味内容の自動抽出および構造化文書の生成
US8000963B2 (en) 2004-12-17 2011-08-16 Fujitsu Limited Sound reproducing apparatus
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
WO2014083878A1 (ja) * 2012-11-27 2014-06-05 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2014106729A (ja) * 2012-11-27 2014-06-09 Fuji Xerox Co Ltd 情報処理装置及びプログラム
US9870632B2 (en) 2012-11-27 2018-01-16 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
JP2020052506A (ja) * 2018-09-25 2020-04-02 京セラドキュメントソリューションズ株式会社 情報処理装置及び文書作成プログラム
JP7215039B2 (ja) 2018-09-25 2023-01-31 京セラドキュメントソリューションズ株式会社 情報処理装置及び文書作成プログラム
JP2020140464A (ja) * 2019-02-28 2020-09-03 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
JP7148077B2 (ja) 2019-02-28 2022-10-05 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
JP2020201607A (ja) * 2019-06-06 2020-12-17 株式会社日立製作所 文章解析方法、文章解析プログラム、および文章解析システム
JP7324058B2 (ja) 2019-06-06 2023-08-09 株式会社日立製作所 文章解析方法、文章解析プログラム、および文章解析システム

Also Published As

Publication number Publication date
JP4108948B2 (ja) 2008-06-25

Similar Documents

Publication Publication Date Title
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
JP3791879B2 (ja) 文書要約装置およびその方法
US7813915B2 (en) Apparatus for reading a plurality of documents and a method thereof
JP3597697B2 (ja) 文書要約装置およびその方法
US6876998B2 (en) Method for cross-linguistic document retrieval
US20040029085A1 (en) Summarisation representation apparatus
US20020133483A1 (en) Systems and methods for computer based searching for relevant texts
US20150254353A1 (en) Control of automated tasks executed over search engine results
JP2006190298A (ja) 電子テキストに概念的強調を自動的に施す方法
WO1998016890A1 (en) Management and analysis of document information text
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
JPH10207911A (ja) 文書検索装置
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
Jagadeesh et al. Sentence extraction based single document summarization
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
CN112711666B (zh) 期货标签抽取方法及装置
Gupta A survey of text summarizers for Indian Languages and comparison of their performance
JP2002169803A (ja) 複数の文書を閲覧するための装置および方法
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Attardi et al. Theseus: categorization by context
Séaghdha Annotating and learning compound noun semantics
Pembe et al. A tree-based learning approach for document structure analysis and its application to web search
JP2000105769A (ja) 文書表示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080125

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees