JP4108948B2 - 複数の文書を閲覧するための装置および方法 - Google Patents

複数の文書を閲覧するための装置および方法 Download PDF

Info

Publication number
JP4108948B2
JP4108948B2 JP2001265996A JP2001265996A JP4108948B2 JP 4108948 B2 JP4108948 B2 JP 4108948B2 JP 2001265996 A JP2001265996 A JP 2001265996A JP 2001265996 A JP2001265996 A JP 2001265996A JP 4108948 B2 JP4108948 B2 JP 4108948B2
Authority
JP
Japan
Prior art keywords
topic
document
documents
topics
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001265996A
Other languages
English (en)
Other versions
JP2002169803A (ja
Inventor
由雄 仲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001265996A priority Critical patent/JP4108948B2/ja
Publication of JP2002169803A publication Critical patent/JP2002169803A/ja
Application granted granted Critical
Publication of JP4108948B2 publication Critical patent/JP4108948B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、機械可読文書をコンピュータの画面上で閲覧するための装置およびその方法に関し、特に、複数文書の内容を対比して閲覧可能な形で提示することで、関連文書の比較閲覧作業を支援することを意図したものである。
【0002】
【従来の技術】
利用者が複数の関連文書を比較しながら閲覧する場合、それらの文書の関連箇所をわかりやすく提示する技術があれば、比較作業の効率が向上する。例えば、ある調査項目について複数の地域の実情を調査レポートにまとめるために、各地域の調査担当者から寄せられた調査レポートを読む場合、あるいは、質問状と回答書を読み比べる場合等に、関連箇所の比較を支援する技術が要望される。このような複数文書の比較支援に関する文献として、例えば、以下の7つが挙げられる。
[1]Christine M. Neuwirth and David S. Kaufer. The role of external representations in the writing process: Implications for the design of hypertext-based writing tools. In Proc. of Hypertext '89, pp.319-341. the Association for Computing Machinery, Nov. 1989.
[2]大森信行(Nobuyuki Omori), 岡村潤(Jun Okamura), 森辰則(Tatsunori Mori), 中川裕志(Hiroshi Nakagawa). tf・idf法を用いた関連マニュアル群のハイパーテキスト化. 情報処理学会研究報告FI-47-8/NL-121-16, 情報処理学会, Sep. 1997.
[3]Gerard Salton, Amit Singhal, Chris Buckley, and Mandar Mitra. Automatic text decomposition using text segments and text themes. In Proc. of Hypertext '96, pp. 53-65. the Association for Computing Machinery, Mar. 1996.
[4]Inderjeet Mani and Eric Bloedorn. Summarizing similarities and differences among related document. chapter 23, pp. 357-379. The MIT Press, London, 1999. (reprint of Information Processing and Management, Vol. 1, No. 1, pp. 1-23, 1999).
[5]特開平7−325827
[6]特開2000−57152(P2000−57152A)
[7]特開平11−39334
このうち、文献[1]では、関連論文に見られる一致点・相違点を、著者と命題(proposition)との2つの観点で一覧表の形にまとめた、“Synthesis Grid ”というインタフェース(画面)が提案されている。
【0003】
また、文書の関連箇所を抽出する従来の技術として、同一語彙の出現を手掛かりに、関連文書中の関連箇所にハイパーリンクを設定する技術が知られている。例えば、文献[2]では、文書中の一節に相当する「セグメント」を単位に文書を分割し、語彙的類似度の高いセグメント間にハイパーリンクを設定する技術が示されている。また、文献[5]や文献[6]では、関連文書中の同一キーワードの出現箇所にハイパーリンクを設定する技術等が示されている。
【0004】
その他、関連箇所の検出に関する技術として、文献[3]では、語彙的類似性の高い段落群を検出することで、単一文書中の関連箇所を抽出する技術が示されている。また、文献[4]では、文書中の語彙の連鎖等に基づく活性伝搬ネットワークを用いて、共通の関連語群を含む文等を検出する技術が示されている。
【0005】
また、関連文書の一致点・相違点を出力する技術としては、文献[7]に、複数の関連記事に対して、共通の内容とそれ以外の内容を区別して出力する技術が示されている。例えば、複数の入力記事のうち、1つを主記事としてその全体を表示し、残りの記事については、独自情報(共通情報以外の情報)のみを補足情報として表示する方法が示されており、また、主記事として全体を表示した記事に関しては、共通情報を強調表示(網かけして表示)する方法等も示されている。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した従来の技術には、以下の2つの問題がある。
第1の問題は、関連箇所を認定する単位が固定的であるため、粒度の異なる話題に対して、適切な関連箇所を検出することが難しいということである。つまり、上述の従来技術では、節・段落・文(または語の出現位置そのもの)のいずれか1つに比較の単位を固定しているため、基本的に検出できるのは、節対節、段落対段落等、比較の単位の大きさの箇所同士に限られることになる。
【0007】
このため、例えば、第1の閲覧文書中で2段落からなる箇所が、ひとつのまとまりとして、第2の閲覧文書中の数段落以上の大きさの箇所と関連している場合等には、関連箇所を対比できる形で適切に切り出すことが難しい。それを実現するためには、関連箇所として検出された箇所を併合する等、何らかの別の手段を講じることが必要になる。
【0008】
第2の問題点は、ある話題に関する関連箇所と、別の話題に関する関連箇所あるいは元の文書全体との関係を十分に表現できないことである。例えば、長めで話題が複雑に込み入った文書同士を比較すると、複数の話題に関する関連箇所が、互いに絡み合って見い出されることがある。
【0009】
このような場合、個々の話題についてそれぞれの文書から抽出した関連箇所を相互に比較するだけでなく、文書間に共通する複数の話題の相互関係や、各関連箇所が出現する文脈等も考慮して、子細に吟味する必要が生ずる。このとき、複数の関連箇所を一覧でき、各関連箇所の周辺部も容易に参照できることが望ましいが、上述の従来技術ではこのような機能は実現されていない。
【0010】
本発明の第1の課題は、それぞれの文書毎に粒度の異なる話題に対しても適切な関連箇所を切り出して提示する文書閲覧装置およびその方法を提供することである。また、本発明の第2の課題は、複数の話題に関する関連箇所を、比較・分析しやすい形態で提示する文書閲覧装置およびその方法を提供することである。
【0011】
【課題を解決するための手段】
図1は、本発明の文書閲覧装置の原理図である。図1の文書閲覧装置は、話題階層認定手段1、関連話題抽出手段2、および関連箇所提示手段3を備え、閲覧対象として指定された複数の文書を利用者に提示して、それらの文書の比較作業を支援する。
【0012】
話題階層認定手段1は、複数の閲覧対象文書のそれぞれの話題階層を認定する。ここで、話題階層とは、文書を構成する複数の話題のまとまりが2段以上の階層構造を成していることを意味する。この階層構造は、例えば、文書を構成する複数の大きな話題のまとまりの各々が、1つ以上のより小さな話題のまとまりを含み、小さな話題のまとまりの各々が、1つ以上のさらに小さな話題のまとまりを含むというような話題の包含関係に対応する。
【0013】
関連話題抽出手段2は、認定された話題階層に基づき、複数の閲覧対象文書に共通して現れる関連話題を抽出する。このとき、複数の文書にそれぞれ対応する複数の話題階層を比較し、関連性の強い話題の組み合わせを抽出し、複数の文書にまたがる関連話題として出力する。例えば、文書D1と文書D2から、第1の話題階層と第2の話題階層が得られた場合、第1の話題階層中の様々な粒度の話題それぞれを、第2の話題階層中の様々な粒度の話題それぞれと比較し、関連性の強い話題の対を抽出し、それらを関連話題として出力する。
【0014】
関連話題提示手段3は、抽出された関連話題に対応する記述箇所を、それぞれの閲覧対象文書から切り出して出力する。このとき、切り出された記述箇所は、複数の閲覧対象文書にまたがる関連箇所として出力される。
【0015】
このように、文書閲覧装置は、話題階層認定手段1によって、個々の閲覧対象文書に含まれる様々な粒度(大きさ)の話題を検出し、それに基づき、関連話題抽出手段2によって、文書間にまたがる関連話題を検出する。そして、関連話題提示手段3によって、関連話題に対応する文書に記述箇所を切り出して出力する。
【0016】
閲覧対象文書に含まれる様々な粒度の話題を単位に、網羅的に話題の関連性を調べることで、大きさの異なる記述箇所の対応関係を検出することができる。例えば、文書D1中の2段落相当の大きさの箇所が、ひとつのまとまりとして、文書D2中の数段落以上の大きさの箇所と関連している場合等にも、適切な関連箇所を切り出すことが可能になる。
【0017】
さらに、図1の文書閲覧装置は、以下のような様々な機能を有する。
関連話題抽出手段2は、関連話題の関連度を、各話題に対応する文書中の記述箇所の語彙的類似性によって求め、話題の包含関係に基づき設定した閾値により関連話題を選択する。例えば、上位層の話題Aと話題Bの対が関連度R1を示している場合、話題Aと話題Bが包含するより小さな話題のいずれもが、いずれの話題ともR1以上の関連度を示していない場合にのみ、話題Aと話題Bの対を関連話題として出力する。
【0018】
これにより、不適切な関連箇所の出力が抑制され、より効率的に関連箇所を出力できるようになる。例えば、2つの閲覧対象文書のそれぞれに、複数段落からなる話題のまとまりがあり、それらが関連している場合、それらのまとまりを構成する一部の段落もまたある粒度の話題として並行的に関連していることがある。
【0019】
すなわち、文書D1中の第1、第2段落と、文書D2の第1、第2段落の間で、2段落のまとまり同士においても、また第1段落同士、第2段落同士においても、関連が見い出される場合等がある。このような場合にも、まとまり同士の関係として関連箇所を出力するか、個々の段落同士の関係として関連箇所を出力するかを、適切に選択し、冗長な出力を抑制することができる。
【0020】
また、関連話題提示手段3は、関連箇所を関連話題単位に分け、対置して提示する。これにより、複数の関連話題が検出された場合においても、利用者は、個々の話題に関する対応箇所を対比して閲覧することが可能になる。
【0021】
また、話題関連提示手段3は、各関連箇所の内容を短く要約して出力することもできる。これにより、多くの関連話題が検出された場合においても、利用者は、関連箇所全体の内容を一覧できるようになる。
【0022】
また、関連話題提示手段3は、各関連箇所に対応する元の文書の部分を連動して提示することもできる。例えば、それぞれの関連箇所に元文書参照用のボタン(ハイパーリンク等)を添えて提示し、そのボタンによる要求に応じて、元文書の関連部を、併置した別のウィンドウに提示する。これにより、利用者は、各関連箇所が出現する文脈を参照しながら、関連箇所の内容を吟味すること等が可能になる。
【0023】
また、関連話題提示手段3は、閲覧対象文書の話題階層を表現した図面を合わせて提示し、図面上での利用者の指定に応じて、閲覧対象文書の対応箇所を連動して提示する。例えば、各話題をノードとする話題階層の木構造グラフを2つ併置し、また、関連話題をノード間のアークとして提示し、利用者の要求を受け付ける。そして、利用者がアークを指定した場合には、そのアークに対応する関連箇所を別のウィンドウに提示し、また、ノードを指定した場合には、そのノードに対応する部分を同様に提示する。
【0024】
これにより、利用者は、文書全体の話題の構成を手掛かりに、必要に応じて別の関連箇所の内容等を参照しながら、関連箇所を吟味することが可能になり、より効率的に複数文書を比較・閲覧できるようになる。
【0025】
また、関連話題提示手段3は、複数の閲覧対象文書の中の1つの文書を基準として、関連話題に関する記述箇所を他の閲覧対象文書から取り込むことで、新たな統合文書を作成し、提示する。これにより、例えば、利用者は、複数文書をまとめたレポート等の統合文書を効率的に作成できるようになる。
【0026】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本発明は、文書の一致点・相違点をわかりやすく提示するという機能に関し、現在の技術で自動化可能な範囲で実現したものである。具体的には、文書内の関連箇所の自動抽出技術を利用して、複数の関連文書における関連箇所を対比して提示する機能を実現している。
【0027】
図2は、本発明の文書閲覧装置の基本構成を示している。図2の文書閲覧装置12は、入力部(input unit)21、単語認定部(tokenizer )22、単語辞書(machine readable dictionary )24、話題階層認定部(thematic hierarchy detector )25、関連話題抽出部(related topic extractor )27、および出力部(output unit )28を備える。
【0028】
図1の話題階層認定手段1、関連話題抽出手段2、および関連話題提示手段3は、それぞれ、図2の話題階層認定部25、関連話題抽出部27、および出力部28に対応する。
【0029】
図2において、文書閲覧装置12は、複数の閲覧対象文書11が入力されると、それらの閲覧対象文書にまたがり、共通話題に関する関連箇所を抽出し、利用者13に提示する。
【0030】
入力部21は、複数の閲覧対象文書11を読み込み、それぞれを逐次単語認定部22に渡す。単語認定部22は、サブモジュールの形態素解析部(morphological analyzer)23を用いてそれぞれの文書11を言語的に解析して、文書11に含まれる内容語(名詞・動詞・形容詞・形容動詞等)を切り出し、対応する文書11の部分に印を付ける。このとき、形態素解析部23は、単語辞書24を参照して、文書11中の文を、品詞情報付きの単語リストに変換する。単語辞書24は、形態素解析用の単語辞書であって、単語の表記文字列と品詞・活用の情報との対応関係等を記述している。
【0031】
話題階層認定部25は、内容語の印付きの複数の閲覧対象文書11を受け取り、それぞれの文書11の話題階層を認定し、出力する。話題階層認定部25は、まず、サブモジュールの話題境界候補区間認定部(thematic boundary detector)26を用いて、文書中の様々な粒度(大きさ)の話題のまとまりを自動認定する。ここで、話題のまとまりとは、共通の話題について記述している文書の部分を指す。そして、大きな話題のまとまりと小さな話題のまとまりを対応付けて話題階層データを作成し、出力する。
【0032】
話題境界候補区間認定部26は、語彙的結束度の小さい区間を話題境界の候補区間として認定する。語彙的結束度とは、文書中の各位置の近傍領域における語彙的結束性の強さを表す指標であり、例えば、各位置の前後に設定したある幅の窓内に出現する語彙の類似性から求められる。
【0033】
関連話題抽出部27は、複数の閲覧対象文書11のそれぞれに対応する、複数の話題階層を、話題階層認定部25から受け取り、2つ以上の文書に共通して現れる関連話題を検出し、関連話題のリストを出力する。
【0034】
出力部28は、関連話題抽出部27が抽出した関連話題に対応する記述箇所をそれぞれの文書から切り出し、関連話題毎にまとめて(または対応づけて)、利用者13に提示する。
【0035】
図2の文書閲覧装置12は、例えば、図3に示すような情報処理装置(コンピュータ)を用いて構成することができる。図3の情報処理装置は、出力装置41、入力装置42、CPU(中央処理装置)43、ネットワーク接続装置44、媒体駆動装置45、補助記憶装置46、およびメモリ(主記憶)47を備え、それらはバス48により互いに接続されている。
【0036】
メモリ47は、例えば、ROM(read only memory)、RAM(random access memory)等を含み、文書閲覧処理に用いられるプログラムとデータを格納する。ここでは、図2に示した入力部21、単語認定部22、形態素解析部23、話題階層認定部25、話題境界候補区間認定部26、関連話題抽出部27、および出力部28が、プログラムモジュールとして格納されている。CPU43は、メモリ47を利用してプログラムを実行することにより、必要な処理を行う。
【0037】
出力装置41は、例えば、ディスプレイやプリンタ等であり、利用者13への問い合わせや、閲覧対象文書11および処理結果等の出力に用いられる。入力装置42は、例えば、キーボード、ポインティングデバイス、タッチパネル、スキャナー等であり、利用者13からの指示や閲覧対象文書11の入力に用いられる。
【0038】
補助記憶装置46は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク(magneto-optical disk)装置等であり、閲覧対象文書11、単語辞書24等の情報を格納する。また、情報処理装置は、この補助記憶装置46に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ47にロードして使用する。
【0039】
媒体駆動装置45は、可搬記録媒体49を駆動し、その記録内容にアクセスする。可搬記録媒体49としては、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスク等、任意のコンピュータ読み取り可能な記録媒体が用いられる。利用者13は、この可搬記録媒体49に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ47にロードして使用する。
【0040】
ネットワーク接続装置44は、LAN(local area network)等の任意のネットワーク(回線)を介して外部の装置と通信し、通信に伴うデータ変換を行う。また、情報処理装置は、上述のプログラムとデータをネットワーク接続装置44を介して、サーバ等の他の装置から受け取り、必要に応じて、それらをメモリ47にロードして使用する。
【0041】
図4は、図3の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体49やサーバ50のデータベース51に保存されたプログラムとデータは、メモリ47にロードされる。そして、CPU43は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。このとき、サーバ50は、プログラムとデータを伝送する伝搬信号を生成し、ネットワーク上の任意の伝送媒体を介して、情報処理装置に送信する。
【0042】
次に、図2に示した文書閲覧装置12の各モジュールの動作を、具体例を用いてより詳細に説明する。
閲覧対象文書の例としては、「第149回衆議院本会議会議録第2号」(2000年7月31日)から、水島広子議員による代表質問(第1の閲覧対象文書)とそれに対する首相の答弁(第2の閲覧対象文書)を、それぞれ1つの文書として切り出したものを用いた。衆議院の代表質問は、党を代表する議員がいくつかの項目を一括して質問した後、首相・関係大臣が答弁する形で進められるが、この代表質問では、子供の教育、民法改正、国会運営、有害情報、小児医療、歳費支給方式の6つの問題に関し、計8項目が質問されている。
【0043】
図5は、代表質問部を切り出した第1の閲覧対象文書の冒頭部である。なお、図5において、下線を引いた箇所、すなわち、冒頭の発言議員名および括弧で囲まれた議事進行に関する補足情報については、代表質問の内容ではないため、除外してから、以降の処理を行った。首相の答弁部を切り出した第2の閲覧対象文書においても、同様に冒頭の発言者名と括弧内の補足情報は除去して処理を行っている。
【0044】
図6は、単語認定部22による単語認定処理のフローチャートである。単語認定部22は、まず、個々の閲覧対象文書に形態素解析を施し、品詞付きの単語リストを作成する(ステップS11)。次に、品詞を手掛かりに内容語(名詞・動詞・形容詞・形容動詞)を認定し、内容語に対応する文書の部分に印を付けて(ステップS12)、処理を終了する。図7は、図5の文書部分に対する単語認定部22の処理結果を示している。
【0045】
図6のステップS11において、形態素解析部23は、図8に示すような形態素解析処理を行う。形態素解析部23は、まず、単語リストをクリアし(ステップS21)、文書の先頭から句点(またはピリオド)等を手掛かりに文の取り出しを試み(ステップS22)、文が取り出せたかどうかを判定する(ステップS23)。
【0046】
文が取り出せれば、次に、単語辞書24を参照して、文に含まれている単語の候補を求める(ステップS24)。日本語の場合は、図7に示したように、単語と単語の境界が形式的に明示されていないので、文に含まれる部分文字列に対応するすべての単語を候補として求める。例えば、「東京都は大都市だ」という文が取り出された場合、図9に示すように、この文に含まれるすべての部分文字列が単語の候補となる。
【0047】
これに対して、英語の場合は、単語の境界が空白(スペース)により明示されているため、空白で区切られた文字列に対応する単語について、品詞の候補を求めることが主な処理となる。例えば、“Tokyo is the Japanese capital.”という文が取り出された場合、図10に示すように、この文に明示的に含まれる5つの単語の基本形と品詞が求められる。
【0048】
次に、形態素解析部23は、品詞レベルの連接の観点から、妥当な単語の並びを選択し(ステップS25)、選択された単語の並びに品詞と出現位置の情報を付加して、出現順に単語リストに追加する(ステップS26)。次に、次の文の取り出しを試み(ステップS27)、ステップS23以降の処理を繰り返す。そして、ステップS23において文が取り出せなくなると、処理を終了する。
【0049】
図10の単語認定結果において、墨付き括弧で括られた部分が形態素解析部23の認定した内容語である。内容語が活用語(動詞・形容詞)の場合、墨付き括弧内で、スラッシュ(/)の前の部分は語幹を表し、スラッシュの後の部分は終止形の活用語尾を表す。これは、後の処理で単語の区別を行うために用いられる情報であるが、この情報の代わりに、品詞と活用を付加しておいてもよい。要するに、例えば、「い/う」と「い/る」のように、語幹だけでは区別の付かない単語を区別するための識別情報であれば、任意のものを用いることができる。
【0050】
また、ステップS25において、単語の並びの妥当性を評価する方法は、形態素解析法として各種のものが知られており、任意のものを用いることができる。例えば、以下の文献[8]、[9]、および[10]では、単語の並びの妥当性を訓練データにより推定された出現確率を用いて評価する方法が報告されている。
[8]Eugene Charniak. Hidden markov models and two applications. In Statistical Language Learning, chapter 3, pp. 37-73. The MIT Press, 1993.
[9]永田昌明. 前向きDP後向きA* アルゴリズムを用いた確率的日本語形態素解析システム. 情報処理学会研究報告NL-101-10, 情報処理学会, May 1994.
[10]Masaaki Nagata. A stochastic japanese morphological analyzer using a forward-DP backward-A* N-best search algorithm. In Proc. of COLING '94, pp. 201-207, Aug. 1994.
なお、図7の例では、単語認定部22がすべての内容語を切り出しているが、切り出しの対象を名詞だけに絞っても構わない。また、英語の文書を対象に処理する場合には、形態素解析処理を行う代わりに、空白で区切られたすべての語のうち、話題に関わらずどこにでも出現する語彙(冠詞、前置詞等の機能語や特に高い頻度で出現する語)を取り除いて、単語を切り出してもよい。このような処理は、単語辞書24の代わりに、機能語や特に高い頻度で出現する語を格納したストップワードリスト(stop word list)を用意すれば、容易に実現できる。
【0051】
次に、話題階層認定部25の処理について説明する。本実施形態においては、話題のまとまりは、先願の特開平11−272699「文書要約装置およびその方法」に示された技術に基づいて認定している。この方法では、以下の手順で話題の階層構成が認定される。
1.話題境界位置の区間推定
ある窓幅で計算した結束度に基づき、話題境界が存在しそうな位置を、話題境界候補区間として求める。そして、大きさの異なる複数の窓幅に対してこの処理を繰り返し、大きな話題の切れ目を示す境界から小さな話題の切れ目を示す境界まで、話題の大きさ別に話題境界候補区間を求める。
2.話題の階層関係の認定
異なる窓幅により求めた話題境界候補区間を統合し、話題の階層構造とそれぞれの話題境界の位置を決定する。
【0052】
図11は、話題階層認定部25による話題階層認定処理のフローチャートである。話題階層認定部25は、まず、最大窓幅w1、最小窓幅w_min、窓幅比rの3つのパラメータを利用者から受け取り(ステップS41)、結束度を測定するための窓幅の集合Wを求める(ステップS42)。窓幅の集合Wは、初項をw1とし、公比を1/rとする等比級数から、w_min以上の大きさの項を集めて作成される。
【0053】
このとき、Wにおける最大窓幅w1としては、文書全体のサイズの1/2〜1/4程度の大きさを与え、最小窓幅w_minとしては、段落程度の大きさ(例えば40語)を与え、窓幅比rとしては2を与えておけば、実用上十分である。以下では、w1=320(語)、w_min=40(語)、r=2の値を用いている。
【0054】
次に、話題階層認定部25は、図7に示したように、内容語に印が付けられた文書をもとに、文書中の各位置の結束度を、W中のそれぞれの窓幅毎に計算し、結束度系列として記録する(ステップS43)。
【0055】
ここでは、まず、文書の各位置(基準点)の前後に設定した2つの窓の中に出現している語彙(ここでは内容語)を比較し、共通している語彙が多い程大きくなるような値を計算して、その位置における結束度とする。そして、窓の位置を文書の冒頭から末尾に向かって一定の刻み幅ticでずらしながら、結束度の計算を繰り返し、計算した結束度を、文書の冒頭から末尾に向かう系列として記録する。
【0056】
刻み幅ticは、窓幅より小さければいずれの値でも構わないが、処理効率を考慮して、ここでは、窓幅の1/8の値を用いた。このticの値は、利用者により指定することも可能である。
【0057】
結束度の計算方法としては各種の方法が考えられるが、以下では、情報検索等の分野で類似度の尺度として広く用いられてきた余弦測度(cosine measure)を用いている。余弦測度は次の式により求められる。
【0058】
【数1】
Figure 0004108948
【0059】
ここで、bl とbr は、それぞれ、左窓(文書の冒頭側の窓)、右窓(文書の末尾側の窓)に含まれる文書の部分を表し、wt,bl、wt,brは、それぞれ、左窓、右窓に出現する単語tの出現頻度を表す。また、(1)式の右辺のΣt は、単語tに関する総和を表す。
【0060】
(1)式の類似度は、左右の窓に含まれる語彙に共通のものが多いほど大きくなり(最大1)、共通のものがない時に0となる。つまり、この値が大きい部分は、左右の窓で共通の話題を扱っている可能性が高く、逆に、この値が小さい部分は、話題の境界である可能性が高いことになる。
【0061】
次に、図12は、ステップS43で記録された結束度の系列の例を示している。図12では、簡単のため、窓幅wの1/4を刻み幅ticとして用いており、文書領域a1〜a11は、刻み幅ticに対応する一定幅の領域である。また、c1は、文書中のa4とa5の境界を基準点として計算した、窓幅wの結束度を表す。すなわち、c1は、文書領域a1〜a4の部分を左窓の範囲とし、a5〜a8の部分を右窓の範囲として計算された結束度である。
【0062】
次のc2は、窓をtic分だけ右へずらして計算された結束度を表し、a5とa6の境界を基準点とする窓幅wの結束度である。このようにして、窓をtic分ずつ順に右へずらして計算したc1,c2,c3,c4,...を、文書の冒頭から末尾へ向かう窓幅wの結束度系列と呼ぶ。
【0063】
図13は、上述の単語認定結果において、文書の冒頭から各基準点までの間に出現した内容語の延べ数を横軸にとり、最小窓幅(40語)の結束度系列をプロットしたグラフである。例えば、図12の結束度c2の場合は、a1〜a5の領域中の内容語の延べ数が、文書における基準点の位置となる。ここでは、40語の窓幅の1/8(5語)を刻み幅ticとして、文書の冒頭から末尾に向かって結束度を計算している。
【0064】
次に、話題階層認定部25は、サブモジュールの話題境界候補区間認定部26を使って、それぞれの窓幅の結束度系列を解析し、結束度の低い区間を話題境界候補区間として認定する(ステップS44)。具体的には、結束度系列の極小点を手掛かりに、それぞれの結束度系列の窓幅程度の大きさの話題のまとまりの境界位置を区間推定する。本実施形態では、この処理を、移動平均法を用いて実現している。
【0065】
次に、話題階層認定部25は、異なる窓幅の結束度系列に基づいて求めた話題境界候補区間を互いに関連付け、話題の境界位置を語の単位で決定する(ステップS45)。そして、語の単位で決定された話題の境界位置を微調整し、文境界(句点で区切られた部分の開始位置)に合わせてから、話題階層データを作成して出力する(ステップS46)。これにより、話題階層認定処理が終了する。
【0066】
なお、ステップS46において話題境界位置を文境界に合わせるためには、認定された境界位置に最も近い文の開始位置を求め、それを最終的な話題境界の位置とすればよい。あるいは、先願の特願平11−205061「文書要約装置およびその方法」で開示された境界文認定技術を使って、より適切な話題境界(話題の開始位置)を求めることも可能である。
【0067】
次に、図11のステップS44における話題境界候補区間認定処理について、図12および図14を使って説明する。ここで用いられる移動平均法は、株価の変動などの統計的分析方法である時系列分析(time series analysis)において、細かい変動を取り除いて大局的な傾向を把握するために使われている。本実施形態では、結束度系列の移動平均値を細かい変動を無視するために用いるだけでなく、それを移動平均の開始点における順方向結束力および移動平均の終了点における逆方向結束力とみなすことで、話題境界候補区間認定のための直接的な手掛かりとしている。
【0068】
図12は、前述したように、結束度の系列c1〜c4と文書領域a1〜a11との関係を示している。結束度系列の移動平均値とは、例えば、(c1+c2)/2(2項の移動平均)、(c1+c2+c3)/3(3項の移動平均)、(c1+c2+c3+c4)/4(4項の移動平均)のように、結束度系列において連続するn個の値を算術平均した値である。
【0069】
図14は、図12の結束度系列の移動平均の例と文書領域との関係を示している。ここでは、移動平均の例として、図12の結束度の2項〜4項の移動平均が示され、それぞれの移動平均に関わる結束度の計算において、各文書領域が使用された回数が示されている。このうち、下線を付けた値は、対応する文書領域が移動平均に関わるすべての結束度の計算に用いられていることを表す。
【0070】
例えば、左上角の値“1”は、c1〜c4までの4項の移動平均において、文書領域a1が一度だけ左窓の一部として扱われたことを示している。また、その右の値“2”は、c1〜c4までの4項の移動平均において、文書領域a2が2回左窓の一部として扱われたことを示している。他の使用回数についても、同様である。
【0071】
結束度は境界の前後の部分の結び付きの強さを表す指標であるので、領域a1を左窓に含んで得られた結束度c1を用いて計算された移動平均値も、領域a1がそれより右側(文書の末尾側)の部分に結び付いているかどうかを示す指標の1つと考えられる。
【0072】
言い換えれば、移動平均値は、移動平均をとった結束度の左窓部分の領域(c1〜c4の4項平均に対してはa1〜a7)が文書の末尾へ向かう方向(順方向:図15では右方向)に引っ張られる強さの指標(順方向結束力)になっていると言える。一方、逆に、移動平均をとった結束度の右窓部分の領域(c1〜c4の4項平均に対してa5〜a11)が文章の冒頭方向(逆方向:図15では左方向)に引っ張られる強さの指標(逆方向結束力)になっているとも言える。
【0073】
ここで、結束力とそれぞれの文書領域との関連性を考察すると、結束度の計算においてより多く窓に含まれていた領域との関連が強いと考えられる。また、語彙的結束性は、一般に、近傍で繰り返される語彙に基づくものほど強いと考えられるので、移動平均をとった結束度の基準点(左右の窓の境界位置)に近い位置にある領域ほど関連が強いとも言える。
【0074】
例えば、図14の4項の移動平均については、結束度の基準点は、a4とa5の境界、a5とa6の境界、a6とa7の境界、およびa7とa8の境界の4つである。この場合、a4は最も多く左窓に含まれており、かつ、これらの基準点に最も近いことが分かる。また、a8は最も多く右窓に含まれており、かつ、これらの基準点に最も近いことが分かる。したがって、移動平均値と最も関連の強い領域は、左窓についてはa4、右窓についてはa8となる。
【0075】
同様にして、3項の移動平均と最も関連の強い領域を選ぶと、左窓についてはa4、右窓についてはa7となり、2項の移動平均と最も関連の強い領域を選ぶと、左窓についてはa4、右窓についてはa6となる。これらの領域の使用回数は、図14では太線の枠で囲んで示されている。
【0076】
以上の考察に基づき、話題境界候補区間認定部26は、結束度の移動平均値を、移動平均をとった領域内の最初の基準点における順方向結束力および最後の基準点における逆方向結束力の指標として取り扱う。例えば、c1〜c4の4項の移動平均値は、a4とa5の境界における順方向結束力およびa7とa8の境界における逆方向結束力となる。
【0077】
図15は、話題境界候補区間認定部26による話題境界候補区間認定処理のフローチャートである。候補区間認定部26は、まず、話題階層認定部25から結束度系列の刻み幅ticを受け取り、利用者から移動平均の項数nを受け取る(ステップS51)。
【0078】
これらのパラメータの値の目安は、刻み幅ticについては、例えば、窓幅wの1/8〜1/10程度の大きさであり、項数nについては、w/ticの半分(4〜5)程度である。また、移動平均をとる領域の最初の基準点から最後の基準点までの隔たりを、(n−1)*ticにより計算して、それを移動平均の幅d(語)とする。
【0079】
次に、文書中の各位置pについて、p〜p+dの範囲内で結束度の移動平均をとり、平均値を位置pにおける順方向結束力として記録する(ステップS52)。この値は、同時に、移動平均をとった範囲の終了位置p+dにおける逆方向結束力としても記録される。
【0080】
次に、記録された順方向結束力をもとに、文書中の冒頭から末尾に向かって各位置における順方向結束力と逆方向結束力の差(順方向結束力−逆方向結束力)を調べ、その値が負から正に変化する位置を負の結束力拮抗点mpとして記録する(ステップS53)。
【0081】
負の結束力拮抗点とは、その位置の左では逆方向結束力が優勢であり、その位置の右では順方向結束力が優勢であるような点である。したがって、この点の左右の部分は意味的な結び付きが弱いと考えられ、負の結束力拮抗点は話題境界の候補位置となる。
【0082】
次に、記録された負の結束力拮抗点mpの直前・直後のd語以内の範囲[mp−d,mp+d]を話題境界候補区間と認定して(ステップS53)、処理を終了する。
【0083】
ここで、順・逆方向の結束力の差に基づいて話題境界候補区間を認定する意味を、図16を使って説明する。図16は、図13の400語付近(370語〜400語)における40語幅の窓による結束度と順・逆方向の結束力の分布を示している。刻み幅ticとしては、窓幅の1/8を採用している。
【0084】
図16において、記号+でプロットした折れ線グラフは、結束度Cの系列を表し、記号*でプロットした折れ線グラフは、順方向結束力FCの系列を表し、記号□でプロットした折れ線グラフは、逆方向結束力BCの系列を表す。話題境界候補区間を表す矩形で示された領域については、後述することにする。
【0085】
また、点線で示されたep1、ep2、ep3は、順・逆方向の結束力の差が0になる3つの点(結束力拮抗点)を表す。最初の点ep1の左側では、逆方向結束力が順方向結束力より優勢であり、その右側から次の点ep2までは、順方向結束力が逆方向結束力より優勢である。さらに、その右側から最後の点ep3までは、逆方向結束力が順方向結束力より優勢であり、その右側では、順方向結束力が逆方向結束力より優勢である。
【0086】
したがって、ep1とep3は、順方向結束力と逆方向結束力の差が負から正に変化する負の結束力拮抗点であり、ep2は、その差が正から負に変化する正の結束力拮抗点である。
【0087】
このような結束力の変化から、最初の点ep1の左側の領域は、それより左側のいずれかの部分と比較的強い結束性を示しており、真中の点ep2の両側の領域は、ep2に向かって強い結束性を示しており、最後の点ep3の右側の領域は、それより右側のいずれかの部分と比較的強い結束性を示していることが分かる。実際、順・逆方向の結束力と共にプロットした結束度は、ep1とep3の近傍で極小値をとり、ep2の近傍で極大値をとっている。このように、順・逆方向の結束力の変化と結束度の変化は密接に関連している。
【0088】
例えば、図16の結束力拮抗点ep3の近傍には、結束度の極小点(この場合はc3)がある。上向き矢印で示したFC、BCの極小値は、水平矢印の部分の結束度(c1〜c4の4項)を移動平均した値である。このように、通常は、結束度の極小点に対応して、その近傍(移動平均の幅以内)で、結束力も極小値をとる。ただし、移動平均をとる領域より狭い範囲で細かい変動がある場合には、移動平均の平滑化作用により、移動平均値すなわち結束力が極小値をとらないこともある。
【0089】
また、順方向結束力は移動平均値を移動平均をとる領域の開始位置に記録した指標であるので、順方向結束力の極小位置は結束度の極小位置の左になる。同様の理由により、逆方向結束力の極小位置は結束度の極小位置の右になる。そして、結束度の変動が十分に大きければ、移動平均をとる領域内に結束力拮抗点が生成されることになる。
【0090】
図17は、図11のステップS45において行われる話題境界認定処理のフローチャートである。話題階層認定部25は、まず、認定された話題境界候補区間を、認定に使った結束度系列の窓幅と、話題境界候補区間内の結束力拮抗点の文書における出現位置とによってソートしてまとめ、話題境界候補区間データの系列B(j)[p]を作成する(ステップS61)。
【0091】
ここで、制御変数jは、窓幅wjの結束度系列により認定されたことを表す系列番号であり、制御変数pは、系列内の各話題境界候補区間を表すデータ番号である。実際には、jは、窓幅の大きい順に1,2,...の値をとり、pは、結束力拮抗点の出現順に1,2,...の値をとる。それぞれのデータB(j)[p]は、次のような要素データを含む。
【0092】
・B(j)[p].range:話題境界候補区間。(開始位置、終了位置)の組。
・B(j)[p].ep:結束力拮抗点。
【0093】
・B(j)[p].child:境界位置の話題境界候補区間の範囲で一致するB(j+1)系列の話題境界候補区間(子候補区間)。
なお、結束力拮抗点は理論的には点であるが、前述のように、順方向結束力と逆方向結束力の差の符号が反転する地点を拮抗点として認定しているので、実際には、差が負の点(開始位置)と差が正の点(終了位置)の組により表される。そこで、本実施形態では、結束力拮抗点の開始位置lpと終了位置rpにおける(順方向結束力−逆方向結束力)の値を、それぞれ、DC(lp)とDC(rp)として、左右の結束力が0になる点epを、次式により補間して求める。
Figure 0004108948
そして、得られたepを、B(j)[p].epとする。
【0094】
次に、話題階層認定部25は、窓幅の異なる話題境界候補区間データを関連付ける処理を行う。ここでは、1つの系列に属するB(j)[p]をまとめてB(j)と記し、さらに、次のような表記法を用いて、以下の処理を説明する。
【0095】
・ie:最小窓幅w_minに対応する系列番号。
・|B(j)|:B(j)におけるデータ番号pの最大値。
まず、処理対象を表す系列番号iを1に初期化する(ステップS62)。これにより、最大窓幅w1による話題境界候補区間の系列が処理対象に設定される。そして、j+1≦jeである限り、jをインクリメントしながら、B(j+1)を関連付け対象の系列とする関連付け処理を行う。
【0096】
この関連付け処理では、処理対象系列中のそれぞれの話題境界候補区間データB(j)[p](p=1,...,|B(j)|)について、それと同じ付近を境界候補としている関連付け対象系列中のデータB(j+1)[q]のうち、B(j+1)[q].epがB(j)[p].epに最も近いデータが選ばれ、関連境界候補区間データとしてB(j)[p].childに格納される。
【0097】
具体的な手順は以下の通りである。まず、j+1とjeを比較し(ステップS63)、j+1≦jeであれば、pに1を代入して(ステップS64)、pと|B(j)|を比較する(ステップS65)。p≦|B(j)|であれば、ステップS66以降の関連付け処理を行い、pが|B(j)|を越えれば、j=j+1とおいて(ステップS71)、ステップS63以降の処理を繰り返す。
【0098】
ステップS66では、話題階層認定部25は、関連付け候補となる系列中のデータB(j+1)[q](q=1,...,|B(j+1)|)の中から、B(j+1)[q].ep∈B(j)[p].rangeとなるデータでB(j+1)[q].epがB(j)[p].epに最も近いデータを、関連付け対象データとして選択し、B(j)[p].childに格納する。
【0099】
ここで、B(j+1)[q].ep∈B(j)[p].rangeという条件は、B(j)[p]の話題境界候補区間の中にB(j+1)[q]の結束力拮抗点が含まれていることを表す。
【0100】
図18は、関連付け対象データの選択例を示している。図18において、記号+でプロットした折れ線グラフは、処理対象に対応する80語幅の窓による順方向結束力の系列を表し、記号×でプロットした折れ線グラフは、80語幅の窓による逆方向結束力の系列を表す。また、記号*でプロットした折れ線グラフは、関連付け対象に対応する40語幅の窓による順方向結束力の系列を表し、記号□でプロットした折れ線グラフは、40語幅の窓による逆方向結束力の系列を表す。また、矩形で示された領域は、話題境界候補区間に対応し、点線で示されたep1、ep3は、40語幅の窓による結束力の拮抗点に対応する。
【0101】
例えば、処理対象データをB(3)[4]とすると、その近傍には結束力拮抗点ep1、ep3があり、それらに対応して関連付け対象系列の2つのデータB(4)[6]とB(4)[7]がある。このうち、B(4)[7]の結束力拮抗点ep3は、B(3)[4]の話題境界候補区間(上方の矩形)に含まれているので、B(4)[7]が関連付け対象データとして選択される。
【0102】
次に、話題階層認定部25は、関連付け対象データが選択できたかどうかを判定し(ステップS67)、関連付け対象データが選択できた場合は、p=p+1とおいて(ステップS70)、ステップS65以降の処理を繰り返す。
【0103】
条件を満たす関連付け対象データが見つからなかった場合には、B(j)[p]と同じ話題境界候補区間を持つ疑似的な関連付け対象データ(ダミーデータ)B(j+1)[q]を作成し、B(j+1)の系列に挿入する(ステップS68)。
【0104】
ステップS68では、まず、B(j+1)[q].rangeとB(j+1)[q].epに、それぞれ、B(j)[p].rangeとB(j)[p].epの値を設定して、新たなデータB(j+1)[q]を作成する。そして、系列B(j+1)の中で、B(j+1)[q−1].ep<B(j+1)[q].epかつB(j+1)[q].ep<B(j+1)[q+1].epとなるような位置に、作成したデータB(j+1)[q]を挿入する。
【0105】
これにより、疑似的な関連付け対象データのデータ番号qが決定され、それ以降の既存データのデータ番号は書き換えられる。ここで、擬似的な話題境界候補区間データを作成するのは、以降の処理において、j以下のすべての系列番号の話題階層において話題文を抽出するためである。
【0106】
次に、作成されたダミーデータB(j+1)[q]をB(j)[p].childに格納し(ステップS69)、ステップS70以降の処理を行う。そして、ステップS63においてj+1がjeを越えれば、処理を終了する。
【0107】
最終的には、je未満のすべての系列番号jのデータに対して、その話題境界候補区間内に結束力拮抗点を持つ系列番号j+1のデータが、B(j)[p].childに設定される。したがって、B(j)[p].childにより、複数の階層の話題境界候補区間データが連鎖的に関連付けられることになる。
【0108】
図19は、こうして得られた話題境界の認定結果を示している。図19において、320語、160語、80語、40語の各窓幅(縦軸)の高さまで伸びた棒グラフが、それぞれの窓幅に対応する粒度の話題の最終的な話題境界、すなわち最小窓幅(40語)の結束力拮抗点の位置を表している。棒グラフと交差している矩形領域は、各窓幅の結束力により認定された話題境界候補区間を表す。
【0109】
図11のステップS46では、図19に示された話題境界を微調整して文の開始位置に合わせてから、各境界の間を1つの話題とする話題階層を作成する。この微調整により図19の話題境界の一部がシフトし、その結果、図20に示すような木構造の話題階層が生成される。
【0110】
例えば、図19の最小窓幅に対応する境界からは、矢印で示された15個の区画に対応して、図20の15個の話題が最下層の話題として認定される。また、80語の窓幅に対応する境界からは、15個の話題のうち、区画2と区画3、区画4から区画6まで、区画11と区画12、区画13と区画14の4つのグループに対応する話題をグループ毎に統合して得られる、計10個の話題が第2層の話題として認定される。
【0111】
図20の話題階層において、矩形で表されたノードは、認定されたそれぞれの話題に対応し、矩形内の数字は、図19の区画の番号に対応する。第2の閲覧対象文書に対しても同様の処理を行うことで、図21のような話題階層が生成される。
【0112】
次に、関連話題抽出部27の処理について説明する。図22は、関連話題抽出部27による関連話題抽出処理のフローチャートである。話題文抽出部27は、まず、第1の閲覧対象文書の話題階層T1と第2の閲覧対象文書の話題階層T2の2つの話題階層を入力として受け取る(ステップS101)。そして、話題階層T1中の任意の話題t1と話題階層T2中の任意の話題t2からなる話題対(t1,t2)のすべてについて、関連度を計算する(ステップS102)。
【0113】
本実施形態では、話題t1と話題t2の間の関連度R(t1,t2)を、t1、t2のそれぞれに対応する文書の区画s1、s2に含まれる語彙の類似性により求める。具体的には、R(t1,t2)は次式により計算される。
【0114】
【数2】
Figure 0004108948
【0115】
ここで、wt,s1、wt,s2は、それぞれ、区画s1、s2における単語tの重要度に相当する重みを表し、次式により計算される。
【0116】
【数3】
Figure 0004108948
【0117】
(4)式において、tft,s は、区画sにおける単語tの出現頻度を表し、|D|は、区画sを含む文書を固定幅(80語)刻みに区切って得られるブロックの数を表し、dft は、単語tが出現しているブロックの数を表す。
【0118】
(3)、(4)式は、情報検索分野で検索対象文書と質問文との関連度計算等でよく使われる、tf×idf法と呼ばれる計算法の変形例である。tf×idf法では、(4)式の|D|/dft の部分を、文書内の区画ではなく、検索対象文書集合に含まれる文書を単位に計算する。すなわち、|D|を検索対象文書集合中の文書数とし、dft を単語tが出現する文書数とすると、これらの式は通常のtf×idf法の計算式となる。
【0119】
関連度R(t1,t2)はtf×idf法により求めてもよいが、本実施形態の(3)、(4)式によれば、閲覧対象文書だけから関連度を計算することができ、また、後述するように、これらの計算式で十分に有効な結果が得られているため、ここではこの計算法を採用している。
【0120】
関連話題抽出部27は、次に、第1の閲覧対象文書中の話題t1と第2の閲覧対象文書中の話題t2のすべてに対して、話題階層を利用しながら、話題対選別用の閾値を求める。閾値としては、例えば、話題階層の部分木中の最大関連度が用いられる。ここで、ある話題tに対する話題階層の部分木中の最大関連度とは、tもしくは話題階層におけるtの子孫(tを構成するいずれかのより小さい話題)に対して計算された関連度の最大値のことである。
【0121】
関連話題抽出部27は、まず、話題t1について最大関連度を求め、それをt1.maxに記録し(ステップS103)、次に、話題t2についても同様に、最大関連度をt2.maxに記録する(ステップS104)。そして、T≡{(t1,t2)|R(t1,t2)≧max(t1.max,t2.max)}により定義される話題対の集合Tを求めて、関連話題として出力し(ステップS105)、処理を終了する。
【0122】
ここで、最大関連度に基づく関連話題抽出処理の具体例を、図23および図24を使って説明する。図23は、図22のステップS102における関連度の計算結果を示している。ここでは、関連度が0.25以上の値を持つ話題対が点線のアークで示されており、アークに添えられた数値が関連度を表す。また、2つの木構造グラフのうち、左のグラフが図20の話題階層に対応し、右のグラフが図21の話題階層に対応する。
【0123】
ここで、右のグラフの右下角のノード(以下では、「ノード右7」のように表記する)に着目する。このノードは、第2の閲覧対象文書の最後の最小区画に対応する話題を表すノードであり、グラフ上では、末端ノード(子ノードを持たないノード)となっている。
【0124】
したがって、このノードにおける最大関連度は、このノードに直接結びつけられたアークの関連度の最大値である。ノード右7では、(ノード左13−14,ノード右7)の話題対の関連度0.35が最大関連度となる。そして、ノード左13−14からは、0.35を超える関連度をもつアークはないので、(ノード左13−14,ノード右7)の話題対は関連話題として出力される。
【0125】
一方、ノード右6−7に着目すると、このノード以下の部分木にノード右7が含まれているので、ノード右6−7に直結しているアークの話題対は、少なくともノード右7の最大関連度(0.35)以上でなければ、関連話題として出力されない。ノード右6−7はこのようなアークを持たないので、ノード右6−7を含む話題対は関連話題としては出力されないことになる。
【0126】
以上のように、部分木における最大関連度を基準に話題対を選別することで、2つの閲覧対象文書間の関連話題を、図24に示す話題対に絞り込むことができる。図24では、閲覧対象文書全体同士の話題対を除いて、7対の関連話題しか抽出されていないのにも関わらず、関連話題に含まれなかった話題は、ノード左1、ノード左11、およびノード左15のみである。これらの話題のうち、質問項目を含むのはノード左15のみで、残りは後続の話題を導入するための役割を担った、答弁とは直接的に関連しない内容の部分であった。
【0127】
また、抽出された7対の関連話題は、後で示す結果に見られる通り、いずれも適切に対応している内容を含む部分であった。このように、本実施形態によれば、話題階層を利用して関連話題を絞り込むことで、あらかじめ特別な閾値を設定しなくても、過不足なく適切な話題対を選択することができる。
【0128】
次に、出力部28は、関連話題抽出部27が抽出した話題対のそれぞれについて、関連話題に対応する関連箇所をそれぞれの閲覧対象文書から切り出し、出力する。例えば、図24の(ノード左9−10,ノード右4−5)の関連度0.30の話題対については、ノード左9−10の話題に対応して、第1の閲覧対象文書中の区画9と区画10を、ノード右4−5の話題に対応して、第2の閲覧対象文書中の区画4と区画5を、それぞれ抽出し、利用者が対比しやすい形に整形して出力する。
【0129】
図25は、この話題対に対する関連箇所の出力結果の例を示している。図25の出力例では、左コラムが第1の閲覧対象文書の関連箇所に対応し、右コラムが第2の閲覧対象文書の関連箇所に対応している。それぞれの関連箇所は、話題階層認定部25により認定された最小の話題(最小区画)の単位に分けて、出力されている。また、太字で強調出力されている語は、両方の関連箇所に出現し、かつ、それぞれの関連箇所において(4)式により求めた重要度が比較的大きい語である。具体的には、これらの語は、以下のような手順で抽出される。
【0130】
まず、両方の関連箇所に現れた語を重要語候補として抽出し、抽出された各語についてそれぞれの箇所における(4)式の値を、各語の各箇所における重要度として求める。そして、それぞれの箇所について、重要度の大きい順に重要語を抽出し、抽出した重要語における重要度の累積値が、重要語候補全体における重要度の合計値の1/2を超えた時点で、抽出処理を打ち切る。
【0131】
なお、図25に示した関連話題は、本実施形態で用いた閲覧対象文書対において、重複して関連話題が抽出された唯一の部分である。この部分では、上位層の(ノード左9−10,ノード右4−5)の話題対だけでなく、それを構成する話題に関する(ノード左9,ノード右4)と(ノード左10,ノード右5)の話題対も関連話題として抽出されている。
【0132】
図25に示された内容に見られるように、ノード左9の質問に対する答弁はノード右4であり、ノード左10の質問に対する答弁はノード右5であると考えられるが、ノード左9とノード左10との間、および、ノード右4とノード右5との間にも、強い関連性が読み取れる。
【0133】
したがって、これらの関連話題が重複して抽出されてはいるが、単に冗長なわけではなく、2ノードずつのまとまり間の関係も、個々のノード間の関係も、ともに重要な意味を持っていることが分かる。そこで、図25では、まとまり全体を対比するだけでなく、個々の話題も対比できるように、対応する話題の開始位置を揃えて出力している。
【0134】
また、出力部28は、関連箇所の内容を要約して提示することで、関連箇所の一覧性を向上させることもできる。例えば、上述した特開平11−272699の技術を用いれば、上記の手順で抽出した重要語を多く含み、かつ、簡潔な要約を作成することができる。
【0135】
図26は、このような要約処理の手順を簡略化して示したフローチャートである。出力部28は、まず、関連話題対に対応して、第1の閲覧対象文書から切り出された関連箇所P1と第2の閲覧対象文書から切り出された関連箇所P2を、入力として受け取る(ステップS121)。そして、関連箇所P1、P2のそれぞれから重要語を抽出し、それらの重要語をマージする(ステップS122)。
【0136】
次に、関連箇所P1から重要文を選択して要約を作成し(ステップS123)、関連箇所P2からも同様にして要約を作成する(ステップS124)。そして、各関連箇所から作成された要約を比較しやすい形に整形し、対置して出力して(ステップS125)、処理を終了する。
【0137】
図27は、図26のステップS123およびS124における重要文選択処理のフローチャートである。この処理では、出力部28は、まず、P1またはP2を重要文の選択対象箇所Pに設定し、ステップS122で抽出された重要語を、重要文の手掛かりとして重要語リストKWLに設定する(ステップS131)。そして、対象箇所Pから重要語を最も多く含む文を重要文として選択し(ステップS132)、そのような文が選択できたか否かを判定する(ステップS133)。
【0138】
文が選択できた場合は、次に、選択した文に含まれる重要語を重要語リストKWLから取り除き(ステップS134)、KWLが空か否かをチェックする(ステップS135)。KWLが空でなければ、ステップS132以降の処理を繰り返す。そして、すべての重要語に対して少なくとも1文以上の重要文が選択できた時点で選択処理を終了し、選択した文を元の文書における出現順に並べて、要約として出力して(ステップS136)、処理を終了する。
【0139】
また、ステップS133において、重要語を含む文がまったく選択できない場合は、処理を打ち切り、ステップS136の処理を行う。図26および図27に示した処理により、図28、29、および30に示すような要約が作成される。
【0140】
このように、個々の関連話題に対応する関連箇所を個別に提示するだけでなく、要約機能により抽出された関連話題を短くまとめることで、関連箇所全体を一覧しやすい形で出力することができる。したがって、長い文書の比較・閲覧の際等に多くの関連話題が抽出されても、比較・閲覧作業を効果的に支援できる。
【0141】
また、出力部28は、関連箇所と原文書である閲覧対象文書の全文とを対置して提示することで、閲覧対象文書における関連箇所の位置付け等を吟味しながら、関連箇所を分析する作業等を支援することができる。この場合、例えば、図31に示すような形態で、関連箇所の要約と閲覧対象文書の全文とを対置して提示すればよい。また、関連箇所と閲覧対象文書中の対応箇所との間にハイパーリンクを設定すれば、より一層閲覧効率を高めることができる。
【0142】
図31では、左フレームが関連箇所参照のウィンドウであり、右フレームが閲覧対象文書参照用のウィンドウである。ここでは、左フレームに、作成された関連箇所の要約が表示されており、発言者名の後ろのかぎ括弧内(下線部)には、閲覧対象文書の対象箇所へのハイパーリンクのアンカーが設定されている。そして、利用者が必要に応じてアンカーを指定することで、第1の閲覧対象文書の指定箇所が右上のウィンドウに表示され、第2の閲覧対象文書の指定箇所が右下のウィンドウに表示される。
【0143】
右フレームに提示された閲覧対象文書では、関連箇所が下線付きで強調表示され、関連箇所とその前後の文脈とを区別できるようになっている。強調表示の方法としては、カラー表示、網かけ表示等を用いることもできる。この例では、左フレームに関連箇所の要約が表示されているが、代わりに、関連箇所そのものを表示してもよい。また、利用者の要望に応じて、関連箇所を要約で提示するか、関連箇所の内容全体を提示するかを切り換えられるようにすることも考えられる。
【0144】
また、出力部28は、閲覧対象文書間の関連箇所の関係をグラフ等を用いて図面で表現することで、閲覧対象文書相互の全体的な関連性を一目で把握できるようにすることもできる。この場合、例えば、図32に示すような形態で、閲覧対象文書中の関連箇所の出現状況を提示すればよい。
【0145】
図32では、上フレームに、2つの閲覧対象文書の話題階層が、図24と同様のグラフ形式で表示されており、下フレームに、第1および第2の閲覧対象文書が対置して表示されている。話題階層のグラフには、関連話題を示すアークが付加されており、それぞれのアークには、両方の文書の関連箇所を同期して提示するためのハイパーリンクが設定されている。また、話題に対応する各ノードには、個々の閲覧対象文書の対応箇所へのハイパーリンクが設定されている。さらに、各閲覧対象文書には、図31と同様に、関連箇所に強調表示が施されている。
【0146】
このように、閲覧対象文書間の関連箇所の出現状況をグラフ等により提示すれば、閲覧対象文書間の全体的な関連性の理解が促進される。これにより、例えば、本実施形態の閲覧対象文書のように全体として1対1で対応するような文書であるのか、それとも、特定の部分のみに集中して関連箇所が現れる文書であるのかを、利用者が一目で読み取れるようになる。そして、後者のような文書であれば、利用者は、関連箇所が集中している部分に絞って、効率的に文書の閲覧を進めることも可能になる。
【0147】
以上の実施形態では、主として、閲覧対象文書が2つの場合について説明したが、この処理を応用して、3つ以上の文書に対する比較・閲覧を支援することも可能である。例えば、いずれか1つの文書を基準(軸)として他の文書を比較するか、または、すべての閲覧対象文書の対に対して上述のような処理を行い、抽出された関連話題を何らかの方法で整理・統合して出力すればよい。後者の場合、関連話題の整理・統合の方法としては、例えば、いずれか1つの文書中の同一箇所に対応する他の文書の話題を統合することが考えられる。
【0148】
例えば、上述の「第149回衆議院本会議会議録第2号」に含まれる全8件の代表質問(答弁は除外)を、それぞれ異なる文書として切り出し、「第149回衆議院本会議会議録第1号」(2000年7月28日)中の首相の所信表明演説を基準文書として比較したところ、上述の第1の閲覧対象文書(水島広子議員による代表質問)にも関連する関連箇所として、図33のような関連箇所が抽出された。
【0149】
図33では、左コラムが基準文書の関連箇所の要約に対応し、中央のコラムが第1の閲覧対象文書の関連箇所の要約に対応し、右コラムが他の文書の関連箇所に対応している。ここでは、第1の閲覧対象文書に関連する箇所のみを例として示したが、他の質問者による代表質問についても、同様に、基準文書の適切な箇所と対応付けることが可能である。
【0150】
さらに、このような関連箇所を、基準文書に併合して出力することもできる。これにより、例えば、「所信表明演説のポイントとそれに対する各党代表者の見解」のような、統合的な文書の作成を支援することができる。
【0151】
図34は、このような文書統合処理のフローチャートである。文書閲覧装置は、まず、利用者からの指示等に基づいて、複数の閲覧対象文書の中から基準文書を選択し(ステップS141)、上述の処理手順に従って、基準文書と他の各文書の間の関連箇所を抽出する(ステップS142)。そして、出力部28は、抽出された関連箇所を基準文書における出現順にマージして、統合文書を作成し(ステップS143)、その文書を出力して(ステップS144)、処理を終了する。
【0152】
次に、英語の文書に対する処理について、1999年のケルンサミットと2000年の沖縄サミットにおけるG8による2つのコミュニケを対象とした場合を例に挙げて説明する。ここでは、 外1 を第1の英語閲覧対象文書とし、 外2 を第2の英語閲覧対象文書とした。
【0153】
【外1】
Figure 0004108948
【0154】
【外2】
Figure 0004108948
【0155】
これらの文書の全文は、それぞれ、4千5百語および7千語であり、本明細書および図面にすべての処理結果を記載するには長すぎるため、以下では全体の半分ほどの部分のみを対象として処理を行った。全体で10節からなる第1の閲覧対象文書では、以下の5節(1千8百語)を処理対象とし、第2の閲覧対象文書では、前置き(Preamble)の次に位置する以下の1パート(3千5百語)を処理対象とした。
(1)第1の閲覧対象文書の処理対象部分
I. Getting the World Economy on Track for Sustained Growth
II. Building a World Trading System That Works for Everyone
III. Designing Policies for More Employment
IV. Investing in People
V. Strengthening Social Safeguards
(2)第2の閲覧対象文書の処理対象部分
Toward a 21st century of greater prosperity
また、ここでは、次のような処理方法およびパラメータを採用した。
(1)単語認定の方法:ストップワードリストを用いた方法
(2)結束度計算用の窓の幅:
最小窓幅 w_min=80(語)
最大窓幅w1 w_minの2の巾乗倍で、文書全体の1/2を超えない値の語数
刻み幅 窓幅の1/8
図35は、第1の閲覧対象文書の先頭部分を示しており、図36は、その部分に対する単語認定部22の処理結果を示している。図36において、[]で括られた部分が、認定された単語に対応する。先頭の1文字のみが大文字の単語は、[]内ではすべて小文字に置き換えられている。
【0156】
この場合、単語認定部22は、まず、空白および“,”、“.”、“:”、“;”等の区切り記号を手掛かりに単語を切り出し、次に、それらの単語のうち、図37に示すようなストップワードリストに含まれる単語を取り除く、という手順で単語認定を行う。ストップワードリストとは、重要語として抽出したくない冠詞、前置詞等の単語を、あらかじめ定義したリストである。
【0157】
図38は、上述の文書対に対する関連話題の抽出結果を示している。図38において、左の木構造グラフが、第1の英語閲覧対象文書に対する話題階層認定部25の出力、すなわち、第1の英語閲覧対象文書の話題階層の認定結果に対応し、右の木構造グラフが、第2の英語閲覧対象文書の話題階層の認定結果に対応する。また、これらの木構造のノード間のアークは、関連話題抽出部27が抽出した関連話題対を表す。
【0158】
こうして抽出された関連話題を、出力部28が図26および図27の手順により要約した結果、図39、40、および41に示すような要約が得られた。
このように、本発明は、英語の閲覧対象文書に対しても、日本語の文書と同様に適用可能であり、また、任意の言語および任意の形式の文書に対して適用され、同様の結果を得ることができる。
(付記1) 閲覧対象として指定された複数の文書を利用者に提示する文書閲覧装置であって、
前記複数の文書のそれぞれの話題階層を認定する話題階層認定手段と、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出する関連話題抽出手段と、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する関連話題提示手段と
を備えることを特徴とする文書閲覧装置。
(付記2) 前記関連話題抽出手段は、前記認定された話題階層中の様々な粒度の話題からなる話題対について、該話題対の各話題に対応する記述箇所の語彙的類似性に基づき、該話題対の話題間の関連度を求め、話題の包含関係に基づいて設定された閾値以上の関連度を持つ話題対を、前記関連話題として抽出することを特徴とする付記1記載の文書閲覧装置。
(付記3) 前記関連話題提示手段は、切り出された記述箇所を、前記複数の文書間の関連箇所として対置して提示することを特徴とする付記1記載の文書閲覧装置。
(付記4) 前記関連話題提示手段は、前記関連箇所と元の文書とを対置・連動して提示することを特徴とする付記3記載の文書閲覧装置。
(付記5) 前記関連話題提示手段は、前記関連箇所の内容を要約して提示することを特徴とする付記3記載の文書閲覧装置。
(付記6) 前記関連話題提示手段は、前記関連箇所の要約と元の文書とを対置・連動して提示することを特徴とする付記5記載の文書閲覧装置。
(付記7) 前記関連話題提示手段は、前記複数の文書に対応する複数の話題階層と、前記複数の関連話題に基づく、該複数の話題階層中の話題間の対応関係とを、図面を用いて提示し、該図面上における前記利用者の指示に応じて、該複数の文書中の対応箇所を連動して提示することを特徴とする付記3記載の文書閲覧装置。
(付記8) 前記関連話題提示手段は、前記複数の文書のうちの1つの文書を基準文書として、前記関連話題に対応する記述箇所を他の文書から該基準文書に取り込んで新たな統合文書を作成し、該統合文書を出力することを特徴とする付記1記載の文書閲覧装置。
(付記9) 閲覧対象として指定された複数の文書を利用者に提示するコンピュータのためのプログラムを記録した記録媒体であって、該プログラムは、
前記複数の文書のそれぞれの話題階層を認定し、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出し、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する
処理を前記コンピュータに実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
(付記10) 閲覧対象として指定された複数の文書を利用者に提示するコンピュータにプログラムを伝送する伝搬信号であって、該プログラムは、
前記複数の文書のそれぞれの話題階層を認定し、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出し、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する
処理を前記コンピュータに実行させることを特徴とする伝搬信号。
(付記11) 閲覧対象として指定された複数の文書を利用者に提示する文書提示方法であって、
前記複数の文書のそれぞれの話題階層を認定し、
認定された話題階層に基づき、前記複数の文書に共通して現れる関連話題を抽出し、
抽出された関連話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する
ことを特徴とする文書提示方法。
【0159】
【発明の効果】
本発明によれば、個々の閲覧対象文書の話題階層を用いて、複数の閲覧対象文書中の様々な粒度の話題が比較できるため、文書間で記述量の大きく異なる関連話題を適切に抽出することができる。また、抽出された関連話題に対応する関連箇所をそれぞれの閲覧対象文書から切り出し、それらを対置して出力することで、関連箇所を容易に比較・分析することが可能になる。このように、本発明によれば、複数の文書の比較閲覧作業が効果的に支援される。
【図面の簡単な説明】
【図1】本発明の文書閲覧装置の原理図である。
【図2】本発明の文書閲覧装置の構成図である。
【図3】情報処理装置の構成図である。
【図4】記録媒体を示す図である。
【図5】閲覧対象文書を示す図である。
【図6】単語認定処理のフローチャートである。
【図7】単語認定結果の例を示す図である。
【図8】形態素解析処理のフローチャートである。
【図9】日本語の辞書引きの例を示す図である。
【図10】英語の辞書引きの例を示す図である。
【図11】話題階層認定処理のフローチャートである。
【図12】結束度の系列を示す図である。
【図13】結束度分布の例を示す図である。
【図14】移動平均値と文書領域との関係を示す図である。
【図15】話題境界候補区間認定処理のフローチャートである。
【図16】結束力拮抗点を示す図である。
【図17】話題境界認定処理のフローチャートである。
【図18】関連付け対象データを示す図である。
【図19】話題境界の認定結果を示す図である。
【図20】第1の閲覧対象文書の話題階層を示す図である。
【図21】第2の閲覧対象文書の話題階層を示す図である。
【図22】関連話題抽出処理のフローチャートである。
【図23】関連度の計算結果を示す図である。
【図24】関連話題の抽出結果を示す図である。
【図25】関連箇所の出力例を示す図である。
【図26】要約処理のフローチャートである。
【図27】重要文選択処理のフローチャートである。
【図28】関連箇所の要約例を示す図(その1)である。
【図29】関連箇所の要約例を示す図(その2)である。
【図30】関連箇所の要約例を示す図(その3)である。
【図31】原文書参照機能付き関連箇所提示の例を示す図である。
【図32】グラフ付き関連箇所提示の例を示す図である。
【図33】3文書に対する関連箇所の出力例を示す図である。
【図34】文書統合処理のフローチャートである。
【図35】英語閲覧対象文書の先頭部分を示す図である。
【図36】英語閲覧対象文書の単語認定結果を示す図である。
【図37】ストップワードの例を示す図である。
【図38】英語の関連話題の抽出結果を示す図である。
【図39】英語の関連箇所の要約例を示す図(その1)である。
【図40】英語の関連箇所の要約例を示す図(その2)である。
【図41】英語の関連箇所の要約例を示す図(その3)である。
【符号の説明】
1 話題階層認定手段
2 関連話題抽出手段
3 関連話題提示手段
11 閲覧対象文書
12 文書閲覧装置
13 利用者
21 入力部
22 単語認定部
23 形態素解析部
24 単語辞書
25 話題階層認定部
26 話題境界候補区間認定部
27 関連話題抽出部
28 出力部
41 出力装置
42 入力装置
43 CPU
44 ネットワーク接続装置
45 媒体駆動装置
46 補助記憶装置
47 主記憶
48 バス
49 可搬記録媒体
50 サーバ
51 データベース

Claims (1)

  1. 閲覧対象として指定された複数の文書を利用者に提示する文書閲覧装置であって、
    前記複数の文書のそれぞれについて、文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の包含関係を認定し、認定された包含関係を示す話題階層のデータを生成する話題階層認定手段と、
    前記複数の文書のうち第1の文書の話題階層に含まれる各話題と、第2の文書の話題階層に含まれる各話題からなる話題対について、それぞれの話題対における話題間の関連度を求め、閾値以上の関連度を持つ話題対を、前記複数の文書に共通して現れる関連話題として抽出する関連話題抽出手段と、
    抽出された話題対の各話題に対応する記述箇所を、該複数の文書のそれぞれから切り出して出力する関連話題提示手段と
    を備えることを特徴とする文書閲覧装置。
JP2001265996A 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法 Expired - Fee Related JP4108948B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001265996A JP4108948B2 (ja) 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000290886 2000-09-25
JP2000-290886 2000-09-25
JP2001265996A JP4108948B2 (ja) 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法

Publications (2)

Publication Number Publication Date
JP2002169803A JP2002169803A (ja) 2002-06-14
JP4108948B2 true JP4108948B2 (ja) 2008-06-25

Family

ID=26600671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001265996A Expired - Fee Related JP4108948B2 (ja) 2000-09-25 2001-09-03 複数の文書を閲覧するための装置および方法

Country Status (1)

Country Link
JP (1) JP4108948B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
JP4324089B2 (ja) 2004-12-17 2009-09-02 富士通株式会社 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法
US7716040B2 (en) 2006-06-22 2010-05-11 Multimodal Technologies, Inc. Verification of extracted data
JP5895828B2 (ja) * 2012-11-27 2016-03-30 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7215039B2 (ja) * 2018-09-25 2023-01-31 京セラドキュメントソリューションズ株式会社 情報処理装置及び文書作成プログラム
JP7148077B2 (ja) * 2019-02-28 2022-10-05 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
JP7324058B2 (ja) * 2019-06-06 2023-08-09 株式会社日立製作所 文章解析方法、文章解析プログラム、および文章解析システム

Also Published As

Publication number Publication date
JP2002169803A (ja) 2002-06-14

Similar Documents

Publication Publication Date Title
US7813915B2 (en) Apparatus for reading a plurality of documents and a method thereof
Debnath et al. Automatic identification of informative sections of web pages
JP3791879B2 (ja) 文書要約装置およびその方法
US5987460A (en) Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
Li et al. Sentence similarity based on semantic nets and corpus statistics
US20170235841A1 (en) Enterprise search method and system
JP3597697B2 (ja) 文書要約装置およびその方法
US8402036B2 (en) Phrase based snippet generation
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US7376634B2 (en) Method and apparatus for implementing Q&A function and computer-aided authoring
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
CN100511233C (zh) 特定元素、字符串向量生成及相似性计算的装置、方法
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Jagadeesh et al. Sentence extraction based single document summarization
Boese Stereotyping the web: genre classification of web documents
JP4108948B2 (ja) 複数の文書を閲覧するための装置および方法
Hijikata et al. Social summarization of text feedback for online auctions and interactive presentation of the summary
Gupta A survey of text summarizers for Indian Languages and comparison of their performance
Akamine et al. Organizing information on the web to support user judgments on information credibility
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
Gottron Content extraction-identifying the main content in HTML documents.
JPH1027125A (ja) 文書分類装置
Hori et al. Related Word Extraction from Wikipedia for Web Retrieval Assistance.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080125

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees