JP4025391B2

JP4025391B2 - 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法

Info

Publication number: JP4025391B2
Application number: JP21712597A
Authority: JP
Inventors: 直之野村; 信二藤澤
Original assignee: 株式会社ジャストシステム
Priority date: 1997-07-27
Filing date: 1997-07-27
Publication date: 2007-12-19
Anticipated expiration: 2017-07-27
Also published as: JPH1145278A

Description

【０００１】
【発明の属する技術分野】
この発明は、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法に係り、詳細には、作成された文書に複数のトピックが含まれるか否かの判定に関する。
【０００２】
【従来の技術】
従来、書籍、論文、報告書等の各種の文書に対し、要約（抄録を含む）の自動作成処理や、他文書等との関連づけ処理等の各種処理をコンピュータを用いて行うことが行われている。
文書の自動要約については、例えば、「全文情報からの意味的情報の抽出と加工」（情報処理学会第３８回全国大会予稿集、第２２２頁；１９８９年）で提案されている。この方法では、まず文書中の重要語を字種や動詞等の情報から抽出し、さらに重要語の出現頻度から最重要語を決定する。次に重要語と最重要語が出現するか否かから重要文を決定することで、自動的に要約を作成することが可能になる。また、文章の段落の性質を反映させることで、より正確に要約を作成する特開平３−１９１４７５号公報に記載された方法等も提案されている。
一方、他のデータとの関連づけとしては、インターネットにおけるハイパーリンクや、フレームシステム等による知識処理（エキスパートシステム等）における関連づけ等が行われている。
【０００３】
【発明が解決しようとする課題】
しかし、従来の文書処理では、処理対象となっている文書中に複数のトピック（論題）が含まれているか否かを判定することはできず、全体として文書を処理していた。
このため、上記した従来の自動要約の方法の場合、単一のトピックが含まれている文書に対しては比較的適切な要約を作成することが可能であるが、１文書中に複数のトピックを含む文書に対しては必ずしも適切な要約を作成することができなかった。すなわち、互いに異なる主張や事実の記載をもつ複数ユニットの存在を無視して重要文の文選択を行い、互いにつなぎ合わせることで要約を作成していたため、可読性の低い要約を生成していた。
また、複数のトピックを含む文書であっても文書全体に対してしか関連づけることができなかった。
【０００４】
本発明は、このような従来の課題を解決するために成されたもので、１文書中に複数のトピックを含むか否か判定することができる文書処理装置を提供することを第１の目的とする。
また、本発明は、１文書中に複数のトピックを含むか否かを判定することができるコンピュータ読取り可能な文書処理プログラムが記憶された記憶媒体を提供することを第２の目的とする。
また、本発明は、１文書中に複数のトピックを含むか否かを判定することができる文書処理方法を提供することを第３の目的とする。
【０００５】
【課題を解決するための手段】
請求項１記載の発明では、複数の文章で構成された所定形式の文書を取得する文書取得手段と、前記文書取得手段で取得された文書を複数のサブ文書に分割する文書分割手段と、前記文書分割手段により分割された隣接する２つのサブ文書間の類似度を算出する第１類似度算出手段と、前記第１類似度算出手段で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定手段と、前記仮判定手段で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第２類似度算出手段と、前記第２類似度算出手段で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定手段と、を文書処理装置に備えさせて前記第１の目的を達成する。
請求項２に記載した発明では、請求項１に記載した文書処理装置において、前記文書分割手段で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段を備え、前記第１類似度算出手段は前記文書ベクトル決定手段で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する。
請求項３に記載した発明では、請求項１又は請求項２に記載した文書処理装置において、複数の文章で構成される文書の要約を自動的に作成する要約作成手段を有し、前記要約作成手段は前記判定手段により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する。
請求項４に記載した発明では、請求項１、請求項２又は請求項３に記載した文書処理装置において、前前記判定手段により複数のトピックが含まれないと判断された場合、前記文書分割手段は、異なるサイズのサブ文書に再分割し、前記第１類似度算出手段は、再分割後の隣接サブ文書間の類似度を再算出し、前記仮判定手段は、再算出後の類似度からトピックの変わり目を仮判定する。
請求項５に記載した発明では、複数の文章で構成された所定形式の文書を取得する文書取得機能と、前記文書取得機能で取得された文書を複数のサブ文書に分割する文書分割機能と、前記文書分割機能により分割された隣接する２つのサブ文書間の類似度を算出する第１類似度算出機能と、前記第１類似度算出機能で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定機能と、前記仮判定機能で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第２類似度算出機能と、前記第２類似度算出機能で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定機能と、をコンピュータに実現させるための文書処理プログラムをコンピュータ読取り可能な記憶媒体に記憶させて前記第２の目的を達成する。
請求項６に記載した発明では、請求項５に記載した記憶媒体において、前記文書分割機能で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能を備え、前記第１類似度算出機能は前記文書ベクトル決定機能で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する。
請求項７に記載した発明では、請求項５又は請求項６に記載した記憶媒体において、複数の文章で構成される文書の要約を自動的に作成する要約作成機能を有し、前記要約作成機能は前記判定機能により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する。
請求項８に記載した発明では、請求項５、請求項６又は請求項７に記載した記憶媒体において、前記判定機能により複数のトピックが含まれないと判断された場合、前記文書分割機能は、異なるサイズのサブ文書に再分割し、前記第１類似度算出機能は、再分割後の隣接サブ文書間の類似度を再算出し、前記仮判定機能は、再算出後の類似度からトピックの変わり目を仮判定する。
請求項９に記載した発明では、文書取得手段と、文書分割手段と、第１類似度算出手段と、仮判定手段と、第２類似度算出手段と、判定手段とを有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、前記文書取得手段が、複数の文章で構成された所定形式の文書を取得する第１ステップと、前記文書分割手段が、前記第１ステップで取得した文書を複数のサブ文書に分割する第２ステップと、前記第１類似度算出手段が、前記第２ステップにより分割した隣接する２つのサブ文書間の類似度を算出する第３ステップと、前記仮判定手段が、前記第３ステップで算出されたサブ文書間の類似度からトピックの変わり目を仮判定する第４ステップと、前記第２類似度算出手段が、前記第４ステップで仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第５ステップと、前記判定手段が、前記第５ステップで算出したサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する第６ステップと、を備える文書処理方法を提供することにより前記第３の目的を達成する。
請求項１０に記載した発明では、請求項９に記載した文書処理方法において、文書ベクトル決定手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、前記文書ベクトル決定手段が、前記第２ステップで分割したサブ文書を特徴づける文書ベクトルを決定する第７ステップを備え、前記第３ステップは、前記第７ステップで決定したサブ文書の文書ベクトルによりサブ文書間の類似度を算出する。
請求項１１に記載した発明では、請求項９または請求項１０に記載した発明において、要約作成手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、前記要約作成手段が、複数の文章で構成される文書の要約を自動的に作成する第８ステップを備え、前記第８ステップは、前記第６ステップにより前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する。
【０００６】
【発明の実施の形態】
以下、本発明の文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法における好適な実施の形態について、図１から図１０を参照して詳細に説明する。
（１）実施形態の概要
本実施形態では、文書を複数のサブ文書（ユニット）に分割し、各サブ文書毎の文書ベクトルを求め、サブ文書間もしくは、複数のサブ文書のセット間で文書ベクトルの差をとる。これらの連続する２つのサブ文書間のコサインバリュー（cosine value）が著しく低い箇所で再分割を行う。その再分割位置の前ｍユニット、後ｎユニットの間の全体的な類似性の判定も行い、それが所定の閾値Ｔ２以下になった際にトピックの変わり目と最終判定する。
そして、単一のトピックの領域毎に従来の要約処理を適用することにより、１つの要約でなく、一種の複数の要約の集まりとして文書全体の要約を生成する。なお、各トピック毎の要約結合の際に、各トピックとされた複合名詞句をサマリー中のサブセクションのタイトルとして明示するようにしてもよい。
【０００７】
（２）実施形態の詳細
図１は、文書処理装置の構成を表したブロック図である。
本実施形態の文書処理装置は、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムとして構成し、また、ＬＡＮ（ローカル・エリア・ネットワーク）のサーバやインターネットを含むコンピュータ（パソコン）通信のホストとして構成することが可能である。
文書処理装置は、図１に示すように装置全体を制御するための制御部１１を備えている。この制御部１１には、データバス等のバスライン２１を介して、入力装置としてのキーボード１２やマウス１３、表示装置１４、印刷装置１５、記憶装置１６、記憶媒体駆動装置１７、通信制御装置１８、入出力Ｉ／Ｆ１９、および、文字認識装置２０が接続されている。
制御部１１は、ＣＰＵ１１１、ＲＯＭ１１２、ＲＡＭ１１３を備えている。
ＲＯＭ１１２は、ＣＰＵ１１１が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【０００８】
ＲＡＭ１１３は、ＣＰＵ１１１にワーキングメモリとして使用されるランダムアクセスメモリである。このＲＡＭ１１３には、本実施形態による要約処理を行うためのエリアとして、要約対象文書格納エリア１１３１、要約パラメータ格納エリア１１３２、区切れ位置格納エリア１１３３、文書ベクトル格納エリア１１３４、要約格納エリア１１３５、その他の各種エリアが確保されるようになっている。
文書ベクトル格納エリア１１３４には、要約対象文書に対する文書ベクトルと、後述する各サブ文書に対する文書ベクトルとが格納される。
要約格納エリア１１３５には、本実施形態により発見された各トピックを含む各サブ文書群に対するサブ要約と、要約対象文書全体に対する要約とが格納される。
【０００９】
キーボード１２は、かな文字を入力するためのかなキーやテンキー、各種機能を実行するための機能キー、カーソルキー、等の各種キーが配置されている。
マウス１３は、ポインティングデバイスであり、表示装置１４に表示されたキーやアイコン等を左クリックすることで対応する機能の指定を行う入力装置である。
表示装置１４は、例えばＣＲＴや液晶ディスプレイ等が使用される。この表示装置には、要約対象文書の内容や、本実施形態により自動生成された要約の内容等が表示されるようになっている。
印刷装置１５は、表示装置１４に表示された文章や、記憶装置１６の文書格納部１６４に格納された文書等の印刷を行うためのものである。この印刷装置としては、レーザプリンタ、ドットプリンタ、インクジェットプリンタ、ページプリンタ、感熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が使用される。
【００１０】
記憶装置１６は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。この記憶装置１６に使用される記憶媒体としては、主としてハードディスクが使用されるが、後述の１７で使用される各種記憶媒体のうちの読み書き可能な記憶媒体を使用するようにしてもよい。
記憶装置１６は、仮名漢字変換辞書１６１、プログラム格納部１６２、データ格納部１６３、文書データベース１６４、要約データベース１６５、文書ベクトルデータベース１６６、図示しないその他の格納部（例えば、この記憶装置１６内に格納されているプログラムやデータ等をバックアップするための格納部）等を有している。
プログラム格納部１６２には、本実施形態における自動要約処理プログラム、文書ベクトル作成処理プログラム、要約作成処理プログラム等の各種プログラムの他、仮名漢字変換辞書１６１を使用して入力された仮名文字列を漢字混り文に変換する仮名漢字変換プログラム等の各種プログラムが格納されている。
データ格納部１６３には、要約パラメータのデフォルト値等の各種データが格納されている。要約パラメータのデフォルト値としては、例えば、全文書に対する要約の比率＝「２５％」や、日付時刻、価格情報、物理量（サイズ、重量、温度等）等の数量重視＝「しない」や、ＵＲＬ（Uniform Resource Locator）重視＝「しない」、長単文の重視＝「しない」や、です／ます／であるの選択＝「しない」、等の値が格納されている。
【００１１】
文書データベース１６４には、仮名漢字変換プログラムにより作成された文書や、他の装置で作成されて記憶媒体駆動装置１７や通信制御装置１８から読み込まれた文書が格納される。この文書データベース１６４に格納される各文書の形式は特に限定されるものではなく、テキスト形式の文書、ＨＴＭＬ（Hyper Text Markup Language）形式の文書、ＪＩＳ形式の文書等の各種形式の文書の格納が可能である。文書データベース１６４には、これらの形式の文書データの他、本実施形態により発見されたトピックの変わり目となる区切れ位置Ｘのデータ等も格納される。
要約データベース１６５、及び文書ベクトルデータベース１６６には、文書データベース１６４に格納されている各文書に対応する要約や文書ベクトルが格納されるようになっている。
【００１２】
図２は、文書ベクトルデータベース１６６の内容を概念的に表したものである。
この図２に示されるように、文書中から自動抽出されたキーワードｘに対して求められた重要度ｆ（ｘ）が文書ベクトルの要素値ｆ（ｘ）として格納されている。この文書ベクトルは各文書（Ａ、Ｂ、Ｃ…）毎に格納され、文書データベース１６４に格納されている各文書と対応づけられている。
各文書ベクトルの次元は採用するキーワードｘ（重要語句）の数であるが、２文書間の類似度を両文書ベクトルから求める場合には、両文書のキーワードの和集合の数が両文書ベクトルの次元となる。この場合、一方の文書ベクトルにのみ含まれるキーワードに対する他方の文書ベクトルの要素値は、”０”に定義される。
【００１３】
例えば図２おいて、文書Ｂのキーワードは「重要、重要語、重要度、…」、文書Ｃのキーワードは「重要、…、政治、…」であり、両文書の文書ベクトルは次の通りである。
文書Ｂの文書ベクトル＝（１，１８，１９，…）
文書Ｃの文書ベクトル＝（１８，…，２１，…）
これに対して文書Ｂと文書Ｃとの類似度を算出する場合には、両文書のキーワードを「重要、重要語、重要度、…、政治、…」とし、両文書の文書ベクトルはつぎの通り定義される。
文書Ａの文書ベクトル＝（１，１８，１９，…，０，…）、
文書Ｃの文書ベクトル＝（１８，０，０，…，２１，…）
【００１４】
記憶媒体駆動装置１７は、ＣＰＵ１１１が外部の記憶媒体からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。記憶媒体に記憶されているコンピュータプログラム等には、本実施形態の文書処理装置により実行される各種処理のためのプログラム、および、そこで使用される辞書、データ等も含まれる。
ここで、記憶媒体とは、コンピュータプログラムやデータ等が記憶される記憶媒体をいい、具体的には、フロッピーディスク、ハードディスク、磁気テープ等の磁気記憶媒体、メモリチップやＩＣカード等の半導体記憶媒体、ＣＤ−ＲＯＭやＭＯ、ＰＤ（相変化書換型光ディスク）等の光学的に情報が読み取られる記憶媒体、紙カードや紙テープ等の用紙（および、用紙に相当する機能を持った媒体）を用いた記憶媒体、その他各種方法でコンピュータプログラム等が記憶される記憶媒体が含まれる。本実施形態の文書処理装置において使用される記憶媒体としては、主として、ＣＤ−ＲＯＭやフロッピーディスク等の記憶媒体がが使用される。
記憶媒体駆動装置１７は、これらの各種記憶媒体からコンピュータプログラムを読み込む他に、フロッピーディスクのような書き込み可能な記憶媒体に対してＲＡＭ１１３や記憶装置１６に格納されているデータ等を書き込むことが可能である。
【００１５】
本実施形態の文書処理装置では、制御部１１のＣＰＵ１１１が、記憶媒体駆動装置１７にセットされた外部の記憶媒体からコンピュータプログラムを読み込んで、記憶装置１６の各部に格納（インストール）する。そして、本実施形態による自動要約処理等の各種処理を実行する場合、記憶装置１６から該当プログラムをＲＡＭ１１３に読み込み、実行するようになっている。
但し、記憶装置１６からではなく、記憶媒体駆動装置１７により外部の記憶媒体から直接ＲＡＭ１１３にプログラムを読み込んで実行することも可能である。また、文書処理装置によっては、本実施形態の自動要約処理プログラム等を予めＲＯＭ１１２に記憶させておき、これをＣＰＵ１１１が実行するようにしてもよい。
さらに、本実施形態の自動要約処理プログラム等の各種プログラムやデータを、通信制御装置１８を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
【００１６】
通信制御装置１８は、他のパーソナルコンピュータやワードプロセッサ等との間でテキスト形式やＨＴＭＬ形式等の各種形式の文書やビットマップデータ等の各種データの送受信を行うことができるようになっている。
入出力Ｉ／Ｆ１９は、音声や音楽等の出力を行うスピーカ等の各種機器を接続するためのインターフェースである。
文字認識装置２０は、用紙等に記載された文字をテキスト形式やＨＴＭＬ等の各種形式で認識する装置であり、イメージスキャナや文字認識プログラム等で構成されている。
【００１７】
本実施形態では、キーボード１２の入力操作により作成した文書（ＲＡＭ１１３の所定格納エリアに格納）の他、外部で作成して所定の記憶媒体に格納した文書で記憶媒体駆動装置１７から読み込んだ文書、予め文書データベースに格納されている文書、通信制御装置１８からダウンロードした文書、及び文字認識装置２０で文字認識した文書、等の各種文書を対象文書として取得する（文書取得手段）ことが可能である。
【００１８】
以上のように構成された本実施形態の文書処理装置による、トピック数に応じた要約を作成する自動要約処理の動作について図３から図１０を用いて説明する。
図３は自動要約処理のメイン動作を表したものであり、図４〜図８は自動要約処理の各工程における処理を概念的に表したものである。この図３のフローチャートの右側に記した（Ａ）〜（Ｉ）は図４から図８の（Ａ）〜（Ｉ）に対応したものである。図４（Ａ）〜図８（Ｉ）中に示した文書ベクトルは、概念的に理解しやすくするために２次元で表示したものであるが、実際にはＮ次元ベクトルである。
ＣＰＵ１１１は、要約を作成する対象となっている要約対象文書Ａ（図４（Ａ））を取得し、ＲＡＭ１１３の要約対象文書格納エリア１１３１に格納する（ステップ１１）。要約対象文書Ａは、ユーザの指示に従ってＲＡＭ１１３（自装置内で作成された文書である場合）、記憶装置１６の文書データベース１６４（要約が未だ作成されていない文書である場合）、記憶媒体駆動装置１７（自装置または他装置で作成済みの文書の場合）、通信制御装置１８（パソコン通信、インターネット等の通信による場合）から取得する。
【００１９】
次にＣＰＵ１１１は、ユーザによってキーボード１２等から要約パラメータが入力された場合には入力値を取得し、ユーザによる入力がない場合にはデータ格納部１６３に格納された要約パラメータのデフォルト値を取得し、要約パラメータ格納エリア１１３２に格納する（ステップ１２）。
【００２０】
次にＣＰＵ１１１は、要約対象文書格納エリア１１３１に格納した要約対象文書Ａに対する文書ベクトルＶ（図４（Ｂ））を求める（ステップ１３）。
図９は、文書ベクトル作成処理の動作を表したフローチャートである。
ＣＰＵ１１１は、形態素解析を行うことで要約対象文書Ａから自立語を抽出する（ステップ１３１）と共に、名詞句、複合名詞句等を含めた候補語（句）を要約対象文書Ａから抽出しＲＡＭ１１３の所定作業領域に格納する（ステップ１３２）。
そして抽出した候補語（句）の要約対象文書Ａでの出現頻度、評価関数から、各候補語（句）の重要度ｆ（ｘ）を決定する（ステップ１３３）。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語（句）の種類による重み付け等が使用される。
さらにＣＰＵ１１１は、決定した重要度ｆ（ｘ）の値から要約対象文書Ａのキーワードａ，ｂ，…を決定する（ステップ１３４）。そして、各キーワードの重要度ｆ（ｘ）を要素として、文書ベクトルＶ＝（ｆ（ａ），ｆ（ｂ），…）をＲＡＭ１１３の文書ベクトル格納エリア１１３４に格納して（ステップ１３５）、図３の自動要約処理ルーチンにリターンする。
【００２１】
文書ベクトルＶが求まるとＣＰＵ１１１は、図５（Ｃ）に示すように要約対象文書Ａを所定数のＰ個のサブ文書Ａ１，Ａ２，…，ＡＰに分割する。
サブ文書の分割方法は任意であり、具体的には、ｒ文字数毎に分割、ｓ行数毎に分割、ｔページ毎に分割、ｕセンテンス毎に分割、全文字数を１／Ｒに分割、全行数を１／Ｓに分割、全ページを１／Ｔに分割、全センテンスを１／Ｕに分割、等の方法がある。また、サブ文書サイズを一定サイズで分割せず、文書中の一部（例えば、文書頭、文書中央、文書末等）を他の部分よりも大きなサイズのサブ文書とすることも可能である。これらの分割方法は、いずれか１の方法が予め規定され、または、ユーザにより要約パラメータの１つとして選択可能にしてもよい。
ＣＰＵ１１１は、分割による切れ目がセンテンスの途中になる場合には、そのセンテンス全体が前のサブ文書に含まれる位置をサブ文書の区切れ位置Ｘとして各サブ文書の区切れ位置Ｘｎ（ｎ＝１〜（Ｐ−１））を求め、区切れ位置格納エリア１１３３に格納する（ステップ１４）。
【００２２】
次にＣＰＵ１１１は、図９に従って説明した文書ベクトル作成処理により、区切れ位置Ｘで区切られた各サブ文書Ａ１〜ＡＰをそれぞれ１つの文書とみなして文書ベクトルｂ１〜ｂＰ（図５（Ｄ））を求める（ステップ１５）。
そして、図６（Ｅ）に示すように、互いに隣接するサブ文書ＡｎとＡｎ＋１（ｎ＝１〜Ｐ−１）との間の類似度ｓｎｎ＋１を、両者の文書ベクトルｂｎと文書ベクトルｂｎ＋１間の角度に依存するコサインにより求める（ステップ１６）。すなわち、両文書ベクトルｂｎとｂｎ＋１間の角度をｑとし、両文書ベクトルの内積をｂｎ・ｂｎ＋１とし、両文書ベクトルの大きさをそれぞれ｜ｂｎ｜、｜ｂｎ＋１｜とした場合、両文書ベクトルの類似度ｓｎｎ＋１は次の数式１により求まる。
【００２３】
【数１】

【００２４】
この類似度ｓの値は−１≦ｓ≦１までの値をとり、１に近いほど２つの文書ベクトルが互いに平行に近く、２つのサブ文書同士は似ていると考えることができる。
【００２５】
次にＣＰＵ１１１は、算出した類似度ｓｎｎ＋１からトピックの変わり目であると予想される区切れＸｎを仮判定する。すなわち、各類似度ｓｎｎ＋１と所定の閾値Ｔ１とを比較し、閾値Ｔ１以下の類似度ｓｎｎ＋に対応する区切りＸｎをトピックの区切れと仮判定する（ステップ１７）。
ここで、ＣＰＵ１１１は、類似度ｓが閾値Ｔ１以下の区切れＸＣが有るか否かを判断し（ステップ１８）、ない場合には（ステップ１８；Ｎ）、文書Ａ全体をサブ文書としてステップ２２に移行する。
一方、類似度ｓが閾値Ｔ１以下の区切れＸｎが有る場合（ステップ１７；Ｙ）、その区切れＸｎまでのサブ文書群（サブ文書Ａ１からＡｎまで）と、区切れ以降のサブ文書群（サブ文書Ａｎ＋１からＡＰまで）の文書ベクトルＢ〜ｎ、Ｂｎ＋１〜を、図６（Ｆ）に示すように、図９に従って説明した文書ベクトル作成処理により求める（ステップ１９）。
なお、類似度ｓから求まる区切れが複数（ｍ個）ある場合には、各区切れ単位の各サブ文書群ｍ＋１個に対して文書ベクトルを作成するが、本実施形態では、説明を簡単にするため区切れは１つであった場合を例に説明する。
【００２６】
次にＣＰＵ１１１は、ステップ１６と同様に、前記した数式１に従って隣接するサブ文書群間の類似度Ｓを算出する（ステップ２０、図７（Ｇ））。
そして、類似度Ｓが所定の閾値Ｔ２よりも大きい場合、ステップ１７で仮判定した区切れＸｎは細かなサブ文書に分割したためにたまたま隣接するサブ文書Ａｎ、Ａｎ＋１の両文書ベクトルｂｎとｂｎ＋ｔとが離れたものと判断できるので、区切れＸｎはトピックの変わり目ではないと判断する。一方、類似度Ｓが所定の閾値Ｔ２以下であれば、サブ文書群（Ａ１〜Ａｎ）とサブ文書群（Ａｎ＋１〜ＡＰ）は異なる内容について記載されており互いに似ていないと判断できるので、区切れＸｎはトピックの変わり目であると最終判定し、ＲＡＭ１１３の区切れ位置格納エリア１１３３に格納する（ステップ２１）。
【００２７】
次にＣＰＵ１１１は、図７（Ｈ）に示すように、異なるトピックを含む各サブ文書群（Ａ１〜Ａｎ、Ａｎ＋１〜ＡＰ）毎にサブ要約を作成する（ステップ２２）。
図１０は、要約作成処理の動作を表したフローチャートである。
ＣＰＵ１１１は、まず形態素解析を行うことでサブ文書群に含まれる自立語を抽出する（ステップ２２１）と共に、名詞句、複合名詞句等を含めた候補語（句）を要約対象文書Ａから抽出しＲＡＭ１１３の所定作業領域に格納する（ステップ２２２）。
そして、ＲＡＭ１６の要約パラメータ格納エリア１１３２に格納した要約パラメータや、抽出した候補語（句）のサブ文書群中での出現頻度、評価関数等から、各候補語（句）重要度ｆ（ｙ）を決定する（ステップ２２３）。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語（句）の種類による重み付け等が使用される。
【００２８】
さらにＣＰＵ１１１は、決定した重要度ｆ（ｙ）や要約パラメータ格納エリアリレーに格納された要約パラメータ等から、サブ文書群含まれる各センテンスに対する重要度Ｆ（ｚ）を決定する（ステップ２２４）。そして、決定したセンテンスの重要度Ｆ（ｚ）の重要度が高いセンテンスの上位から要約パラメータの要約比率（例えば、サブ文書群の全センテンス数の内の上位２５％）以内に入るセンテンスをリストアップする（ステップ２２５）。
そしてＣＰＵ１１１は、リストアップしたセンテンスをサブ文書群の中での出現順に並べることで当該サブ文書群についてのサブ要約とし、これをＲＡＭ１１３の要約格納エリアに格納して（ステップ２２６）、図３の自動要約処理ルーチンにリターンする。
【００２９】
各サブ文書群に対するサブ要約の作成が終了するとＣＰＵ１１１は、図８（Ｉ）に示すように、要約格納エリアに格納した全てのサブ要約を合成することで要約対象文書Ａについての要約とし、要約格納エリア１１３６の所定エリアに格納して（ステップ２３）、本実施形態による自動要約処理を終了する。
以上説明したように、本実施形態による自動要約処理によれば、１文書中に複数のトピックを含むか否かを判定し、各トピック毎のサブ要約を合成して要約を作成しているので、各トピックの内容を的確に把握することが可能な要約を作成することができる。
【００３０】
以上の自動要約処理が終了すると、ＣＰＵ１１１はユーザの指示によりＲＡＭ１１３に格納した各データの保存処理を行う。
すなわち、要約対象文書格納エリア１１３１から要約対象文書Ａを読み出して、記憶装置１６の文書データベース１６４に格納する。また作成した要約を要約格納エリア１１３５から読み出し、文書データベース１６４に格納した要約対象文書Ａとの関連性を付けて記憶装置１６の要約データベース１６５に格納する。さらに、文書ベクトル作成処理（図３のステップ１３、図９）で求めた文書ベクトルＶを文書ベクトル格納エリア１１３５から読み出し、文書データベース１６４に格納した要約対象文書Ａとの関連性を付けて記憶装置１６の文書ベクトルデータベース１６６に格納する。
【００３１】
以上、本実施形態の構成および自動要約処理について説明したが、本発明では、これらの各形態に限定されるものではなく、各請求項に記載された発明の範囲内で種々の変形をすることが可能である。
例えば実施形態では、形態素解析及び候補語（句）の抽出について、文書ベクトル作成処理（図９のステップ１３１とステップ１３２）と、要約作成処理（図１０のステップ２２１とステップ２２２）とにおいて独立して同様な処理を行うこととしたが、本発明では、文書ベクトル作成処理で抽出した候補語（句）をＲＡＭ１６の所定エリアに格納しておき、要約作成処理で利用するようにしてもよい。
【００３２】
また説明した実施形態では、自動要約処理が終了した後の保存処理において、要約対象文書Ａ、要約、文書ベクトルＶのみを記憶装置１６の各データベース１６４、１６５、１６６に格納し保存するようにしたが、本発明では更に、文書ベクトル作成処理（図９）のステップ１３２で要約対象文書Ａから抽出し、ＲＡＭ１１３の所定作業領域に格納した候補語（句）を要約対象文書Ａと関連つけて、文書データベース１６４、又は専用の候補語（句）データベースに格納するようにしてもよい。
また要約パラメータ格納エリア１１３２から要約パラメータを読み出して、当該要約に関連付けて、要約データベース１６６、または専用の要約パラメータデータベースに格納するようにしてもよい。
また、ステップ２０（図３）において最終的にトピックの変わり目であると判定した区切れＸｎを区切れ位置格納エリア１１３３から読み出し、要約対象文書Ａと関連つけて、文書データベース１６４、又は専用のトピック区切れデータベースに格納するようにしてもよい。
【００３３】
さらに、説明した実施形態では、文書ベクトル作成処理（ステップ１３、図９）及び要約作成処理（ステップ２２、図１０）の両処理において、形態素解析（ステップ１３１、２２１）と候補語（句）の抽出（ステップ１３２、２２２）を行った。
しかし、同一センテンスに対する処理であるため、抽出した候補語（句）は同一である。そこで、本発明では、文書ベクトル作成処理で抽出した候補語（句）をＲＡＭ１１３の所定エリアに格納しておき、要約処理において格納した候補語（句）を使用することでステップ２２１とステップ２２２を省略するようにしてもよい。
この候補語（句）についても、要約対象文書Ａに対する候補語（句）として文書データベース１６４、又は専用の候補語（句）データベースに格納するようにしてもよい。
【００３４】
また、説明した実施形態ではトピックの変わり目を判定する閾値Ｔ１、Ｔ２として予め決められた固定値を使用するようにしたが、本発明では閾値の値をユーザが変更することができるようにしてもよい。
また、予想トピック数ｕ（固定値の閾値関数や過去の類似文書における履歴から算出）をパラメータに取り入れた閾値関数Ｔ１（ｕ）、Ｔ２（ｕ）を使用するようにしてもよい。
【００３５】
また説明した実施形態では、要約対象文書ＡをＰ個のサブ文書に分割し、トピックの変わり目と予想される区切れＸｎの仮判定刷を１回だけ行い、句切れがない場合（ステップ１８；Ｎ）にはトピックが複数存在しないと判断して要約対象文書Ａに全体に対する要約を作成する場合について説明した。
しかし、あるサブ文書Ａｎの中央に実際のトピックの変わり目が存在した場合、そのサブ文書の文書ベクトルｂｎが中間的な値となり、隣接サブ文書ｂｎ−１、ｂｎ＋１との間で有為な差が出ない、すなわち、隣接する前後のサブ文書との類似度ｓｎ−１ｎ、ｓｎｎ＋１が閾値Ｔ１以下にならない可能性がある。
そこで、ステップ１８において句切れがないと判断された場合（ステップ１８；Ｎ）、サブ文書に分割するサイズを乱数や、互いに素な数値（例えば、５に対して１０にするのでなく４か６にするとの意味）で少し変化させ、複数回リトライして有為な差が生じたものを採用するようにしてもよい。
【００３６】
説明した実施形態では、要約対象文書Ａに複数のトピックが含まれてるか否かを判定し、その結果を要約の作成処理に適用する場合について説明したが、本発明ではトピックの判定結果を他に適用するようにしてもよい。
例えば、ＷＥＢのSGMLにおいてリンクを張る場合、判定したトピック単位で特定のポインタを指すようにしてもよい。
また、ハイパーリンクの飛び先を判定したトピック単位とし、ファイングレインドで指定するようにしてもよい。
【００３７】
説明した実施形態では文書ベクトルを作成する方法として図９のフローチャートに従った方法を１例にして説明したが、本発明でこの方法に限られるものではなく、要約対象文書中Ａからキーワードを抽出する方法や、抽出キーワードに対する重要度（＝文書ベクトルの要素値）の決定方法等については、公知の各種方法により置き換えることが可能である。
また、各サブ文書群に対する要約の作成処理についても同様に図１０のフローチャートに示した方法に限られるものではなく、公知の各種要約方法、抄録作成方法等を資料することが可能である。
更に、２つの文書ベクトルの類似度の算出方法については、数式１により類似度を算出することとしたが、この数式に限定されるものではなく、ベクトル相互間の類似関係を表すことが可能であれば他の数式により類似度を算出することも可能である。
【００３８】
説明した実施形態は日本語で作成された文書に限られるものではなく、あらゆる言語で作成された文書を対象とすることが可能である。その場合、対象となる文書が作成された言語用の形態素解析アルゴリズム等を使用するといった、本発明の構成には影響のない部分を変更するだけでよい。
【００３９】
以上の実施形態において説明した、各装置、各部、各動作、各処理等に対しては、それらを含む上位概念としての各手段（〜手段）により、実施形態を構成することが可能である。
例えば、「類似度ｓが閾値Ｔ１以下の区切れＸＣが有るか否かを判断し（ステップ１８）」との記載に対して「区切れ有無判断手段」を構成し、「決定した重要度ｆ（ｘ）の値から要約対象文書Ａのキーワードａ，ｂ，…を決定する（ステップ１３４）」との記載に対して「キーワード決定手段」を構成し、「決定したセンテンスの重要度Ｆ（ｚ）の重要度が高いセンテンスの上位から要約パラメータの要約比率（例えば、サブ文書群の全センテンス数の内の上位２５％）以内に入るセンテンスをリストアップする（ステップ２２５）」との記載に対して「センテンスリストアップ手段」を構成するようにしてもよい。
同様に、その他各種動作に対して「〜（動作）手段」等の上位概念で実施形態を構成するようにしてもよい。
例えば、以下のように実施形態を構成するようにしてもよい。
（１）図１１に示すように、複数の文章で構成された所定形式の文書を取得する文書取得手段１０１と、前記文書取得手段１０１で取得された文書を複数のサブ文書に分割する文書分割手段１０２と、前記文書分割手段１０２により分割されたサブ文書間の類似度を算出する類似度算出手段１０３と、前記類似度算出手段１０３で算出されたサブ文書間の類似度から前記文書に複数のトピックが含まれるか否かを判定する判定手段１０４と、を具備する文書処理装置。
（２）図１２に示すように、上記（１）に記載した文書処理装置において、前記文書分割手段１０２で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段１０５を備え、前記類似度算出手段１０３は前記文書ベクトル決定手段１０５で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する文書処理装置。
（３）図１１、図１２に示されるように、上記（１）又は（２）に記載した文書処理装置において、前記判定手段１０４は、前記類似度算出手段１０３で算出されたサブ文書間の類似度からトピックの変わり目を仮判定し、前記類似度算出手段１０３は、前記判定手段１０４で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を更に算出し、前記判定手段１０４は、前記類似度算出手段１０３で算出されたサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する文書処理装置。
（４）図１３に示す１例のように、上記（１）、（２）又は（３）に記載した文書処理装置において、複数の文書で構成される文書の要約を自動的に作成する要約作成手段１０６を有し、前記要約作成手段１０６は前記判定手段１０４により前記文書に複数のトピックが含まれると判定された場合、トピックを構成する単位で要約を作成する文書処理装置。
（５）図１４に示す１例のように、上記（１）から（４）のうちのいずれか１に記載した文書処理装置において、所定のデータと他のデータとの関連付けを行う関連付け手段１０７を有し、前記関連付け手段１０７は前記判定手段１０４により判定されたトピックを構成する単位で他のデータとの関連付けを行う文書処理装置。
（６）図１１から図１４に示す１例のように、上記（１）から（５）のうちのいずれか１に記載した文書処理装置において、前記判定手段により複数のトピックが含まれないと判断された場合、前記分割手段は、異なるサイズのサブ文書に再分割し、前記類似度算出手段は、再分割後のサブ文書間の類似度を再算出し、前記判定手段は、再算出後の類似度から前記文書に複数のトピックが含まれるか否かを再判定する文書処理装置。
（７）図１５に示すように、複数の文章で構成された所定形式の文書を取得する文書取得機能２０１と、前記文書取得機能２０１で取得された文書を複数のサブ文書に分割する文書分割機能２０２と、前記文書分割機能２０２により分割されたサブ文書間の類似度を算出する類似度算出機能２０３と、前記類似度算出機能２０３で算出されたサブ文書間の類似度から前記文書に複数のトピックが含まれるか否かを判定する判定機能２０４と、をコンピュータに実現させるための文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
（８）図１６に示すように、上記（７）に記載した文書処理プログラムにおいて、前記文書分割機能２０２で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能２０５を備え、前記類似度算出機能２０３は前記文書ベクトル決定機能２０５で決定されたサブ文書の文書ベクトルにより隣接する２つのサブ文書間の類似度を算出する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
（９）図１５、図１６に示すように、上記（７）又は（８）に記載した文書処理プログラムにおいて、前記判定機能２０４は、前記類似度算出機能２０３で算出されたサブ文書間の類似度からトピックの変わり目を仮判定し、前記類似度算出機能２０３は、前記判定機能２０４で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を更に算出し、前記判定機能２０４は、前記類似度算出機能２０３で算出されたサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
（１０）図１７に示す１例のように、上記（７）、（８）又は（９）に記載した文書処理プログラムにおいて、複数の文書で構成される文書の要約を自動的に作成する要約作成機能２０６を有し、前記要約作成機能２０６は前記判定機能２０４により前記文書に複数のトピックが含まれると判定された場合、トピックを構成する単位で要約を作成する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
（１１）図１８に示す１例のように、上記（７）から（１０）のうちのいずれか１に記載した文書処理プログラムにおいて、所定のデータと他のデータとの関連付けを行う関連付け機能２０７を有し、前記関連付け機能２０７は前記判定機能２０４により判定されたトピックを構成する単位で他のデータとの関連付けを行う文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
（１２）図１５から図１８に示す１例のように、上記（７）から（１１）のうちのいずれか１に記載した文書処理プログラムにおいて、前記判定機能２０４により複数のトピックが含まれないと判断された場合、前記分割機能２０２は、異なるサイズのサブ文書に再分割し、前記類似度算出機能２０３は、再分割後のサブ文書間の類似度を再算出し、前記判定機能２０４は、再算出後の類似度から前記文書に複数のトピックが含まれるか否かを再判定する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
（１３）図１９に示すように、複数の文章で構成された所定形式の文書を取得３０１し、取得した文書を複数のサブ文書に分割３０２し、分割したサブ文書間の類似度を算出３０３し、算出したサブ文書間の類似度から前記文書に複数のトピックが含まれるか否かを判定３０４する文書処理方法。
（１４）図２０に示すように、上記（１３）に記載した文書処理方法において、隣接するサブ文書間の類似度を、分割したサブ文書を特徴づける文書ベクトルを決定３０３ａし、決定したサブ文書の文書ベクトルにより算出３０３ｂする文書処理方法。
（１５）図２１に示す１例のように、上記（１３）または（１４）に記載した文書処理方法において、文書に複数のトピックが含まれると判定された場合、トピックを構成する単位で要約３０５を作成する文書処理方法。
【００４０】
また第１変形として、図１１に示すように、複数の文章で構成された所定形式の文書を取得する文書取得手段１０１と、前記文書取得手段１０１で取得された文書を複数のサブ文書に分割する文書分割手段１０２と、前記文書分割手段１０２により分割された各サブ文書について、隣接する２つのサブ文書間の類似度を算出する類似度算出手段１０３と、前記類似度算出手段１０３で算出された各サブ文書間の類似度からトピックの変わり目を調べ、前記文書に複数のトピックが含まれるか否かを判定する判定手段１０４と、を文書処理装置に備えさせて前記第１の目的を達成するようにしてもよい。
第２変形として、図１２に示すように、第１変形に記載した文書処理装置において、前記文書分割手段１０２で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段１０５を備え、前記類似度算出手段１０３は前記文書ベクトル決定手段１０５で決定された各サブ文書の文書ベクトルにより隣接する２つのサブ文書間の類似度を算出する。
このように、隣接する２つのサブ文書間での類似度を算出することで、ＣＰＵ１１１による処理量（計算量）を減らすことだでき、また、１文書におけるテキストの連続性（連結性）からもより精度の高い複数トピック検索を行うことができる。
【００４２】
【発明の効果】
本発明によれば、複数の文章で構成された所定形式の文書を取得し、取得した文書を複数のサブ文書に分割し、分割した各サブ文書について、隣接する２つのサブ文書間の類似度を算出し、算出した各サブ文書間の類似度からトピックの変わり目を調べ、文書に複数のトピックが含まれるか否かを判定するようにしたので、自動的に複数のトピックが含まれているか否かを判断することができる。
従って、各トピック毎の要約を作成したり、各トピック毎に他の文書やデータ間での関連付けを行うことができる。
【図面の簡単な説明】
【図１】本発明の１実施形態における文書処理装置の構成を表したブロック図である。
【図２】同上、実施形態における文書ベクトルデータベースの内容を概念的に表した説明図である。
【図３】同上、実施形態における自動要約処理のメイン動作を表したフローチャートである。
【図４】同上、実施形態における図３に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の一部である。
【図５】同上、実施形態における図３に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図６】同上、実施形態における図３に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図７】同上、実施形態における図３に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図８】同上、実施形態における図３に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図９】同上、実施形態における文書ベクトル作成処理の動作を表したフローチャートである。
【図１０】同上、実施形態における要約作成処理の動作を表したフローチャートである。
【図１１】実施形態の構成例を示した図である。
【図１２】実施形態の構成例を示した図である。
【図１３】実施形態の構成例を示した図である。
【図１４】実施形態の構成例を示した図である。
【図１５】実施形態の構成例を示した図である。
【図１６】実施形態の構成例を示した図である。
【図１７】実施形態の構成例を示した図である。
【図１８】実施形態の構成例を示した図である。
【図１９】実施形態の構成例を示した図である。
【図２０】実施形態の構成例を示した図である。
【図２１】実施形態の構成例を示した図である。

Claims

複数の文章で構成された所定形式の文書を取得する文書取得手段と、
前記文書取得手段で取得された文書を複数のサブ文書に分割する文書分割手段と、
前記文書分割手段により分割された隣接する２つのサブ文書間の類似度を算出する第１類似度算出手段と、
前記第１類似度算出手段で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定手段と、
前記仮判定手段で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第２類似度算出手段と、
前記第２類似度算出手段で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定手段と、
を備えたことを特徴とする文書処理装置。
前記文書分割手段で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段を備え、
前記第１類似度算出手段は前記文書ベクトル決定手段で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する
ことを特徴とする請求項１に記載の文書処理装置。
複数の文章で構成される文書の要約を自動的に作成する要約作成手段を有し、
前記要約作成手段は前記判定手段により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する
ことを特徴とする請求項１又は請求項２に記載の文書処理装置。
前記判定手段により複数のトピックが含まれないと判断された場合、
前記文書分割手段は、異なるサイズのサブ文書に再分割し、
前記第１類似度算出手段は、再分割後の隣接サブ文書間の類似度を再算出し、
前記仮判定手段は、再算出後の類似度からトピックの変わり目を仮判定する、
ことを特徴とする請求項１、請求項２又は請求項３に記載した文書処理装置。
複数の文章で構成された所定形式の文書を取得する文書取得機能と、
前記文書取得機能で取得された文書を複数のサブ文書に分割する文書分割機能と、
前記文書分割機能により分割された隣接する２つのサブ文書間の類似度を算出する第１類似度算出機能と、
前記第１類似度算出機能で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定機能と、
前記仮判定機能で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第２類似度算出機能と、
前記第２類似度算出機能で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定機能と、
をコンピュータに実現させるための文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
前記文書分割機能で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能を備え、
前記第１類似度算出機能は前記文書ベクトル決定機能で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する
ことを特徴とする請求項５に記載した文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
複数の文章で構成される文書の要約を自動的に作成する要約作成機能を有し、
前記要約作成機能は前記判定機能により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する
ことを特徴とする請求項５又は請求項６に記載の文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
前記判定機能により複数のトピックが含まれないと判断された場合、
前記文書分割機能は、異なるサイズのサブ文書に再分割し、
前記第１類似度算出機能は、再分割後の隣接サブ文書間の類似度を再算出し、
前記仮判定機能は、再算出後の類似度からトピックの変わり目を仮判定する、
ことを特徴とする請求項５、請求項６又は請求項７に記載した文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
文書取得手段と、文書分割手段と、第１類似度算出手段と、仮判定手段と、第２類似度算出手段と、判定手段とを有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、
前記文書取得手段が、複数の文章で構成された所定形式の文書を取得する第１ステップと、
前記文書分割手段が、前記第１ステップで取得した文書を複数のサブ文書に分割する第２ステップと、
前記第１類似度算出手段が、前記第２ステップにより分割した隣接する２つのサブ文書間の類似度を算出する第３ステップと、
前記仮判定手段が、前記第３ステップで算出されたサブ文書間の類似度からトピックの変わり目を仮判定する第４ステップと、
前記第２類似度算出手段が、前記第４ステップで仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第５ステップと、
前記判定手段が、前記第５ステップで算出したサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する第６ステップと、
を備えることを特徴とする文書処理方法。
文書ベクトル決定手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、
前記文書ベクトル決定手段が、前記第２ステップで分割したサブ文書を特徴づける文書ベクトルを決定する第７ステップを備え、
前記第３ステップは、前記第７ステップで決定したサブ文書の文書ベクトルによりサブ文書間の類似度を算出することを特徴とする請求項９に記載の文書処理方法。
要約作成手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、
前記要約作成手段が、複数の文章で構成される文書の要約を自動的に作成する第８ステップを備え、
前記第８ステップは、前記第６ステップにより前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する
ことを特徴とする請求項９または請求項１０に記載の文書処理方法。