JP4025391B2 - 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法 - Google Patents

文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法 Download PDF

Info

Publication number
JP4025391B2
JP4025391B2 JP21712597A JP21712597A JP4025391B2 JP 4025391 B2 JP4025391 B2 JP 4025391B2 JP 21712597 A JP21712597 A JP 21712597A JP 21712597 A JP21712597 A JP 21712597A JP 4025391 B2 JP4025391 B2 JP 4025391B2
Authority
JP
Japan
Prior art keywords
document
sub
similarity
documents
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21712597A
Other languages
English (en)
Other versions
JPH1145278A (ja
Inventor
直之 野村
信二 藤澤
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP21712597A priority Critical patent/JP4025391B2/ja
Publication of JPH1145278A publication Critical patent/JPH1145278A/ja
Application granted granted Critical
Publication of JP4025391B2 publication Critical patent/JP4025391B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法に係り、詳細には、作成された文書に複数のトピックが含まれるか否かの判定に関する。
【0002】
【従来の技術】
従来、書籍、論文、報告書等の各種の文書に対し、要約(抄録を含む)の自動作成処理や、他文書等との関連づけ処理等の各種処理をコンピュータを用いて行うことが行われている。
文書の自動要約については、例えば、「全文情報からの意味的情報の抽出と加工」(情報処理学会第38回全国大会予稿集、第222頁;1989年)で提案されている。この方法では、まず文書中の重要語を字種や動詞等の情報から抽出し、さらに重要語の出現頻度から最重要語を決定する。次に重要語と最重要語が出現するか否かから重要文を決定することで、自動的に要約を作成することが可能になる。また、文章の段落の性質を反映させることで、より正確に要約を作成する特開平3−191475号公報に記載された方法等も提案されている。
一方、他のデータとの関連づけとしては、インターネットにおけるハイパーリンクや、フレームシステム等による知識処理(エキスパートシステム等)における関連づけ等が行われている。
【0003】
【発明が解決しようとする課題】
しかし、従来の文書処理では、処理対象となっている文書中に複数のトピック(論題)が含まれているか否かを判定することはできず、全体として文書を処理していた。
このため、上記した従来の自動要約の方法の場合、単一のトピックが含まれている文書に対しては比較的適切な要約を作成することが可能であるが、1文書中に複数のトピックを含む文書に対しては必ずしも適切な要約を作成することができなかった。すなわち、互いに異なる主張や事実の記載をもつ複数ユニットの存在を無視して重要文の文選択を行い、互いにつなぎ合わせることで要約を作成していたため、可読性の低い要約を生成していた。
また、複数のトピックを含む文書であっても文書全体に対してしか関連づけることができなかった。
【0004】
本発明は、このような従来の課題を解決するために成されたもので、1文書中に複数のトピックを含むか否か判定することができる文書処理装置を提供することを第1の目的とする。
また、本発明は、1文書中に複数のトピックを含むか否かを判定することができるコンピュータ読取り可能な文書処理プログラムが記憶された記憶媒体を提供することを第2の目的とする。
また、本発明は、1文書中に複数のトピックを含むか否かを判定することができる文書処理方法を提供することを第3の目的とする。
【0005】
【課題を解決するための手段】
請求項1記載の発明では、複数の文章で構成された所定形式の文書を取得する文書取得手段と、前記文書取得手段で取得された文書を複数のサブ文書に分割する文書分割手段と、前記文書分割手段により分割された隣接する2つのサブ文書間の類似度を算出する第1類似度算出手段と、前記第1類似度算出手段で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定手段と、前記仮判定手段で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第2類似度算出手段と、前記第2類似度算出手段で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定手段と、を文書処理装置に備えさせて前記第1の目的を達成する。
請求項2に記載した発明では、請求項1に記載した文書処理装置において、前記文書分割手段で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段を備え、前記第1類似度算出手段は前記文書ベクトル決定手段で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する。
請求項に記載した発明では、請求項1又は請求項2に記載した文書処理装置において、複数の文章で構成される文書の要約を自動的に作成する要約作成手段を有し、前記要約作成手段は前記判定手段により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する。
請求項に記載した発明では、請求項1、請求項2又は請求項3に記載した文書処理装置において、前前記判定手段により複数のトピックが含まれないと判断された場合、前記文書分割手段は、異なるサイズのサブ文書に再分割し、前記第1類似度算出手段は、再分割後の隣接サブ文書間の類似度を再算出し、前記仮判定手段は、再算出後の類似度からトピックの変わり目を仮判定する
請求項に記載した発明では、複数の文章で構成された所定形式の文書を取得する文書取得機能と、前記文書取得機能で取得された文書を複数のサブ文書に分割する文書分割機能と、前記文書分割機能により分割された隣接する2つのサブ文書間の類似度を算出する第1類似度算出機能と、前記第1類似度算出機能で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定機能と、前記仮判定機能で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第2類似度算出機能と、前記第2類似度算出機能で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定機能と、をコンピュータに実現させるための文書処理プログラムをコンピュータ読取り可能な記憶媒体に記憶させて前記第2の目的を達成する。
請求項に記載した発明では、請求項5に記載した記憶媒体において、前記文書分割機能で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能を備え、前記第1類似度算出機能は前記文書ベクトル決定機能で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する。
請求項に記載した発明では、請求項5又は請求項6に記載した記憶媒体において、複数の文章で構成される文書の要約を自動的に作成する要約作成機能を有し、前記要約作成機能は前記判定機能により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する。
請求項に記載した発明では、請求項5、請求項6又は請求項7に記載した記憶媒体において、前記判定機能により複数のトピックが含まれないと判断された場合、前記文書分割機能は、異なるサイズのサブ文書に再分割し、前記第1類似度算出機能は、再分割後の隣接サブ文書間の類似度を再算出し、前記仮判定機能は、再算出後の類似度からトピックの変わり目を仮判定する
請求項に記載した発明では、文書取得手段と、文書分割手段と、第1類似度算出手段と、仮判定手段と、第2類似度算出手段と、判定手段とを有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、前記文書取得手段が、複数の文章で構成された所定形式の文書を取得する第1ステップと、前記文書分割手段が、前記第1 ステップで取得した文書を複数のサブ文書に分割する第2ステップと、前記第1類似度算出手段が、前記第2ステップにより分割した隣接する2つのサブ文書間の類似度を算出する第3ステップと、前記仮判定手段が、前記第3ステップで算出されたサブ文書間の類似度からトピックの変わり目を仮判定する第4ステップと、前記第2類似度算出手段が、前記第4ステップで仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第5ステップと、前記判定手段が、前記第5ステップで算出したサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する第6ステップと、を備える文書処理方法を提供することにより前記第3の目的を達成する。
請求項10に記載した発明では、請求項9に記載した文書処理方法において、文書ベクトル決定手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、前記文書ベクトル決定手段が、前記第2ステップで分割したサブ文書を特徴づける文書ベクトルを決定する第7ステップを備え、前記第3ステップは、前記第7ステップで決定したサブ文書の文書ベクトルによりサブ文書間の類似度を算出する。
請求項11に記載した発明では、請求項9または請求項10に記載した発明において、要約作成手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、前記要約作成手段が、複数の文章で構成される文書の要約を自動的に作成する第8ステップを備え、前記第8ステップは、前記第6ステップにより前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する。
【0006】
【発明の実施の形態】
以下、本発明の文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法における好適な実施の形態について、図1から図10を参照して詳細に説明する。
(1)実施形態の概要
本実施形態では、文書を複数のサブ文書(ユニット)に分割し、各サブ文書毎の文書ベクトルを求め、サブ文書間もしくは、複数のサブ文書のセット間で文書ベクトルの差をとる。これらの連続する2つのサブ文書間のコサインバリュー(cosine value)が著しく低い箇所で再分割を行う。その再分割位置の前mユニット、後nユニットの間の全体的な類似性の判定も行い、それが所定の閾値T2以下になった際にトピックの変わり目と最終判定する。
そして、単一のトピックの領域毎に従来の要約処理を適用することにより、1つの要約でなく、一種の複数の要約の集まりとして文書全体の要約を生成する。なお、各トピック毎の要約結合の際に、各トピックとされた複合名詞句をサマリー中のサブセクションのタイトルとして明示するようにしてもよい。
【0007】
(2)実施形態の詳細
図1は、文書処理装置の構成を表したブロック図である。
本実施形態の文書処理装置は、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムとして構成し、また、LAN(ローカル・エリア・ネットワーク)のサーバやインターネットを含むコンピュータ(パソコン)通信のホストとして構成することが可能である。
文書処理装置は、図1に示すように装置全体を制御するための制御部11を備えている。この制御部11には、データバス等のバスライン21を介して、入力装置としてのキーボード12やマウス13、表示装置14、印刷装置15、記憶装置16、記憶媒体駆動装置17、通信制御装置18、入出力I/F19、および、文字認識装置20が接続されている。
制御部11は、CPU111、ROM112、RAM113を備えている。
ROM112は、CPU111が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
【0008】
RAM113は、CPU111にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM113には、本実施形態による要約処理を行うためのエリアとして、要約対象文書格納エリア1131、要約パラメータ格納エリア1132、区切れ位置格納エリア1133、文書ベクトル格納エリア1134、要約格納エリア1135、その他の各種エリアが確保されるようになっている。
文書ベクトル格納エリア1134には、要約対象文書に対する文書ベクトルと、後述する各サブ文書に対する文書ベクトルとが格納される。
要約格納エリア1135には、本実施形態により発見された各トピックを含む各サブ文書群に対するサブ要約と、要約対象文書全体に対する要約とが格納される。
【0009】
キーボード12は、かな文字を入力するためのかなキーやテンキー、各種機能を実行するための機能キー、カーソルキー、等の各種キーが配置されている。
マウス13は、ポインティングデバイスであり、表示装置14に表示されたキーやアイコン等を左クリックすることで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が使用される。この表示装置には、要約対象文書の内容や、本実施形態により自動生成された要約の内容等が表示されるようになっている。
印刷装置15は、表示装置14に表示された文章や、記憶装置16の文書格納部164に格納された文書等の印刷を行うためのものである。この印刷装置としては、レーザプリンタ、ドットプリンタ、インクジェットプリンタ、ページプリンタ、感熱式プリンタ、熱転写式プリンタ、等の各種印刷装置が使用される。
【0010】
記憶装置16は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。この記憶装置16に使用される記憶媒体としては、主としてハードディスクが使用されるが、後述の17で使用される各種記憶媒体のうちの読み書き可能な記憶媒体を使用するようにしてもよい。
記憶装置16は、仮名漢字変換辞書161、プログラム格納部162、データ格納部163、文書データベース164、要約データベース165、文書ベクトルデータベース166、図示しないその他の格納部(例えば、この記憶装置16内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。
プログラム格納部162には、本実施形態における自動要約処理プログラム、文書ベクトル作成処理プログラム、要約作成処理プログラム等の各種プログラムの他、仮名漢字変換辞書161を使用して入力された仮名文字列を漢字混り文に変換する仮名漢字変換プログラム等の各種プログラムが格納されている。
データ格納部163には、要約パラメータのデフォルト値等の各種データが格納されている。要約パラメータのデフォルト値としては、例えば、全文書に対する要約の比率=「25%」や、日付時刻、価格情報、物理量(サイズ、重量、温度等)等の数量重視=「しない」や、URL(Uniform Resource Locator)重視=「しない」、長単文の重視=「しない」や、です/ます/であるの選択=「しない」、等の値が格納されている。
【0011】
文書データベース164には、仮名漢字変換プログラムにより作成された文書や、他の装置で作成されて記憶媒体駆動装置17や通信制御装置18から読み込まれた文書が格納される。この文書データベース164に格納される各文書の形式は特に限定されるものではなく、テキスト形式の文書、HTML(Hyper Text Markup Language)形式の文書、JIS形式の文書等の各種形式の文書の格納が可能である。文書データベース164には、これらの形式の文書データの他、本実施形態により発見されたトピックの変わり目となる区切れ位置Xのデータ等も格納される。
要約データベース165、及び文書ベクトルデータベース166には、文書データベース164に格納されている各文書に対応する要約や文書ベクトルが格納されるようになっている。
【0012】
図2は、文書ベクトルデータベース166の内容を概念的に表したものである。
この図2に示されるように、文書中から自動抽出されたキーワードxに対して求められた重要度f(x)が文書ベクトルの要素値f(x)として格納されている。この文書ベクトルは各文書(A、B、C…)毎に格納され、文書データベース164に格納されている各文書と対応づけられている。
各文書ベクトルの次元は採用するキーワードx(重要語句)の数であるが、2文書間の類似度を両文書ベクトルから求める場合には、両文書のキーワードの和集合の数が両文書ベクトルの次元となる。この場合、一方の文書ベクトルにのみ含まれるキーワードに対する他方の文書ベクトルの要素値は、”0”に定義される。
【0013】
例えば図2おいて、文書Bのキーワードは「重要、重要語、重要度、…」、文書Cのキーワードは「重要、…、政治、…」であり、両文書の文書ベクトルは次の通りである。
文書Bの文書ベクトル=( 1,18,19,…)
文書Cの文書ベクトル=(18,…,21,…)
これに対して文書Bと文書Cとの類似度を算出する場合には、両文書のキーワードを「重要、重要語、重要度、…、政治、…」とし、両文書の文書ベクトルはつぎの通り定義される。
文書Aの文書ベクトル=( 1,18,19,…, 0,…)、
文書Cの文書ベクトル=(18, 0, 0,…,21,…)
【0014】
記憶媒体駆動装置17は、CPU111が外部の記憶媒体からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。記憶媒体に記憶されているコンピュータプログラム等には、本実施形態の文書処理装置により実行される各種処理のためのプログラム、および、そこで使用される辞書、データ等も含まれる。
ここで、記憶媒体とは、コンピュータプログラムやデータ等が記憶される記憶媒体をいい、具体的には、フロッピーディスク、ハードディスク、磁気テープ等の磁気記憶媒体、メモリチップやICカード等の半導体記憶媒体、CD−ROMやMO、PD(相変化書換型光ディスク)等の光学的に情報が読み取られる記憶媒体、紙カードや紙テープ等の用紙(および、用紙に相当する機能を持った媒体)を用いた記憶媒体、その他各種方法でコンピュータプログラム等が記憶される記憶媒体が含まれる。本実施形態の文書処理装置において使用される記憶媒体としては、主として、CD−ROMやフロッピーディスク等の記憶媒体がが使用される。
記憶媒体駆動装置17は、これらの各種記憶媒体からコンピュータプログラムを読み込む他に、フロッピーディスクのような書き込み可能な記憶媒体に対してRAM113や記憶装置16に格納されているデータ等を書き込むことが可能である。
【0015】
本実施形態の文書処理装置では、制御部11のCPU111が、記憶媒体駆動装置17にセットされた外部の記憶媒体からコンピュータプログラムを読み込んで、記憶装置16の各部に格納(インストール)する。そして、本実施形態による自動要約処理等の各種処理を実行する場合、記憶装置16から該当プログラムをRAM113に読み込み、実行するようになっている。
但し、記憶装置16からではなく、記憶媒体駆動装置17により外部の記憶媒体から直接RAM113にプログラムを読み込んで実行することも可能である。また、文書処理装置によっては、本実施形態の自動要約処理プログラム等を予めROM112に記憶させておき、これをCPU111が実行するようにしてもよい。
さらに、本実施形態の自動要約処理プログラム等の各種プログラムやデータを、通信制御装置18を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
【0016】
通信制御装置18は、他のパーソナルコンピュータやワードプロセッサ等との間でテキスト形式やHTML形式等の各種形式の文書やビットマップデータ等の各種データの送受信を行うことができるようになっている。
入出力I/F19は、音声や音楽等の出力を行うスピーカ等の各種機器を接続するためのインターフェースである。
文字認識装置20は、用紙等に記載された文字をテキスト形式やHTML等の各種形式で認識する装置であり、イメージスキャナや文字認識プログラム等で構成されている。
【0017】
本実施形態では、キーボード12の入力操作により作成した文書(RAM113の所定格納エリアに格納)の他、外部で作成して所定の記憶媒体に格納した文書で記憶媒体駆動装置17から読み込んだ文書、予め文書データベースに格納されている文書、通信制御装置18からダウンロードした文書、及び文字認識装置20で文字認識した文書、等の各種文書を対象文書として取得する(文書取得手段)ことが可能である。
【0018】
以上のように構成された本実施形態の文書処理装置による、トピック数に応じた要約を作成する自動要約処理の動作について図3から図10を用いて説明する。
図3は自動要約処理のメイン動作を表したものであり、図4〜図8は自動要約処理の各工程における処理を概念的に表したものである。この図3のフローチャートの右側に記した(A)〜(I)は図4から図8の(A)〜(I)に対応したものである。図4(A)〜図8(I)中に示した文書ベクトルは、概念的に理解しやすくするために2次元で表示したものであるが、実際にはN次元ベクトルである。
CPU111は、要約を作成する対象となっている要約対象文書A(図4(A))を取得し、RAM113の要約対象文書格納エリア1131に格納する(ステップ11)。要約対象文書Aは、ユーザの指示に従ってRAM113(自装置内で作成された文書である場合)、記憶装置16の文書データベース164(要約が未だ作成されていない文書である場合)、記憶媒体駆動装置17(自装置または他装置で作成済みの文書の場合)、通信制御装置18(パソコン通信、インターネット等の通信による場合)から取得する。
【0019】
次にCPU111は、ユーザによってキーボード12等から要約パラメータが入力された場合には入力値を取得し、ユーザによる入力がない場合にはデータ格納部163に格納された要約パラメータのデフォルト値を取得し、要約パラメータ格納エリア1132に格納する(ステップ12)。
【0020】
次にCPU111は、要約対象文書格納エリア1131に格納した要約対象文書Aに対する文書ベクトルV(図4(B))を求める(ステップ13)。
図9は、文書ベクトル作成処理の動作を表したフローチャートである。
CPU111は、形態素解析を行うことで要約対象文書Aから自立語を抽出する(ステップ131)と共に、名詞句、複合名詞句等を含めた候補語(句)を要約対象文書Aから抽出しRAM113の所定作業領域に格納する(ステップ132)。
そして抽出した候補語(句)の要約対象文書Aでの出現頻度、評価関数から、各候補語(句)の重要度f(x)を決定する(ステップ133)。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語(句)の種類による重み付け等が使用される。
さらにCPU111は、決定した重要度f(x)の値から要約対象文書Aのキーワードa,b,…を決定する(ステップ134)。そして、各キーワードの重要度f(x)を要素として、文書ベクトルV=(f(a),f(b),…)をRAM113の文書ベクトル格納エリア1134に格納して(ステップ135)、図3の自動要約処理ルーチンにリターンする。
【0021】
文書ベクトルVが求まるとCPU111は、図5(C)に示すように要約対象文書Aを所定数のP個のサブ文書A1,A2,…,APに分割する。
サブ文書の分割方法は任意であり、具体的には、r文字数毎に分割、s行数毎に分割、tページ毎に分割、uセンテンス毎に分割、全文字数を1/Rに分割、全行数を1/Sに分割、全ページを1/Tに分割、全センテンスを1/Uに分割、等の方法がある。また、サブ文書サイズを一定サイズで分割せず、文書中の一部(例えば、文書頭、文書中央、文書末等)を他の部分よりも大きなサイズのサブ文書とすることも可能である。これらの分割方法は、いずれか1の方法が予め規定され、または、ユーザにより要約パラメータの1つとして選択可能にしてもよい。
CPU111は、分割による切れ目がセンテンスの途中になる場合には、そのセンテンス全体が前のサブ文書に含まれる位置をサブ文書の区切れ位置Xとして各サブ文書の区切れ位置Xn(n=1〜(P−1))を求め、区切れ位置格納エリア1133に格納する(ステップ14)。
【0022】
次にCPU111は、図9に従って説明した文書ベクトル作成処理により、区切れ位置Xで区切られた各サブ文書A1〜APをそれぞれ1つの文書とみなして文書ベクトルb1〜bP(図5(D))を求める(ステップ15)。
そして、図6(E)に示すように、互いに隣接するサブ文書AnとAn+1(n=1〜P−1)との間の類似度snn+1を、両者の文書ベクトルbnと文書ベクトルbn+1間の角度に依存するコサインにより求める(ステップ16)。すなわち、両文書ベクトルbnとbn+1間の角度をqとし、両文書ベクトルの内積をbn・bn+1とし、両文書ベクトルの大きさをそれぞれ|bn|、|bn+1|とした場合、両文書ベクトルの類似度snn+1は次の数式1により求まる。
【0023】
【数1】
Figure 0004025391
【0024】
この類似度sの値は−1≦s≦1までの値をとり、1に近いほど2つの文書ベクトルが互いに平行に近く、2つのサブ文書同士は似ていると考えることができる。
【0025】
次にCPU111は、算出した類似度snn+1からトピックの変わり目であると予想される区切れXnを仮判定する。すなわち、各類似度snn+1と所定の閾値T1とを比較し、閾値T1以下の類似度snn+ に対応する区切りXnをトピックの区切れと仮判定する(ステップ17)。
ここで、CPU111は、類似度sが閾値T1以下の区切れXCが有るか否かを判断し(ステップ18)、ない場合には(ステップ18;N)、文書A全体をサブ文書としてステップ22に移行する。
一方、類似度sが閾値T1以下の区切れXnが有る場合(ステップ17;Y)、その区切れXnまでのサブ文書群(サブ文書A1からAnまで)と、区切れ以降のサブ文書群(サブ文書An+1からAPまで)の文書ベクトルB〜n、Bn+1〜を、図6(F)に示すように、図9に従って説明した文書ベクトル作成処理により求める(ステップ19)。
なお、類似度sから求まる区切れが複数(m個)ある場合には、各区切れ単位の各サブ文書群m+1個に対して文書ベクトルを作成するが、本実施形態では、説明を簡単にするため区切れは1つであった場合を例に説明する。
【0026】
次にCPU111は、ステップ16と同様に、前記した数式1に従って隣接するサブ文書群間の類似度Sを算出する(ステップ20、図7(G))。
そして、類似度Sが所定の閾値T2よりも大きい場合、ステップ17で仮判定した区切れXnは細かなサブ文書に分割したためにたまたま隣接するサブ文書An、An+1の両文書ベクトルbnとbn+tとが離れたものと判断できるので、区切れXnはトピックの変わり目ではないと判断する。一方、類似度Sが所定の閾値T2以下であれば、サブ文書群(A1〜An)とサブ文書群(An+1〜AP)は異なる内容について記載されており互いに似ていないと判断できるので、区切れXnはトピックの変わり目であると最終判定し、RAM113の区切れ位置格納エリア1133に格納する(ステップ21)。
【0027】
次にCPU111は、図7(H)に示すように、異なるトピックを含む各サブ文書群(A1〜An、An+1〜AP)毎にサブ要約を作成する(ステップ22)。
図10は、要約作成処理の動作を表したフローチャートである。
CPU111は、まず形態素解析を行うことでサブ文書群に含まれる自立語を抽出する(ステップ221)と共に、名詞句、複合名詞句等を含めた候補語(句)を要約対象文書Aから抽出しRAM113の所定作業領域に格納する(ステップ222)。
そして、RAM16の要約パラメータ格納エリア1132に格納した要約パラメータや、抽出した候補語(句)のサブ文書群中での出現頻度、評価関数等から、各候補語(句)重要度f(y)を決定する(ステップ223)。ここで、評価関数としては、例えば、所定の重要語が予め指定されている場合にはその重要語に対する重み付け、単語、名詞句、複合名詞句等の候補語(句)の種類による重み付け等が使用される。
【0028】
さらにCPU111は、決定した重要度f(y)や要約パラメータ格納エリアリレーに格納された要約パラメータ等から、サブ文書群含まれる各センテンスに対する重要度F(z)を決定する(ステップ224)。そして、決定したセンテンスの重要度F(z)の重要度が高いセンテンスの上位から要約パラメータの要約比率(例えば、サブ文書群の全センテンス数の内の上位25%)以内に入るセンテンスをリストアップする(ステップ225)。
そしてCPU111は、リストアップしたセンテンスをサブ文書群の中での出現順に並べることで当該サブ文書群についてのサブ要約とし、これをRAM113の要約格納エリアに格納して(ステップ226)、図3の自動要約処理ルーチンにリターンする。
【0029】
各サブ文書群に対するサブ要約の作成が終了するとCPU111は、図8(I)に示すように、要約格納エリアに格納した全てのサブ要約を合成することで要約対象文書Aについての要約とし、要約格納エリア1136の所定エリアに格納して(ステップ23)、本実施形態による自動要約処理を終了する。
以上説明したように、本実施形態による自動要約処理によれば、1文書中に複数のトピックを含むか否かを判定し、各トピック毎のサブ要約を合成して要約を作成しているので、各トピックの内容を的確に把握することが可能な要約を作成することができる。
【0030】
以上の自動要約処理が終了すると、CPU111はユーザの指示によりRAM113に格納した各データの保存処理を行う。
すなわち、要約対象文書格納エリア1131から要約対象文書Aを読み出して、記憶装置16の文書データベース164に格納する。また作成した要約を要約格納エリア1135から読み出し、文書データベース164に格納した要約対象文書Aとの関連性を付けて記憶装置16の要約データベース165に格納する。さらに、文書ベクトル作成処理(図3のステップ13、図9)で求めた文書ベクトルVを文書ベクトル格納エリア1135から読み出し、文書データベース164に格納した要約対象文書Aとの関連性を付けて記憶装置16の文書ベクトルデータベース166に格納する。
【0031】
以上、本実施形態の構成および自動要約処理について説明したが、本発明では、これらの各形態に限定されるものではなく、各請求項に記載された発明の範囲内で種々の変形をすることが可能である。
例えば実施形態では、形態素解析及び候補語(句)の抽出について、文書ベクトル作成処理(図9のステップ131とステップ132)と、要約作成処理(図10のステップ221とステップ222)とにおいて独立して同様な処理を行うこととしたが、本発明では、文書ベクトル作成処理で抽出した候補語(句)をRAM16の所定エリアに格納しておき、要約作成処理で利用するようにしてもよい。
【0032】
また説明した実施形態では、自動要約処理が終了した後の保存処理において、要約対象文書A、要約、文書ベクトルVのみを記憶装置16の各データベース164、165、166に格納し保存するようにしたが、本発明では更に、文書ベクトル作成処理(図9)のステップ132で要約対象文書Aから抽出し、RAM113の所定作業領域に格納した候補語(句)を要約対象文書Aと関連つけて、文書データベース164、又は専用の候補語(句)データベースに格納するようにしてもよい。
また要約パラメータ格納エリア1132から要約パラメータを読み出して、当該要約に関連付けて、要約データベース166、または専用の要約パラメータデータベースに格納するようにしてもよい。
また、ステップ20(図3)において最終的にトピックの変わり目であると判定した区切れXnを区切れ位置格納エリア1133から読み出し、要約対象文書Aと関連つけて、文書データベース164、又は専用のトピック区切れデータベースに格納するようにしてもよい。
【0033】
さらに、説明した実施形態では、文書ベクトル作成処理(ステップ13、図9)及び要約作成処理(ステップ22、図10)の両処理において、形態素解析(ステップ131、221)と候補語(句)の抽出(ステップ132、222)を行った。
しかし、同一センテンスに対する処理であるため、抽出した候補語(句)は同一である。そこで、本発明では、文書ベクトル作成処理で抽出した候補語(句)をRAM113の所定エリアに格納しておき、要約処理において格納した候補語(句)を使用することでステップ221とステップ222を省略するようにしてもよい。
この候補語(句)についても、要約対象文書Aに対する候補語(句)として文書データベース164、又は専用の候補語(句)データベースに格納するようにしてもよい。
【0034】
また、説明した実施形態ではトピックの変わり目を判定する閾値T1、T2として予め決められた固定値を使用するようにしたが、本発明では閾値の値をユーザが変更することができるようにしてもよい。
また、予想トピック数u(固定値の閾値関数や過去の類似文書における履歴から算出)をパラメータに取り入れた閾値関数T1(u)、T2(u)を使用するようにしてもよい。
【0035】
また説明した実施形態では、要約対象文書AをP個のサブ文書に分割し、トピックの変わり目と予想される区切れXnの仮判定刷を1回だけ行い、句切れがない場合(ステップ18;N)にはトピックが複数存在しないと判断して要約対象文書Aに全体に対する要約を作成する場合について説明した。
しかし、あるサブ文書Anの中央に実際のトピックの変わり目が存在した場合、そのサブ文書の文書ベクトルbnが中間的な値となり、隣接サブ文書bn−1、bn+1との間で有為な差が出ない、すなわち、隣接する前後のサブ文書との類似度sn−1n、snn+1が閾値T1以下にならない可能性がある。
そこで、ステップ18において句切れがないと判断された場合(ステップ18;N)、サブ文書に分割するサイズを乱数や、互いに素な数値(例えば、5に対して10にするのでなく4か6にするとの意味)で少し変化させ、複数回リトライして有為な差が生じたものを採用するようにしてもよい。
【0036】
説明した実施形態では、要約対象文書Aに複数のトピックが含まれてるか否かを判定し、その結果を要約の作成処理に適用する場合について説明したが、本発明ではトピックの判定結果を他に適用するようにしてもよい。
例えば、WEBのSGMLにおいてリンクを張る場合、判定したトピック単位で特定のポインタを指すようにしてもよい。
また、ハイパーリンクの飛び先を判定したトピック単位とし、ファイングレインドで指定するようにしてもよい。
【0037】
説明した実施形態では文書ベクトルを作成する方法として図9のフローチャートに従った方法を1例にして説明したが、本発明でこの方法に限られるものではなく、要約対象文書中Aからキーワードを抽出する方法や、抽出キーワードに対する重要度(=文書ベクトルの要素値)の決定方法等については、公知の各種方法により置き換えることが可能である。
また、各サブ文書群に対する要約の作成処理についても同様に図10のフローチャートに示した方法に限られるものではなく、公知の各種要約方法、抄録作成方法等を資料することが可能である。
更に、2つの文書ベクトルの類似度の算出方法については、数式1により類似度を算出することとしたが、この数式に限定されるものではなく、ベクトル相互間の類似関係を表すことが可能であれば他の数式により類似度を算出することも可能である。
【0038】
説明した実施形態は日本語で作成された文書に限られるものではなく、あらゆる言語で作成された文書を対象とすることが可能である。その場合、対象となる文書が作成された言語用の形態素解析アルゴリズム等を使用するといった、本発明の構成には影響のない部分を変更するだけでよい。
【0039】
以上の実施形態において説明した、各装置、各部、各動作、各処理等に対しては、それらを含む上位概念としての各手段(〜手段)により、実施形態を構成することが可能である。
例えば、「類似度sが閾値T1以下の区切れXCが有るか否かを判断し(ステップ18)」との記載に対して「区切れ有無判断手段」を構成し、「決定した重要度f(x)の値から要約対象文書Aのキーワードa,b,…を決定する(ステップ134)」との記載に対して「キーワード決定手段」を構成し、「決定したセンテンスの重要度F(z)の重要度が高いセンテンスの上位から要約パラメータの要約比率(例えば、サブ文書群の全センテンス数の内の上位25%)以内に入るセンテンスをリストアップする(ステップ225)」との記載に対して「センテンスリストアップ手段」を構成するようにしてもよい。
同様に、その他各種動作に対して「〜(動作)手段」等の上位概念で実施形態を構成するようにしてもよい。
例えば、以下のように実施形態を構成するようにしてもよい。
(1)図11に示すように、複数の文章で構成された所定形式の文書を取得する文書取得手段101と、前記文書取得手段101で取得された文書を複数のサブ文書に分割する文書分割手段102と、前記文書分割手段102により分割されたサブ文書間の類似度を算出する類似度算出手段103と、前記類似度算出手段103で算出されたサブ文書間の類似度から前記文書に複数のトピックが含まれるか否かを判定する判定手段104と、を具備する文書処理装置。
(2)図12に示すように、上記(1)に記載した文書処理装置において、前記文書分割手段102で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段105を備え、前記類似度算出手段103は前記文書ベクトル決定手段105で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する文書処理装置。
(3)図11、図12に示されるように、上記(1)又は(2)に記載した文書処理装置において、前記判定手段104は、前記類似度算出手段103で算出されたサブ文書間の類似度からトピックの変わり目を仮判定し、前記類似度算出手段103は、前記判定手段104で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を更に算出し、前記判定手段104は、前記類似度算出手段103で算出されたサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する文書処理装置。
(4)図13に示す1例のように、上記(1)、(2)又は(3)に記載した文書処理装置において、複数の文書で構成される文書の要約を自動的に作成する要約作成手段106を有し、前記要約作成手段106は前記判定手段104により前記文書に複数のトピックが含まれると判定された場合、トピックを構成する単位で要約を作成する文書処理装置。
(5)図14に示す1例のように、上記(1)から(4)のうちのいずれか1に記載した文書処理装置において、所定のデータと他のデータとの関連付けを行う関連付け手段107を有し、前記関連付け手段107は前記判定手段104により判定されたトピックを構成する単位で他のデータとの関連付けを行う文書処理装置。
(6)図11から図14に示す1例のように、上記(1)から(5)のうちのいずれか1に記載した文書処理装置において、前記判定手段により複数のトピックが含まれないと判断された場合、前記分割手段は、異なるサイズのサブ文書に再分割し、前記類似度算出手段は、再分割後のサブ文書間の類似度を再算出し、前記判定手段は、再算出後の類似度から前記文書に複数のトピックが含まれるか否かを再判定する文書処理装置。
(7)図15に示すように、複数の文章で構成された所定形式の文書を取得する文書取得機能201と、前記文書取得機能201で取得された文書を複数のサブ文書に分割する文書分割機能202と、前記文書分割機能202により分割されたサブ文書間の類似度を算出する類似度算出機能203と、前記類似度算出機能203で算出されたサブ文書間の類似度から前記文書に複数のトピックが含まれるか否かを判定する判定機能204と、をコンピュータに実現させるための文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
(8)図16に示すように、上記(7)に記載した文書処理プログラムにおいて、前記文書分割機能202で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能205を備え、前記類似度算出機能203は前記文書ベクトル決定機能205で決定されたサブ文書の文書ベクトルにより隣接する2つのサブ文書間の類似度を算出する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
(9)図15、図16に示すように、上記(7)又は(8)に記載した文書処理プログラムにおいて、前記判定機能204は、前記類似度算出機能203で算出されたサブ文書間の類似度からトピックの変わり目を仮判定し、前記類似度算出機能203は、前記判定機能204で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を更に算出し、前記判定機能204は、前記類似度算出機能203で算出されたサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
(10)図17に示す1例のように、上記(7)、(8)又は(9)に記載した文書処理プログラムにおいて、複数の文書で構成される文書の要約を自動的に作成する要約作成機能206を有し、前記要約作成機能206は前記判定機能204により前記文書に複数のトピックが含まれると判定された場合、トピックを構成する単位で要約を作成する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
(11)図18に示す1例のように、上記(7)から(10)のうちのいずれか1に記載した文書処理プログラムにおいて、所定のデータと他のデータとの関連付けを行う関連付け機能207を有し、前記関連付け機能207は前記判定機能204により判定されたトピックを構成する単位で他のデータとの関連付けを行う文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
(12)図15から図18に示す1例のように、上記(7)から(11)のうちのいずれか1に記載した文書処理プログラムにおいて、前記判定機能204により複数のトピックが含まれないと判断された場合、前記分割機能202は、異なるサイズのサブ文書に再分割し、前記類似度算出機能203は、再分割後のサブ文書間の類似度を再算出し、前記判定機能204は、再算出後の類似度から前記文書に複数のトピックが含まれるか否かを再判定する文書処理プログラムを記憶したコンピュータ読取り可能な記憶媒体。
(13)図19に示すように、複数の文章で構成された所定形式の文書を取得301し、取得した文書を複数のサブ文書に分割302し、分割したサブ文書間の類似度を算出303し、算出したサブ文書間の類似度から前記文書に複数のトピックが含まれるか否かを判定304する文書処理方法。
(14)図20に示すように、上記(13)に記載した文書処理方法において、隣接するサブ文書間の類似度を、分割したサブ文書を特徴づける文書ベクトルを決定303aし、決定したサブ文書の文書ベクトルにより算出303bする文書処理方法。
(15)図21に示す1例のように、上記(13)または(14)に記載した文書処理方法において、文書に複数のトピックが含まれると判定された場合、トピックを構成する単位で要約305を作成する文書処理方法。
【0040】
また第1変形として、図11に示すように、複数の文章で構成された所定形式の文書を取得する文書取得手段101と、前記文書取得手段101で取得された文書を複数のサブ文書に分割する文書分割手段102と、前記文書分割手段102により分割された各サブ文書について、隣接する2つのサブ文書間の類似度を算出する類似度算出手段103と、前記類似度算出手段103で算出された各サブ文書間の類似度からトピックの変わり目を調べ、前記文書に複数のトピックが含まれるか否かを判定する判定手段104と、を文書処理装置に備えさせて前記第1の目的を達成するようにしてもよい。
第2変形として、図12に示すように、第1変形に記載した文書処理装置において、前記文書分割手段102で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段105を備え、前記類似度算出手段103は前記文書ベクトル決定手段105で決定された各サブ文書の文書ベクトルにより隣接する2つのサブ文書間の類似度を算出する。
このように、隣接する2つのサブ文書間での類似度を算出することで、CPU111による処理量(計算量)を減らすことだでき、また、1文書におけるテキストの連続性(連結性)からもより精度の高い複数トピック検索を行うことができる。
【0042】
【発明の効果】
本発明によれば、複数の文章で構成された所定形式の文書を取得し、取得した文書を複数のサブ文書に分割し、分割した各サブ文書について、隣接する2つのサブ文書間の類似度を算出し、算出した各サブ文書間の類似度からトピックの変わり目を調べ、文書に複数のトピックが含まれるか否かを判定するようにしたので、自動的に複数のトピックが含まれているか否かを判断することができる。
従って、各トピック毎の要約を作成したり、各トピック毎に他の文書やデータ間での関連付けを行うことができる。
【図面の簡単な説明】
【図1】 本発明の1実施形態における文書処理装置の構成を表したブロック図である。
【図2】 同上、実施形態における文書ベクトルデータベースの内容を概念的に表した説明図である。
【図3】 同上、実施形態における自動要約処理のメイン動作を表したフローチャートである。
【図4】 同上、実施形態における図3に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の一部である。
【図5】 同上、実施形態における図3に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図6】 同上、実施形態における図3に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図7】 同上、実施形態における図3に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図8】 同上、実施形態における図3に示した自動要約処理の各工程に対応する処理を概念的に表した説明図の他の一部である。
【図9】 同上、実施形態における文書ベクトル作成処理の動作を表したフローチャートである。
【図10】 同上、実施形態における要約作成処理の動作を表したフローチャートである。
【図11】 実施形態の構成例を示した図である。
【図12】 実施形態の構成例を示した図である。
【図13】 実施形態の構成例を示した図である。
【図14】 実施形態の構成例を示した図である。
【図15】 実施形態の構成例を示した図である。
【図16】 実施形態の構成例を示した図である。
【図17】 実施形態の構成例を示した図である。
【図18】 実施形態の構成例を示した図である。
【図19】 実施形態の構成例を示した図である。
【図20】 実施形態の構成例を示した図である。
【図21】 実施形態の構成例を示した図である。

Claims (11)

  1. 複数の文章で構成された所定形式の文書を取得する文書取得手段と、
    前記文書取得手段で取得された文書を複数のサブ文書に分割する文書分割手段と、
    前記文書分割手段により分割された隣接する2つのサブ文書間の類似度を算出する第1類似度算出手段と、
    前記第1類似度算出手段で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定手段と、
    前記仮判定手段で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第2類似度算出手段と、
    前記第2類似度算出手段で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定手段と、
    を備えたことを特徴とする文書処理装置。
  2. 前記文書分割手段で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定手段を備え、
    前記第1類似度算出手段は前記文書ベクトル決定手段で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 複数の文章で構成される文書の要約を自動的に作成する要約作成手段を有し、
    前記要約作成手段は前記判定手段により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する
    ことを特徴とする請求項1又は請求項2に記載の文書処理装置。
  4. 前記判定手段により複数のトピックが含まれないと判断された場合、
    前記文書分割手段は、異なるサイズのサブ文書に再分割し、
    前記第1類似度算出手段は、再分割後の隣接サブ文書間の類似度を再算出し、
    前記仮判定手段は、再算出後の類似度からトピックの変わり目を仮判定する
    ことを特徴とする請求項1、請求項2又は請求項3に記載した文書処理装置。
  5. 複数の文章で構成された所定形式の文書を取得する文書取得機能と、
    前記文書取得機能で取得された文書を複数のサブ文書に分割する文書分割機能と、
    前記文書分割機能により分割された隣接する2つのサブ文書間の類似度を算出する第1類似度算出機能と、
    前記第1類似度算出機能で算出されたサブ文書間の類似度からトピックの変わり目を仮判定する仮判定機能と、
    前記仮判定機能で仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第2類似度算出機能と、
    前記第2類似度算出機能で算出されたサブ文書群間の類似度から、前記文書に複数のトピックが含まれるか否かを判定する判定機能と、
    をコンピュータに実現させるための文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
  6. 前記文書分割機能で分割されたサブ文書を特徴づける文書ベクトルを決定する文書ベクトル決定機能を備え、
    前記第1類似度算出機能は前記文書ベクトル決定機能で決定されたサブ文書の文書ベクトルによりサブ文書間の類似度を算出する
    ことを特徴とする請求項5に記載した文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
  7. 複数の文章で構成される文書の要約を自動的に作成する要約作成機能を有し、
    前記要約作成機能は前記判定機能により前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する
    ことを特徴とする請求項5又は請求項6に記載の文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
  8. 前記判定機能により複数のトピックが含まれないと判断された場合、
    前記文書分割機能は、異なるサイズのサブ文書に再分割し、
    前記第1類似度算出機能は、再分割後の隣接サブ文書間の類似度を再算出し、
    前記仮判定機能は、再算出後の類似度からトピックの変わり目を仮判定する
    ことを特徴とする請求項5、請求項6又は請求項7に記載した文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体。
  9. 文書取得手段と、文書分割手段と、第1類似度算出手段と、仮判定手段と、第2類似度算出手段と、判定手段とを有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、
    前記文書取得手段が、複数の文章で構成された所定形式の文書を取得する第1ステップと、
    前記文書分割手段が、前記第1ステップで取得した文書を複数のサブ文書に分割する第2ステップと、
    前記第1類似度算出手段が、前記第2ステップにより分割した隣接する2つのサブ文書間の類似度を算出する第3ステップと、
    前記仮判定手段が、前記第3ステップで算出されたサブ文書間の類似度からトピックの変わり目を仮判定する第4ステップと、
    前記第2類似度算出手段が、前記第4ステップで仮判定されたトピックの変わり目により再分割したサブ文書群間の類似度を算出する第5ステップと、
    前記判定手段が、前記第5ステップで算出したサブ文書群間の類似度から前記文書に複数のトピックが含まれるか否かを判定する第6ステップと
    を備えることを特徴とする文書処理方法。
  10. 文書ベクトル決定手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、
    前記文書ベクトル決定手段が、前記第2ステップで分割したサブ文書を特徴づける文書ベクトルを決定する第7ステップを備え、
    前記第3ステップは、前記第7ステップで決定したサブ文書の文書ベクトルによりサブ文書間の類似度を算出することを特徴とする請求項9に記載の文書処理方法。
  11. 要約作成手段を有する文書処理装置において、文書処理を行う際に用いられる文書処理方法であって、
    前記要約作成手段が、複数の文章で構成される文書の要約を自動的に作成する第8ステップを備え、
    前記第8ステップは、前記第6ステップにより前記文書に複数のトピックが含まれると判定された場合、前記サブ文書群毎に要約を作成する
    ことを特徴とする請求項9または請求項10に記載の文書処理方法。
JP21712597A 1997-07-27 1997-07-27 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法 Expired - Fee Related JP4025391B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21712597A JP4025391B2 (ja) 1997-07-27 1997-07-27 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21712597A JP4025391B2 (ja) 1997-07-27 1997-07-27 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法

Publications (2)

Publication Number Publication Date
JPH1145278A JPH1145278A (ja) 1999-02-16
JP4025391B2 true JP4025391B2 (ja) 2007-12-19

Family

ID=16699253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21712597A Expired - Fee Related JP4025391B2 (ja) 1997-07-27 1997-07-27 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法

Country Status (1)

Country Link
JP (1) JP4025391B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3791879B2 (ja) 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US7136875B2 (en) 2002-09-24 2006-11-14 Google, Inc. Serving advertisements based on content
US7599852B2 (en) 2002-04-05 2009-10-06 Sponster Llc Method and apparatus for adding advertising tag lines to electronic messages
US20100100437A1 (en) 2002-09-24 2010-04-22 Google, Inc. Suggesting and/or providing ad serving constraint information
US8086559B2 (en) 2002-09-24 2011-12-27 Google, Inc. Serving content-relevant advertisements with client-side device support
WO2007113903A1 (ja) * 2006-04-04 2007-10-11 Fujitsu Limited 要約文書作成プログラム、要約文書作成装置、要約文書作成方法及びコンピュータ読み取り可能記録媒体
US20150112818A1 (en) 2013-10-22 2015-04-23 Google Inc. Content item selection criteria generation

Also Published As

Publication number Publication date
JPH1145278A (ja) 1999-02-16

Similar Documents

Publication Publication Date Title
US7958444B2 (en) Visualizing document annotations in the context of the source document
US6178420B1 (en) Related term extraction apparatus, related term extraction method, and a computer-readable recording medium having a related term extraction program recorded thereon
US7958128B2 (en) Query-independent entity importance in books
US8572482B2 (en) Methods and apparatus for summarizing document content for mobile communication devices
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP4025391B2 (ja) 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP4021525B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US20090083621A1 (en) Method and system for abstracting electronic documents
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
AU2009217352B2 (en) Systems and methods of identifying chunks within multiple documents
JP4005672B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP4044644B2 (ja) 電子掲示板システム、電子掲示板プログラムが記憶された記憶媒体、及び電子掲示板の活性化方法
JP2000194725A (ja) 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体
US20050138548A1 (en) Computer aided authoring and browsing of an electronic document
JPH1145288A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
JP2000105769A (ja) 文書表示方法
US20030237042A1 (en) Document processing device and document processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071005

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees