JP2004220111A - 文書要約装置 - Google Patents
文書要約装置 Download PDFInfo
- Publication number
- JP2004220111A JP2004220111A JP2003003602A JP2003003602A JP2004220111A JP 2004220111 A JP2004220111 A JP 2004220111A JP 2003003602 A JP2003003602 A JP 2003003602A JP 2003003602 A JP2003003602 A JP 2003003602A JP 2004220111 A JP2004220111 A JP 2004220111A
- Authority
- JP
- Japan
- Prior art keywords
- document
- importance
- sentence
- summarization
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【課題】文書の構造化の有無、文書の長短等の文書の形態に左右されることなく高精度に要約し得る文書要約装置を提供する。
【解決手段】文書中の文の重要度を算出し、この算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成し、この算出された前記文書の各文の重要度の分布状況を表示し、この表示された各文の重要度の分布状況に基づいて前記文書の一部を指定し、指定された部分に係る部分要約文書を生成する。
【選択図】 図6
【解決手段】文書中の文の重要度を算出し、この算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成し、この算出された前記文書の各文の重要度の分布状況を表示し、この表示された各文の重要度の分布状況に基づいて前記文書の一部を指定し、指定された部分に係る部分要約文書を生成する。
【選択図】 図6
Description
【0001】
【発明の属する技術分野】
本発明は、電子化された文書の要約を自動的に作成する文書要約装置に関する。
【0002】
【従来の技術】
近年、インターネット、イントラネットの普及に伴い、電子化された文書を日常的に扱うようになってきている。もはや、電子データとして文書を作成・利用することは当たり前のものとなり、それに応じて大量の電子化された文書が氾濫している。
【0003】
これらの多くの文書の中から目的の文書を探し出したり、その内容を素早く把握したりするためには、計算機による文書の自動要約処理が有効であることが知られている。一般的な要約処理については、奥村学氏らによる「テキスト自動要約に関する研究動向」(非特許文献1参照)等に詳しく開示されている。
【0004】
他にも、文書の構造単位(例えば段落、章など)毎に要約を行って提示する手法や(例えば、特許文献1参照)、文書の各構造単位毎に重要度を解析し、どの構造単位の重要度が高いかを提示する手法(例えば、特許文献2参照)が提案されている。
【0005】
特許文献1,2の手法では、要約対象となる文書は、段落や章といった構造化がなされていることを前提としている。しかし、現実には、構造化が不十分、或いは全く考慮されていないような文書も数多く存在しており、この場合には、特許文献1,2の手法では対処できないという問題がある。
【0006】
なお、予め構造化されていない文書については、ヒューリスティックスに基づいて構造化を試みるという解決法も知られているが(例えば、特許文献2参照)、そのような方法では、必ずしも正しく構造化できるとは限らないため、その方法で構造化された文書に係る要約文書は要約精度が劣化する場合があり、その場合には、結局、意味内容を把握することができずに原文の多くの部分に目を通す必要があった。
【0007】
さらに、構造化された文書であっても、非常に長い文書(文書量の多い文書)等においては、1つの構造単位が非常に長くなっている場合もあり、この場合には、構造単位の長い部分の要約文書を読んだとしても、意味内容を十分に把握できない場合があった。
【0008】
【非特許文献1】
奥村 学、難波 英嗣
“テキスト自動要約に関する研究動向”.自然言語処理「テキスト要約のための言語処理」特集号,vol.6,No.6,1999.7.
【特許文献1】
特開2000−194702号公報
【特許文献2】
特開平11−219361号公報
【0009】
【発明が解決しようとする課題】
本発明は、上記の問題に鑑みてなされたものであり、その課題は、文書の構造化の有無、文書の長短等の文書の形態に左右されることなく高精度に要約し得る文書要約装置を提供することにある。
【0010】
【課題を解決するための手段】
上記課題を解決するため、本発明による文書要約装置は、文書中の文の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約手段と、前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示する表示制御手段と、前記表示制御手段により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定手段と、前記指定手段により指定された部分に係る部分要約文書を生成する部分要約手段とを有している。
【0011】
また、本発明による文書要約方法は、文書中の文の重要度を算出する重要度算出工程と、前記重要度算出工程により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約工程と、前記重要度算出工程により算出された前記文書の各文の重要度の分布状況を表示する表示制御工程と、前記表示制御工程により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定工程と、前記指定工程により指定された部分に係る部分要約文書を生成する部分要約工程とを有している。
【0012】
また、本発明による制御プログラムは、文書中の文の重要度を算出し、算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成し、前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示し、表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定し、指定された部分に係る部分要約文書を生成する内容を有している。
【0013】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0014】
図1は、本発明の実施の形態に係る文書要約装置の機能を示す機能ブロック図である。
【0015】
図1において、101はユーザからの入力データを監視・受信するユーザ入力受信部である。102はユーザ入力受信部101で受信したユーザ入力に応じて、後述する文書データベース107から要約対象文書を探索・獲得する文書獲得部である。103は文書獲得部102で獲得した文書を文単位に切り分け、各文の重要度を計算する重要度計算部である。104は重要度計算部103で計算した各文の重要度とその文の原文書上での位置情報(文番号)とを対応づけて、後述する重要度データベース108にストアして管理する重要度管理部である。
【0016】
105は重要度計算部103で計算した各文の重要度を利用して要約文を生成すると共に、重要度管理部104から各文の重要度とその文の原文書上の対応位置情報を入手して、各文の重要度の分布状況を表示出力するための表示データを生成する出力データ生成部である。106は出力データ生成部105で生成された表示データを表示する表示部である。107は要約対象となる文書データが格納された文書データベースである。108は重要度管理部104によって各文の重要度とその文の原文書での対応位置関係を管理するために用いる重要度データベースである。
【0017】
図2は、上記の機能を搭載した文書要約装置のハードウェアの概略構成を示すブロック図である。
【0018】
図2において、201はユーザによる要約処理や重要度分布状況の表示処理等の指示や、部分要約の範囲指定等に使用可能な、例えばキーボード、マウス、タッチパネルなどの入力装置である。202は要約結果や重要度分布状況等を表示するための例えばLCDディスプレイ等の表示装置である。203は図1に示した各機能を実現するためのプログラムを格納するROMである。204はROM203に格納されたプログラム実行時のワークエリア等として利用されるRAMである。205はROM203に格納したプログラムを実行するCPUである。206は図1における文書データベース107や重要度データベース108等のデータを追加・削除可能なHDDなどのディスクである。207は本装置の各デバイスを接続してデータを授受するためのバスである。
【0019】
次に、本実施形態に特有な文書要約処理を、図3のフローチャートに基づいて説明する。
【0020】
まず、ステップS301では、ユーザ入力受信部101でユーザからの要約作成指示入力を受け取る。要約作成指示入力には、要約対象文書を指定するための例えば文書ID、文書名(ファイル名)等の情報、及び原文書に対してどの程度の割合まで要約するか(要約率)等の要約条件に係る情報が含まれる。
【0021】
なお、要約対象文書を指定は、文書データベース107内の各文書ファイルのファイル名を一覧表示させ、その中から所望のファイル名を選択することにより行うのが好ましい。
【0022】
ステップS302では、文書獲得部102により、ステップS301で取得したユーザ入力を解析して、要約対象文書を文書データベース107から探索・獲得する。
【0023】
ステップS303では、重要度計算部103において、各文毎の重要度を計算する。例えば、「。」や「.」等の句点で区切られる要素を文と定義し、要約対象文書から各文を切り出し、形態素解析などを用いて文を構成している単語の重要度を求め、それら単語の重要度から各文の重要度を決定する。
【0024】
なお、章立てや段落といった文書構造が明らかであれば、その文書構造を利用して文の重要度を求めても良い。また、単語の重要度の算出方法としては、例えば、文書中の単語(特に名詞)の出現頻度に基づく方法が考えられ、文の重要度の算出方法としては、例えば、1つの文の中に出現する単語の重要度の総和を文の重要度とする方法が考えられる。
【0025】
さらに、単語ではなく、文中で隣接する単語の対の出現頻度に基づいて文の重要度を算出する、文書中での位置情報、タイトル、文書構造、手がかり表現、文間や単語間のつながり、文間の類似性等を利用して文の重要度を算出する等、各種の文重要度算出方式を用いることが可能である。
【0026】
ステップS304では、重要度管理部104により、ステップS303で求めた各文の重要度を要約対象文書の文番号と対応付けて、重要度データベース108に保持して管理する。
【0027】
ステップS305では、出力データ生成部105により、ステップS303で求めた文の重要度を利用して要約文(要約文書)を生成する。この要約文生成は、例えば、文の重要度が高い方から数文をピックアップすることにより行う。この場合、ピックアップする文の数は、要約対象文書中の文の総数と要約率により決定され、例えば、文の総数が「100」であり、要約率が50%であれば、重要度が高い方から50個の文が要約文としてピックアップされる。生成した要約文は、表示部106により、表示装置202に表示する。
【0028】
ステップS306では、重要度分布の表示指令をユーザ入力受信部101が受けたか否かを判別する。その結果、重要度分布の表示指令を受けた場合は、ステップS307に移行し、表示指令を受けなかった場合は、要約文を表示した状態で処理を終了する。
【0029】
ステップS307では、重要度管理部104により、現在表示中の要約対象文書の各文の重要度を重要度データベース108から獲得する。
【0030】
ステップS308では、出力データ生成部105により、ステップS307で得た各文の重要度に基づいて、当該各文の重要度の分布状況を示すグラフ表示データを生成する。生成したグラフ表示データは、表示部106により、表示装置202に表示する。
【0031】
例えば、図5に示したように、折れ線グラフにより、要約対象文書の先頭から末尾にかけて、全ての文の重要度を表示する。なお、棒グラフで表示してもよい。このように、要約対象文書中の全ての文について、その重要度の分布状況をグラフ形式で表示することにより、重要度の高い文が文書中のどの位置に存在しているかを容易に把握できるようになる。
【0032】
なお、文の重要度は、要約手法(重要度の算出手法)によって尺度が異なるので、表示に適した値に正規化するようにしてもよい。また、各文の重要度の差が大きい場合や文の数が多い場合等に、表示装置106の表示領域の解像度・大きさによってはグラフが煩雑になる場合があるので、隣り合う複数の文の重要度の平均を取るなどして、データを平滑化して表示するようにしても良い。
【0033】
また、文の重要度の分布状況をグラフ形式で表示する際に、例えば図5の横軸の下に、対応する全ての文の文番号を表示したり、或いは文番号1,文番号5,文番号10,…等離散的に対応する文番号を表示したりしてもよい。
【0034】
ステップS309では、部分要約の範囲が指定されたか否かを判別する。この範囲指定は、例えば、図5のようなグラフ表示であれば、所望の部分をマウスでドラッグする等して行う(図6の網掛け部分参照)。また、グラフに文番号も表示されている場合は、例えば、所望範囲の先頭の文番号と末尾の文番号をキー入力する等、文番号を直接入力することにより、部分要約の範囲を指定してもよい。
【0035】
部分要約の範囲が指定された場合は、ステップS310に移行し、範囲が指定されなかった場合は、重要度分布を表示した状態で処理を終了する。
【0036】
ステップS310では、指定された部分要約の範囲に対応する文番号を割り出す。この文番号の割り出し処理は、例えば、ユーザ入力受信部101からの範囲指定情報に基づいて文書獲得部102により行い、文書獲得部102は、その割り出した各文番号に対応する各文、すなわち部分要約対象として指定された範囲の各文を文書データベース107から取得して、重要度計算部103に供給する。
【0037】
ステップS311では、重要度計算部103により、部分要約範囲の各文の重要度を再計算する。この再計算においては、部分要約範囲の各文が1つの文書を構成する全ての文であるものと見なされるので、たとえ、ステップS303で用いた手法と同一の重要度算出手法を用いたとしても、同一の文番号の文について、ステップS303で計算された重要度と、ステップS311で再計算された重要度とは、通常、異なった値となる。
【0038】
ステップS312では、部分要約指定範囲の各文について、部分要約指定範囲内での再計算に係る重要度と、要約対象の文書全体内での重要度(ステップS303で算出された重要度:全体要約時の重要度)とを考慮した新しい重要度を計算する。例えば、任意の比率で両者の重要度を重み付けし、その重み付けした重要度の加重平均をとって新しい重要度を求める。
【0039】
この場合、どちらか一方の重要度に対する重み付けを「1」とし、他方の重要度に対する重み付けを「0」とすることにより、一方の重要度のみを考慮してもよい。換言すれば、部分要約指定範囲内での重要度の再計算は、必ずしも行う必要はなく、全体要約時に算出された重要度に基づいて、後述するステップs313の部分要約を行ってもよい。
【0040】
ステップS313では、出力データ生成部105により、ステップS312で求めた新しい重要度等を利用して部分要約を生成して、表示部106により表示装置202に表示する。
【0041】
なお、部分要約は、全体要約からは理解が困難な部分等の内容を詳細に知ることに意義があるので、部分要約に係る要約文書中の文数と全体要約に係る要約文書中の文数とは、ほぼ同数であることが望ましい。
【0042】
なお、要約対象の文書の長さ(量)は、部分要約の方が全体要約よりも短くなる(少なくなる)ので、上記のように、部分要約に係る要約文書中の文数と全体要約に係る要約文書中の文数とをほぼ同数にするためには、部分要約における要約率は、全体要約における要約率よりも高くする必要がある。
【0043】
そこで、本実施形態では、部分要約における要約率は、全体要約における要約率(ステップS301で設定した要約率)よりも所定の割合で自動的に高くしている。
【0044】
なお、本実施形態では、要約率を設定しているが、この要約率の代わりに、要約文として抽出する文の数それ自体を設定することも可能である。また、全体要約時の要約率又は要約抽出文数だけでなく、部分要約時の要約率又は要約抽出文数もユーザが設定するようにしてもよい。
【0045】
以上説明したように、本実施形態では、要約対象文書中の全ての文について、その重要度の分布状況をグラフ形式で表示しているので、要約対象文書が長い文書であっても容易に重要部分を認識することが可能となる。
【0046】
また、全体要約で意味が不明な部分や内容を詳細に知りたい部分等を指定し、その部分を部分要約させることができるので、精度の高い要約文書を得ることが可能となる。
【0047】
[他の実施の形態]
上記実施形態においては、ユーザの指示に基づいて重要度分布状況をグラフ表示しているが、図4に示すように、長文書判定部109を設け、長文書判定部109により長文書と判定した場合に、自動的に重要度分布状況をグラフ表示してもよい。
【0048】
この場合、長文書判定部109は、例えば、全体要約に係る要約文書中の文字数が要約対象文書中の文字数のn%に満たない場合に、長文書とみなす方式等が考えられる。
【0049】
なお、本発明は、上記の各実施形態に限定されることなく、例えば、部分要約の範囲をユーザが指定することなく、重要度が所定レベル以上の文の近傍を自動的に部分要約する等、部分要約の範囲を自動的に設定することも可能である。
【0050】
また、例えば、要約精度は低いが高速な要約方式で要約し、部分要約は、要約精度は高いが低速な要約方式で要約する等、全体要約と部分要約を異なる要約方式で行うことも可能である。
【0051】
また、上記実施例では、文書データベース107に予め蓄積された文書を要約対象文書としているが、例えば、光学的文字読取装置から読取り、未だ文書データベース107に蓄積していない文書を要約対象文書とすることも可能であり、この場合、文書入力処理に連動して本発明に係る要約処理を行うことが可能となる。
【0052】
また、要約対象文書は、図などのテキスト以外の要素を含んでいてもよく、この場合、文書獲得部102でテキスト部分の分離・獲得を行う。
【0053】
また、ステップS312で求める新しい重要度は、加重平均以外の方式で求めてもよい。また、ステップS301での要約対象文書の指定は、文書ID等により行うことなく、文書獲得部102に検索機能を付加することによって、任意の検索式から検索処理によって要約対象文書を指定してもよい。また、その検索に用いた検索語を重要度計算に使用し、検索語を含む文の重要度を上げるなどの処理をしてもよい。
【0054】
また、各文の重要度の分布状況は、例えば文番号順に、文番号と対応付けて重要度を示す文字・記号を配列して表示する等、グラフ以外の形式で提示してもよい。この場合、所定レベル以上の重要度を示す文字・記号、文番号は、色を変える、網掛けする等、特殊な形式で表示するのが好ましい。
【0055】
また、全体要約に係る要約条件(要約率、要約として抽出する文の数)は、ユーザがその都度指定することなく、予め設定・保持しておいたものを使用してもよい。さらに、要約対象文書の長さを装置側で測定し、その長さに応じて要約条件を自動的に設定してもよい。
【0056】
また、上記実施例においては、全ての要約対象文書について、各文の重要度計算を行っているが、各文の重要度が重要度データベース108に登録された要約対象文書については、この登録データを利用することにより、全体要約時の重要度計算を省略することも可能である。なお、文書データベース107に登録した文書については、全て、装置(本文書要約装置を搭載したコンピュータ)のアイドリング時間等を利用して、予め各文の重要度計算を行って重要度データベース108に登録しておくのが望ましい。
【0057】
また、部分要約範囲の指定においては、マウス以外の範囲指定可能な任意の入力デバイスを使用することも可能である。
【0058】
また、上記実施例においては、各機能を同一の計算機に搭載することを想定していたが、これに限定されるものではなく、ネットワーク上の複数の計算機や処理装置に各機能を分散して搭載してもよい。
【0059】
また、上記実施例においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0060】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0061】
また、プログラムコードを供給するための記録媒体としては、たとえば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、DVD−RAM、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0062】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0063】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0064】
以下に本願発明の要点を総括する。
【0065】
[実施態様1] 文書中の文の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約手段と、
前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示する表示制御手段と、
前記表示制御手段により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定手段と、
前記指定手段により指定された部分に係る部分要約文書を生成する部分要約手段と、
を有することを特徴とする文書要約装置。
【0066】
[実施態様2] 前記表示制御手段は、指示操作に応答して前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様1に記載の文書要約装置。
【0067】
[実施態様3] 前記表示制御手段は、前記文書の長さを判定する判定手段を有し、該判定手段により長文書であると判定された場合に、前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様1に記載の文書要約装置。
【0068】
[実施態様4] 前記判定手段は、前記文書の文字数に対する前記要約文書の文字数の比率が所定の閾値以下の場合に、該文書が長文書であると判定することを特徴とする実施態様3に記載の文書要約装置。
【0069】
[実施態様5] 前記表示制御手段は、グラフ形式で前記文書の各文の重要度の分布状況を表示することを特徴とする基本構成、実施態様1〜4の何れかに記載の文書要約装置。
【0070】
[実施態様6] 前記指定手段は、前記表示制御手段により前記文書の各文の重要度の分布状況が表示された画面上で選択された範囲を部分要約の範囲として指定することを特徴とする基本構成、実施態様1〜5の何れかに記載の文書要約装置。
【0071】
[実施態様7] 前記部分要約手段は、前記全体要約手段より高い要約率で要約することを特徴とする基本構成、実施態様1〜6の何れかに記載の文書要約装置。
【0072】
[実施態様8] 前記部分要約手段は、前記全体要約手段により生成された全体要約文書の文の数と略同数の文からなる部分要約文書を生成することを特徴とする基本構成、実施態様1〜6の何れかに記載の文書要約装置。
【0073】
[実施態様9] 前記部分要約手段は、前記指定手段により指定された範囲内で各文の重要度を前記重要度算出手段により再度算出させる再算出手段を有し、該再算出手段により算出された重要度を利用して部分要約文書を生成することを特徴とする基本構成、実施態様1〜8の何れかに記載の文書要約装置。
【0074】
[実施態様10] 前記部分要約手段は、前記全体要約文書を生成する際に用いた重要度と前記再算出手段により算出された重要度とを所定の比率で混合した重要度に基づいて部分要約文書を生成することを特徴とする実施態様9に記載の文書要約装置。
【0075】
[実施態様11] 文書中の文の重要度を算出する重要度算出工程と、
前記重要度算出工程により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約工程と、
前記重要度算出工程により算出された前記文書の各文の重要度の分布状況を表示する表示制御工程と、
前記表示制御工程により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定工程と、
前記指定工程により指定された部分に係る部分要約文書を生成する部分要約工程と、
を有することを特徴とする文書要約方法。
【0076】
[実施態様12] 前記表示制御工程は、指示操作に応答して前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様11に記載の文書要約方法。
【0077】
[実施態様13] 前記表示制御工程は、前記文書の長さを判定する判定工程を有し、該判定工程により長文書であると判定された場合に、前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様11に記載の文書要約方法。
【0078】
[実施態様14] 前記判定工程は、前記文書の文字数に対する前記要約文書の文字数の比率が所定の閾値以下の場合に、該文書が長文書であると判定することを特徴とする実施態様13に記載の文書要約方法。
【0079】
[実施態様15] 前記表示制御工程は、グラフ形式で前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様11〜14の何れかに記載の文書要約方法。
【0080】
[実施態様16] 前記指定工程は、前記表示制御工程により前記文書の各文の重要度の分布状況が表示された画面上で選択された範囲を部分要約の範囲として指定することを特徴とする実施態様11〜15の何れかに記載の文書要約方法。
【0081】
[実施態様17] 前記部分要約工程は、前記全体要約工程より高い要約率で要約することを特徴とする実施態様11〜16の何れかに記載の文書要約方法。
【0082】
[実施態様18] 前記部分要約工程は、前記全体要約工程により生成された全体要約文書の文の数と略同数の文からなる部分要約文書を生成することを特徴とする実施態様11〜16の何れかに記載の文書要約方法。
【0083】
[実施態様19] 前記部分要約工程は、前記指定工程により指定された範囲内で各文の重要度を前記重要度算出工程により再度算出させる再算出工程を有し、該再算出工程により算出された重要度を利用して部分要約文書を生成することを特徴とする実施態様11〜18の何れかに記載の文書要約方法。
【0084】
[実施態様20] 前記部分要約工程は、前記全体要約文書を生成する際に用いた重要度と前記再算出工程により算出された重要度とを所定の比率で混合した重要度に基づいて部分要約文書を生成することを特徴とする実施態様19に記載の文書要約方法。
【0085】
[実施態様21] 文書中の文の重要度を算出し、算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成し、前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示し、表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定し、指定された部分に係る部分要約文書を生成する内容を有することを特徴とする制御プログラム。
【0086】
【発明の効果】
以上説明したように、本発明によれば、文書の構造化の有無、文書の長短等の文書の形態に左右されることなく高精度に要約し得る文書要約装置を実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る文書要約装置の機能を示す機能ブロック図である。
【図2】上記の機能を搭載した文書要約装置のハードウェアの概略構成を示すブロック図である。
【図3】文書要約処理を示すフローチャートである。
【図4】長文書判定機能を持たせた場合の機能ブロック図である。
【図5】文単位での重要度の分布状況の表示例を示す図である。
【図6】部分要約範囲の指定例を示す図である。
【符号の説明】
101:ユーザ入力受信部
102:文書獲得部
103:重要度計算部
104:重要度管理部
105:出力データ生成部
106:表示部
107:文書データベース
108:重要度データベース
109:長文書判定部
201:入力装置
202:表示装置
203:ROM
204:RAM
205:CPU
206:ディスク
【発明の属する技術分野】
本発明は、電子化された文書の要約を自動的に作成する文書要約装置に関する。
【0002】
【従来の技術】
近年、インターネット、イントラネットの普及に伴い、電子化された文書を日常的に扱うようになってきている。もはや、電子データとして文書を作成・利用することは当たり前のものとなり、それに応じて大量の電子化された文書が氾濫している。
【0003】
これらの多くの文書の中から目的の文書を探し出したり、その内容を素早く把握したりするためには、計算機による文書の自動要約処理が有効であることが知られている。一般的な要約処理については、奥村学氏らによる「テキスト自動要約に関する研究動向」(非特許文献1参照)等に詳しく開示されている。
【0004】
他にも、文書の構造単位(例えば段落、章など)毎に要約を行って提示する手法や(例えば、特許文献1参照)、文書の各構造単位毎に重要度を解析し、どの構造単位の重要度が高いかを提示する手法(例えば、特許文献2参照)が提案されている。
【0005】
特許文献1,2の手法では、要約対象となる文書は、段落や章といった構造化がなされていることを前提としている。しかし、現実には、構造化が不十分、或いは全く考慮されていないような文書も数多く存在しており、この場合には、特許文献1,2の手法では対処できないという問題がある。
【0006】
なお、予め構造化されていない文書については、ヒューリスティックスに基づいて構造化を試みるという解決法も知られているが(例えば、特許文献2参照)、そのような方法では、必ずしも正しく構造化できるとは限らないため、その方法で構造化された文書に係る要約文書は要約精度が劣化する場合があり、その場合には、結局、意味内容を把握することができずに原文の多くの部分に目を通す必要があった。
【0007】
さらに、構造化された文書であっても、非常に長い文書(文書量の多い文書)等においては、1つの構造単位が非常に長くなっている場合もあり、この場合には、構造単位の長い部分の要約文書を読んだとしても、意味内容を十分に把握できない場合があった。
【0008】
【非特許文献1】
奥村 学、難波 英嗣
“テキスト自動要約に関する研究動向”.自然言語処理「テキスト要約のための言語処理」特集号,vol.6,No.6,1999.7.
【特許文献1】
特開2000−194702号公報
【特許文献2】
特開平11−219361号公報
【0009】
【発明が解決しようとする課題】
本発明は、上記の問題に鑑みてなされたものであり、その課題は、文書の構造化の有無、文書の長短等の文書の形態に左右されることなく高精度に要約し得る文書要約装置を提供することにある。
【0010】
【課題を解決するための手段】
上記課題を解決するため、本発明による文書要約装置は、文書中の文の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約手段と、前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示する表示制御手段と、前記表示制御手段により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定手段と、前記指定手段により指定された部分に係る部分要約文書を生成する部分要約手段とを有している。
【0011】
また、本発明による文書要約方法は、文書中の文の重要度を算出する重要度算出工程と、前記重要度算出工程により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約工程と、前記重要度算出工程により算出された前記文書の各文の重要度の分布状況を表示する表示制御工程と、前記表示制御工程により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定工程と、前記指定工程により指定された部分に係る部分要約文書を生成する部分要約工程とを有している。
【0012】
また、本発明による制御プログラムは、文書中の文の重要度を算出し、算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成し、前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示し、表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定し、指定された部分に係る部分要約文書を生成する内容を有している。
【0013】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0014】
図1は、本発明の実施の形態に係る文書要約装置の機能を示す機能ブロック図である。
【0015】
図1において、101はユーザからの入力データを監視・受信するユーザ入力受信部である。102はユーザ入力受信部101で受信したユーザ入力に応じて、後述する文書データベース107から要約対象文書を探索・獲得する文書獲得部である。103は文書獲得部102で獲得した文書を文単位に切り分け、各文の重要度を計算する重要度計算部である。104は重要度計算部103で計算した各文の重要度とその文の原文書上での位置情報(文番号)とを対応づけて、後述する重要度データベース108にストアして管理する重要度管理部である。
【0016】
105は重要度計算部103で計算した各文の重要度を利用して要約文を生成すると共に、重要度管理部104から各文の重要度とその文の原文書上の対応位置情報を入手して、各文の重要度の分布状況を表示出力するための表示データを生成する出力データ生成部である。106は出力データ生成部105で生成された表示データを表示する表示部である。107は要約対象となる文書データが格納された文書データベースである。108は重要度管理部104によって各文の重要度とその文の原文書での対応位置関係を管理するために用いる重要度データベースである。
【0017】
図2は、上記の機能を搭載した文書要約装置のハードウェアの概略構成を示すブロック図である。
【0018】
図2において、201はユーザによる要約処理や重要度分布状況の表示処理等の指示や、部分要約の範囲指定等に使用可能な、例えばキーボード、マウス、タッチパネルなどの入力装置である。202は要約結果や重要度分布状況等を表示するための例えばLCDディスプレイ等の表示装置である。203は図1に示した各機能を実現するためのプログラムを格納するROMである。204はROM203に格納されたプログラム実行時のワークエリア等として利用されるRAMである。205はROM203に格納したプログラムを実行するCPUである。206は図1における文書データベース107や重要度データベース108等のデータを追加・削除可能なHDDなどのディスクである。207は本装置の各デバイスを接続してデータを授受するためのバスである。
【0019】
次に、本実施形態に特有な文書要約処理を、図3のフローチャートに基づいて説明する。
【0020】
まず、ステップS301では、ユーザ入力受信部101でユーザからの要約作成指示入力を受け取る。要約作成指示入力には、要約対象文書を指定するための例えば文書ID、文書名(ファイル名)等の情報、及び原文書に対してどの程度の割合まで要約するか(要約率)等の要約条件に係る情報が含まれる。
【0021】
なお、要約対象文書を指定は、文書データベース107内の各文書ファイルのファイル名を一覧表示させ、その中から所望のファイル名を選択することにより行うのが好ましい。
【0022】
ステップS302では、文書獲得部102により、ステップS301で取得したユーザ入力を解析して、要約対象文書を文書データベース107から探索・獲得する。
【0023】
ステップS303では、重要度計算部103において、各文毎の重要度を計算する。例えば、「。」や「.」等の句点で区切られる要素を文と定義し、要約対象文書から各文を切り出し、形態素解析などを用いて文を構成している単語の重要度を求め、それら単語の重要度から各文の重要度を決定する。
【0024】
なお、章立てや段落といった文書構造が明らかであれば、その文書構造を利用して文の重要度を求めても良い。また、単語の重要度の算出方法としては、例えば、文書中の単語(特に名詞)の出現頻度に基づく方法が考えられ、文の重要度の算出方法としては、例えば、1つの文の中に出現する単語の重要度の総和を文の重要度とする方法が考えられる。
【0025】
さらに、単語ではなく、文中で隣接する単語の対の出現頻度に基づいて文の重要度を算出する、文書中での位置情報、タイトル、文書構造、手がかり表現、文間や単語間のつながり、文間の類似性等を利用して文の重要度を算出する等、各種の文重要度算出方式を用いることが可能である。
【0026】
ステップS304では、重要度管理部104により、ステップS303で求めた各文の重要度を要約対象文書の文番号と対応付けて、重要度データベース108に保持して管理する。
【0027】
ステップS305では、出力データ生成部105により、ステップS303で求めた文の重要度を利用して要約文(要約文書)を生成する。この要約文生成は、例えば、文の重要度が高い方から数文をピックアップすることにより行う。この場合、ピックアップする文の数は、要約対象文書中の文の総数と要約率により決定され、例えば、文の総数が「100」であり、要約率が50%であれば、重要度が高い方から50個の文が要約文としてピックアップされる。生成した要約文は、表示部106により、表示装置202に表示する。
【0028】
ステップS306では、重要度分布の表示指令をユーザ入力受信部101が受けたか否かを判別する。その結果、重要度分布の表示指令を受けた場合は、ステップS307に移行し、表示指令を受けなかった場合は、要約文を表示した状態で処理を終了する。
【0029】
ステップS307では、重要度管理部104により、現在表示中の要約対象文書の各文の重要度を重要度データベース108から獲得する。
【0030】
ステップS308では、出力データ生成部105により、ステップS307で得た各文の重要度に基づいて、当該各文の重要度の分布状況を示すグラフ表示データを生成する。生成したグラフ表示データは、表示部106により、表示装置202に表示する。
【0031】
例えば、図5に示したように、折れ線グラフにより、要約対象文書の先頭から末尾にかけて、全ての文の重要度を表示する。なお、棒グラフで表示してもよい。このように、要約対象文書中の全ての文について、その重要度の分布状況をグラフ形式で表示することにより、重要度の高い文が文書中のどの位置に存在しているかを容易に把握できるようになる。
【0032】
なお、文の重要度は、要約手法(重要度の算出手法)によって尺度が異なるので、表示に適した値に正規化するようにしてもよい。また、各文の重要度の差が大きい場合や文の数が多い場合等に、表示装置106の表示領域の解像度・大きさによってはグラフが煩雑になる場合があるので、隣り合う複数の文の重要度の平均を取るなどして、データを平滑化して表示するようにしても良い。
【0033】
また、文の重要度の分布状況をグラフ形式で表示する際に、例えば図5の横軸の下に、対応する全ての文の文番号を表示したり、或いは文番号1,文番号5,文番号10,…等離散的に対応する文番号を表示したりしてもよい。
【0034】
ステップS309では、部分要約の範囲が指定されたか否かを判別する。この範囲指定は、例えば、図5のようなグラフ表示であれば、所望の部分をマウスでドラッグする等して行う(図6の網掛け部分参照)。また、グラフに文番号も表示されている場合は、例えば、所望範囲の先頭の文番号と末尾の文番号をキー入力する等、文番号を直接入力することにより、部分要約の範囲を指定してもよい。
【0035】
部分要約の範囲が指定された場合は、ステップS310に移行し、範囲が指定されなかった場合は、重要度分布を表示した状態で処理を終了する。
【0036】
ステップS310では、指定された部分要約の範囲に対応する文番号を割り出す。この文番号の割り出し処理は、例えば、ユーザ入力受信部101からの範囲指定情報に基づいて文書獲得部102により行い、文書獲得部102は、その割り出した各文番号に対応する各文、すなわち部分要約対象として指定された範囲の各文を文書データベース107から取得して、重要度計算部103に供給する。
【0037】
ステップS311では、重要度計算部103により、部分要約範囲の各文の重要度を再計算する。この再計算においては、部分要約範囲の各文が1つの文書を構成する全ての文であるものと見なされるので、たとえ、ステップS303で用いた手法と同一の重要度算出手法を用いたとしても、同一の文番号の文について、ステップS303で計算された重要度と、ステップS311で再計算された重要度とは、通常、異なった値となる。
【0038】
ステップS312では、部分要約指定範囲の各文について、部分要約指定範囲内での再計算に係る重要度と、要約対象の文書全体内での重要度(ステップS303で算出された重要度:全体要約時の重要度)とを考慮した新しい重要度を計算する。例えば、任意の比率で両者の重要度を重み付けし、その重み付けした重要度の加重平均をとって新しい重要度を求める。
【0039】
この場合、どちらか一方の重要度に対する重み付けを「1」とし、他方の重要度に対する重み付けを「0」とすることにより、一方の重要度のみを考慮してもよい。換言すれば、部分要約指定範囲内での重要度の再計算は、必ずしも行う必要はなく、全体要約時に算出された重要度に基づいて、後述するステップs313の部分要約を行ってもよい。
【0040】
ステップS313では、出力データ生成部105により、ステップS312で求めた新しい重要度等を利用して部分要約を生成して、表示部106により表示装置202に表示する。
【0041】
なお、部分要約は、全体要約からは理解が困難な部分等の内容を詳細に知ることに意義があるので、部分要約に係る要約文書中の文数と全体要約に係る要約文書中の文数とは、ほぼ同数であることが望ましい。
【0042】
なお、要約対象の文書の長さ(量)は、部分要約の方が全体要約よりも短くなる(少なくなる)ので、上記のように、部分要約に係る要約文書中の文数と全体要約に係る要約文書中の文数とをほぼ同数にするためには、部分要約における要約率は、全体要約における要約率よりも高くする必要がある。
【0043】
そこで、本実施形態では、部分要約における要約率は、全体要約における要約率(ステップS301で設定した要約率)よりも所定の割合で自動的に高くしている。
【0044】
なお、本実施形態では、要約率を設定しているが、この要約率の代わりに、要約文として抽出する文の数それ自体を設定することも可能である。また、全体要約時の要約率又は要約抽出文数だけでなく、部分要約時の要約率又は要約抽出文数もユーザが設定するようにしてもよい。
【0045】
以上説明したように、本実施形態では、要約対象文書中の全ての文について、その重要度の分布状況をグラフ形式で表示しているので、要約対象文書が長い文書であっても容易に重要部分を認識することが可能となる。
【0046】
また、全体要約で意味が不明な部分や内容を詳細に知りたい部分等を指定し、その部分を部分要約させることができるので、精度の高い要約文書を得ることが可能となる。
【0047】
[他の実施の形態]
上記実施形態においては、ユーザの指示に基づいて重要度分布状況をグラフ表示しているが、図4に示すように、長文書判定部109を設け、長文書判定部109により長文書と判定した場合に、自動的に重要度分布状況をグラフ表示してもよい。
【0048】
この場合、長文書判定部109は、例えば、全体要約に係る要約文書中の文字数が要約対象文書中の文字数のn%に満たない場合に、長文書とみなす方式等が考えられる。
【0049】
なお、本発明は、上記の各実施形態に限定されることなく、例えば、部分要約の範囲をユーザが指定することなく、重要度が所定レベル以上の文の近傍を自動的に部分要約する等、部分要約の範囲を自動的に設定することも可能である。
【0050】
また、例えば、要約精度は低いが高速な要約方式で要約し、部分要約は、要約精度は高いが低速な要約方式で要約する等、全体要約と部分要約を異なる要約方式で行うことも可能である。
【0051】
また、上記実施例では、文書データベース107に予め蓄積された文書を要約対象文書としているが、例えば、光学的文字読取装置から読取り、未だ文書データベース107に蓄積していない文書を要約対象文書とすることも可能であり、この場合、文書入力処理に連動して本発明に係る要約処理を行うことが可能となる。
【0052】
また、要約対象文書は、図などのテキスト以外の要素を含んでいてもよく、この場合、文書獲得部102でテキスト部分の分離・獲得を行う。
【0053】
また、ステップS312で求める新しい重要度は、加重平均以外の方式で求めてもよい。また、ステップS301での要約対象文書の指定は、文書ID等により行うことなく、文書獲得部102に検索機能を付加することによって、任意の検索式から検索処理によって要約対象文書を指定してもよい。また、その検索に用いた検索語を重要度計算に使用し、検索語を含む文の重要度を上げるなどの処理をしてもよい。
【0054】
また、各文の重要度の分布状況は、例えば文番号順に、文番号と対応付けて重要度を示す文字・記号を配列して表示する等、グラフ以外の形式で提示してもよい。この場合、所定レベル以上の重要度を示す文字・記号、文番号は、色を変える、網掛けする等、特殊な形式で表示するのが好ましい。
【0055】
また、全体要約に係る要約条件(要約率、要約として抽出する文の数)は、ユーザがその都度指定することなく、予め設定・保持しておいたものを使用してもよい。さらに、要約対象文書の長さを装置側で測定し、その長さに応じて要約条件を自動的に設定してもよい。
【0056】
また、上記実施例においては、全ての要約対象文書について、各文の重要度計算を行っているが、各文の重要度が重要度データベース108に登録された要約対象文書については、この登録データを利用することにより、全体要約時の重要度計算を省略することも可能である。なお、文書データベース107に登録した文書については、全て、装置(本文書要約装置を搭載したコンピュータ)のアイドリング時間等を利用して、予め各文の重要度計算を行って重要度データベース108に登録しておくのが望ましい。
【0057】
また、部分要約範囲の指定においては、マウス以外の範囲指定可能な任意の入力デバイスを使用することも可能である。
【0058】
また、上記実施例においては、各機能を同一の計算機に搭載することを想定していたが、これに限定されるものではなく、ネットワーク上の複数の計算機や処理装置に各機能を分散して搭載してもよい。
【0059】
また、上記実施例においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【0060】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0061】
また、プログラムコードを供給するための記録媒体としては、たとえば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、DVD−RAM、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0062】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0063】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0064】
以下に本願発明の要点を総括する。
【0065】
[実施態様1] 文書中の文の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約手段と、
前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示する表示制御手段と、
前記表示制御手段により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定手段と、
前記指定手段により指定された部分に係る部分要約文書を生成する部分要約手段と、
を有することを特徴とする文書要約装置。
【0066】
[実施態様2] 前記表示制御手段は、指示操作に応答して前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様1に記載の文書要約装置。
【0067】
[実施態様3] 前記表示制御手段は、前記文書の長さを判定する判定手段を有し、該判定手段により長文書であると判定された場合に、前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様1に記載の文書要約装置。
【0068】
[実施態様4] 前記判定手段は、前記文書の文字数に対する前記要約文書の文字数の比率が所定の閾値以下の場合に、該文書が長文書であると判定することを特徴とする実施態様3に記載の文書要約装置。
【0069】
[実施態様5] 前記表示制御手段は、グラフ形式で前記文書の各文の重要度の分布状況を表示することを特徴とする基本構成、実施態様1〜4の何れかに記載の文書要約装置。
【0070】
[実施態様6] 前記指定手段は、前記表示制御手段により前記文書の各文の重要度の分布状況が表示された画面上で選択された範囲を部分要約の範囲として指定することを特徴とする基本構成、実施態様1〜5の何れかに記載の文書要約装置。
【0071】
[実施態様7] 前記部分要約手段は、前記全体要約手段より高い要約率で要約することを特徴とする基本構成、実施態様1〜6の何れかに記載の文書要約装置。
【0072】
[実施態様8] 前記部分要約手段は、前記全体要約手段により生成された全体要約文書の文の数と略同数の文からなる部分要約文書を生成することを特徴とする基本構成、実施態様1〜6の何れかに記載の文書要約装置。
【0073】
[実施態様9] 前記部分要約手段は、前記指定手段により指定された範囲内で各文の重要度を前記重要度算出手段により再度算出させる再算出手段を有し、該再算出手段により算出された重要度を利用して部分要約文書を生成することを特徴とする基本構成、実施態様1〜8の何れかに記載の文書要約装置。
【0074】
[実施態様10] 前記部分要約手段は、前記全体要約文書を生成する際に用いた重要度と前記再算出手段により算出された重要度とを所定の比率で混合した重要度に基づいて部分要約文書を生成することを特徴とする実施態様9に記載の文書要約装置。
【0075】
[実施態様11] 文書中の文の重要度を算出する重要度算出工程と、
前記重要度算出工程により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約工程と、
前記重要度算出工程により算出された前記文書の各文の重要度の分布状況を表示する表示制御工程と、
前記表示制御工程により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定工程と、
前記指定工程により指定された部分に係る部分要約文書を生成する部分要約工程と、
を有することを特徴とする文書要約方法。
【0076】
[実施態様12] 前記表示制御工程は、指示操作に応答して前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様11に記載の文書要約方法。
【0077】
[実施態様13] 前記表示制御工程は、前記文書の長さを判定する判定工程を有し、該判定工程により長文書であると判定された場合に、前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様11に記載の文書要約方法。
【0078】
[実施態様14] 前記判定工程は、前記文書の文字数に対する前記要約文書の文字数の比率が所定の閾値以下の場合に、該文書が長文書であると判定することを特徴とする実施態様13に記載の文書要約方法。
【0079】
[実施態様15] 前記表示制御工程は、グラフ形式で前記文書の各文の重要度の分布状況を表示することを特徴とする実施態様11〜14の何れかに記載の文書要約方法。
【0080】
[実施態様16] 前記指定工程は、前記表示制御工程により前記文書の各文の重要度の分布状況が表示された画面上で選択された範囲を部分要約の範囲として指定することを特徴とする実施態様11〜15の何れかに記載の文書要約方法。
【0081】
[実施態様17] 前記部分要約工程は、前記全体要約工程より高い要約率で要約することを特徴とする実施態様11〜16の何れかに記載の文書要約方法。
【0082】
[実施態様18] 前記部分要約工程は、前記全体要約工程により生成された全体要約文書の文の数と略同数の文からなる部分要約文書を生成することを特徴とする実施態様11〜16の何れかに記載の文書要約方法。
【0083】
[実施態様19] 前記部分要約工程は、前記指定工程により指定された範囲内で各文の重要度を前記重要度算出工程により再度算出させる再算出工程を有し、該再算出工程により算出された重要度を利用して部分要約文書を生成することを特徴とする実施態様11〜18の何れかに記載の文書要約方法。
【0084】
[実施態様20] 前記部分要約工程は、前記全体要約文書を生成する際に用いた重要度と前記再算出工程により算出された重要度とを所定の比率で混合した重要度に基づいて部分要約文書を生成することを特徴とする実施態様19に記載の文書要約方法。
【0085】
[実施態様21] 文書中の文の重要度を算出し、算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成し、前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示し、表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定し、指定された部分に係る部分要約文書を生成する内容を有することを特徴とする制御プログラム。
【0086】
【発明の効果】
以上説明したように、本発明によれば、文書の構造化の有無、文書の長短等の文書の形態に左右されることなく高精度に要約し得る文書要約装置を実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る文書要約装置の機能を示す機能ブロック図である。
【図2】上記の機能を搭載した文書要約装置のハードウェアの概略構成を示すブロック図である。
【図3】文書要約処理を示すフローチャートである。
【図4】長文書判定機能を持たせた場合の機能ブロック図である。
【図5】文単位での重要度の分布状況の表示例を示す図である。
【図6】部分要約範囲の指定例を示す図である。
【符号の説明】
101:ユーザ入力受信部
102:文書獲得部
103:重要度計算部
104:重要度管理部
105:出力データ生成部
106:表示部
107:文書データベース
108:重要度データベース
109:長文書判定部
201:入力装置
202:表示装置
203:ROM
204:RAM
205:CPU
206:ディスク
Claims (1)
- 文書中の文の重要度を算出する重要度算出手段と、
前記重要度算出手段により算出された各文の重要度に基づいて、前記文書全体に係る全体要約文書を生成する全体要約手段と、
前記重要度算出手段により算出された前記文書の各文の重要度の分布状況を表示する表示制御手段と、
前記表示制御手段により表示された各文の重要度の分布状況に基づいて、前記文書の一部を指定する指定手段と、
前記指定手段により指定された部分に係る部分要約文書を生成する部分要約手段と、
を有することを特徴とする文書要約装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003003602A JP2004220111A (ja) | 2003-01-09 | 2003-01-09 | 文書要約装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003003602A JP2004220111A (ja) | 2003-01-09 | 2003-01-09 | 文書要約装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004220111A true JP2004220111A (ja) | 2004-08-05 |
Family
ID=32894820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003003602A Pending JP2004220111A (ja) | 2003-01-09 | 2003-01-09 | 文書要約装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004220111A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005259088A (ja) * | 2004-03-15 | 2005-09-22 | Kousaku Ookubo | 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品 |
-
2003
- 2003-01-09 JP JP2003003602A patent/JP2004220111A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005259088A (ja) * | 2004-03-15 | 2005-09-22 | Kousaku Ookubo | 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7085999B2 (en) | Information processing system, proxy server, web page display method, storage medium, and program transmission apparatus | |
EP1600862A2 (en) | Method and system for mapping content between a starting template and a target template | |
US20080021891A1 (en) | Searching a document using relevance feedback | |
JP2000227915A (ja) | 複写システム及び複写方法 | |
JP4299963B2 (ja) | 意味的まとまりに基づいて文書を分割する装置および方法 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
JP2011076566A (ja) | 情報処理装置、端末装置、サーバ装置、通信システム、表示制御方法、プログラム、およびコンピュータ読取り可能な記録媒体 | |
JP2008083769A (ja) | 文書検索装置および文書検索方法 | |
JP2007148517A (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP2007048273A (ja) | 出願文書情報作成装置、説明情報抽出装置、出願文書情報作成方法、説明情報抽出方法 | |
JPH07129605A (ja) | 文書検索装置 | |
JP3647283B2 (ja) | 文書情報抽出装置 | |
JP2009129009A (ja) | 特許審査支援システム、特許審査支援方法、および特許審査支援プログラム | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP2007140639A (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
JP2009265770A (ja) | 重要文提示システム | |
JP2004220111A (ja) | 文書要約装置 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP5382965B2 (ja) | 出願文書情報作成装置、出願文書情報作成方法、及びプログラム | |
JP5564442B2 (ja) | 文章検索装置 | |
JP4000332B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2009199164A (ja) | 文書管理装置、文書管理方法及び記録媒体 | |
JP2003203091A (ja) | 文書速読支援装置、文書速読支援方法、文書速読支援プログラムおよび記録媒体 | |
JP5147651B2 (ja) | 文書データ内を検索するシステム、方法、およびプログラム |