JP4074687B2 - 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4074687B2
JP4074687B2 JP20198897A JP20198897A JP4074687B2 JP 4074687 B2 JP4074687 B2 JP 4074687B2 JP 20198897 A JP20198897 A JP 20198897A JP 20198897 A JP20198897 A JP 20198897A JP 4074687 B2 JP4074687 B2 JP 4074687B2
Authority
JP
Japan
Prior art keywords
document
summary sentence
similar
sentence
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20198897A
Other languages
English (en)
Other versions
JPH1145270A (ja
Inventor
和宣 浮川
初子 浮川
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP20198897A priority Critical patent/JP4074687B2/ja
Publication of JPH1145270A publication Critical patent/JPH1145270A/ja
Application granted granted Critical
Publication of JP4074687B2 publication Critical patent/JP4074687B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、要約文の作成対象となる対象文書を入力して、前記対象文書の要約文を作成する際に、対象文書以外の文書を参照してより適正な要約文の作成を可能とした要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
コンピュータの発達に伴って、自然言語処理の研究開発が盛んになっている。ここで、自然言語とは、人と人とが情報を伝達するためのメディアであり、FORTRANなどのプログラム言語に対する概念のことである。この自然言語処理の発達によっては、人が普段使用している言葉でコンピュータに指示を与えることができ、大量の文書の要約を行わせることが可能となる。インターネットの普及も相まって、世の中に情報が溢れかえっている今日にあっては、自然言語処理に対する人々の関心も非常に大きなものとなってきている。
【0003】
上述した通り、文書を要約するための技術は、自然言語処理の究極の目的の一つである。コンピュータが文書を自動的に要約して提供することができるのであれば、世の中に溢れている情報から必要な情報を得ることも容易になり、また、文章から重要なキーワードを自動的に抽出する際の精度も向上し、自然言語で書かれた文書そのものをコンピュータに与えて何らかの処理を行われるための情報とすることもできる。
【0004】
このように、コンピュータによる要約文の自動生成に期待が高まる中、近年、自動文書要約機能を搭載したアプリケーションや、要約文作成支援システムが提供されている。これらの技術によれば、例えば、ワードプロセッサで読み出した文書(対象文書)を解析し、自動的に要約文を画面表示することができる。
【0005】
【発明が解決しようとする課題】
しかしながら、上記従来の技術においては、要約文を作成する際に、その要約文の元の文書(すなわち、要約の対象文書)中に使用されている文章のみを用いて、最終的な要約文を作成しているため、元の文書が悪文であったり、言葉たらずで不的確な文書であった場合に、要約文自体も悪文・不的確な文書となり、適切な要約文の作成が行えないという問題点があった。
【0006】
また、上記従来の技術によれば、元の文書から名詞および名詞句を抽出して、重要度の高い順に名詞句リストを生成し、さらに名詞句リストを用いて元の文書中の各センテンスの重要度を判定してランキングリストを生成し、そのランキングリストに基づいて要約文を生成しているため、元の文書が短く、文章情報量が少ない場合には、必ずしも適切な要約文を作成できないという問題点もあった。
【0007】
また、元の文書を作成した本人が、従来の技術で自動作成した要約文の手直し(校正)を行う場合に、本人の文書作成能力自体は変わらないので、やはり悪文・不的確な文書の要約文を作成してしまうという不具合があった。
【0008】
本発明は上記に鑑みてなされたものであって、要約文の作成対象となる対象文書(元の文書)が、悪文、言葉たらずで不的確な文書、短い文書である場合でも、適切な要約文を作成できるようにすることを目的とする。
【0009】
【課題を解決するための手段】
上記目的を達成するため、の要約文作成支援システムは、要約文の作成対象となる対象文書を入力して、前記対象文書の要約文を作成する要約文作成支援システムにおいて、予め複数の文書を記憶した文書記憶手段と、前記文書記憶手段から前記対象文書と類似する類似文書を検索する類似文書検索手段と、前記対象文書および類似文書を一つの文書に統合して統合文書を生成する統合文書生成手段と、前記統合文書生成手段で生成した統合文書から名詞および名詞句を抽出し、重要度の高い順に名詞句リストを生成する名詞句リスト生成手段と、前記名詞句リスト生成手段で生成した名詞句リストに基づいて、前記統合文書中の各センテンスの重要度を判定し、ランキングリストを生成するランキングリスト生成手段と、前記ランキングリスト生成手段で生成したランキングリストに基づいて、要約文を生成する要約文生成手段と、を備えたものである。
【0010】
また、の要約文作成支援システムは、さらに、要約文の作成に前記類似文書を使用するか否かを指定するための指定手段を備え、前記指定手段を介して前記類似文書を使用しないことが指定されている場合、前記統合文書作成手段は、前記統合文書を生成しないようにするものである。
【0011】
さらに、のコンピュータ読み取り可能な記録媒体は、上記の要約文作成支援システムの各手段としてコンピュータを機能させるためのプログラムを記録したものである。
【0012】
【発明の実施の形態】
以下、本発明の要約文作成支援システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体の一実施の形態について、添付の図面を参照しつつ詳細に説明する。
【0013】
図1は、本実施の形態の要約文作成支援システムのハードウエア構成を示すブロック構成図である。図1において、100はCPUを、101はROMを、102はRAMを、103は要約文の作成を支援する文書要約支援ソフト104を格納したハードディスク装置を、105はキーボード,マウス等の入力装置を、106はCRT等のディスプレイを、107は上記各部を接続するバスをそれぞれ示している。
【0014】
なお、図示は省略するが、図1に示す要約文作成支援システムに、フロッピーディスクドライブ装置や、CD−ROMドライブ装置、ネットワークを介して情報の送受信を行うための通信装置等を接続することができる。
【0015】
図2は、文書要約支援ソフト104の処理を示す概略ブロック図である。文書要約支援ソフト104は、要約文の作成対象となる対象文書201を入力し、品詞等の情報を格納した辞書200aおよび文法ルールを格納した文法辞書200bを用いて対象文書201の解析処理を行い、対象文書201から名詞または名詞句を抽出し、名詞句リスト203を生成する自然言語処理モジュール200と、自然言語処理モジュール200で生成した名詞句リスト203に基づいて、対象文書201中の各センテンスの重要度を判定し、ランキングリスト205を生成する要約エンジン204と、を備え、ランキングリスト205中の上位のセンテンスから予め定めた数のセンテンスを選択し、要約文を作成するものである。
【0016】
また、文書要約支援ソフト104は、対象文書201に類似する文書を参照してより適正な要約文を作成することを可能にするため、対象文書201に類似する文書を検索するための類似文書検索エンジン206と、対象文書201および類似文書検索エンジン206で検索した結果の文書を一つの文書に統合して統合文書208を生成する統合文書生成モジュール207と、を備えている。そして、文書要約支援ソフト104は、自然言語処理モジュール200および要約エンジン204を用いて、この統合文書生成モジュール207で生成した統合文書208の要約文を生成し、対象文書201の要約文とするものである。
【0017】
図3は、上記類似文書検索エンジン206の処理を示す概略ブロック図である。この類似文書検索エンジン206は、ベクトル空間法を用いた検索処理を行うものであって、対象文書201の類似文書を検索するために、図示しない文書DB(ハードディスク装置103であっても良い)中に保存されている保存文書300をベクター表現に変換して転置ファイル302に登録する処理と、転置ファイル302を用いて対象文書201に類似する保存文書300を検索する処理とを行うものである。なお、図3において、図2と同一の構成については同一の符号を付すことにする。
【0018】
保存文書300を転置ファイル302に登録する処理において、データベース・ビルド・コンポーネント301は、自然言語処理モジュール200で生成した対象文書201の名詞句リスト203を入力し、入力した名詞句リスト203の各名詞句について、所定の統計情報を付与し、付与した統計情報を用いて保存文書300のベクター表現を生成し、転置ファイル302に登録する。
【0019】
また、対象文書201に類似する保存文書300を検索する処理において、クエリー・ビルド・コンポーネント303は、自然言語処理モジュール200から対象文書201の名詞句リスト203を入力し、入力した名詞句リスト203中の各名詞句に対して所定の統計情報を付与し、付与した統計情報を用いて対象文書201をベクター表現に変換したクエリー・ドキュメント304を生成する。
【0020】
検索エンジン(例えば、CLARITECH社のCLARIT)305は、クエリー・ビルド・コンポーネント303で生成したクエリー・ドキュメント304を入力し、転置ファイル302中の保存文書300のベクター表現とクエリー・ドキュメント304(対象文書201のベクター表現)とを比較して、クエリー・ドキュメント304との類似度に応じたスコアを各保存文書300に付与した後、所定の閾値を超えるスコアの保存文書300を選択して、保存文書リストを検索結果として出力する。
【0021】
次に、上述した構成を備えた要約文作成支援システムの動作について説明する。図4は、要約文の作成処理を示すフローチャートである。
【0022】
文書要約支援ソフト104は、入力装置105を介して要約文の作成指定を入力すると(S401)、類似文書を使用した要約文の生成が指定されたか否かを判定する(S402)。なお、要約文の作成指定には、作成する要約文の量の指定が含まれる。要約文の量の指定には、要約文のセンテンス数,単語数,対象文書201に対する割合等がある。
【0023】
類似文書を使用した要約文の作成が指定された場合、文書要約支援ソフト104は、対象文書201を入力し、自然言語処理モジュール200において、対象文書201の名詞句リスト203を生成する(S403)。すなわち、対象文書201を入力し、品詞等の情報を格納した辞書200aおよび文法ルールを格納した文法辞書200bを用いて、形態素解析,主要な語または句の識別,意味情報の付与,構文解析,参照表現の解析,同一指示物の判定等の処理を行う。そして、解析処理の結果を用いて、対象文書201の各センテンスから名詞句を抽出し、抽出した名詞句を重要度の高い順に配列した名詞句リスト203を出力する。
【0024】
類似文書検索エンジン206は、自然言語処理モジュール200から名詞句リスト203を入力し、上述したようにして対象文書201の類似文書を検索し、検索した類似文書のリストを統合文書生成モジュール207に出力する(S404)。
【0025】
統合文書生成モジュール207は、類似文書検索エンジン206から入力した類似文書のリストに該当する保存文書300を入力すると共に、対象文書201を入力し、入力した保存文書300および対象文書201を一つの文書に統合した統合文書208を生成する(S405)。なお、上記類似文書検索エンジン206による検索においては、複数の類似文書が検索結果として得られることがある。このような場合であっても、複数の類似文書、即ち、複数の保存文書300および対象文書201からなる統合文書208が生成される。
【0026】
統合文書生成モジュール207で統合文書208が生成されると、自然言語処理モジュール200は、生成された統合文書208を入力し、対象文書201の名詞句リスト203を生成したようにして、統合文書208の名詞句リスト203を生成する(S406)。
【0027】
続いて、要約エンジン204は、自然言語処理モジュール200から入力した統合文書208の名詞句リスト203中の各名詞句について、統合文書208中での重要度に応じた重み付け処理、各名詞句に対する重み付けの結果を用いて統合文書208中の各センテンスの重要度を判定する処理、および重要度の高いセンテンスが上位となるように各センテンスにランキング付けを行う処理を行い、ランキングに応じてセンテンスを並び替えたランキングリスト205を生成する(S407)。
【0028】
その後、文書要約支援ソフト104は、要約エンジン204で生成したランキングリスト205に基づいて、ステップS401で入力した要約文の量の指定に応じた数のセンテンスを上位のランキングから選択し、要約文を生成する(S408)。生成した要約文は、ディスプレイ106に表示され、またはハードディスク装置103等に保存される。
【0029】
一方、ステップS402で類似文書の使用が指定されなかった場合には、ステップS409に進み、自然言語処理モジュール200において、ステップS403と同様に対象文書201の名詞句リスト203が生成される。
【0030】
そして、要約エンジン204は、自然言語処理モジュール200から入力した対象文書201の名詞句リスト203に基づいて、ステップS407と同様にして対象文書201のランキングリスト205を生成する(S410)。
【0031】
その後、ステップS408に進み、ステップS410で生成したランキングリスト205に基づいて、対象文書201の要約文が生成される
【0032】
このように、本実施の形態の要約文作成支援システムによれば、対象文書201の要約文を作成するだけでなく、対象文書201の類似文書を用いて要約文を作成することができるため、対象文書201が、悪文、言葉たらずで不的確な文書、短い文書である場合でも、適切な要約文を作成することができる。
【0033】
なお、本実施の形態においては、ベクトル空間法による検索処理を用いて対象文書201の類似文書を検索することにしたが、ベクトル空間法による検索処理ではなく、ブーリアン検索による検索処理を用いることにしても良い。
【0034】
また、本実施の形態においては、類似文書検索エンジン206を文書要約支援ソフト104の一つの機能として説明したが、これを検索サーバ等に持たせ、ネットワークを介して検索処理を行うことにしても良い。
【0035】
さらに、本実施の形態で説明した要約文作成支援システムは、予め用意されたプログラムをコンピュータやワークステーションで実行することによって実現される。このプログラムは、ハードディスク,フロッピーディスク,CD−ROM,MO,DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、このプログラムは、上記記録媒体を介して、またはネットワークを介して配布することができる。
【0036】
【発明の効果】
以上説明したように、本発明の要約文作成支援システムによれば、要約文の作成対象となる対象文書を入力して、対象文書の要約文を作成する要約文作成支援システムにおいて、予め複数の文書を記憶した文書記憶手段と、文書記憶手段から対象文書と類似する類似文書を検索する類似文書検索手段と、対象文書および類似文書を一つの文書に統合して統合文書を生成する統合文書生成手段と、統合文書生成手段で生成した統合文書から名詞および名詞句を抽出し、重要度の高い順に名詞句リストを生成する名詞句リスト生成手段と、名詞句リスト生成手段で生成した名詞句リストに基づいて、統合文書中の各センテンスの重要度を判定し、ランキングリストを生成するランキングリスト生成手段と、ランキングリスト生成手段で生成したランキングリストに基づいて、要約文を生成する要約文生成手段と、を備えたため、要約文の作成対象となる対象文書(元の文書)が、悪文、言葉たらずで不的確な文書、短い文書である場合でも、適切な要約文を作成できる。
【0037】
元の文書を作成した本人が、自動作成した要約文の手直し(校正)を行う場合に、より適切な表現で記述された類似文書の文章(センテンス)を参照することになるので、より適切な要約文の手直しを行うことができる。
【0038】
また、本発明の要約文作成支援システムによれば、さらに、要約文の作成に類似文書を使用するか否かを指定するための指定手段を備え、指定手段を介して類似文書を使用しないことが指定されている場合、統合文書作成手段は、統合文書を生成しないようにするため、要約文の作成時に、対象文書のみで要約文を作成するか、類似文書を用いて要約文を作成するかを選択でき、利便性の向上を図ることができる。
【0039】
さらに、本発明のコンピュータ読み取り可能な記録媒体によれば、上記の要約文作成支援システムの各手段としてコンピュータを機能させるためのプログラムを記録したため、このプログラムをコンピュータに実行させることにより、要約文の作成対象となる対象文書(元の文書)が、悪文、言葉たらずで不的確な文書、短い文書である場合でも、適切な要約文を作成できる要約文作成支援システムを実現することができる。
【図面の簡単な説明】
【図1】本実施の形態の要約文作成支援システムのハードウエア構成を示すブロック構成図である。
【図2】本実施の形態の要約文作成支援システムにおいて、文書要約支援ソフトの処理を示す概略ブロック図である。
【図3】本実施の形態の要約文作成支援システムにおいて、類似文書検索エンジンの処理を示す概略ブロック図である。
【図4】本実施の形態の要約文作成支援システムにおいて、要約文の作成処理を示すフローチャートである。
【符号の説明】
100 CPU
101 ROM
102 RAM
103 ハードディスク装置
104 文書要約支援ソフト
105 入力装置
106 ディスプレイ
107 バス
200 自然言語処理モジュール
200a 辞書
200b 文法辞書
201 対象文書
203 名詞句リスト
204 要約エンジン
205 ランキングリスト
206 類似文書検索エンジン
207 統合文書生成モジュール
208 統合文書
300 保存文書
301 データベース・ビルド・コンポーネント
302 転置ファイル
303 クエリー・ビルド・コンポーネント
304 クエリー・ドキュメント
305 検索エンジン

Claims (3)

  1. 要約文の作成対象となる対象文書を入力して、対象文書の要約文を作成する要約文作成支援システムにおいて、
    予め複数の文書を記憶した文書記憶手段と、
    前記文書記憶手段から前記対象文書と類似する類似文書を検索する類似文書検索手段と、
    前記対象文書および類似文書を一つの文書に統合して統合文書を生成する統合文書生成手段と、
    前記統合文書生成手段で生成した統合文書を用いて要約文を生成する要約文生成手段と、
    を備えたことを特徴とする要約文作成支援システム。
  2. さらに、要約文の作成に前記類似文書を使用するか否かを指定するための指定手段を備え、
    前記指定手段を介して前記類似文書を使用しないことが指定されている場合、前記統合文書作成手段は、前記統合文書を生成しないようにすることを特徴とする請求項1記載の要約文作成支援システム。
  3. 前記請求項1または2に記載の要約文作成支援システムの各手段としてコンピュータを機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP20198897A 1997-07-28 1997-07-28 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4074687B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20198897A JP4074687B2 (ja) 1997-07-28 1997-07-28 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20198897A JP4074687B2 (ja) 1997-07-28 1997-07-28 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH1145270A JPH1145270A (ja) 1999-02-16
JP4074687B2 true JP4074687B2 (ja) 2008-04-09

Family

ID=16450088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20198897A Expired - Fee Related JP4074687B2 (ja) 1997-07-28 1997-07-28 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4074687B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
JP2009211124A (ja) * 2008-02-29 2009-09-17 Oki Electric Ind Co Ltd ワード提示システム、方法及びプログラム、並びに情報検索システム
JP5388038B2 (ja) * 2009-12-28 2014-01-15 独立行政法人情報通信研究機構 文書要約装置、文書処理装置、及びプログラム

Also Published As

Publication number Publication date
JPH1145270A (ja) 1999-02-16

Similar Documents

Publication Publication Date Title
US7587389B2 (en) Question answering system, data search method, and computer program
US8010342B2 (en) Word usage analyzer
US6678677B2 (en) Apparatus and method for information retrieval using self-appending semantic lattice
US7526474B2 (en) Question answering system, data search method, and computer program
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3266586B2 (ja) データ分析システム
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2007141090A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
KR20040025642A (ko) 확인 문장을 검색하기 위한 방법 및 시스템
JP2011118689A (ja) 検索方法及びシステム
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP4499179B1 (ja) 端末装置
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001101207A (ja) 文書要約装置
JPH11195041A (ja) 文書検索装置、方法及び記録媒体
JPH1145266A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145269A (ja) 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140201

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees