JPH1145270A - 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JPH1145270A JPH1145270A JP9201988A JP20198897A JPH1145270A JP H1145270 A JPH1145270 A JP H1145270A JP 9201988 A JP9201988 A JP 9201988A JP 20198897 A JP20198897 A JP 20198897A JP H1145270 A JPH1145270 A JP H1145270A
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- noun phrase
- list
- summary sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
作成する際に、対象文書以外の文書を参照してより適正
な要約文の作成を可能とすること。 【解決手段】 要約文の作成対象となる対象文書201
と類似する類似文書を検索する類似文書検索エンジン2
06と、対象文書201および類似文書を一つの文書に
統合して統合文書208を生成する統合文書生成モジュ
ール207と、統合文書生成モジュール207で生成し
た統合文書208から名詞句を抽出し、重要度の高い順
に名詞句リスト203を生成する自然言語処理モジュー
ル200と、名詞句リスト203に基づいて、統合文書
208中の各センテンスの重要度を判定し、ランキング
リスト205を生成する要約エンジン204と、を有
し、生成したランキングリスト205に基づいて、要約
文を生成する文書要約支援ソフトを備えている。
Description
となる対象文書を入力して、前記対象文書の要約文を作
成する際に、対象文書以外の文書を参照してより適正な
要約文の作成を可能とした要約文作成支援システムおよ
びそのシステムとしてコンピュータを機能させるための
プログラムを記録したコンピュータ読み取り可能な記録
媒体に関する。
処理の研究開発が盛んになっている。ここで、自然言語
とは、人と人とが情報を伝達するためのメディアであ
り、FORTRANなどのプログラム言語に対する概念
のことである。この自然言語処理の発達によっては、人
が普段使用している言葉でコンピュータに指示を与える
ことができ、大量の文書の要約を行わせることが可能と
なる。インターネットの普及も相まって、世の中に情報
が溢れかえっている今日にあっては、自然言語処理に対
する人々の関心も非常に大きなものとなってきている。
は、自然言語処理の究極の目的の一つである。コンピュ
ータが文書を自動的に要約して提供することができるの
であれば、世の中に溢れている情報から必要な情報を得
ることも容易になり、また、文章から重要なキーワード
を自動的に抽出する際の精度も向上し、自然言語で書か
れた文書そのものをコンピュータに与えて何らかの処理
を行われるための情報とすることもできる。
自動生成に期待が高まる中、近年、自動文書要約機能を
搭載したアプリケーションや、要約文作成支援システム
が提供されている。これらの技術によれば、例えば、ワ
ードプロセッサで読み出した文書(対象文書)を解析
し、自動的に要約文を画面表示することができる。
来の技術においては、要約文を作成する際に、その要約
文の元の文書(すなわち、要約の対象文書)中に使用さ
れている文章のみを用いて、最終的な要約文を作成して
いるため、元の文書が悪文であったり、言葉たらずで不
的確な文書であった場合に、要約文自体も悪文・不的確
な文書となり、適切な要約文の作成が行えないという問
題点があった。
から名詞および名詞句を抽出して、重要度の高い順に名
詞句リストを生成し、さらに名詞句リストを用いて元の
文書中の各センテンスの重要度を判定してランキングリ
ストを生成し、そのランキングリストに基づいて要約文
を生成しているため、元の文書が短く、文章情報量が少
ない場合には、必ずしも適切な要約文を作成できないと
いう問題点もあった。
技術で自動作成した要約文の手直し(校正)を行う場合
に、本人の文書作成能力自体は変わらないので、やはり
悪文・不的確な文書の要約文を作成してしまうという不
具合があった。
て、要約文の作成対象となる対象文書(元の文書)が、
悪文、言葉たらずで不的確な文書、短い文書である場合
でも、適切な要約文を作成できるようにすることを目的
とする。
め、請求項1の要約文作成支援システムは、要約文の作
成対象となる対象文書を入力して、前記対象文書の要約
文を作成する要約文作成支援システムにおいて、予め複
数の文書を記憶した文書記憶手段と、前記文書記憶手段
から前記対象文書と類似する類似文書を検索する類似文
書検索手段と、前記対象文書および類似文書を一つの文
書に統合して統合文書を生成する統合文書生成手段と、
前記統合文書生成手段で生成した統合文書から名詞およ
び名詞句を抽出し、重要度の高い順に名詞句リストを生
成する名詞句リスト生成手段と、前記名詞句リスト生成
手段で生成した名詞句リストに基づいて、前記統合文書
中の各センテンスの重要度を判定し、ランキングリスト
を生成するランキングリスト生成手段と、前記ランキン
グリスト生成手段で生成したランキングリストに基づい
て、要約文を生成する要約文生成手段と、を備えたもの
である。
は、さらに、要約文の作成に前記類似文書を使用するか
否かを指定するための指定手段を備え、前記指定手段を
介して前記類似文書を使用しないことが指定されている
場合、前記統合文書作成手段は、前記統合文書を生成し
ないようにするものである。
可能な記録媒体は、前記請求項1または2に記載の要約
文作成支援システムの各手段としてコンピュータを機能
させるためのプログラムを記録したものである。
ステムおよびそのシステムの各手段としてコンピュータ
を機能させるためのプログラムを記録したコンピュータ
読み取り可能な記録媒体の一実施の形態について、添付
の図面を参照しつつ詳細に説明する。
ステムのハードウエア構成を示すブロック構成図であ
る。図1において、100はCPUを、101はROM
を、102はRAMを、103は要約文の作成を支援す
る文書要約支援ソフト104を格納したハードディスク
装置を、105はキーボード,マウス等の入力装置を、
106はCRT等のディスプレイを、107は上記各部
を接続するバスをそれぞれ示している。
文作成支援システムに、フロッピーディスクドライブ装
置や、CD−ROMドライブ装置、ネットワークを介し
て情報の送受信を行うための通信装置等を接続すること
ができる。
を示す概略ブロック図である。文書要約支援ソフト10
4は、要約文の作成対象となる対象文書201を入力
し、品詞等の情報を格納した辞書200aおよび文法ル
ールを格納した文法辞書200bを用いて対象文書20
1の解析処理を行い、対象文書201から名詞または名
詞句を抽出し、名詞句リスト203を生成する自然言語
処理モジュール200と、自然言語処理モジュール20
0で生成した名詞句リスト203に基づいて、対象文書
201中の各センテンスの重要度を判定し、ランキング
リスト205を生成する要約エンジン204と、を備
え、ランキングリスト205中の上位のセンテンスから
予め定めた数のセンテンスを選択し、要約文を作成する
ものである。
文書201に類似する文書を参照してより適正な要約文
を作成することを可能にするため、対象文書201に類
似する文書を検索するための類似文書検索エンジン20
6と、対象文書201および類似文書検索エンジン20
6で検索した結果の文書を一つの文書に統合して統合文
書208を生成する統合文書生成モジュール207と、
を備えている。そして、文書要約支援ソフト104は、
自然言語処理モジュール200および要約エンジン20
4を用いて、この統合文書生成モジュール207で生成
した統合文書208の要約文を生成し、対象文書201
の要約文とするものである。
の処理を示す概略ブロック図である。この類似文書検索
エンジン206は、ベクトル空間法を用いた検索処理を
行うものであって、対象文書201の類似文書を検索す
るために、図示しない文書DB(ハードディスク装置1
03であっても良い)中に保存されている保存文書30
0をベクター表現に変換して転置ファイル302に登録
する処理と、転置ファイル302を用いて対象文書20
1に類似する保存文書300を検索する処理とを行うも
のである。なお、図3において、図2と同一の構成につ
いては同一の符号を付すことにする。
録する処理において、データベース・ビルド・コンポー
ネント301は、自然言語処理モジュール200で生成
した対象文書201の名詞句リスト203を入力し、入
力した名詞句リスト203の各名詞句について、所定の
統計情報を付与し、付与した統計情報を用いて保存文書
300のベクター表現を生成し、転置ファイル302に
登録する。
300を検索する処理において、クエリー・ビルド・コ
ンポーネント303は、自然言語処理モジュール200
から対象文書201の名詞句リスト203を入力し、入
力した名詞句リスト203中の各名詞句に対して所定の
統計情報を付与し、付与した統計情報を用いて対象文書
201をベクター表現に変換したクエリー・ドキュメン
ト304を生成する。
H社のCLARIT)305は、クエリー・ビルド・コ
ンポーネント303で生成したクエリー・ドキュメント
304を入力し、転置ファイル302中の保存文書30
0のベクター表現とクエリー・ドキュメント304(対
象文書201のベクター表現)とを比較して、クエリー
・ドキュメント304との類似度に応じたスコアを各保
存文書300に付与した後、所定の閾値を超えるスコア
の保存文書300を選択して、保存文書リストを検索結
果として出力する。
援システムの動作について説明する。図4は、要約文の
作成処理を示すフローチャートである。
05を介して要約文の作成指定を入力すると(S40
1)、類似文書を使用した要約文の生成が指定されたか
否かを判定する(S402)。なお、要約文の作成指定
には、作成する要約文の量の指定が含まれる。要約文の
量の指定には、要約文のセンテンス数,単語数,対象文
書201に対する割合等がある。
れた場合、文書要約支援ソフト104は、対象文書20
1を入力し、自然言語処理モジュール200において、
対象文書201の名詞句リスト203を生成する(S4
03)。すなわち、対象文書201を入力し、品詞等の
情報を格納した辞書200aおよび文法ルールを格納し
た文法辞書200bを用いて、形態素解析,主要な語ま
たは句の識別,意味情報の付与,構文解析,参照表現の
解析,同一指示物の判定等の処理を行う。そして、解析
処理の結果を用いて、対象文書201の各センテンスか
ら名詞句を抽出し、抽出した名詞句を重要度の高い順に
配列した名詞句リスト203を出力する。
処理モジュール200から名詞句リスト203を入力
し、上述したようにして対象文書201の類似文書を検
索し、検索した類似文書のリストを統合文書生成モジュ
ール207に出力する(S404)。
書検索エンジン206から入力した類似文書のリストに
該当する保存文書300を入力すると共に、対象文書2
01を入力し、入力した保存文書300および対象文書
201を一つの文書に統合した統合文書208を生成す
る(S405)。なお、上記類似文書検索エンジン20
6による検索においては、複数の類似文書が検索結果と
して得られることがある。このような場合であっても、
複数の類似文書、即ち、複数の保存文書300および対
象文書201からなる統合文書208が生成される。
208が生成されると、自然言語処理モジュール200
は、生成された統合文書208を入力し、対象文書20
1の名詞句リスト203を生成したようにして、統合文
書208の名詞句リスト203を生成する(S40
6)。
処理モジュール200から入力した統合文書208の名
詞句リスト203中の各名詞句について、統合文書20
8中での重要度に応じた重み付け処理、各名詞句に対す
る重み付けの結果を用いて統合文書208中の各センテ
ンスの重要度を判定する処理、および重要度の高いセン
テンスが上位となるように各センテンスにランキング付
けを行う処理を行い、ランキングに応じてセンテンスを
並び替えたランキングリスト205を生成する(S40
7)。
約エンジン204で生成したランキングリスト205に
基づいて、ステップS401で入力した要約文の量の指
定に応じた数のセンテンスを上位のランキングから選択
し、要約文を生成する(S408)。生成した要約文
は、ディスプレイ106に表示され、またはハードディ
スク装置103等に保存される。
が指定されなかった場合には、ステップS409に進
み、自然言語処理モジュール200において、ステップ
S403と同様に対象文書201の名詞句リスト203
が生成される。
処理モジュール200から入力した対象文書201の名
詞句リスト203に基づいて、ステップS407と同様
にして対象文書201のランキングリスト205を生成
する(S410)。
プS410で生成したランキングリスト205に基づい
て、対象文書201の要約文が生成される
援システムによれば、対象文書201の要約文を作成す
るだけでなく、対象文書201の類似文書を用いて要約
文を作成することができるため、対象文書201が、悪
文、言葉たらずで不的確な文書、短い文書である場合で
も、適切な要約文を作成することができる。
空間法による検索処理を用いて対象文書201の類似文
書を検索することにしたが、ベクトル空間法による検索
処理ではなく、ブーリアン検索による検索処理を用いる
ことにしても良い。
検索エンジン206を文書要約支援ソフト104の一つ
の機能として説明したが、これを検索サーバ等に持た
せ、ネットワークを介して検索処理を行うことにしても
良い。
成支援システムは、予め用意されたプログラムをコンピ
ュータやワークステーションで実行することによって実
現される。このプログラムは、ハードディスク,フロッ
ピーディスク,CD−ROM,MO,DVD等のコンピ
ュータで読み取り可能な記録媒体に記録され、コンピュ
ータによって記録媒体から読み出されることによって実
行される。また、このプログラムは、上記記録媒体を介
して、またはネットワークを介して配布することができ
る。
成支援システム(請求項1)によれば、要約文の作成対
象となる対象文書を入力して、対象文書の要約文を作成
する要約文作成支援システムにおいて、予め複数の文書
を記憶した文書記憶手段と、文書記憶手段から対象文書
と類似する類似文書を検索する類似文書検索手段と、対
象文書および類似文書を一つの文書に統合して統合文書
を生成する統合文書生成手段と、統合文書生成手段で生
成した統合文書から名詞および名詞句を抽出し、重要度
の高い順に名詞句リストを生成する名詞句リスト生成手
段と、名詞句リスト生成手段で生成した名詞句リストに
基づいて、統合文書中の各センテンスの重要度を判定
し、ランキングリストを生成するランキングリスト生成
手段と、ランキングリスト生成手段で生成したランキン
グリストに基づいて、要約文を生成する要約文生成手段
と、を備えたため、要約文の作成対象となる対象文書
(元の文書)が、悪文、言葉たらずで不的確な文書、短
い文書である場合でも、適切な要約文を作成できる。
要約文の手直し(校正)を行う場合に、より適切な表現
で記述された類似文書の文章(センテンス)を参照する
ことになるので、より適切な要約文の手直しを行うこと
ができる。
(請求項2)によれば、さらに、要約文の作成に類似文
書を使用するか否かを指定するための指定手段を備え、
指定手段を介して類似文書を使用しないことが指定され
ている場合、統合文書作成手段は、統合文書を生成しな
いようにするため、要約文の作成時に、対象文書のみで
要約文を作成するか、類似文書を用いて要約文を作成す
るかを選択でき、利便性の向上を図ることができる。
能な記録媒体(請求項3)によれば、請求項1または2
に記載の要約文作成支援システムの各手段としてコンピ
ュータを機能させるためのプログラムを記録したため、
このプログラムをコンピュータに実行させることによ
り、要約文の作成対象となる対象文書(元の文書)が、
悪文、言葉たらずで不的確な文書、短い文書である場合
でも、適切な要約文を作成できる要約文作成支援システ
ムを実現することができる。
ドウエア構成を示すブロック構成図である。
て、文書要約支援ソフトの処理を示す概略ブロック図で
ある。
て、類似文書検索エンジンの処理を示す概略ブロック図
である。
て、要約文の作成処理を示すフローチャートである。
Claims (3)
- 【請求項1】 要約文の作成対象となる対象文書を入力
して、前記対象文書の要約文を作成する要約文作成支援
システムにおいて、 予め複数の文書を記憶した文書記憶手段と、 前記文書記憶手段から前記対象文書と類似する類似文書
を検索する類似文書検索手段と、 前記対象文書および類似文書を一つの文書に統合して統
合文書を生成する統合文書生成手段と、 前記統合文書生成手段で生成した統合文書から名詞およ
び名詞句を抽出し、重要度の高い順に名詞句リストを生
成する名詞句リスト生成手段と、 前記名詞句リスト生成手段で生成した名詞句リストに基
づいて、前記統合文書中の各センテンスの重要度を判定
し、ランキングリストを生成するランキングリスト生成
手段と、 前記ランキングリスト生成手段で生成したランキングリ
ストに基づいて、要約文を生成する要約文生成手段と、 を備えたことを特徴とする要約文作成支援システム。 - 【請求項2】 さらに、要約文の作成に前記類似文書を
使用するか否かを指定するための指定手段を備え、 前記指定手段を介して前記類似文書を使用しないことが
指定されている場合、前記統合文書作成手段は、前記統
合文書を生成しないようにすることを特徴とする請求項
1記載の要約文作成支援システム。 - 【請求項3】 前記請求項1または2に記載の要約文作
成支援システムの各手段としてコンピュータを機能させ
るためのプログラムを記録したことを特徴とするコンピ
ュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20198897A JP4074687B2 (ja) | 1997-07-28 | 1997-07-28 | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20198897A JP4074687B2 (ja) | 1997-07-28 | 1997-07-28 | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1145270A true JPH1145270A (ja) | 1999-02-16 |
JP4074687B2 JP4074687B2 (ja) | 2008-04-09 |
Family
ID=16450088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20198897A Expired - Fee Related JP4074687B2 (ja) | 1997-07-28 | 1997-07-28 | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4074687B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169834A (ja) * | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | 文書のベクトル解析を行うコンピュータおよび方法 |
JP2009211124A (ja) * | 2008-02-29 | 2009-09-17 | Oki Electric Ind Co Ltd | ワード提示システム、方法及びプログラム、並びに情報検索システム |
JP2011138306A (ja) * | 2009-12-28 | 2011-07-14 | National Institute Of Information & Communication Technology | 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム |
-
1997
- 1997-07-28 JP JP20198897A patent/JP4074687B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169834A (ja) * | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | 文書のベクトル解析を行うコンピュータおよび方法 |
JP2009211124A (ja) * | 2008-02-29 | 2009-09-17 | Oki Electric Ind Co Ltd | ワード提示システム、方法及びプログラム、並びに情報検索システム |
JP2011138306A (ja) * | 2009-12-28 | 2011-07-14 | National Institute Of Information & Communication Technology | 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4074687B2 (ja) | 2008-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH1145241A (ja) | かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
US7647303B2 (en) | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program | |
US20020184204A1 (en) | Information retrieval apparatus and information retrieval method | |
US20040167875A1 (en) | Information processing method and system | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
JPH11161682A (ja) | 情報検索装置、情報検索方法及び記録媒体 | |
JP2006004399A (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP4967037B2 (ja) | 情報検索装置、情報検索方法、端末装置、およびプログラム | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP3847273B2 (ja) | 単語分類装置、単語分類方法及び単語分類プログラム | |
JP3198932B2 (ja) | 文書検索装置 | |
JP4499179B1 (ja) | 端末装置 | |
JP4074687B2 (ja) | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2019008476A (ja) | 生成プログラム、生成装置及び生成方法 | |
JP2001249935A (ja) | 文書ダイジェスト作成方法、文書検索装置および記録媒体 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2005056125A (ja) | 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体 | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2019211884A (ja) | 情報検索システム | |
JPH11195041A (ja) | 文書検索装置、方法及び記録媒体 | |
JP4138048B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH1145254A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH1145266A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080128 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110201 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140201 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |