JPH05233689A

JPH05233689A - 文書自動要約方法

Info

Publication number: JPH05233689A
Application number: JP4061052A
Authority: JP
Inventors: Atsuo Kawai; 敦夫河合
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1992-02-18
Filing date: 1992-02-18
Publication date: 1993-09-10

Abstract

(57)【要約】【目的】特定の個人や企業などに対応した文書データ
ベースの自動作成。【構成】入力部１より目的とする個人名や企業名など
の特定名を与える。文書検索部３は、文書ＤＢ２に蓄え
られている文書の中から、入力部１より与えられる特定
名を含む文書を探し出す。文書解析部４は、解析用辞書
５を参照として、文書検索部３の探し出した文書の解析
を行う。要約部６は、文書解析部４における解析結果を
もとに、上記特定名の観点から重要と判断される要約内
容を抽出する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベースに蓄積さ
れている文書の中から特定の個人や企業などについて書
かれた文書を探し出し、目的とする特定の個人や企業な
どに対応した要約内容を自動的に抽出し得る文書自動要
約方法に関するものである。

【０００２】

【従来の技術】例えば、新聞記事の中から特定の個人や
企業について書かれた文書を探し出し、その文書の要約
を行う場合、以下に示す２つの段階が必要になる。先
ず、第１段階として、所望の個人や企業について書かれ
た文書を探し出す。次に、第２段階として、第１段階で
得られたそれぞれの文書について、要約を作成する。上
記第１段階については、従来より用いられているキーワ
ード検索や全文検索を採用することにより、自動的に行
うことが可能である。

【０００３】

【発明が解決しようとする課題】しかしながら、上記第
２段階については、従来の方法により自動要約を行おう
とすると、目的とする特定の個人や企業についての情報
が抜け落ち、要約としての意味をなさなくなることがあ
る。すなわち、従来の自動要約方法は、特定の個人や企
業向けではなく、不特定多数の相手に向けた要約方法で
あり、文書の要約は文書全体の主題等を判断して行われ
る。このため、従来の要約方法では、目的とする特定の
個人や企業についての記述が文書全体の主題にならない
場合、主題と関係のない情報として要約を作成する際に
捨てられてしまい、目的とする特定の個人や企業に対応
した文書データベースを作成することができない。

【０００４】

【課題を解決するための手段】本発明はこのような課題
を解決するためになされたもので、個人名や企業名など
の特定名をあらかじめ定めたうえ、この特定名を含む文
書をデータベースに蓄積されている文書の中から探し出
し、この探し出した文書の解析を解析用辞書を参照とし
て行い、この解析結果をもとにして上記特定名の観点か
ら重要と判断される要約内容を抽出するようにしたもの
である。

【０００５】

【作用】したがってこの発明によれば、データベースに
蓄積されている文書の中からあらかじめ定めた特定名を
含む文書が探し出され、この探し出された文書の解析が
解析用辞書を参照として行われ、この解析により短文と
したり文中に含まれる指示詞を明確にしたりするなどし
たうえ、上記特定名の観点から重要と判断される要約内
容が抽出される。

【０００６】

【実施例】以下、本発明に係る文書自動要約方法を詳細
に説明する。

【０００７】図１はこの文書自動要約方法を適用した新
聞要約装置の一実施例を示す基本ブロック図である。

【０００８】同図において、１は入力部であり、この入
力部１より目的とする個人名や企業名などの特定名があ
らかじめ与えられる。２は文書データベース（以下、文
書ＤＢと呼ぶ）であり、新聞に記載された文書が蓄えら
れている。３は文書検索部、４は文書解析部、５は解析
用辞書、６は要約部、７は出力部である。

【０００９】この新聞要約装置において、文書検索部３
は、文書ＤＢ２に蓄えられている文書の中から、入力部
１より与えられる特定名を含む文書を探し出す。文書解
析部４は、解析用辞書５を参照として、文書検索部３の
探し出した文書の解析を行う。要約部６は、文書解析部
４における解析結果をもとに、上記特定名の観点から重
要と判断される要約内容を抽出する。出力部７は要約部
６の抽出した要約内容を出力する。

【００１０】図２は図１に示した新聞要約装置をさらに
具体的に示したブロック図である。本実施例において、
文書解析部４は、形態素解析部４−１，文構造解析部４
−２，照応関係認定部４−３，長文分割部４−４，単語
テーブル４−５，第１の文構造テーブル４−６および第
２の文構造テーブル４−７から構成されている。また解
析用辞書５は、形態素解析辞書５−１，文構造解析規則
辞書５−２，照応関係認定規則辞書５−３および長文分
割規則辞書５−４から構成されている。

【００１１】なお、図２において、８は特定名テーブ
ル、９は文書テーブル、１０は第３の文構造テーブル、
１１は要約文テーブルであり、図１では図示していな
い。

【００１２】この新聞要約装置において、入力部１より
目的とする個人名や企業名などの特定名を与えると、こ
の特定名は特定名テーブル８へ書き込まれる。文書検索
部３は、文書ＤＢ２に蓄えられている文書の中から、特
定名テーブル８へ書き込まれている特定名をキーとし
て、キーワード検索技術（文書ＤＢ２中の文書にキーワ
ードが付与されている場合）や全文検索技術により、文
書中のいずれかに上記特定名についての記述がある文書
を探し出す。この探し出された文書は文書テーブル９へ
書き込まれる。

【００１３】次に、形態素解析部４−１は、形態素解析
辞書５−１を参照して、文書テーブル９中の文書に対し
辞書引きを行って、単語単位に分割した単語列を生成す
る。また、形態素解析部４−１は、単語単位への分割と
同時に、自立語と付属語からなる文節単位の境界設定も
行う。これらの結果は単語テーブル４−５に格納され
る。

【００１４】次に、文構造解析部４−２は、文構造解析
規則辞書５−２を参照して、単語テーブル４−５に格納
さている各入力文に対応した文構造を作り出す。この文
構造は文構造テーブル４−６に格納される。文構造テー
ブル４−６に格納された文構造は、各単語をノードと
し、各単語間の関係をリンクとするツリー構造を呈して
いる。文構造解析規則の具体的な実現方法としては、Ｃ
ＦＧ規則を用いる方法（文献言語工学長尾真著昭晃
堂ｐｐ．９４−１４６）や係り受け規則を用いる方法
（文献電子情報通信学会誌ｖｏｌ．７０Ｎｏ．９
ｐｐ．８９１−８９６ ”日本語解析の難しさ”）が
ある。

【００１５】照応関係認定部４−３は、照応関係認定規
則辞書５−３を参照して、文構造テーブル４−６内の指
示詞（例：これ、前者）や指示詞相当語（例：同社、同
氏）を、それが指している実際の名詞に置き換える。こ
の結果は文構造テーブル４−７へ書き込まれる。照応関
係認定規則の具体的実現方法については、例えば（文献
言語工学長尾真著昭晃堂ｐｐ．２００−２０
２）に記述されている。

【００１６】長文分割部４−４は、文構造テーブル４−
７内に含まれている文字数がある長さ以上の文構造に対
して、長文分割規則辞書５−４中の規則の適用を試み、
適用可能な文構造に対しては、長い文構造を複数の短い
文構造へと分割する。この結果は文構造テーブル１０へ
書き込まれる。長文分割規則の具体的実現方法について
は、例えば〔文献人工知能学会全国大会（第４回１
９９０年度）論文集ｐｐ．３１３−３１６〕に記述さ
れている。

【００１７】要約部６は、文構造テーブル１０内に含ま
れる文単位の中から、特定名テーブル８に書き込まれて
いる特定名を含む文構造を抽出し、ツリー構造で記述さ
れている文構造を一次元の文字列からなる文へと変換す
る。この結果は抽出した要約内容として要約文テーブル
１１へ書き込まれる。

【００１８】出力部７は要約文テーブル１１に書き込ま
れている要約内容を出力する。

【００１９】したがって、この出力部７より出力される
要約内容を文書ＤＢ２等に蓄えれば、入力部１より与え
た目的の個人名や企業名などに対応する文書データベー
スが、自動的に作成されるものとなる。

【００２０】次に、図３〜図１１を参照しながら、文書
の実例を挙げて、図２に示した新聞要約装置での具体的
な要約過程について説明する。

【００２１】入力部１より目的とする特定の企業名とし
て「ＮＴＴ」を与えると、この企業名は特定名として特
定名テーブル８へ書き込まれる（図３参照）。文書検索
部３は、特定名テーブル８へ書き込まれている「ＮＴ
Ｔ」をキーとして、キーワード検索技術により、文書Ｄ
Ｂ２に蓄えられている文書の中から「ＮＴＴ」について
の記述がある文書を探し出す。この探し出された文書は
文書テーブル９へ書き込まれる（図４参照）。

【００２２】次に、形態素解析部４−１は、形態素解析
辞書５−１を参照して、文書テーブル９中の文書に対し
辞書引きを行って、単語単位に分割した単語列を生成す
ると同時に、自立語と付属語からなる文節単位の境界設
定も行い、この結果を単語テーブル４−５に格納する
（図５参照）。なお、図５において、／／は文節の区切
り、／は単語の区切りである。

【００２３】次に、文構造解析部４−２は、文構造解析
規則辞書５−２を参照して、単語テーブル４−５に格納
さている入力文に対応した文構造を作り出し、この文構
造を第１の文構造テーブル４−６に格納する（図６参
照）。

【００２４】照応関係認定部４−３は、照応関係認定規
則辞書５−３を参照して（図１０参照）、文構造テーブ
ル４−６内の指示詞相当語（同社）を、それが指してい
る実際の名詞に置き換える。ここでは、図１０中の規則
１および規則２の両方を満たす名詞として、「ユニオン
クレジット」を認定し、その結果を第２の文構造テーブ
ル４−７に書き込む（図７参照）。

【００２５】長文分割部４−４は、長文分割規則辞書５
−４中（図１１参照）の長文認定規則を参照することに
より、文構造テーブル４−７内に含まれる文構造の中か
ら分割の対象となる文構造を選択する。図７の文構造テ
ーブル４−７の例は、長文認定規則１および長文認定規
則２を満たしているので、分割の対象となる。次に、分
割点決定規則を適用することにより、実際の分割を行
う。図７の例は用言を２つしか含んでいないので、分割
点決定規則１が適用され、図８に示したような第３の文
構造テーブル１０での書き込み結果を得る。

【００２６】要約部６は、文構造テーブル１０内に含ま
れる文構造の中から、特定名テーブル８に書き込まれて
いる「ＮＴＴ」を含む文構造を抽出し、ツリー構造で記
述されている文構造を一次元の文字列からなる文書へと
変換し、この結果を抽出した要約内容として要約文テー
ブル１１へ書き込む（図９参照）。

【００２７】なお、上述した実施例では新聞記事の中か
ら特定の個人や企業について書かれた文書を探し出しそ
の要約を行うものとしたが、週刊誌，雑誌，各種書物等
の記事についても同様にして適用することができ、特定
名を含む各種の文書の自動要約に用いて効果的である。

【００２８】

【発明の効果】以上説明したことから明らかなように本
発明によれば、データベースに蓄積されている文書の中
からあらかじめ定めた特定名を含む文書が探し出され、
この探し出された文書の解析が解析用辞書を参照として
行われ、この解析により短文としたり文中に含まれる指
示詞を明確にしたりするなどしたうえ、上記特定名の観
点から重要と判断される要約内容が抽出されるので、目
的とする特定の個人や企業などにカスタマイズした要約
内容を得ることができ、目的とする特定の個人や企業な
どに対応した文書データベースの自動作成が可能とな
る。

【図面の簡単な説明】

【図１】本発明に係る文書自動要約方法の適用された新
聞要約装置の一実施例を示す基本ブロック図。

【図２】この新聞要約装置をさらに具体的に示したブロ
ック図。

【図３】特定名テーブルへの書き込み内容の具体例を示
す図。

【図４】文書テーブルへの書き込み内容の具体例を示す
図。

【図５】単語テーブルへの書き込み内容の具体例を示す
図。

【図６】第１の文構造テーブルへの書き込み内容の具体
例を示す図。

【図７】第２の文構造テーブルへの書き込み内容の具体
例を示す図。

【図８】第３の文構造テーブルへの書き込み内容の具体
例を示す図。

【図９】要約文テーブルへの書き込み内容の具体例を示
す図。

【図１０】照応関係認定規則辞書内の照応関係認定規則
を例示する図。

【図１１】長文分割規則辞書内の長文分割規則を例示す
る図。

【符号の説明】

１入力部２文書データベース（文書ＤＢ）３文書検索部４文書解析部５解析用辞書６要約部７出力部８特定名テーブル

Claims

【特許請求の範囲】

【請求項１】個人名や企業名などの特定名をあらかじ
め定めたうえ、この特定名を含む文書をデータベースに
蓄積されている文書の中から探し出し、この探し出した
文書の解析を解析用辞書を参照として行い、この解析結
果をもとにして前記特定名の観点から重要と判断される
要約内容を抽出することを特徴とする文書自動要約方
法。