JPH01273164A

JPH01273164A - 日本語文書要約装置

Info

Publication number: JPH01273164A
Application number: JP63102091A
Authority: JP
Inventors: Yoshihiko Hayashi; 良彦林; Masanobu Higashida; 正信東田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1988-04-25
Filing date: 1988-04-25
Publication date: 1989-11-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、入力された日本語文書の要約を自動生成する
日本語要約装置に関する。

〔従来の技術〕

従来の文書要約に関する技術は、主に文脈処理研究の一
環として検討されてきた（例えば石崎。

井佐原；文脈と言語理解、電子通信学会言語処理とコミ
ュニケーション研究会、１９８６）、その代表的なもの
は、例えば事件に対する新聞記事が対象の場合、事件の
持つ因果的関係や時系列的関係（犯人が事件を起こし、
被害が発生し、警察などが捜査を行い、その結果として
犯人が警察によって逮捕される、など）をあらかじめ先
験的知識として用意しておき、それを基に意味処理、文
脈処理を行い要約を行うというものである。

（発明が解決しようとするｍ１Ｍ）上記従来技術においては、文書の要約を行う場合、先験
的な知識を基に意味処理、文脈処理等を行う必要がある
ため、膨大かつ精密な先験的知識をあらかじめ用意しな
ければならない問題がある。

本発明の目的は、上記のような先験的知識を用いること
なく日本語文書の自動要約を行うことを可能にする日本
語文書要約装置を提供することにある。

【課題を解決するための手段〕

本発明の日本語文書要約装置においては、対象とする日
本語文書の属する分野のキーワードとなる用語を予め登
録してあるキーワード辞書、前記日本語文書の属する分
野の固有な表現を収録する固有表現パターン辞書、前記
日本語文書と前記キーワード辞書とを照合し一致した文
書を出力するキーワード解析部、前記日本語文書と前記
固有表現パターン辞書とを照合し一致した文書を出力す
る固有表現パターン解析部、前記キーワード解析部の出
力結果と前記固有表現パターン解析部の出力結果から該
日本語文書の要約データ構造を生成する要約データ構造
生成部を備えている。

〔作　用〕入力文書中の各文を形態素解析及び係り受は解析した結
果に対し、まず、該文書の属する分野においてキーワー
ドとなる用語をあらかじめ登録したキーワード辞書との
照合を行い、入力文書からキーワードを含む文を選択す
る。この操作により、次の固有表現パターン辞書の固有
表現パターンにマツチする文が文書に含まれない場合で
も、キーワードとされた語を含む文に含まれる情報を要
約に反映させることができ、要約データ構造の最低限の
品質を保証することができる０次に、該文書の属する分
野において固有な表現を収録した固有表現パターン辞書
との照合を行い、該文書においてキーとなる表現を含む
文を選択する。最後に、上記の２段階の処理によって選
択された文、選択された固有表現に対し、キーワード文
要約データ構造生成規則及び要約データ構造生成規則に
従って入力日本語文書の主要な内容を表現する要約デー
タ構造を生成する。なお、入力文書中のある文が、キー
ワード文であり、かつ、固有表現パターンにもマツチす
る場合は、例えば固有表現パターンを用いて要約データ
構造を生成すればよい。

本発明装置によれば、厖大で精密な先験的知識を必要と
しない、また、必要に応じて、キーワード辞書及び固有
表現パターン辞書を構成することによって、例えば事実
を報道する日本語文書を対象とする限りは、任意の分野
、任意の文書を扱うことができ、この両辞書の構成法に
よって、要約の詳しさを調節することも可能である。

〔実施例〕

以下、本発明の一実施例について図面により説明する。

第１図は本発明の日本文書要約装置の一実施例のブロッ
ク図を示す、該日本語文書要約装置は入力部１、キーワ
ード解析部２、キーワード辞書３、固有表現パターン解
析部４、固有表現パターン辞書５、要約データ構造生成
部６及び出力部７より構成される。キーワード辞書３は
要約対象の日本語文書の属する分野のキーワードとなる
用語をあらかじめ登録してある辞書であり、固有表現パ
ターン辞書は該日本語文書の属する分野の固有な表現を
収録する辞書である。

入力部１からは、要約処理対象の日本語文書を構成する
各日本文に対して形態素解析、係り受は解析の処理済み
の文書が入力されるものとする。

形態素解析は漢字と仮名でべた書きされた日本語文に対
して、単語単位への分割を行う処理であり。

この処理の過程で同時に文節も認定される。係り受は解
析は、形態素解析で得られた単語分割及び文節の情報を
基に、二つの文節間の修飾関係（係り受は関係）を求め
、文全体の構造を解析する処理である０例として、′こ
れからＦＡＸでこの説明書を送ります、′について、単
語分割及び分節認定、文節間の修飾関係、文全体の構造
を示すと第２図（ａ）、（ｂ）及び（ｃ）のようになる
。

通常、日本語文書処理システムには、このような形態素
解析や係り受は解析の処理機能が具備されており、その
形態素解析及び係り受は結果が入力部１から入力される
。

キーワード解析部２は、入力文書を構成する各日本文と
キーワード辞書３との照合を行い、文書中からキーワー
ドを含６文を抽出する。抽出された文をキーワード文と
呼ぶ、固有表現パターン解折部４は、入力文書を構成す
る各日本文に対する係り受は解析結果と固有表現パター
ン辞書５との照合を行い、固有表現パターン中の変数要
素に対象文の該当する部分をバインドする。このパター
ンマツチングの結果生成されるデータ構造を固有表現デ
ータ構造と呼ぶ。

要約データ構造生成部６は、キーワード解析部２の出力
結果であるキーワード文、及び、固有表現パターン解析
部４の出力結果である固有表現データ構造を入力とし、
キーワード文については、キーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。固有表現データ構造については、固有表現パターン辞
書５中の該固有表現パターンについてのレコード中に記
述されている個別の要約部分データ構造生成規則を適用
し、要約部分データ構造を生成する。その後、要約デー
タ構造生成部６は、要約データ構造生成規則を適用する
ことによって、これらの結果を総合し、入力の日本語文
書の集約を表現する要約データ構造を生成する。出力部
７は、この要約データ構造を出力する。これは、特定の
言語で要約文書を出力するための言語生成装置（例えば
、日本語生成装置や英語生成装置Ｉ）への入力となる。

以下、具体例について説明する。二へで、処理対象の日
本語文書は以下の如き記事であるとする。

［×××は、新しい言語理論に基づく言語翻訳システム
を開発１国内で販売する。同システムでは。

新しい言語理論であるＰＰＴ理論を採用し、高い精度を
実現した０価格は、×××−のＤＩＰＳシリージ用が５
００万円、ＤＥＣのｖＡＸシリーズ用が２５０万円、×
父費ソフトを販売窓口に指定、年間２００本の販売を兇
込んでいる。出荷は、来月２５日から、」入力部１は、この日本語文書について、形態素解析及び
係り受は解析の行われた内容を入力し。

キーワード解析部２と固有表現パターン解析部４に転送
する。第３図（ａ）及び（ｂ）は、当該入力文書におけ
る最初の１文と最後の１文に対する形態素解析及び係り
受は解析の結果の概要を示したものである。二Ｎで、助
詞表現部分はカタカナで表示し、「傘」はダミーの用語
を示す、入力部１に入力される文書の各文は、このよう
に各単語と助詞に分解され、その修飾が明示されている
。

キーワード解析部２は、入力文書中の１文単位に次の処
理を行う、当該文に対する形態素解析結果から、当該文
に含まれる名詞を抽出し、それぞれの名詞がキーワード
辞書３に含まれるかの照合を行う、照合が得られＮば、
次にキーワード辞書３中のキーワード条件をチエツクし
、この条件を満たせば、その名詞をキーワードとし、こ
れを含む文をキーワード文とする。第４図にキーワード
辞書３のレコードの概念図を示す、このキーワード解析
部２の処理によって、本対象文書に対しては、次の２文
がキーワード文として抽出される（下線部は、キーワー
ドを示す）。

■　×××は、新しい言語理論に基づく言語翻訳システ
ムを開発、国内で販売する。

■　×××ソフトを販売窓口に指定、年間２００本の販
売を見込んでいる。

一方、固有表現パターン解析部４は、入力文書中の１文
単位に次の処理を行う、当該文に対する形態素解析結果
から、該文に含まれる名詞、及び。

動詞を抽出し、それらの語が、固有表現パターン辞書５
における固有表現パターンのキー語となっているかどう
かの照合を行う、照合が得られＮは、つぎに、その語を
キー語とする固有表現パターンと当該文の係り受は解析
結果との間で構造パターンマツチングを行う、このパタ
ーンマツチングが成功すれば、固有表現パターンにおけ
る変数要素に当該文の対応する部分をバインドする。こ
の結果得られるデータ構造が固有表現データ構造である
。

第５図に固有表現パターン辞書５のレコードの概念図を
示す、第Ｆｌｌ　（ａ）は［販売するｊに対するレコー
ド、第５１１　（ｂ）は「出荷」に対するレコードの例
を示すものである。第Ｆｌｌ　（ｂ）に示すように、本
対象文書の属する分野において。

［出荷は、ｘｘ日から、」という述語の省略された表現
が固有な表現であれば、第５図（ｂ）に示したように適
当に固有表現パターン辞書の内容を構成することで、適
切な述語（この例の場合、「始まる」）を補完すること
も可能である。

第６図は固有表現パターン解析部４で得られる固有表現
データ構造の概念図を示したものである。

第６図（ａ）は第３図（ａ）に示した本対象文書の最初
の１文に対し、第５図の固有表現パターン辞書による構
造パターンマツチング操作の結果であり、第６図（ｂ）
は同じく第３図（ｂ）の最後の１文に対する構造パター
ンマツチング操作の結果である。なお、助詞「ハ」は、
構造パターンマツチングの過程において助詞「ガ」に変
換されるものとしている。

上記キーワード解析部２で抽出されたキーワード文、及
び、固有表現パターン解析部４で得られた固有表現デー
タ構造は、要約データ構造生成部６に転送される。

要約データ構造生成部６では、まず、キーワード解析部
２によって抽出されたキーワード文に対し、該要約構造
生成部６に内蔵されているキーワード文要約部分データ
構造生成規則を適用し、要約部分データ構造を生成する
。このキーワード文要約部分データ構造生成規則は、キ
ーワード文中のキーワードを含む単文についての係り受
は構造をキーワード文要約部分データ構造とするもので
ある。第７図に先のキーワード文■を例として、この操
作及び要約部分データ構造の概念図を示す。

第７図（ａ）はキーワード文■に対する係り受は構造、
同図（ｂ）は要約部分データ構造である。

次に、同約データ構造生成部６は、固有表現パターン解
析部４によって生成された各固有表現データ構造に対し
、固有表現パターン辞書５において、該固有表現パター
ンと対をなして記述されている個別の要約部分データ構
造生成規則を適用し、要約部分データ構造を生成する。

第８図及び第９図に、第５１！！ｌに示した固有表現パ
ターン辞書のレコードの概念図、及び、第６図に示した
固有表現データ構造の概念図を例として、該操作及び該
操作によって生成される要約部分データ構造の概念図を
示す、第８図（ａ）は本対象文書の最初の文の係り受は
解析結果（第３図（ａ）より）、（−図（ｂ）は要約部
分データ構造生成規則（第Ｅｌｆ（ａ）より）、同ｍ　
（ｃ）は要約部分データ構造である。同様に、第９図（
ａ）は最後の文の係り受は解析結果（第３図（ｂ）より
）、同図（ｂ）は要約部分データ構造生成規則（第５図
（ｂ）より）、同図（（１）は要約部分データ構造であ
る。

最後に、集約データ構造生成部６は、上記の２つの操作
によって得られた要約部分データ構造を原文書における
文の順番に従って総合することによって、該日本語文書
の主要な内容を表現する要約データ構造を生成する。こ
の操作及び操作の結果生成される要約データ構造の概念
図を第１０図に示す、第１０図において、■〜■は要約
部分データ構造の順序である。

出力部７は、この要約データ構造を出力する。

これを特定の言語の文生成装置の入力とすることで、特
定の言語で要約文書を出力することができる。以下に先
の本対象文書の例に対して想定される日本語及び英語に
よる要約文書例を示す。

（１）日本語による想定要約文書例 ’−ｘ　ｘ　ｉ　ｆＪ＜言語翻訳システムを開発した。

×××は、言語翻訳システムを国内で販売する。

□×××ソフトを販売窓口に指定した。

出荷は、来月２５日から始まる。

（２）英語による想定要約文書例Ｘ　Ｘ　Ｘ　ｄｅｖｅｌｏｐｅｄ　ｔｈａ　ｌａｎｇｕ
ａｇｅ　ｔｒａｎｓｌａｔｉｏｎ　ｓｙｓｔｅｍ。

’Ｘ−Ｘ　’Ｘ　ｗｉｌｌ　　５ａｌｌ　　ｔｈｅ　　
ｌａｎｇｕａｇｅ　　ｔｒａｎｓｌａｔｉｏｎ　　ｓｙ
ｓｔｅｍ　　ｉｎｄｏｍｅｓｔｉｃ　ｍａｒｋｅｔ。

”Ｘ　Ｘ　Ｘ　Ｓｏｆｔｗａｒｅ　ｗａｓ　５ｐｅｃｉ
ｆｉｅｄ　ａｓ　ｔｈａ　ａｇｅｎｔ。

Ｔｈｅ　ｓｈｉｐｍｅｎｔ　ｗｉｌｌ　ｂｅｇｉｎ　ｏ
ｎ　２５ｔｈ　ｎｅｘｔ　ｍｏｎｔｈ。

〔発明の効果〕

以上説明しように１本発明によれば、特定の内容を伝達
するために複数の日本文から構成される日本語文書の要
約を、厖大で精密な先験的知識を必要はせず行うことが
できる。しかも、キーワード辞書と固有表現パタ７ン辞
書を構成することによって、任意の分野の任意の文書を
利用者が必要とするだけの詳しさを持って得ることがで
きる。

例えば、先の文書例において、価格に関する情報も要約
として必要であれば、「価格」という請をキーワード辞
書に登録するか、この飴をキーとする固有表現を固有表
現パターン辞書に登録すれば良い、また、本発明装置で
出力される要約データ構造を入力とするような各言語の
文生成システムと組合せることによって、日本語文書要
約作成システムや日本語文書翻訳システムを容易に構成
することができる。

【図面の簡単な説明】

第１図は本発明の日本語文書要約装置の一実施例を示す
ブロック図、第２図は形態素解析及び係り受は解析を説
明する図、第３図は処理対象文書例の形態素解析・係り
受は解析の結果の概要を示す概念図、第４図はキーワー
ド辞書のレコードの概念図、第５図は固有表現パターン
辞書のレコードの概念図、第６図は固有表現データ構造
の概念図、第７図はキーワード文に対する要約部分デー
タ構造の概念図、第８図及び第９図は固有表現データ構
造に対する要約部分データ構造の概念図、第１０図は処
理対象文書例に対する要約データ構造の概念図である。１・・・入力部、　　２・・・キーワード解析部、３・
・・キーワード辞書。４・・・固有表現パターン解析部、５・・・固有表現パターン辞書、６・・・要約データ構造生成部、　７・・・出力部。嗅”）　　　　　　　　　　　　（ｂ）ＣＣ）送り　Ｊで「につ（α）開拓４１　　□　弘たｉ】意ｔｅ、１ｆＮ人システム、ネ近しい　−１ｖ寛９オ（す出確斤　　　　　　　　　来月　　２５日第５図（良）第５図（ｂ）第６図（０−）１’Ａ　％　ｆ　１　　　　＝　　　Ｕ反＃　’ｆ　　
Ｊ才？Ｆ喜町人シスグム　　　Ｘ２　　　　　Ｙ２　　
　　ω内（ｂ）出費　　　　　　来月２５１３第９図（ｃＬ）第１０図

Claims

【特許請求の範囲】

（１）複数の日本文から構成される日本語文書を入力し
て処理する文書処理システムにおいて、前記日本語文書
の属する分野のキーワードとなる用語を予め登録してあ
るキーワード辞書と、前記日本語文書の属する分野の固
有な表現を収録する固有表現パターン辞書と、前記入力
日本語文書と前記キーワード辞書とを照合し一致した文
書を出力するキーワード解析部と、前記日本語文書と前
記固有表現パターン辞書とを照合し一致した文書を出力
する固有表現パターン解析部と、前記キーワード解析部
の出力結果と前記固有表現パターン解析部の出力結果か
ら前記入力日本語文書の要約データ構造を生成する要約
データ構造生成部を備えていることを特徴とする日本語
文書要約装置。