JPH0612447A

JPH0612447A - 要約文章作成装置

Info

Publication number: JPH0612447A
Application number: JP5056172A
Authority: JP
Inventors: Kazuo Sumita; 一男住田; Teruhiko Ukita; 輝彦浮田; Tetsuro Chino; 哲朗知野; Kenji Ono; 顕司小野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-03-31
Filing date: 1993-03-16
Publication date: 1994-01-21

Abstract

(57)【要約】【目的】目的とする要約文書を作成することのできる
要約文章作成装置を提供すること。【構成】複数の章や節から構成される自然言語文書を
入力として、要約文書を作成する。まず始めに、原文の
章立てを書誌事項解析部において解析し、その結果を文
書構造記憶部に格納する。次に要約処理制御部が、各章
・節ごとに要約処理を行うか否かを要約制御規則に基づ
いて判定し、要約処理を起動する。その結果を要約結果
記憶部に格納し、出力部に出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自然言語文章の要約文
を生成する要約文章作成装置に関する。

【０００２】

【従来の技術】近年、ワードプロセッサなどのＯＡ機器
の普及や、やネットワーク通信などの情報処理技術の進
歩に伴い、ユーザが大量のテキスト情報を利用できるよ
うになってきている。このような状況の下、各ユーザ
が、必要とする情報に迅速かつ適切にアクセスすること
を支援するため自然言語文章の自動要約への要求が高ま
ってきている。

【０００３】このような自然言語文章の要約文書の自動
作成への要求に対し、従来、文章中でのキーワードの出
現やその頻度をもとに、キーセンテンスと呼ばれる文を
抜き出す手法などが考えられてきていた。しかし、キー
センテンスを抜き出す従来の方法では、文章としてのま
とまりを持った出力を得ることが不可能である。そのた
め、自然言語文章から要約文章を自動生成することはで
きないという問題があった。

【０００４】この問題に対し、文章の「文脈構造」を利
用した手法が提案されている。この手法では、自然言語
文章に対して、その接続表現や文末表現などに関する解
析をほどこすことによって、各文の間の修辞的な依存関
係を「文脈構造」として抽出し、この文脈構造に基づい
て要約文章を生成するものである。ここで言う、修辞的
な依存関係（文脈構造）の抽出とは、たとえば、「Ａで
ある。また、Ｂである。よって、Ｃである。」という３
つの文からなる原文章に対して、「（（第一文）［並
列］（第二文））［順接］（第三文）」といった構造を
取り出すことである。これは、第一文「Ａである。」
と第二文「また、Ｂである。」が並列関係を持ってお
り、この２つの文が根拠となって第三文「よって、Ｃで
ある。」を導いていることを表している。つまり、この
ようにして得られた文脈構造に基づいて、各文の取捨選
択を行ない、要約文章を作成するものである。

【０００５】このような従来の要約文章作成装置にあっ
ては、原文章の書誌的な事項に関わらず、文章本体に対
して要約処理を施している。このため、原文書中におい
て、「あらまし」や「概要」というようなタイトルを付
されている要約部分などの要約処理を必要としない部分
に対しても、要約処理を行ってしまうという不都合があ
った。すなわち、「あらまし」のような部分は、要約処
理を施すと重要な部分が抜け落ちてしまい、不適当な要
約文章となってしまうという結果となる。更に、要約出
力する文書のある与えられたスペースへまとめる方法が
知られていないため、ある与えられた文字数や頁数にま
とめることができなかった。

【０００６】

【発明が解決しようとする課題】本発明はこのような事
情を考慮してなされたもので、原文書の書誌的事項を解
析することにより、要約処理を施す部分を的確に判定す
る。これにより、目的とする要約文書を作成することの
できる要約文章作成装置を提供することを目的とする。
さらに本発明は，文書の見透しの悪さを改善し，文書の
構成内容を一目瞭然に提示する文書要約の提供を目的と
する．

【０００７】

【課題を解決するための手段】本発明では、自然言語文
章を解析し、章立てなどの書誌的事項を解析する書誌的
事項解析手段を持つ。また、この解析結果に結果に基づ
いて、要約処理を施すか否かを判定し、その判定結果に
基づいて要約処理手段を起動する要約処理制御手段を持
つ。さらに、実際の要約処理を行う要約処理手段を持つ
ものである。

【０００８】書誌的事項解析手段では、自然言語文章に
おいて各章や節に付与されているタイトルなどを解析す
ることにより、要約、謝辞、参考文献、付録などを含む
章立てを認識する。

【０００９】要約処理制御手段は、書誌的事項解析手段
が解析した結果に基づいて、要約処理を施すか否かを判
定し、要約が必要な部分については要約処理手段を起動
する。また、要約処理を必要としない部分についても、
要約結果に出力すべきか、あるいはその部分を捨て去る
べきかを判定する。あるいは所与の文字数以下にに要約
結果を縮退させる。そして、要約処理手段から得られた
結果、ならびに要約結果に出力すべき原文書の原文部分
をマージし、原文書の見出しや本文のフォント情報を保
持した形式で出力することにより所望の要約結果を得る
ことができる。

【００１０】

【作用】本発明によれば、原文書の書誌的事項を解析す
ることで、要約処理の必要な部分についてのみ必要な量
への要約処理が行われ、効果的な要約結果を作成するこ
とが可能となる。

【００１１】

【実施例】以下、図面を参照して本発明の一実施例に関
わる要約文章作成装置につき説明する。図１は、実施例
を構成する上で必要となる機器の構成を示す構成図であ
る。ＣＰＵ１、半導体メモリや磁気ディスク、光ディス
クなどの記憶手段２、ＣＲＴディスプレイや液晶ディス
プレイ、プラズマディスプレイなどのディスプレイまた
はプリンタなどの表示手段４、表示を制御する表示コン
トローラ３からなる。

【００１２】図２は、実施例における機能構成を示した
ブロック図である。入力部１、書誌事項解析部２、要約
処理制御部３、要約処理部４、出力部５、文書構造記憶
部６、要約結果記憶部７、要約制御規則記憶部８から構
成される。さらに、要約処理部４は、単文解析部４１、
接続関係抽出記憶部４２、文情報記憶部４３、文脈構造
解析部４４、文脈情報記憶部４５、文抽出可否決定部４
６、文抽出情報記憶部４７、要約文章生成部４８、暗黙
接続表現記憶部４９からなる。

【００１３】図２において、入力部１から、要約処理対
象である複数の章や節からなる自然言語文書データが入
力されると、書誌事項解析部２は、章立てなどの解析
を行う。文書データは、記憶手段２にあらかじめ格納さ
れているデータ、またはＯＣＲやキーボードから入力さ
れたデータである。

【００１４】図３乃至図５に書誌事項解析部２の処理の
流れを示す。書誌事項は、書誌事項検出パタンに基づい
て解析を行う。検出パタンの一例を図６に示す。パタン
は、レベル０として文書の章タイトルを検出するパタ
ン、レベル１として章を構成する節タイトルを検出する
パタン、さらには、より下位のレベルの節のタイトルを
検出するパタンをあらかじ設定しておく。

【００１５】図６において、記号“＾”は行の先頭、
“$number ”は数字、“$string ”は任意の文字列、
“\n”は改行、それぞれ照合することを意味している。
例えば、レベル０の検出パタン“＾［$number ］ $stri
ng\n”は、行の先頭に“［１］はじめに”という文字列
の行が存在した場合、その行と照合が成功することにな
る。また、解析した結果は、例えば図７に示す形式の文
書構造記憶部６に格納する。

【００１６】書誌事項解析部２では、まず始めに、文書
が格納されているバッファの先頭アドレスへのポインタ
をＰ、文字数をＮ、タイトルの検出レベルを０として処
理を始める。章カウンタを０と設定するとともに、Ｐな
らびにＮをそれぞれ、文書構造記憶部のタイトルポイン
タおよび文字数に格納する。

【００１７】検出パタンと照合する文字列が存在する位
置を探す。最初に、検出パタンと照合した文字列の先頭
アドレスを本文ポインタとして本文ポインタ（章カウン
タ＋１）に格納する。そして、章カウンタの値を１だけ
増やす。順次、この処理を繰り返すことにより、本文ポ
インタ１、本文ポインタ２、本文ポインタ３へ、それぞ
れ章の先頭アドレスを格納していく。文書が格納されて
いるバッファ文字数Ｎに対して処理が終了すると、文書
構造記憶部に章の数が章カウンタ、それぞれの章への先
頭アドレスが、本文ポインタ１から本文ポインタｎへ格
納されている。本文ポインタ１の指す最初の章から、処
理を行う。本文ポインタＴの値をタイトルポインタＴに
格納する。さらに、本文ポインタＴ＋１との差から文字
数を求め、文字数Ｔに格納する。その後、タイトルポイ
ンタＴのアドレスを本文ポインタＴに格納する。章カウ
ンタＴの値は０と設定する。

【００１８】レベル１の検出パタンに照合する文字列が
存在する位置を探す。検出パタンと照合する文字列の先
頭アドレスを本文ポインタ（Ｔ，章カウンタ＋１）に格
納し、章カウンタＴを１増やす。これを繰り返すことに
より、節構造を得る。章Ｔに対して、章カウンタＴの値
が０であった場合は、節が存在しなかったことを意味し
ている。そこでその場合は、章のタイトルの次の文字の
アドレスを本文ポインタ（Ｔ，１）に格納する。すべて
の章について以上の処理を行うことにより、章−節構造
を得る。

【００１９】図３乃至図５は、節の下位構成まで解析す
る場合の流れを示している。（例えば、“２．３．４”
というような章番号のタイトルを持つレベルまでの解析
処理）書誌事項解析部２で解析した文書構造は、文書構
造記憶部６に格納される。例えば、図８に示すような文
書の場合、書誌事項解析部２において処理を行うと、文
書構造記憶部６には、図９に示すような値がそれぞれ設
定される。

【００２０】要約処理制御部３は、文書構造記憶部６に
格納されている文書構造に基づいて、要約処理を施すか
否かを判定するとともに、要約処理部４の結果を文書構
造に基づいてマージし、出力部５に出力する。

【００２１】図１０乃至図１１に、要約処理制御部３の
処理の流れを示す。まず始めに、要約結果記憶部７に文
書構造記憶部６の内容をコピーする。要約結果記憶部７
内の記憶形式を図１２に示す。図に示すように要約結果
記憶部７の形式は、文書構造記憶部６の形式と同じであ
り、要約結果記憶部７の各要約ポインタは、文書構造記
憶部６の本文ポインタに対応する。文書構造記憶部６で
は、各本文ポインタは本文中のアドレス、または文書構
造記憶部６内のアドレスが格納されている。要約結果記
憶部７へのコピーに当たっては、文書構造記憶部６内の
アドレスに相当する内容は、要約結果記憶部７の対応す
るアドレスに置き換えてコピーする。

【００２２】次に、要約処理制御部３は、章−節−副節
の階層に沿って処理を行う。章−節−副節の各タイトル
に対して、要約処理の可・否・省略を判定する。例え
ば、タイトルが“概要”である場合は、要約処理を省略
し、対応する要約ポインタには対応する本文ポインタ内
の値を格納する。タイトルが“謝辞”などの場合は、要
約は“否”であるとして、対応する要約ポインタには０
を格納する（０は要約結果として出力すべきデータがな
いことを意味する）。それ以外の場合は、要約処理を起
動し、その結果を指すアドレスを対応する要約ポインタ
に格納する。

【００２３】タイトルと要約処理の可・否・省略は、要
約制御規則８に格納されている規則に基づいて判定す
る。要約制御規則８には、例えば“概要→省略”、“謝
辞→否”というような対応情報があらかじめ格納されて
いる。

【００２４】単文解析部４１は、要約処理制御部３から
入力される自然言語文章データの各文を、接続関係抽出
規則記憶部４２を参照して解析し、各文の先行する文に
対する接続関係を抽出する。また、文内に分離可能な接
続表現が含まれる場合には、接続表現部分と文内容部分
に分離して、文情報記憶部４３に記憶するようにしてい
る。文内に分離可能な接続表現が含まれない場合にはそ
の文の全体を、文内容部分に文情報記憶部４３に記録す
る。

【００２５】ここで言う接続関係とは、連続する、文と
文、あるいは連続する文の集まりの間の修辞的な依存関
係を表しており、図１３に、接続関係の例が列挙されて
いる。図１３において、記号”［”と記号”］”で囲ま
れているのが接続関係名である。また、各接続関係名に
続いて示されているのが、典型的な文章例であり、ここ
で記号”＜”と記号”＞”で囲まれいるのが、各接続関
係の手がかりとなる接続表現である。つまり、例えば、
「天気が良い。したがって、外出できる。」という文章
例では、「したがって、」という接続表現を手がかりと
して、第一文と第二文との間の修辞的な接続関係が［順
接］であることがわかり、これによって第一文の内容が
第二文の内容の根拠となっていることがわかることにな
る。

【００２６】接続関係抽出規則記憶部４２は、図１４に
示すように、単文解析部４１で利用する各種情報が、Ａ
表層接続表現情報、Ｂ接続表現位置情報、Ｃ接続関係情
報、Ｄ分離可否情報などというように分類登録されてい
る。なお、Ｅは格納アドレス情報である。

【００２７】ここで、接続関係抽出規則記憶部４２の各
エントリの、Ａ表層接続表現情報には、図１５に示すよ
うに自然言語文章の各文から接続関係を抽出する手がか
りとなる接続詞などの表層表現のパターンが記録されて
いる。また、Ｂ接続表現位置情報には、各文においてＡ
表層接続表現情報が現れる位置に関する制約が記録され
ている。Ｃ接続関係情報には、そのエントリのＢ接続表
現位置情報の制約を満たしながらＡ表層接続表現情報が
マッチした文の解析結果として与えられるべき接続関係
が記録されている。また、Ｄ分離可否情報には、そのエ
ントリのマッチした文から、Ａ表層接続表現情報と一致
する部分をその文の接続表現部分として分離することが
可能であるかどうかの情報が記録されている。

【００２８】文情報記憶部４３は、単文解析部４１によ
って、解析した各文の情報が、図１６に示すように、Ａ
文番号情報、Ｂ接続関係情報、Ｃ接続表現部分情報、Ｄ
文内容情報などが、分類記録されるようにしてある。な
お、Ｅは格納アドレス情報である。

【００２９】文情報記録部４３の各エントリにおいて、
Ａ文番号情報には、各文の原自然言語文章での順番を表
す文番号が記録され、Ｂ接続関係情報には、抽出された
接続関係名が記録される。なお、明示的な接続関係が抽
出できなかった場合には［ε］が記録される。また、Ｃ
接続表現部分情報には、単文解析部４１において接続表
現部分と文内容部分が分離出来た文については、分離さ
れた接続表現部分が記録され、分離出来なかった場合に
は”空”を表す記号「−」が記録されるようにしてい
る。また、Ｄ文内容部分情報には、文解析部２において
接続表現部分と文内容部分がが分離出来た文について
は、分離された文内容部分が記録され、分離出来なかっ
た場合にはその文の全体の内容が記録されるようにして
いる。なお文章の最初の文（第一文）に関しては、無条
件に接続表現が抽出できなかったものとみなし、Ｃ接続
表現部分情報には記号「−」が記録され、Ｄ文内容部分
情報には、文の全体がに記録されるようにしている。

【００３０】文脈構造解析部４４は、入力部１から文情
報記憶部４３の内容を参照し, 特願平２−２０３８６５
号に示したように文脈構造解析と同様の処理を行なうこ
とによって、各文間の修辞的な依存関係を木構造で表現
した図１７に示すような文脈構造を生成し、文脈情報記
憶部へと記録するようにしている。

【００３１】図１８に、自然言語文章例（図１５に図
示）の文脈構造解析結果の例を示す。図１７（ａ）に示
した文脈構造は、各文の修辞的な依存関係を表してお
り、以下に述べるような情報を表現している。まず、文
脈構造の木構造において、葉（ｓ１〜ｓ６）は各文を表
している。さらに、文１と文２の間の接続関係が［例
示］であり、文２の内容が文１の内容の例であることを
示している。また、文３と文４の間の関係もまた［例
示］となっており、文４も文３の例であることを示して
いる。さらに、文５と文６の間の関係は［順接］であ
り、文６の内容がが文５から導かれる帰結であることを
示している。以上のような接続関係によって結びつけら
れた文の集まりを、ノードと呼ぶことにする。また、接
続関係を持つノードあるいは文の組もまた再帰的にノー
ドを構成する。そして、この文脈構造では、文と文の関
係のみではなく、文や、ノードの間の接続関係も表現さ
れており、これが再帰的に表現されている。例えば、文
１と文２からなるノード（ｎ３）と、文３と文４からな
るノード（ｎ４）の間の接続関係が、［並列］であるこ
とや、この文１〜文４からなるノード（ｎ１）と、文５
と文６からなるノード（ｎ２）の間の接続関係が逆接で
あり、これがルートノード（ｎ０）を構成していること
も表現されている。また、図１７（ｂ）は、括弧を利用
して図１７（ａ）の文脈構造と同じを表現したものであ
る。

【００３２】文脈情報記憶部４５は、文脈構造解析部４
４によって自然言語文章を解析した結果を、図１８に示
すように、Ａノードタイプ情報、Ｂ文番号情報、Ｃ左部
分木格納アドレス情報、Ｄ右部分木格納アドレス情報、
などが分類記憶されるようにしている。なお、Ｅは格納
アドレス情報である。

【００３３】図１８に示した文脈情報記憶部４５の内容
例は、図１７に示した文脈構造の例を表したものであ
り、分類記録された各情報のうち、ノードタイプ情報Ａ
には、ルートノード（ｎ０）に対応するエントリに関し
ては「ルート」が格納さる。同様に、中間ノード（ｎ１
〜ｎ４）に対応するエントリに関しては「中間」が格納
され、文を表す（ｓ１〜ｓ６）に対応するエントリに関
しては「文」の値が格納されるようにしている。文番号
情報Ｂには、ルートノードや中間ノードに対応するエン
トリに関しては、ドント・ケアを表す記号「−」が格納
され、文に対応するエントリに関しては対応する文の文
番号を格納するようにしている。左部分木アドレス情報
Ｃには、ルートノードか中間ノードに対応するエントリ
に関してはそのエントリの表すノードの左部分木に対応
するエントリの格納アドレスが格納され、文に対応する
エントリに関してはドント・ケアを表す記号「−」が格
納されるようにしている。つまり、以上のように構成し
た情報記憶部に、文脈構造解析部４４によって抽出され
た自然言語文章の文脈構造を記録することによって、文
脈構造を表現することができるようにしている。

【００３４】文抽出可否決定部４６は、文脈情報記憶部
４５の内容を参照し、特願平２−２０３８６５号に示し
たように文脈構造解析と同様の処理を行なうことによっ
て、各文の要約文章への採用の可否を決定し、その結果
を文抽出情報記憶部４７に記録する。

【００３５】文抽出情報記憶部４７は、図１９に示すよ
うに、Ａ文番号情報、Ｂ文抽出情報などが分類記録され
るようにしている。なお、Ｃは格納アドレス情報であ
る。文抽出情報記憶部８の各エントリの、Ａ文番号情報
には、文番号が記録される。そして、文抽出情報には、
文抽出可否決定部４６によって要約文章への抽出が決定
された文はついては「抽出」が、要約文章への抽出しな
いことが決定された文については「非抽出」が記録され
る。

【００３６】要約文章生成部４８は、文情報記憶部４
３、文脈情報記憶部４５、文抽出情報記憶部４７、およ
び、暗黙接続表現記憶部４９を参照して、後述の手続き
に基づいて要約文章を生成する。

【００３７】暗黙接続表現記憶部４９は、図２０に示す
ように、Ａ接続関係名情報、Ｂ暗黙接続表現情報などが
分類記録されている。なお、Ｃは格納アドレス情報であ
る。暗黙接続表現記憶部４９の各エントリにおいて、Ａ
接続関係名情報には、接続関係が記録されており、Ｂ暗
黙接続表現には、そのエントリのＡ接続関係名に記録さ
れている接続関係を要約文章で表現する場合に利用でき
る典型的な表層接続表現が記録されている。

【００３８】出力部５は、要約結果記憶部７の結果を出
力表示する。なお、要約文章生成部４８では、図１７
（ａ）に示したような文脈構造にそって、以下のような
再帰的なアルゴリズムによって要約文章が生成される。

【００３９】要約文章生成のアルゴリズム文脈構造のルートノードに対して処理Ａを行なう。・処理ＡのアルゴリズムＡ１処理中のノードＸが文脈構造のノードタイプを
調べ、ノードＸがルートノードか、中間ノードである場
合は、Ａ２〜Ａ５の処理を行ない、ノードＸが葉ノード
である場は、Ａ６〜Ａ７の処理を行なう。

【００４０】Ａ２ノードＸの左部分木Ｌについて再
帰的に処理Ａを行なう。Ａ３さらに、ノードＸについて、接続表現に関する
処理Ｂを行なう。Ａ４さらに、ノードＸの右部分木Ｒについて再帰的
に処理Ａを行う。

【００４１】Ａ５ノードＸに関する処理Ａを終了す
る。Ａ６ノードＸに対応する文Ｓの文抽出情報が「抽
出」である場合は、文Ｓの文内容部分情報を要約処理制
御部へ出力する。

【００４２】Ａ７ノードＸに関する処理Ａを終了す
る。・処理ＢのアルゴリズムＢ１処理中のノードＹの左部分木Ｌに、要約文章に
抽出すべき文が含まれているかどうかを、左部分木Ｌに
対する処理Ｃによって調べる。

【００４３】Ｂ２ａＢ１の処理の結果、「抽出」さ
れるべき文に対応する葉ノードが発見できなかった場合
は、このノードＹに関する処理Ｂは終了。Ｂ２ｂそうでなく、左部分木Ｌに、少なくとも１つ
以上の抽出すべき文が含まれる場合は、処理中のノード
Ｙの右部分木Ｒに、要約文章に抽出すべき文が含まれて
いるかどうかを、右部分木Ｒに対する処理Ｃによって調
べる。

【００４４】Ｂ３ａＢ２．の処理の結果、「抽出」
されるべき文に対応する葉ノードが発見できなかった場
合は、このノードＹに関する処理Ｂは終了。Ｂ３ｂそうでなく、左部分木Ｌと右部分木Ｒのどち
らにも、少なくとも１つ以上の抽出すべき文が含まれる
場合、処理Ｄの手続きによって、処理中のノードＹの接
続関係の元となった文に対応する文情報記憶部４３のエ
ントリＥを探す。

【００４５】Ｂ４ａ処理Ｄの結果得られた情報記録
部４３のエントリＥの接続表現部分情報を調べ、その内
容が記号「−」でない場合、接続表現部分情報をの内容
を、出力部１１へ出力し、ノードＹに対する処理Ｂを終
了する。

【００４６】Ｂ４ｂ処理Ｄの結果得られた情報記録
部４３のエントリＥの接続表現部分情報を調べ、その内
容が記号「−」である場合、このエントリＥの接続関係
情報に登録されている接続関係Ｆを含む、暗黙接続表現
記憶部１０のエントリＧを検索し、そのエントリＧの暗
黙接続表現情報の内容を要約処理制御部３へ出力し、ノ
ードＹに対する処理Ｂを終了する。・処理ＣのアルゴリズムＣ１部分木Ｐが、文脈構造の木構造の葉ノードで
あり、そのＰに対応する文Ｓが、要約文章への抽出すべ
き文である場合は、「部分木Ｐに抽出すべき文が存在す
る」としてし、部分木Ｐに対する処理Ｃを終了する。

【００４７】Ｃ２部分木Ｐが、文脈構造の木構造
の葉ノードであり、そのＰに対応する文Ｓが、要約文章
への抽出すべきでない非抽出の文である場合は、「部分
木Ｐに抽出すべき文が存在しない」として、部分木Ｐに
対する処理Ｃを終了する。

【００４８】Ｃ３部分木Ｐが、文脈構造の木構造
のルートノードか中間ノードであり、そのノードＰの左
部分木Ｌと、右部分木Ｒに対して、再帰的に処理Ｃを施
す。Ｃ４ａＣ３の処理の結果「左部分木Ｌに抽出すべき
文が存在する」ことか、「右部分木Ｒに抽出すべき文が
存在することが判明した場合には、「部分木Ｐに抽出す
べき文が存在する」として部分木Ｐに対する処理Ｃを終
了する。

【００４９】Ｃ４ｂＣ３の処理の結果、「左部分木
Ｌに抽出すべき文が存在しない」こと、「右部分木Ｒに
抽出すべき文が存在しない」ことが判明した「場合に
は、「部分木Ｐに抽出すべき文が存在しないとして部分
木Ｐに対する処理Ｃを終了する。・処理ＤのアルゴリズムＤ１ａ処理しているノードＺの右部文木Ｒが、文脈
構造部の葉ノードである場合は、この葉ノードＲに対応
する文情報記憶部４３のエントリＥを処理Ｂに返し、ノ
ードＺに対する処理Ｄを終了する。

【００５０】Ｄ１ｂそうでない場合、処理している
ノードＺの右部分木Ｒの、左端の葉ノードＷを、ノード
Ｒから左部分木へのリンクのみを進むことによって検索
し、この左端のノードＷに対応する文情報記憶部４３の
エントリＦを処理Ｂへ返し、ノードＺに対する処理Ｄを
終了する。

【００５１】上述のアルゴリズムは、自然言語文章の文
脈構造の木構造をルートノードから推移しながら再帰的
に要約文章を生成するものである。このアルゴリズムに
よって起動される処理Ａは、文脈構造のあるノードに対
する要約文章の再帰的な生成手続きを表している。さら
に、この処理Ａから起動される処理Ｂは、文脈構造のあ
るノードに対応する接続表現の生成手続きを表してい
る。この処理Ｂから起動される処理Ｃは、文脈構造のあ
るノードに対応する接続表現を、要約文章に組み入れる
べきかを決定するために、そのノードの左右の部分木に
要約文章へ抽出すべき文が含まれるかどうかを再帰的に
調べる手続きとなっている。また、同様に処理Ｂから起
動される処理Ｄは、そのノードの接続関係を与える接続
表現を持つ文を探すための再帰的な手続きとなってい
る。

【００５２】以上示したアルゴリズムは、要約文章生成
部４８で行なわれる以下の手続きによって実現される。・要約文章生成部４８の処理手続き（１）文脈情報記憶部４５から、Ａノードタイプ情報が
「ルート」である。

【００５３】エントリＸを探す。（２）見つけられたエントリＸについて、処理Ａの手続
き行なう。図２に示した出力部５においては、要約結果を表示手段
に表示出力する。

【００５４】以上が本実施例の構成とその機能である。
なお、本実施例で説明した要約処理部は、タイトルなど
を含まない文章に対して要約結果を作成する要約処理機
能を持つものと置き換えることが可能である。例えば、
自然言語文に現れる重要文を指定する特定の表現に基づ
いて重要な文を抽出するような要約処理なども考えられ
る。

【００５５】要約処理制御部では、要約の可・否・省略
の判定を要約制御規則に基づいて行っているので、要約
制御規則に格納されている内容を変更することによっ
て、要約処理の指示が変更できる。従って、特定の用途
として“はじめに”の部分の要約のみを必要とする場合
にも、要約制御規則に“はじめに→可”と設定し、“＊
→否”（＊は任意の文字列を意味する）と設定しておく
ことにより、対処することができる。

【００５６】また、実施例の書誌事項解析部では、ワー
ドプロセッサなどで入力された文書のように、タイトル
部分が改行などの記号により他の文章の部分と区別でき
る文書形式を対象としている。しかしながら、例えばＬ
ａｔｅｘやＳＧＭＬなどで扱われる文書のように、章や
節のタイトルや本文部分の位置を、特殊な文字列で指定
する文書形式を持つものがある。このような文書を扱え
るように、章や節のタイトルを指定する文字列により、
書誌事項を解析するように変形することは容易である。

【００５７】また、図２１に示すように、図表選択判定
部９をさらに追加した構成とすることも可能である。す
なわち、一般の文書では、自然言語だけでは説明が容易
でない場合に図表を用いて説明を行う場合がある。文書
に図表が含まれている場合、その文書に対して要約文書
を作成した場合、要約文書中で参照される図表と参照さ
れない図表の区別が出てくる。そこで図表選択判定部９
では、要約結果の自然言語文を解析し、図表の参照を解
析する（例えば“図１に、…。”というような表現を検
出する）。そして、参照した図表のみを要約結果として
出力部に送ることにより、参照されている図表だけを要
約結果に付加する機能を具現することができる。

【００５８】また、図２に示した実施例では、要約結果
をそのまま表示するものであるが、例えば、文書構造記
憶部６、要約結果記憶部７、文抽出情報記憶部４７に格
納された情報に基づいて、次のような機能を持つように
変形させることは容易である。すなわち、表示されてい
る画面上の要約文書の位置を利用者がキーボードやマウ
スなどの入力手段で指示することにより、出力されてい
る要約結果から、原文を表示させるように指示すること
ができる。指示された文書中の文字位置から要約文書中
のどの章、または節、または文が指定されたかを検出し
た後、章や節が指定された場合は、対応する文書構造記
憶部６のポインタ情報から原文の文字列を取り出すこと
ができ、それにより原文を表示手段に出力することがで
きる。また、文が指定された場合、文抽出情報記憶部４
７を参照することにより、原文中のどの段落から抽出さ
れた文であるかが求められるので、その情報に基づいて
原文中の対応する段落を表示することができる。

【００５９】続いて本発明の他の実施例について説明す
る。本実施例では，図２の書誌事項解析部２において，
すでに説明した章立ての文書構造情報の他にフォントの
情報やレイアウトの情報を書式情報として抽出する。す
なわち，図３乃至図５における書誌事項抽出処理におい
て，処理開始直後において，文書の段組などの文書全体
の書式情報を抽出し，文書構造記憶部６に記憶する。次
に図３乃至図５において，新しい章が見つかる度に章見
出しとその章の本文のフォントやインデント・センタリ
ングの有無などの修飾情報を取り出して同じく文書構造
記憶部６に記憶する。以上のように本実施例における書
誌事項解析部においては，太字・下線などの文字の修飾
情報やフォントの指定情報，さらに段組やセンタリング
などのレイアウト情報を取り出す．このようにして抽出
した書誌事項の例を図２２に示す。

【００６０】次に本実施例では既に説明した要約処理の
ための文脈構造解析を行い，要約文章を生成する。本実
施例の文抽出可否決定は，既に述べた特願平２−２０３
８６５号に示された方式で生成すべき要約の最大文字数
を考えて各文の抽出の可否を決定する。生成すべき各章
要約文章の文字数は，要約処理制御部３において決定す
る。まず文書全体の文字数を文書構造記憶部のデータか
ら算出する。そして出力文書として別途指示される文字
数や頁数から出力する文書における各章の最大文字数を
計算する。もっとも簡単な方法は原文書の各章の文字数
に比例して出力文書の各章の最大文字数を決める方法で
ある。さらに許される最大文字数に限度を設け，ある文
字数以下になるようならその章は省略するようにもでき
る。またまえがきやまとめの部分には他の章と比べて多
くの文字数を割り当てる。すなわち非均一な文字数割り
当ても可能である。このように文字数が割り当てられる
ことにより，文抽出可否決定部４６では，選択対象の文
の文字数を章ごとに算出し、許された最大文字数を越え
ないように文の抽出処理を制御する。

【００６１】次に本実施例における要約文章生成部４８
の処理を説明する。要約文章生成部では，生成すべき文
書のフォントやレイアウトなどを管理し，利用者から指
示される大きさの文書を作成する。利用者から指示され
たレイアウトや原文書のレイアウトに従って要約文書を
作成する。ここで要約文書の形式として本文部分を２段
組で作成することを操作できることはいうまでもない．
このような処理により，例えば図２３に示すような文書
を原文書の形式を保存したまま一覧できる要約文書を生
成することが可能になる。

【００６２】次に第２の実施例について説明する。本実
施例は、上記実施例中の単文解析部、文脈構造解析部に
関するバリエーションの１つである。列挙表現の扱いを
例に、これらの処理部の動作について説明する。これら
以外の処理部に関しては上記特許願の実施例１と同様で
あるので、特に言及しない。本実施例では文脈構造解析
部は図２４のように、セグメンテーション処理部、構造
候補生成・評価部及び構造評価ルール記憶部とから構成
される。

【００６３】セグメンテーション処理部１００は、セグ
メンテーション処理とは、文書の修辞的な手がかりから
文脈構造に関する情報、−例えばこの文とこの文はまと
まって一つの内容を構成している、とか、この文からこ
の文まではこの例示部分であるとか−を抽出する処理で
あり、本出願人による特願平４−１５１２７４号記載の
セグメンテーション処理と同様の処理を行うものであ
る。これら内容的にまとまる（連続した）一連の文をセ
グメントと呼ぶ。セグメンテーション処理部１００は、
個々の修辞表現（２文以上にわたることもある）を処理
する個別のルール（“セグメンテーションルール”と呼
ぶ）を記憶するセグメンテーションルール記憶部１０２
を、これらのセグメンテーションルールを単文解析結果
に対して適応するルールインタプリタであるセグメンテ
ーションルール適用部１０１とからなっている。

【００６４】文情報記憶部４３から渡される原文の表層
文字列、形態素列、構文構造のデータはセグメンテーシ
ョン処理部１００にわたされ、それら全体に対してセグ
メンテーション記憶部１０２に記憶されている各セグメ
ンテーションルールが適用される。ルールの適用によっ
て抽出された構造情報は、構造候補生成・評価部１０３
にわたされ、抽出された情報に反しない範囲で文脈構造
候補が生成される。生成された構造候補はそれぞれ構造
評価ルール記憶部１０４に記憶された構造評価ルールで
評価され、上位規定個（通常１個）の文脈構造がその文
章の文脈構造として出力される。

【００６５】以下列挙表現の扱いを例に、列挙表現を扱
うセグメンテーションルールの例について説明する。典
型的な列挙表現は、以下の５種類である。

【００６６】１．(1)(2)(3) ，一二三，(a)(b)(c) 等の
記号による呈示２．‘・’等、単一記号の連用によるマーキング３．“…。第一に…。第二に…。第三に…。” ４．“…。まず…。次に…。さらに…。…も…。最後に
…。” ５．“…には、Ａ，Ｂ，Ｃがある。Ａは…。Ｂは…。” （Ａ，Ｂ，Ｃは名詞句）１．〜４．で用いられている修辞的表現を以下シーケン
シング表現と呼ぶことにする。処理上問題となるのは次
の点である。

【００６７】ａ）１．に関して、章や節の見出しと間
違える。ｂ）２．に関して、文中に２ヵ所以上この種の列挙表
現があった場合、混同してしまう。

【００６８】ｃ）４．に関して、“次に…を述べ
る。”といった列挙表現でない表現と区別しないといけ
ない。また“最後に”という表現は、文章全体の結語と
して使われている場合もあるので、区別しなくてはなら
ない。助詞「も」の添加的な文脈機能は文の構文構造に
影響されるので、その判定も必要である。

【００６９】ｅ）５．に関して、列挙表現を示すマー
カが他と違って固定でないので、話題解析結果を利用し
た特別の処理が必要てある。ｆ）最後の列挙要素の叙述範囲（スコープ）の決定ｇ）各列挙要素のスコープの中の文脈構造に関して：
通常最初の文が独立していて、その説明が以降続く。

【００７０】この構造的な特徴を接続系列中に反映しな
ければならない。ｈ） “…には次の３つがある。第一は…。第二は
…。”のような、列挙文の前に予告的な文がある場合の
文脈構造上の措置。

【００７１】ｉ） “図＊に…を示す。…。表＊に…を
示す。”といった図表の参照表現は、列挙的な場合があ
る。段落の先頭にそういった表現がある場合は以降にそ
の図表の説明が続くが、段落の最後にあった場合はそれ
までの説明の補足であることが多い。このような構造的
な違いを処理しなくてはならない。このことは、“第１
章では…について述べる。…。第２章では…について述
べる。…。”といった前書きの中の表現にもあてはま
る。

【００７２】ｊ）字下げ、改段落されている部分の影
響：これは、最終要素のスコープ決定や、図表の参照表
現のスコープ決定への影響が大きい。

【００７３】列挙表現に対する接続関係抽出規則記憶部
（単文解析用辞書）の登録内容の例を図２５に示す。図
１４に記したものに比べて、形態素列の条件が指定でき
ること、および表層／形態素列の記述に正規表現が使用
できること、などが拡張されている。

【００７４】表中の記号‘．＊’は正規表現である。正
規表現とは、UNIXでよく用いられる、文字列を指定する
記法の１つである。不定部分を含む文字列を表現するこ
とや、部分的に異なる文字列をまとめて表現すること等
が簡単にできる。

【００７５】表の第２フィールドは、登録された表現の
文中の出現場所に関する条件を示す。文頭（BUNTOP) ，
文末(BUNEND)，文の先頭の節の末尾(TERMEND) 、などが
指定できる。第３フィールドは形態素列に対する条件で
ある。記述がある場合のみ、チェックされる。

【００７６】表中３行目の登録は、“第一に…”，“第
一の…”，第一は…”といった表現にマッチする。もし
このテンプレートが助詞‘に’‘の’‘は’を含まない
ものであると、“…。第一彼は未成年だ。”といった、
「そもそも」という意味の表現と誤マッチしてしまう。
６行目の登録には品詞条件が書かれているので、“まず
いのは、…”といった表現に誤マッチすることがない。

【００７７】最後の数登録は、不定部分“．＊”を含む
ものである。“最初に話したいことは、…”“最初に問
題になるのは、…”といった表現を検出するためのもの
である。これらは２番目の登録と重複するので接続関係
の判定には不要だが、抄録生成部で文の接続表現部分を
取り除く処理をする際に接続表現の部分を正確に切り出
す必要があり、その為の登録である。文中の同じ箇所に
複数の登録がマッチしたときは長い方を優先するので、
２番目の登録よりも優先される。

【００７８】単文解析辞書には“…を述べる。”といっ
た文末表現を捉える登録も存在する。複数の登録が同じ
文に対してマッチした場合、優先順序はマッチした文中
の位置に従って、文頭→文末→文の先頭の節の末尾→そ
の他、となっている。従って、ｄ）のような問題は自動
的に回避される。

【００７９】TERMEND 条件を位置条件に持つ登録には、
‘添加’の助詞‘も’などがある。この条件により、
“…。ダイアナ妃も使っているシャネルの香水は、
…。”といった文にはマッチしないが、“…。彼も働い
た。”のような文にはマッチする。

【００８０】このような工夫により、ｃ）やｄ）の問題
に対処している。次に、ｆ）の処理を例として、列挙表
現を処理するセグメンテーションルールについて説明す
る。以下の４ケースに分けて処理される。

【００８１】１）シーケンシング表現を含む文で段落
が終わっている場合：１−ａ）次の文（次の段落の先頭文）に“以上”など
概括的な表現がある場合→スコープはその文まで：１−ｂ）それ以外→スコープは次の段落の最後まで２）１）以外の場合２−ａ） “以上”のような概括的な表現を含む文が段
落内にある場合→スコープはその文の前まで。

【００８２】２−ｂ）２−ａ）以外の場合→スコープ
はその段落の終わりまで。同様のヒューリスティックにより、ｂ），ｇ）〜ｊ）の
問題を処理している。このように、セグメンテーション
処理では、段落の境界を目印とした文の相対的位置関係
が重要である。これらの指定をしやすいように、ルール
の記述方法は工夫されている。

【００８３】ａ）は、本稿で説明しなかったが、単文解
析部の前処理である書式解析部で処理される。ｅ）は、
話題解析結果を利用したセグメンテーションルールで処
理される。

【００８４】次に、セグメンテーションルールの記述形
式について述べる。図２６は譲歩表現（“確かに…。・
・・しかし…”）を扱う為のルールの一つである。

【００８５】‘IN’の欄はコメント行であり、想定する
典型的な入力パターン（修辞表現例）を記述する。４行
目以降は、縦の欄のそれぞれが、１つの文に対する条件
に対応している。空欄は無条件である。

【００８６】‘OUT ’欄には、マッチした場合の出力パ
ターンを記述する。抽出された構造情報を構造制約記号
を用いて表現する。数字は各欄で指定された文と対応し
ている。使用できる構造制約記号は以下の通りである。（１） ‘［’および‘］’ ‘［’と‘］’で囲まれた部分が１つの部分構造を構成
することを示す。文章の部分的なまとまりを示す制約で
ある。（２） ‘（’および‘）’ ‘（’は、その箇所から始まる部分構造（話、叙述）が
存在ることを示す。

【００８７】‘）’は、その箇所で終わる部分構造が存
在することを示す。（３） ‘＠’ その箇所で終わるような部分構造が存在しないことを示
す。ある事柄の叙述が１文で叙述しきれず、次の文にま
で及んでいるような箇所に挿入する。つまり、後続する
文ないしセグメントが、直前の文、ないしは前接するセ
グメントの内容と直接関係している場合、用いる。

【００８８】各文に対する条件としては、図２７に示す
ものが記述できる。正規表現は否定条件の記述能力に弱
いので、否定条件を明示的に記述できるフィールドを設
けてある。通常の正条件の記述と組み合わせることによ
って、単一の正規表現で書けないような条件も書くこと
ができる。

【００８９】図２８，２９，３０，３１に別のセグメン
テーションルールの記述例を示す。図２８は上記（１−
ａ）、図２９は上記（１−ｂ）、図３０は上記（２−
ａ）、図３１は上記（２−ｂ）に対応するルールであ
る。OUT 欄の構造制約記号は、ｇ）の対処を含んでい
る。これによって、各列挙項目についてはシーケンシン
グ表現を含む先頭文のみが要約文に残るように文抽出可
否決定部はコントロールされる。接続関係“ラスト”
は、“最後に”や、“…は３つある。”という表現から
後ろに現れる“第３に”等、最後の列挙要素であること
を示す接続関係である。

【００９０】図３２，３３に単文解析部およびセグメン
テーションルール適用部のフローチャートを示す。単文
解析部では文章中の各文に対し、辞書登録された表現が
含まれていないか、位置条件と併せてチェックする。形
態素列の指定のある辞書登録については、その条件も調
べる。マッチした登録の接続関係（登録の第１フィール
ド部分）をその文の接続関係と判定する。

【００９１】１文中に２つ以上の登録がマッチした場合
は、マッチした箇所に関する優先規則（文頭→文末→タ
ーム末→その他）によって決定する。同じ箇所に複数の
登録がマッチした場合は、長い方を優先する。

【００９２】１つもマッチしなかった場合は、接続関係
‘ε’（明示的な接続関係がないことを示す接続関係）
をその文に対して割り当てる。このようにして、各接続
関係を決定する。

【００９３】こうして抽出された接続関係を並べて、接
続（関係）系列が生成される。セグメンテーション処理
は、この接続系列に対する構造制約記号の付加という形
で行われる。

【００９４】セグメンテーション処理部では、セグメン
テーションルールに組として登録されている修辞表現が
文章中に出現するか調べる。具体的には、以下の手順で
処理を行う。

【００９５】１．ルール中の文単位の指定（指定された
接続関係／表層文字列を持つ、指定された位置条件を満
たす文：ルール中の縦割りにされた部分の、各縦の条件
をＡＮＤしたもの（ｓｓｔフィールドを除く）を調べ、
条件に合う文をすべてピックアップする。すべての文単
位の指定に対し、これを行う。

【００９６】２．ピックアップされた文の組に対し、文
間の相対位置条件（ｓｓｔ条件）を満たす文の組をすべ
て生成する。ただし、１つの文に対し相対位置条件を満
たす文が２つあった場合は、より近いものを優先する。

【００９７】３．手順２で生成した全ての文の組に対し
て、OUT フィールドで指定されたアクション（構造構造
制約信号の付加、接続関係の変更）を行う。４．以上の手順を、登録された全てのセグメンテーショ
ンルールに対して行う。

【００９８】以下、図＊の譲歩構文に関するセグメンテ
ーションルールを例に上述の処理を説明する以下のよう
な文章があったとする。「…。確かに…。しかし…。
［改段落］しかし…。むろん…。…。［改段落］しかし
…。」この文章の単文解析結果（接続系列）は以下のよ
うなものである。

【００９９】［１補足２逆接３逆接４補
足５ ε ６逆接７］セグメンテーションルール
の文指定１にマッチする文は、文２，５である。ルール
の文指定２にマッチする文は、文３，４，７である。こ
れらより、手順２に従って、文の組（２，３）および
（５，７）が生成される。

【０１００】（（２，７），（５，３），（５，４）は
ｓｓｔ条件を満たさないので廃却される。（２，４）は
ｓｓｔ条件を満たすが、（２，３）が優先するので廃却
される。）これらの文の組に対してｏｕｔフィールドに
記載されたアクションを行うと、接続系列は以下のよう
になる。［補足（［２］逆接３逆接４補足（［５ ε
６］逆接７］このようにしてセグメンテーション処
理は行われる。

【０１０１】

【発明の効果】以上説明したように、本発明によれば、
要約処理を施す必要のない部分を書誌的事項を解析する
ことにより判定することができる。これにより、「あら
まし」などのように要約処理を施す必要のない部分は、
原文書のまま要約結果に反映させ、また、「謝辞」や
「付録」などのように要約結果に出力すべきでない部分
については、効果的に捨て去ることができる。さらに、
要約を必要とする本文については要約処理が施されるた
め、それらをマージすることにより、高品質な要約文書
を得ることができる。

【０１０２】また原文書の構造情報・フォント情報・レ
イアウト情報を利用することにより，原文書の書類イメ
ージに従った要約文書を作成することができる．例え
ば，原文書のタイトルや章見出しが本文に比べて太く大
きなフォントで書かれていれば，要約文書のタイトル・
証明なども同様のフォントで提示することができる．ま
た原文書の本文が２段組で数頁書かれている際に，同じ
く２段組の１頁にまとめることができ、効果的な結果を
出力でする。

【図面の簡単な説明】

【図１】機器構成図

【図２】全体の構成図

【図３】書誌事項解析部の処理の流れ図

【図４】書誌事項解析部の処理の流れ図

【図５】書誌事項解析部の処理の流れ図

【図６】書誌事項検出パタン例を示す図

【図７】文書構造記憶部の形式を示す図

【図８】入力文書例を示す図

【図９】文書構造記憶部の内容の例を示す図

【図１０】要約処理制御部の処理の流れ図

【図１１】要約処理制御部の処理の流れ図

【図１２】要約結果記憶部の形式を示す図

【図１３】接続関係の例の図

【図１４】接続関係抽出規則記憶部の内容例を示す図

【図１５】自然言語文章の例を示す図

【図１６】文情報記憶部の内容例を示す図

【図１７】文脈構造解析結果の例を示す図

【図１８】文脈情報記憶部の内容の例を示す図

【図１９】文抽出情報記憶部の内容の例を示す図

【図２０】暗黙接続表現記憶部の内容の例を示す図

【図２１】変形例の全体の構成図

【図２２】他の実施例における文書構造データの例を
示す図

【図２３】他の実施例における文書の要約処理の例を
示す図

【図２４】文脈構造解析部の例を示す図

【図２５】接続関係抽出規則記憶部の内容を示す図

【図２６】譲歩表現を扱う為のルールを示す図

【図２７】文に対する条件を示す図

【図２８】セグメンテーションルールを示す図

【図２９】セグメンテーションルールを示す図

【図３０】セグメンテーションルールを示す図

【図３１】セグメンテーションルールを示す図

【図３２】単文解析部のフローチャート

【図３３】セグメンテーションルール適用部のフロー
チャート

───────────────────────────────────────────────────── フロントページの続き (72)発明者小野顕司神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内

Claims

【特許請求の範囲】

【請求項１】原文章の書誌的事項を抽出し、その抽出結
果を利用して要約文章を作成することを特徴とする要約
文章作成装置。
【請求項２】原文の要約処理を行う要約処理手段と、前記原文のタイトル情報から章立ての構造を解析する解
析手段と、この解析手段により解析した章立ての構造に基づいて各
章・節ごとに原文の要約処理を行うか、原文のままを要
約結果とするかを判定するとともに、その判定結果に基
づいて起動する要約処理の結果を章立ての構造に基づい
て再構成する要約処理制御手段とを有することを特徴と
する要約文章作成装置。
【請求項３】原文の要約処理を行う要約処理手段と、前記原文のタイトル情報から章立ての構造を解析する解
析手段と、この解析手段により解析した章立ての構造に基づいて各
章・節ごとに原文の要約文字数を決定し、要約処理の結
果を章立ての構造に基づいて再構成する要約処理制御手
段とを有することを特徴とする要約文章作成装置。
【請求項４】原文の要約処理を行う要約処理手段と、前記原文のタイトル情報から章立ての構造とレイアウト
やフォント情報を解析する解析手段と、要約処理の結果を章立ての構造に基づいて再構成する要
約処理制御手段とを有することを特徴とする要約文章作
成装置。