JP3879321B2

JP3879321B2 - 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体

Info

Publication number: JP3879321B2
Application number: JP22763899A
Authority: JP
Inventors: 良寛上田
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1998-12-17
Filing date: 1999-08-11
Publication date: 2007-02-14
Anticipated expiration: 2019-08-11
Also published as: US6493663B1; JP2000235584A

Description

【０００１】
【発明の属する技術分野】
本発明は文書の概要を把握させるための要約を作成する文書要約装置、文書要約方法及び要約作成プログラムを記録した記録媒体に関し、特に複数文書に対してその集合全体の概要を把握させる要約を作成するための文書要約装置、文書要約方法及び要約作成プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
従来より要約作成技術が研究されており、実用になるものが開発されている。これらの従来の技術は単一文書に対する要約を作成するものがほとんどである。ところが、複数の文書の概要を把握するための要約が必要な場合がある。しかも、単一文書向けに開発された方法をそのまま複数文書に対して適用しても、適切な要約は作成されない。
【０００３】
従来の要約技術でよく採用されている方法として、重要文ピックアップまたは抄録という方法がある。これらの方法では、まず、文書中の各文に対して、単語の出現頻度、文書中や段落中での位置、固有名詞の使用などよりスコアを付与する。文数、または全体の長さが予め設定したおいた値に達するまで、スコアの高いものから文をピックアップし、それらを並べて要約とするものである。この方法を複数文書に適用した場合、選ばれた文は文書群の中の１つの文書中にあったものであり、文書集合を代表するものとはいえず、全体の要約としてふさわしくない。
【０００４】
そこで、複数文書に対する要約技術が必要とされる。複数文書で用いられる要約技術としては以下のようなものがあげられる。
（１）キーワード列挙
文書群で頻出する単語をキーワードとして、一定数を列挙する。このような例としては、Cutting, et al. "Scatter/ Gather: A Cluster-based Approach to Browsing Large Document Collections" SIGIR-92 (1992)に記載の分類技術を用いてなされた発明がある。その発明は、特開平５−２２５２５６号公報や米国特許USP5,442,778にも開示されている。キーワード列挙では、文書群を分類し、分類されたクラスターにそのクラスターで現れる頻出単語を列挙する。
【０００５】
（２）抽出された意味から文を生成するもの
抽出された意味から文を生成するものとして、SUMMONS(SUMMarizing Online NewS articles)がある。これは、McKeown and Radev, "Generating Summaries of Multiple News Articles" SIGIR-95 (1995)に開示されている。この技術は、予め用意したテンプレートのスロットを複数文書から抽出した情報で埋めるものである。そしてテンプレートに埋められた情報を意味構造とし、その意味構造からあるパターンにあった文を要約として生成するものである。
【０００６】
（３）続報記事の合成
船坂、山本、増山：「冗長度削減による関連新聞記事の要約」自然言語処理114-7(996) に記載された技術では、続報を伝える複数記事から冗長部分を削除して合成することで、複数文書の要約を作成している。一般に続報記事は、背景としてこれまでの経過を伝える部分が存在する。そこで、背景に関する記事がある場合には、この背景説明部分は冗長となる。このため、この部分を削除して記事を合成することで、冗長部分を削除した要約を生成する。
【０００７】
（４）複数文の合成
同じ内容の文書(同じ事件を伝える複数新聞社の新聞記事)から同じ意味を共有する文を特定し合成する。
【０００８】
特開平１０−１３４０６６号公報に開示された文章集約装置では、まず、指定した文章（文字ニュースを対象としている）に似た文章（他の新聞社の文字ニュース）を集める。次に、文章を文に分割し、似通った文同士をグループ化する。ここで、似た文とは、一致する単語の数が閾値以上のもので、例えば「台風５号、九州上陸」、「大型の台風５号が九州上陸」、…などである。
【０００９】
これらのグループそれぞれから、グループの代表文を作成する。この代表文作成方法としては、１つを選択したり、文節の共通集合を生成したり、或いは合併集合を生成するなどの方法が考えられる。例えば、共通集合をとると「台風５号九州上陸」、合併集合をとると「大型の台風５号が、九州上陸」となる。
【００１０】
柴田他「複数文書の融合」自然言語処理研究会120-12(1997)に示された方法も同様に、同じ事件を伝える複数新聞社の新聞記事から、同じ意味を共有する文を特定し、その合成をとる。合成方法として、ＡＮＤ型（要素の共通集合）、ＯＲ型（合併集合）などがある。
【００１１】
【発明が解決しようとする課題】
しかし、従来の技術では、それぞれ以下のような問題点があった。
（１）キーワード列挙の場合には、単語それぞれが独立して現れ、単語間の関係が示されない。このため読者は、キーワードの並びや、その他雑多な知識から、その文書群で言われていることを推測するしかない。すなわち、推測するためにその分野に関する知識、その文書群で記述されている事象に関する知識を必要とする。
【００１２】
（２）抽出された意味から文を生成する場合には、対象となる文書が強く限定される。例えば、テロリストが起こした事件に対する記事（「誰が、どこで、いつ、どのような攻撃を起こして、人間の犠牲者、及び破壊された建造物は…」）のような限定的な文しか対象にしていない。すなわち、事件のタイプごとにこのような意味テンプレートを予め作成しておく必要がある。そのため、同じ事件に対する記事のみを対象とすることができる。従って、検索結果やクラスタリングの結果として集まってきた文書群に対して適用することはできない。
【００１３】
（３）続報記事の合成では、同じ事件の初報と続報だけが要約の対象になっている。従って、検索結果やクラスタリングの結果として集まってきた文書群に対して適用することはできない。
【００１４】
（４）複数文の合成では、同じ事件を伝えるものにしか適用できない。従って、検索結果やクラスタリングの結果として集まってきた文書群に対して適用することはできない。
【００１５】
本発明はこのような点に鑑みてなされたものであり、比較的多様な内容の文書群に対して適用しても分かり易い要約を生成することができる文書要約装置を提供することを目的とする。
【００１６】
また、本発明の他の目的は、比較的多様な内容の文書群に対し適用可能であり、かつ分かり易い要約を生成するための文書要約方法を提供することである。
また、本発明の別の目的は、比較的多様な内容の文書群に関する分かり易い要約を生成する処理をコンピュータに行わせることができる要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することである。
【００１７】
【課題を解決するための手段】
本発明では上記課題を解決するために、文書集合の要約を作成する文書要約装置において、処理対象として指定された文書に含まれる文の構文を解析し、単語間の関係を記述した解析グラフを生成する文解析手段と、前記文解析手段が生成した解析グラフに対し、重要度に応じたスコアを付与する解析グラフスコア付与手段と、前記解析グラフスコア付与手段でスコア付けされた解析グラフを蓄積するとともに、同じ概念を示す解析グラフ同士を統合し、統合された解析グラフに対して付与されたスコアを統合内容に応じて増加させる解析グラフスコア累積手段と、処理対象として指定された全ての文書から解析グラフが生成され、前記解析グラフスコア累積手段に蓄積されたら、前記解析グラフスコア累積手段に蓄積された解析グラフ群からスコアの高いものを選択し、選択した解析グラフから要約文を合成する文合成手段と、を有することを特徴とする文書要約装置が提供される。
【００１８】
このような文書要約装置によれば、複数の文書を処理対象として指定すると、文解析手段により、各文書に含まれる文の構文が解析され、単語間の関係を記述した解析グラフが生成される。すると、解析グラフスコア付与手段により、生成された解析グラフに対して、重要度に応じたスコアが付与される。スコア付けされた解析グラフは解析グラフスコア累積手段に蓄積される。その際、同じ概念を示す解析グラフ同士は、解析グラフスコア累積手段によって統合され、統合された解析グラフに対して付与されたスコアは、統合内容に応じて加算される。
【００１９】
また、上記課題を解決するために、文書集合の要約を作成する文書要約方法において、文解析手段が、処理対象として指定された文書に含まれる文の構文を解析し、単語間の関係を記述した解析グラフを生成し、解析グラフスコア付与手段が、生成された解析グラフに対し、重要度に応じたスコアを付与し、解析グラフスコア累積手段が、スコア付けされた解析グラフを蓄積するとともに、同じ概念を示す解析グラフ同士を統合し、統合された解析グラフに対して付与されたスコアを統合内容に応じて増加させ、文合成手段が、処理対象として指定された全ての文書から解析グラフが生成され、蓄積されたら、蓄積された解析グラフ群のスコアの高い解析グラフから要約文を合成する、ことを特徴とする文書要約方法が提供される。
【００２０】
このような文書要約方法によれば、処理対象として複数の文書を指定すると、それらの文書に含まれる文から解析グラフが生成され、その解析グラフの重要度の高いものによって要約文が合成される。
【００２１】
また、上記課題を解決するために、コンピュータに文書集合の要約を作成させるための要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体において、処理対象として指定された文書に含まれる文の構文を解析し、単語間の関係を記述した解析グラフを生成する文解析手段、前記文解析手段が生成した解析グラフに対し、重要度に応じたスコアを付与する解析グラフスコア付与手段、前記解析グラフスコア付与手段でスコア付けされた解析グラフを蓄積するとともに、同じ概念を示す解析グラフ同士を統合し、統合された解析グラフに対して付与されたスコアを統合内容に応じて増加させる解析グラフスコア累積手段、処理対象として指定された全ての文書から解析グラフが生成され、前記解析グラフスコア累積手段に蓄積されたら、前記解析グラフスコア累積手段に蓄積された解析グラフ群からスコアの高いものを選択し、選択した解析グラフから要約文を合成する文合成手段、としてコンピュータを機能させること特徴とする要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。
【００２２】
このような記録媒体に記録された要約作成プログラムをコンピュータに実行させれば、上記本発明に係る文書要約装置に必要な機能がコンピュータ上に構築される。
【００２３】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図１は、本発明の原理構成図である。本発明の文書要約装置は、文書集合の要約を作成するものである。ここで、処理対象の文書１としては、例えば一定期間内の新聞の経済記事をクラスタリングし、１つのクラスターを構成する各文書を処理対象とする。
【００２４】
文解析手段２は、処理対象として指定された文書１に含まれる文の構文を解析し、単語間の関係を記述した解析グラフである解析木３を生成する。解析木スコア付与手段４は、文解析手段２が生成した解析木３に対し、重要度に応じたスコアを付与する。例えば、解析木を構成する要素が多いほど詳しい内容であると考え、要素数に応じたスコアを付与する。解析木スコア累積手段５は、解析木スコア付与手段４でスコア付けされた解析木を蓄積するとともに、同じ概念を示す解析木同士を統合し、統合された解析木に対して付与されたスコアを統合内容に応じて増加させる。スコアの増加方法としては、例えば、統合した各解析木のスコアの合計を統合後のスコアとする。文合成手段６は、処理対象として指定された全ての文書１から解析木が生成され、解析木スコア累積手段５に蓄積されたら、解析木スコア累積手段５に蓄積された解析木群からスコアの高いものを選択し、選択した解析木から要約文７を合成する。
【００２５】
このような文書要約装置に対して、処理対象とすべき文書１を指定する情報を入力すると、文解析手段２によって指定した文書１に含まれる文の構文が解析され、単語間の関係を記述した解析木３が生成される。文解析手段２によって生成された解析木３は、解析木スコア付与手段４によって、重要度に応じたスコア付けがなされる。スコア付けされた解析木は、解析木スコア累積手段５に格納される。その際、同じ概念の解析木同士は統合され、統合された解析木に対して付与されたスコアが統合内容に応じて増加される。処理対象として指定された全ての文書１から解析木が生成され、解析木スコア累積手段５に蓄積されたら、文合成手段６によって、解析木スコア累積手段５に蓄積された解析木群からスコアの高いものが選択される。そして、選択した解析木から要約文７が合成される。
【００２６】
このような要約文７は、複数の文書の中で共通に流れる概念から短い句を合成し、列挙したものになる。従って、１年間の新聞記事の要約文を作成すれば、１年間で多く話題に上った事件のリストなどを取得することができる。すなわち、処理対象とする文書の制約が少ない。しかも、文章として生成されるため、キーワードの列挙等に比べ、非常に理解し易い内容となっている。
【００２７】
ところで、解析木を生成する際に、１つの文から生成された解析木のサブグラフであるサブツリーを生成することで、概念の同一性を様々な角度で検証できる。以下、そのような例を、第１の実施の形態として説明する。
【００２８】
図２は、第１の実施の形態の構成図である。第１の実施の形態の文書要約装置は、入力文書保持手段１１、文解析手段１２、解析木展開手段１３、解析木スコア付与手段１４、解析木スコア累積手段１５、及び文合成手段１６で構成される。
【００２９】
入力文書保持手段１１は、この文書要約装置に与えられる文書群１１ａを保持する。この文書群１１ａは、内容的には一定のテーマで集められたものが望ましい。例えば、ある検索式を与えて検索した結果、または、より大きな文書集合を分類（クラスタリング）して得られた結果などである。
【００３０】
文解析手段１２は、要約作成指令を受けると、入力文書保持手段１１の文書群の各文に対して構文解析を行う。構文解析手法は一般に知られている方法が存在する。この結果は一般的に木構造で表現されるが、ここでは、自立語の係り受け関係を表現したものを採用する。生成した解析木１２ａは、解析木展開手段１３と解析木スコア付与手段１４とに渡される。
【００３１】
解析木展開手段１３は、文解析手段１２で生成された解析木１２ａを展開し、解析木１２ａに内在する文を、個別の解析木１３ａとして生成する。ここで、ある解析木を展開することによって生成される解析木を特にサブツリーと呼ぶ。サブツリーとして生成された解析木１３ａの集合は、解析木スコア付与手段１４に渡される。なお、サブツリーは、文として意味をなす最小単位まで生成される。解析木の最小単位とは、ノード２個とそれらを結ぶアークで構成されたものである。
【００３２】
解析木スコア付与手段１４は、得られた解析木にスコアを与える。ここでは、解析木の構成要素（ノード）数をスコアとする。スコアの算出方法としては、これ以外にも様々な方法が考えられる。例えば、関係の種類により重み付けを変えて合計する方法、単語の重要度スコアを加味する方法などである。関係の種類による重み付けを行う場合には、必須格「４」、その他の連用修飾関係「３」、連体修飾関係「２」、名詞連続「１」などというように、文の骨格を重視し、枝葉を軽くする。
【００３３】
解析木スコア累積手段１５は、解析木スコア付与手段１４によってスコア付けされた解析木を蓄積する。この際、同じ解析木が現れるたびにその解析木を統合し、統合された解析木のそれぞれのスコアを合算する。
【００３４】
文合成手段１６は、解析木スコア累積手段に蓄積された解析木群からスコアの高いものを選択し、解析木から文を組み立てる。そして、選択した全ての解析木から組み立てた文を合成して、要約文１６ａとする。
【００３５】
このような構成の文書要約装置において要約を作成するには、まず、合成の対象とすべき文書群１１ａを入力文書保持手段１１に格納しておく。そして、ユーザが文書要約装置に対して、要約作成指令を入力する。すると、文解析手段１２が、入力文書保持手段１１に格納されている文書を順次取り出し、取り出した文書中の文に対して構文解析を行い、解析木１２ａを生成する。次に、解析木展開手段１３により、文解析手段１２が生成した解析木１２ａからサブツリーが生成される。そして、文解析手段１２で生成された解析木１２ａと解析木展開手段１３でサブツリーとして生成された解析木１３ａとが、解析木スコア付与手段１４に渡される。そのらの解析木は、解析木スコア付与手段１４によって、スコアが与えられる。スコア付けされた解析木は、解析木スコア累積手段１５に蓄積される。蓄積される際に、同じ解析木がすでに格納されていたら、それらの解析木は統合され、スコアが累積される。これにより複数の文書で現れる共通の解析木に対しては高いスコアが与えられる。さらに、文合成手段１６によって、高いスコアを持つ解析木が選択され、選択された解析木から文が合成される。合成された文は、要約文１６ａとして出力される。
【００３６】
図３は、文合成処理の手順を示す図である。この処理は、全て文合成手段１６によって行われる。
［Ｓ１］解析木スコア累積手段１５に蓄積された解析木を、スコアの高いに順にソートする。
［Ｓ２］最上位の解析木を抽出する。
［Ｓ３］抽出した解析木が、すでに文を組み立て済みの解析木のサブツリーか否かを判断する。すでに文を組み立てた解析木のサブツリーであれば、ステップＳ２に進む。そうでなければステップＳ４に進む。
［Ｓ４］抽出した解析木から文を組み立てる。
［Ｓ５］終了条件を満たしているか否かを判断する。終了条件は、文を組み立てた解析木の数や、組み立てられた文の総文字数などによって、予め設定されている。終了条件を満たしていればステップＳ６に進み、そうでなければステップＳ２進む。
［Ｓ６］生成した文を並べ、要約文として出力する。
【００３７】
このようにして、入力文書保持手段１１に保持された文書群１１ａに対する要約文１６ａが生成される。
次に、第１の実施の形態の文書要約装置による要約作成例を、具体的に説明する。以下の例では、「通信機会社であるフーバー社に関するある年の新聞記事を集めたもの」を文書集合にすることを想定して説明する。
【００３８】
まず、フーバー社に関する新聞記事を入力文書保持手段１１に格納する。そして、要約作成指令を入力する。すると、文解析手段１２でフーバー社に関する記事が解析され、解析木が生成される。
【００３９】
図４は、解析木の例を示す図である。これは「通信機大手のフーバー社は、５０ｇの携帯電話を発売し、巻き返しを図る計画である。」という文章を解析することによって得られる解析木である。この例では、自立語をノード２１〜２７とし、その間の関係をアーク３１〜３４として表現している。関係としては表層格を採用し、ラベルには格助詞そのものを記載している。なお、複数の文が等位接続された重文に対しては、その構成要素の単文ごとに解析している。
【００４０】
このような構造木は、表形式で表現できる。
図５は、表形式で表された解析木を示す図である。表形式の解析木４１では、各自立語４１ａに対応づけて、要素番号４１ｂ、関係名４１ｃ、及び係り先要素番号４１ｄが登録されている。なお、この例では簡略化のため、各自立語ごとに、単語、関係、係り先を記載しているが、これ以外の情報（品詞、活用、意味記述へのポインタなど）を載せてもよい。なお、関係名「φ」とは、係り先の単語に対して直接つながることを意味している。
【００４１】
図５のような解析木が生成されると、解析木展開手段１３によって、解析木が展開されサブツリーが生成される。そして、サブツリーも表形式の解析木で表される。
【００４２】
図６は、サブツリーを含めた解析木群を示す図である。この解析木群４０は簡略化のため、係り先は省略し、単語と関係名をあわせた表現で記載した。図中、「φ」と表記されている領域は、対応する要素が存在しないことを示す。１番目に示されているのは、展開元の解析木４１である。２番目以降に示されているのが、展開元の解析木４１を展開することで生成される解析木４２ａ〜４２ｊ、すなわちサブツリーである。このような解析木群４０は、解析木スコア付与手段１４に渡される。解析木スコア付与手段１４は、渡された解析木群４０内の各解析木４１，４２ａ〜４２ｊに対してスコア付けを行う。
【００４３】
図７は、スコア付けされた解析木群を示す図である。この例では、ツリーの構成要素数をスコアとするため、１番目の解析木４１のスコアが最も高く、値は「７」である。以下、構成要素数が減るごとに、スコアも減少する。
【００４４】
スコア付けされた解析木は、解析木スコア累積手段１５に蓄積される。このような処理が、入力文書保持手段１１内に格納された全ての文書に対して行われ、順次、解析木スコア累積手段１５に格納される。その際、解析木スコア累積手段１５は、格納すべき解析木と同じ構造の解析木がすでに格納されているか否かを判断する。同じ解析木が格納されていれば、それらを統合し、すでに格納されている解析木のスコアに、格納すべき解析木のスコアを加算する。
【００４５】
図８は、解析木スコア累積手段に蓄積された解析木を示す図である。解析木スコア累積手段１５では、表形式で表された解析木群４３の各解析木４３ａ〜４３ｉに対して、「スコア」、「構成要素数」、及び「出現数」の各項目の情報を付加している。「スコア」は、その解析木に関して累積されたスコアである。「構成要素数」は、その解析木の構成要素（自立語）の数である。「出現数」は、同じ解析木が何個出現したのかを示している。
【００４６】
ここでは、解析木スコア累積手段１５で累積されるスコアの値は、
（解析木のスコア）×（その解析木の出現数）
で計算できる。
【００４７】
入力文書保持手段１１に格納されている全ての文書から解析木とそのサブツリーが生成され、解析木スコア累積手段１５に格納されると、文合成手段１６が、解析木スコア累積手段１５に蓄積された解析木をそのスコアでソートする。
【００４８】
図９は、ソート結果を示す図である。図８に示した解析木群４３内の解析木４３ａ〜４３ｉが、スコア順に並べられている。文合成手段１６は、ソートされた解析木の中から、最上位の関係をピックアップする。そして、ピックアップした解析木から文を組み立てる。
【００４９】
図１０は、解析木から要約文を生成する様子を示す図である。これは、図９の１番目の解析木４３ｂから要約文５１を生成する場合の例である。ここでは解析木４３ｂの表に記載された順序で単語をピックアップし、関係名を助詞になおして（この場合は関係名が助詞に対応する）、その単語に付加していく。これらを結合して要約文５１とする。
【００５０】
ここで、最初の解析木４３ｂから、
「フーバー社は携帯電話を発売」
が得られる。なお、この際に動詞を終止形に変形してもよい。終止形に変形すると、
「フーバー社は携帯電話を発売する」
となる。
【００５１】
文合成手段１６は、次に上位にあるものを選択し、文を生成することを繰り返す。文合成手段１６において、選択した解析木がすでに選択して生成した解析木のサブツリーになっている場合はスキップする。一方、選択した解析木のサブツリーが、選択して生成した解析木の中にある場合はスキップしない。図９では、３番目の解析木４３ｃは１番目の解析木４３ｂのサブツリーであり前者の条件にマッチするので、生成しない。
【００５２】
そこで、２番目の解析木４２ｅから、
「フーバー社はサイモン市歴史美術館を支援」
という文が生成され、３番目の解析木４３ｃをスキップし、４番目の解析木４３ｇから、
「フーバー社は衛星携帯電話を研究」
という文が生成される。さらに、５番目の解析木４３ｈは、４番目の解析木４３ｇのサブツリーであるためスキップする。
【００５３】
６番目の解析木４３ａは、最初の解析木４３ｂがそのサブツリーになる。これはスキップ条件における後者の条件に一致し、スキップせずに要約文を生成する。従って、
「フーバー社は５０ｇの携帯電話を発売」
という文が生成される。
【００５４】
繰り返しの終了条件は、文が一定数選択されたか否か、または合成された文の文長の合計が一定長を越えたか否かなどの条件を与える。ここでは、前者を選択して、３個までをピックアップするものとする。
【００５５】
図１１は、要約文の例を示す図である。この例では、サイモン社のこの年の活動の要約文６０として、「フーバー社は携帯電話を発売、フーバー社はサイモン市歴史美術館を支援、フーバー社は衛星携帯電話を研究」が得られている。要約文６０は、ユーザが使用している装置の画面に表示される。その結果、ユーザは、複数の文書の要約を参照することができる。
【００５６】
ここで、終了条件を緩和し、文が４つ選択されるまで要約文の生成を行うと、さらに「フーバー社は５０ｇの携帯電話を発売」が加わる。
ところで、上記の説明では、文解析手段１２によって解析木が生成された直後に解析木を展開し、サブツリー群を生成しているが、このようなサブツリーの生成は、解析木スコア付与手段１４によってスコア付けされた後に行ってもよい、その場合、解析木展開手段１３は、解析木スコア付与手段１４でスコア付けされた解析木を受け取り、サブツリーを生成する。生成したサブツリーは、解析木スコア付与手段１４に渡す。解析木スコア付与手段１４は受け取ったサブツリーにスコア付けを行う。
【００５７】
また、語尾の変化は解析木の中に入れていないが、解析木の中に含めて変化ごとに個別に集計してもよい。例えば、「発売する」、「発売した」、「発売している」などを分けて集計する。
【００５８】
次に、第２の実施の形態について説明する。第２の実施の形態は、単語重要度スコアを利用するものである。ここでは、単に単語に対してスコア付けをするだけでなく、要約文として抽出された解析木に含まれる単語の重要度スコアを下げ、要約文が生成されるたびに解析木の再スコアリングを行うものとする。
【００５９】
図１２は、第２の実施の形態の構成図である。第２の実施の形態の文書要約装置は、入力文書保持手段７１、文解析手段７２、解析木展開手段７３、解析木スコア付与手段７４、解析木スコア累積手段７５、文合成手段７６、及び単語スコア付与手段７７で構成される。ここで、入力文書保持手段７１、文解析手段７２、解析木展開手段７３、及び解析木スコア累積手段７５については、図２で示した第１の実施の形態の同名の構成要素と同じ機能を有しているため、説明を省略する。すなわち、文書群７１ａから解析木７２ａやそのサブツリーである解析木群７３ａを生成するまでの処理は、第１の実施の形態と同様である。
【００６０】
単語スコア付与手段７７は、入力文書保持手段７１に保持された文書群７１ａの各文書に含まれる単語の重要度スコアを計算する。スコアの計算方法としてはtf*IDF(tf：term frequency，IDF：inverse document frequency)積などを用いる。
【００６１】
解析木スコア付与手段７４は、単語スコア付与手段７７が計算した各単語の重要度スコアを用いて、解析木のスコアを計算する。解析木スコア付与手段７４のスコアの算出方法は、単純に解析木に現れる単語のスコアの合計とすることもできるが、ここでは、関係の種類により重み付けを変えて合計する方法を応用する。それぞれの単語のスコアに関係の種類により重み付けて、累計する。重み付けは、必須格「４」、その他の連用修飾関係「３」、連体修飾関係「２」、名詞連続「１」、さらに最終の受け側を「４」とする。ここで必須格とは、動詞に必須となる品詞である。
【００６２】
従って、解析木のスコアを計算する際には、各単語に対して、（単語の重要度スコア）×（関係の種類による重み）を計算する。そして、算出された値の合計が解析木のスコアとなる。スコア付けされた解析木は、第１の実施の形態と同様に解析木スコア累積手段７５に格納される。
【００６３】
また、解析木スコア付与手段７４は、文合成手段７６からの再スコアリング要求に応じて、解析木スコア累積手段７５に蓄積された解析木の再スコアリングを行う。ここでは、使用単語リスト７６ａに保持された単語について一定割合で重要度スコアを落とす。そして、新たな単語重要度スコアを用いて、解析木スコア累積手段７５に蓄積された解析木のスコアを計算する。
【００６４】
文合成手段７６は、全ての入力文書に対する解析木生成及びスコア付けがなされたら、文合成処理を行う。文合成処置では、まず、解析木スコア累積手段７５に蓄積された解析木をそのスコアでソートする。次に、ソートされた解析木群中の最上位の解析木をピックアップし、この解析木を解析木スコア累積手段７５から取り除く。また、用いられた単語を使用単語リスト７６ａに保持する。その後、文合成手段７６は、終了条件を判断し、終了しない場合は、解析木スコア付与手段７４に対して再スコアリング要求を出力する。再スコアリングが終了したら、解析木スコア累積手段７５内の解析木のソートを行い、上位にあるものを選択することを繰り返す。
【００６５】
このような文書要約装置によれば、入力文書保持手段７１に格納された文書が文解析手段７２で解析され、解析木７２ａが生成される。解析木７２ａからは、解析木展開手段７３によりさらにサブツリーである解析木群７３ａも生成され、それらをまとめた解析木群が解析木スコア付与手段７４に送られる。同時に、単語スコア付与手段７７により、入力文書保持手段７１に格納されている文書で使用されている単語の重要度スコアが計算される。各単語の重要度スコアは、解析木スコア付与手段７４に送られる。解析木スコア付与手段７４は、単語の重要度スコアを用い、文解析手段７２と解析木展開手段７３とから送られた解析木のスコアを計算する。そして、スコア付けされた解析木を解析木スコア累積手段７５に渡す。解析木スコア累積手段７５は、受け取った解析木を蓄積するとともに、同じ解析木を統合し、スコアを累積させる。
【００６６】
入力文書保持手段７１内の全ての文書から生成された解析木が解析木スコア累積手段７５に格納されたら、文合成手段７６によって、スコアの高い順に解析木がソートされる。そして、最も上位の解析木がピックアップされ、その解析木から文が組み立てられるとともに、解析木に含まれる単語が、使用単語リスト７６ａに格納される。ピックアップされた解析木は、解析木スコア累積手段７５内から削除される。ここで、文合成手段７６に予め設定されている終了条件を満たしていなければ、文合成手段７６から解析木スコア付与手段７４に対して、再スコアリング要求が送られる。この際、新たに使用単語リスト７６ａに追加された単語の情報が、解析木スコア付与手段７４に渡される。解析木スコア付与手段７４は、再スコアリング要求を受け取ると、新たに使用単語リスト７６ａに追加された単語の重要度スコアの値を下げる。例えば、１／５倍する。そして、各単語の更新後の重要度スコアを用いて、解析木スコア累積手段７５に格納されている解析木のスコアを計算し、そのスコアを解析木スコア累積手段７５内の対応する解析木に付与する。
【００６７】
以後、同様の処理が、文合成手段７６おいて終了条件が満たされるまで続けられる。終了条件が満たされたら、その時点で生成されている文によって要約文７６ｂが生成され、出力される。
【００６８】
このように、単語の重要度や、関係の種類を考慮して解析木のスコアを計算することで、複数の文書内の重要な文が高いスコアを得ることができる。その結果、より的確な要約文が生成できる。しかも、重要な文をピックアップするたびに解析木の再スコアリングを行うことで、似通った内容の文がピックアップされることを防止できる。すなわち、再スコアリングを適切に用いれば、関係をピックアップする際に既出要約の構文木のサブツリーであるか否かを比較する必要はなくなる。
【００６９】
次に、第３の実施の形態について説明する。第３の実施の形態は、シソーラスを用いて解析木を変換させるものである。
図１３は、第３の実施の形態の構成図である。第３の実施の形態の文書要約装置は、入力文書保持手段８１、文解析手段８２、解析木展開手段８３、解析木スコア付与手段８４、解析木スコア累積手段８５、文合成手段８６、単語スコア付与手段８７、シソーラス８８、及び解析木変換手段８９で構成される。ここで、入力文書保持手段８１、文解析手段８２、解析木展開手段８３、解析木スコア累積手段８５、文合成手段８６、及び単語スコア付与手段８７については、図１２で示した第２の実施の形態の同名の構成要素と同じ機能を有しているため、説明を省略する。
【００７０】
シソーラス８８は、単語間の意味の包含関係を階層的に記載したものであり、入力された単語を変換する。ここでは類義語変換と、上位概念への変換のみを行い、下位語への変換は行わない。具体的には、ある語が入力されると、その単語の上位概念語と、どれだけ上位に変換したかを数字で表したもの（変換レベル）との対のリストを返す。類義語の場合には、変換レベルを１とする。ここでは、上位変換の程度を制限することができるものとする。以下の例では、３段階までの変換を行うこととする。
【００７１】
例えば、「フーバー社」、「発売」、「電話」、「美術館」の各単語がシソーラスに入力されると、それぞれ以下のような結果が帰ってくる。
フーバー社：（Hoobar：１、通信機メーカー：１、メーカー：２、会社：３）
発売：（販売：１、売り出し：１、売買：１、商売：１、取引：２）
電話：（通信機：１、電気器具：２、機械：３）
美術館：（絵画：１、芸術：１、文化：２）
解析木変換手段８９は、文解析手段８２が生成した解析木と解析木展開手段８３がサブツリーとして生成した解析木とを受け取り、その解析木を構成する単語を順次シソーラス８８に入力する。そして、対象となる解析木の単語を、シソーラス８８から返された単語に置き換える。さらに、その単語の変換度数を付加して、解析木スコア付与手段８４に渡す。
【００７２】
解析木スコア付与手段８４は、文解析手段８２から直接受け取った解析木に関しては、解析木を構成する単語の重要度スコアの合計を解析木のスコアとする。また、解析木変換手段８９から受け取った解析木に関しては、変換された度合いに応じて元の木よりも低いスコアを与える。ここでは各要素の変換レベルに応じて、単語重量度スコアＳｗに逓減率Ｒ（０＜Ｒ＜１）をかけてスコアを落とす。変換レベルをＬとすると、スコアは、
Ｓｗ×Ｒ×Ｌ
で表される。ここで逓減率Ｒを「０．５」とすると、「フーバー社」の重要度スコアＳｗに対して、
Hoobar：０．５
通信機メーカー：０．５
メーカー：０．２５
会社：０．１２５
をそれぞれ乗算することとなる。
【００７３】
これを用いて計算を行うと、個別の解析木ではスコアが低くても、上位概念にしたときに多くの解析木からのスコアが解析木スコア累積手段により集積されて、全体のスコアが高くなり、要約にあがってくる場合がある。その例を以下に示す。なお、本実施の形態の効果を分かり易くするために、以下の説明では、単語重要度スコアは考慮しない（全ての単語の重要度レベルを「１」とする）ものとする。
【００７４】
図１４は、シソーラスによって変換された解析木のスコア付けの例を示す図である。まず、「フーバー社はサイモン市歴史美術館を支援」という解析木９１では、「美術館」に対するシソーラスの出力が、
美術館：（絵画：１、芸術：１、文化：２）
となり、それぞれの構成要素のスコアは、
絵画：０．５、芸術：０．５、文化：０．２５
となる。そのため、シソーラス展開した解析木のスコア単価は、
「フーバー社は絵画を支援」：１＋０．５＋１＝２．５
「フーバー社は芸術を支援」：１＋０．５＋１＝２．５
「フーバー社は文化を支援」：１＋０．２５＋１＝２．２５
となる。ここで、「フーバー社は文化を支援」の解析木９２に注目すると、出現数「８」をかけたトータルスコアは１８となる。
【００７５】
同様に、「フーバー社は民族音楽コンサートを支援」という解析木９３では、「民族音楽コンサート」が「文化」に変換され、そのスコアが０．２５となる。その結果、「フーバー社は文化を支援」という解析木９４が生成され、そのスコア単価は１＋０．２５＋１＝２．２５となる。これに、出現数「４」を乗算すると、スコア「９」が得られる。
【００７６】
また、「フーバー社は市民文化祭を後援」という解析木９５では、「市民文化祭」が「文化」に変換され、そのスコアが０．５となり、「支援」が「後援」に変換され、そのスコアが０．５となる。その結果、「フーバー社は文化を支援」という解析木９６が生成され、そのスコア単価は１＋０．５＋０．５＝２となる。これに、出現数「５」を乗算すると、スコア「１０」が得られる。
【００７７】
さらに、「フーバー社はアジア文化を支援」という解析木からはそのサブツリーである「フーバー社は文化を支援」という解析木９７が得られており、このスコア単価はそのままで、スコア「６」が累計に加算される。
【００７８】
その結果、「フーバー社は文化を支援」の統合後のスコアは「４３」となり、「フーバー社はサイモン市歴史美術館を支援」のスコア「４０」よりも高くなる。ここで他のサブツリーのスコアは省略するが、このスコア「４３」が上位に残るとすると「フーバー社は文化を支援」という要約が得られる。
【００７９】
すなわち、図８に示した解析木の４番目の「フーバー社は民族音楽コンサートを支援」の解析木４３ｄと、９番目の「フーバー社は市民文化祭を後援」の解析木４３ｉとは、それぞれ単独では要約にあがってこないが、シソーラス８８を用いて解析木変換を行うことによって、これら解析木の上位概念を示す文が要約に含まれることとなる。
【００８０】
一方、逓減率を調整し、ここで設定した値よりも小さくすれば、より意味の特定度の高いもの（具体性の高いもの）を残すことができる。例えば逓減率を０．３とした場合を考える。その場合、図１４に示した各解析木のスコアは、以下のようになる。
【００８１】
「フーバー社はサイモン市歴史美術館を支援」から変換された「フーバー社は文化を支援」という解析木９２は、スコア単価が「１＋０．０９＋１＝２．０９」となり、累計されたスコアは「２．０９×８＝１６．７２」となる。
【００８２】
「フーバー社は民族音楽コンサートを支援」から変換された「フーバー社は文化を支援」という解析木９４は、スコア単価が「１＋０．０９＋１＝２．０９」となり、累計されたスコアは「２．０９×４＝８．３６」となる。
【００８３】
「フーバー社は市民文化祭を後援」から変換された「フーバー社は文化を支援」という解析木９６は、スコア単価が「１＋０．３＋０．３＝１．６」となり、累計されたスコアは「１．６×５＝８．０」となる。
【００８４】
「フーバー社はアジア文化を支援」のサブツリーである「フーバー社はアジア文化を支援」という解析木９７のスコアは、変わらず「３×２＝６」である。
すると、「フーバー社はアジア文化を支援」のスコア合計が３９．０８となり、「フーバー社はサイモン市歴史美術館を支援」のスコア「４０」より低くなる。その結果「フーバー社は文化を支援」よりも具体的な内容が記載された「フーバー社はサイモン市歴史美術館を支援」が先に要約として選択されることになる。
【００８５】
なお、第３の実施の形態において、単語を上位概念に置換した場合には、その単語のスコアを低下させることで解析木のスコアを逓減しているが、解析木のスコアを直接逓減させるようにしてもよい。例えば、１つの単語が上位概念に変換されるたびに、解析木に対するスコアを１／２にする。
【００８６】
次に、第４の実施の形態について説明する。第４の実施の形態は、解析木を累積する際に、完全に同一の解析木でなくても、意味的に同じ解析木であれば統合するものである。
【００８７】
図１５は、第４の実施の形態の構成図である。第４の実施の形態の文書要約装置は、入力文書保持手段１０１、文解析手段１０２、解析木展開手段１０３、解析木スコア付与手段１０４、解析木スコア累積手段１０５、文合成手段１０６、及び関係対応表保持手段１１０で構成される。ここで、入力文書保持手段１０１、文解析手段１０２、解析木展開手段１０３、解析木スコア付与手段１０４、及び文合成手段１０６については、図２で示した第１の実施の形態の同名の構成要素と同じ機能を有しているため、説明を省略する。すなわち、文書群１０１ａから解析木１０２ａやそのサブツリーである解析木群１０３ａを生成し、解析木へスコアを付与するまでの処理は、第１の実施の形態と同様である。また、解析木スコア累積手段１０５に格納されている解析木から要約文１０６ａを合成する処理も同様である。
【００８８】
関係対応表保持手段１１０は、一定の規則に従って単語間の関係名（「は」、「が」等）を置き換えても概念的に同じ意味を示すような関係の置き換え規則を、関係対応表として保持している。
【００８９】
解析木スコア累積手段１０５は、蓄えた解析木に関して、関係対応表に基づいて関係の変換を行うことで、同じ解析木となる解析木の組を検出する。そして、一方の解析木のスコアを、変換の内容に応じて逓減し他方の解析木のスコアに加算する。具体的には、自立語を示すノードが同じで、関係を示すアークのみが異なる解析木同士に対して、関係対応表を用いてアーク同士の類似性を判断する。類似である場合には、相互に関係の変換を行い、類似相手の解析木へ統合する。その際の、元のスコアより逓減させた値を、統合相手のスコアに加算する。
【００９０】
このような関係対応表を利用した関係の変換処理を、具体例を用いて説明する。
図１６は、関係対応表の例を示す図である。関係対応表１１１は、「見出し」と「変換候補」の並びとで示される。「見出し」は変換対象となる関係名が設定される。「変換候補」はここでは「関係名」と「逓減率」の組で示されている。例えば、関係「が」は関係「は」に変換可能で、変換したときにスコアに０．５倍することが示されている。ここでは、それぞれの変換候補に逓減率を記載したが、逓減率を一定にして関係名の並びだけを記録する方法を採ってもよい。
【００９１】
図１７は、関係変換例を示す図である。現在、解析木スコア累積手段１０５には、
「フーバー社−はサイモン市歴史美術館−を支援」
「フーバー社−がサイモン市歴史美術館−を支援」
という２つの解析木１２１，１２２が、それぞれ５エントリ（出現数「５」）と３エントリ（出現数「３」）ずつ含まれているものとする。また、ここでは説明を簡単にするために、構成要素数をその解析木のスコア単価とする。従って、上記２つの解析木のスコア単価はともに「５」である。
【００９２】
この状態で、解析木スコア累積手段１０５が図１６に示した関係対応表１１１を参照すると、「は」は「が」に変換可能であること、そのときのスコア逓減率は０．６であることがわかる。そこで、解析木スコア累積手段１０５は、以下のような解析を行う。
【００９３】
最初の解析木１２１を、
「フーバー社−がサイモン市歴史美術館−を支援」
という解析木１２３に変換するときに、「フーバー社」の重要度スコア（単語スコアを導入していない場合では１）を０．６倍すると、変換された結果に対する解析木１２３のスコア単価は４．６となる。そして、エントリ数が５であるので、合計スコアは２３となる。
【００９４】
一方、「は」は、「を」にも変換可能であるが、「支援」にはすでに「を」関係があるので、「を」へは展開しない。すなわち、変換を行う際には助詞連続を考慮し、不自然な文体にならないことを確認したうえで変換を行う。
【００９５】
同様に、「フーバー社−が・・・」の解析木１２２を「フーバー社−は・・・」の解析木１２４に変換すると、変換された結果に対するスコア単価は４．４、合計スコアは４．４×３＝１３．２となる。
【００９６】
これらをもともとの変換前のスコアと合計すると、
「フーバー社−はサイモン市歴史美術館−を支援」
の解析木１２５のスコアが、「２５＋１３．２＝３８．２」となり、
「フーバー社−がサイモン市歴史美術館−を支援」
の解析木１２６のスコアが、「１５＋２３＝３８」となる。
【００９７】
そこで、解析木スコア累積手段１０５は、この２つの関係のうち前者の解析木１２５を採用し、統合する。また、同じ概念の文が複数抽出されないようにするため、採用されなかった後者の解析木１２６は、解析木スコア累積手段１０５内から削除する。
【００９８】
このように、関係対応表を用いた関係の変換によって別の解析木と同一になる場合には、それらの解析木を統合することで、解析木の構造上別のものであっても、同じ意味内容を示す解析木を統合し、スコアを累積させることができる。
【００９９】
なお、ここでは、可能な関係は全部展開した後にマージするような記述をしたが、それぞれの構成要素ごとに、関係の種類を列挙し、最も数の多いものをまとめてもよい。
【０１００】
または、その関係ごとにスコアを最も高くするものを選んでもよい。すなわち、「変換先の解析木の出現数＋逓減率×変換元の解析木の出現数」を相互に計算し、スコアの高い方を採用する。例えば、「フーバー社」につく関係として、
「は」を残す場合：５＋０．４×３＝６．２
「が」を残す場合：３＋０．６×５＝６
となり、「は」を残す方が合計スコアが高くなるので、「は」の方に統合する。
【０１０１】
ところで、第４の実施の形態では、１つの関係対応表を用いた解析木の変換について説明したが、複数の関係対応表を用意し、それらを使い分けることもできる。例えば、動詞によって、または場合によって異なる関係表を使う。
【０１０２】
図１８は、動詞別の関係対応表の例を示す図である。動詞別の関係対応表１１２では、受け側の動詞によって変換規則を変えている。この意味するところは、１行目：一般な変換規則を定義しており、「に」は「に対して」と、「へ」へ変換可能で、それぞれの逓減率は０．５、０．３である。
２行目：受け側の動詞が「行く」の場合は、「へ」にのみ変換可能で、逓減率は０．８である。
３行目：受け側の動詞が「やる」の場合には、「に対して」のみ変換可能で、逓減率は０．６である。
４行目：受け側の動詞が「与える」の場合には、「に対して」と、「へ」へ変換可能であり、それぞれの逓減率は０．６、０．５である。
【０１０３】
このような関係対応表１１２を参照して、解析木スコア累積手段１０５が関係の変換を行う場合、関係対応表１１２から変換前の関係を選択した後、受け側の動詞のマッチングをとる。受け側の動詞と一致する動詞があれば、その行の変換候補リストを用いる。そうでなければ、一般に（「−」で示される）の変換規則を示した行を用いる。
【０１０４】
また、言語構造別に変換規則を変えることもできる。
図１９は、言語現象ごとの関係対応表を示す図である。この関係対応表１１３は、変換対象の言語構造に対応して、変換規則と逓減率が定義されている。この意味するところは、
１行目：受動態を能動態に変化させる場合、「ＡがＢにＣされる」となっていたら、「ＢがＡをＣする」に変換し、Ａ，Ｂそれぞれのスコアに逓減率０．７をかける。
２行目：受動態を能動態に変化させる場合、「ＡがＢからＣされる」となっていたら、「ＢがＡをＣする」に変換し、Ａ，Ｂそれぞれのスコアに逓減率０．７をかける。
３行目：使役を平叙文に変化させる場合、「ＢにＣさせる」を「ＢがＣする」に変換し、Ｂに対する逓減率は０．５である。
４行目：自動詞を他動詞に変化させる場合、「ＢがＣする」を「ＢをＣする」に変換し、Ｂに対する逓減率は０．５である。
５行目：他動詞を自動詞に変化させる場合、「ＢをＣする」を「ＢがＣする」に変換し、Ｂに対する逓減率は０．５である。
【０１０５】
なお、このような関係対応表１１３を用いるには、生成した各解析木に対して受動、使役などの属性が付与されている必要がある。属性は、文解析手段１０２が構造解析を行う際に付与するか、もしくは解析木スコア累積手段１０５が関係の変換を行う際に付与する。
【０１０６】
解析木スコア累積手段１０５が関係変換を行うときは、解析木に付与された属性を参照し、受動態ならば１行目から２行目までのルールを起動する。その際、関係の並びのマッチングを行い、「が」と「に」があれば、１行目の規則が適用され、それぞれの関係を「を」、「が」に変え、受動態の属性を能動態に変える。同時に、逓減率をそれぞれの係り側にかける。関係の並びが「が」と「から」ならば、２行目の規則を適用する。
【０１０７】
また、５行目の規則を適用する場合を考える。ここで、解析結果の動詞には自動詞、他動詞の区別が付けられているのもとする。自動詞と他動詞との対応は関係解析で用いる辞書に記載されており、解析結果の動詞には属性として記載されているものとする。例えば、「シンタックスエラーを起こす」という文を解析すると、「起こす」の属性には、
タイプ：他動詞
自動詞：起きる
が記述されている。これに対して、５行目の規則を適用すると、
（１）「シンタックスエラー−を−起こす」という関係「を」を「が」に変える。
（２）「シンタックスエラー」のスコアに逓減率０．５をかける。
（３）「起こす」を「起きる」に置き換える。
という操作を行うことになる。その結果、「シンタックスエラー−が−起きる」という文を表す解析木が生成される。
【０１０８】
このように、様々な関係対応表を用いることで、同じ内容の文であれば、その表現方法が異なる場合であっても、それらの解析木を統合することができる。
次に、第５の実施の形態について説明する。第１の実施の形態から第４の実施の形態では日本語で書かれた文書を対象としていたが、本形態では英語で書かれた文書を対象とし、その要約を作成する。なお、以下の説明では英語文書を対象にすることによる相違点を中心に説明し、上記の形態で述べた日本語文書を対象とする場合と共通する内容については説明を省略する。
【０１０９】
本形態において英語で書かれた文書の要約を作成する場合、まず、上記の形態で述べた場合と同様に文書の構文解析を行う。本形態では、１９８２年にBresnanらによって提案されたＬＦＧ（Lexical Functional Grammar）に基づいて文書の構造解析を行う。図２０は、このＬＦＧに基づいて構文解析された文書を示した図である。ＬＦＧに基づいて構文解析された文書の解析結果は素性構造と呼ばれ、属性とその値の対のリストをして表現される。図２０では“[”と“]”で囲まれた部分が１つの素性構造を示している。また、その素性構造中、左の列には文書を構成する各素性の属性が配列され、それらの属性からスペースを空けた右の列には、その左に位置する属性に対応する値が配置される。ここで、各属性に対する値は文字列であってもよいし、属性及びその値によって構成されるさらに別の素性構造であってもよい。値が有する単語の後に配置される括弧内の上矢印“↑”は、その単語がこの上矢印と同じ括弧内に配置される素性に対応する値を引数とすることを示している。また、各属性に対応する値が共通する場合、これらの共通する値が配置される位置に[１]等の共通する符号を記し、それらの位置のいずれか１つのみに、そこに配置される値の詳細を示すこととする。なお図２０では、説明の簡略化のため、時制（ＴＥＮＳＥ）、数（ＮＵＭ）等の一部の属性を省略して記載してある。
【０１１０】
図２０の（ａ）に示した“AAA constructed a factory”という文書をＬＦＧに基づいて構文解析した場合、その解析結果は図２０の（ａ）に示した素性構造１３１のように表現される。素性構造１３１は、その素性構造１３１中、左の列に配列される“ＰＲＥＤ”、“ＳＵＢＪ”、“ＯＢＪ”で示される３つの属性、及びスペースを空けたそれらの右側に配置されるそれらの値‘construct（↑ SUBJ）（↑ OBJ）’、[ＰＲＥＤ‘AAA’]、[ＰＲＥＤ‘factory’]により構成される。ここで、素性構造１３１の属性“ＳＵＢＪ”対応する値[ＰＲＥＤ‘AAA’]は、“ＰＲＥＤ”を属性、‘AAA’をその値とするさらに別の素性構造１３１ａをとる。同様に、素性構造１３１の属性“ＯＢＪ”に対応する値[ＰＲＥＤ‘factory’]も“ＰＲＥＤ”を属性、‘factory’をその値とするさらに別の素性構造１３１ｂをとる。
【０１１１】
また、素性構造１３１の素性“ＰＲＥＤ”に対応する値‘construct（↑ SUBJ）（↑ OBJ）’は、単語である“construct”と２つの括弧（↑ SUBJ）及び（↑ OBJ）により構成されており、“construct”が括弧内に配置された“SUBJ”及び“OBJ”にそれぞれ対応する値を引数とすることを示している。ここで、“SUBJ”に対応する値は素性構造１３１ａである[ＰＲＥＤ‘AAA’]であり、さらに素性構造１３１ａの値は‘AAA’であるため、‘AAA’が“construct”の引数となる。同様に、“ＯＢＪ”に対応する値は素性構造１３１ｂである[ＰＲＥＤ‘factory’]であり、さらに素性構造１３１ｂの値は‘factory’であるため、‘factory’も“construct”の引数ということになる。
【０１１２】
また、図２０の（ｂ）に示した“the factory constructed by AAA”という文書の素性構造１３２の属性“ＨＥＡＤ”に対応する値である[ＰＲＥＤ‘factory’]は、“ＰＲＥＤ”を属性とし、‘factory’をその値とするさらに別の素性構造１３２ａをとる。同様に、素性構造１３２の属性“ＭＯＤ”に対応する値も別の素性構造１３２ｂをとり、素性構造１３２ｂは、それを構成する属性“ＯＢＪ”、及びそれに対応する値 [1]を有している。ここで、素性構造１３２ｂａが配置される位置と素性構造１３２ａが配置される位置に共通する符号[１]が記されることにより、素性構造１３２ｂａは、素性構造１３２ａそのものであることを示している。
【０１１３】
素性構造１３２ｂの属性“ＰＲＥＤ”に対応する値は‘build（↑ ＢＹＯＢＪ）（↑ ＯＢＪ）’であり、これは、“build”が属性“ＢＹ”に対応する値である別の素性構造１３２ｂｂが有する属性“ＯＢＪ”の値、及び素性構造１３２ｂの属性である“ＯＢＪ”の値を引数とすることを示している。ここで、素性構造１３２ｂｂが有する属性“ＯＢＪ”の値はさらに別の素性構造[ＰＲＥＤ‘AAA’]であり、[ＰＲＥＤ‘AAA’]の値は‘AAA’であるため、‘AAA’が“build”の引数ということになる。また、素性構造１３２ｂの属性である“ＯＢＪ”の値は素性構造１３２ｂａであり、素性構造１３２ｂａの値は‘factory’であるため、‘factory’も“build”の引数ということになる。
【０１１４】
なお、本形態の構文解析では解析結果をさらに解釈して初めて構造がわかる形式を用いたが、１９８７年にPollard & Sagらによって提案されたHPSGのように、解析された時点で文書の意味を示す“ＰＲＥＤ”部分が明確に示される形式を用いてもよい。
【０１１５】
図２１は、図２０の（ｂ）に示した素性構造１３２をグラフで表した解析グラフ１４２である。
解析グラフ１４２は、各属性を示すアーク１４２ｋ、１４２ｌ、１４２ｍ、１４２ｎ、１４２ｏ、１４２ｐ、１４２ｑ、１４２ｒ、１４２ｓ、及び各属性に対応する値を示すノード１４２ａ、１４２ｂ、１４２ｃ、１４２ｄ、１４２ｅ、１４２ｆ、１４２ｈ、１４２ｉ、１４２ｊにより構成されている。本形態では、このように構造解析された解析グラフ１４２の中でアークにＰＲＥＤ素性を持つノード集め、それをもとに標準化を行いサブグラフを作成する。図２１の場合、網掛けで示したノード１４２ｂ、１４２ｅ、１４２ｉが、アークにＰＲＥＤ素性を持つノードに該当する。
【０１１６】
標準化を行う際、まずアークにＰＲＥＤ素性を持つノードの取り出しを行う。図２１の場合、網掛けで示したノード１４２ｂ、１４２ｅ、１４２ｆ、１４２ｉを取り出すこととなる。ここで、取り出したノード１４２ｂ、１４２ｅ、１４２ｆ、１４２ｉの内容を示すと、ノード１４２ｂ：ＰＲＥＤ‘factory’、ノード１４２ｅ：ＰＲＥＤ‘construct（↑ ＢＹＯＢＪ）（↑ ＯＢＪ）’、ノード１４２ｆ：ＰＲＥＤ‘factory’、ノード１４２ｉ：ＰＲＥＤ‘AAA’のようになる。
【０１１７】
次に、このように取り出したノードを用い標準化を行う。標準化は、引数を有するノードとそのノードに引数を与えるノードとを統一した形式で表現することにより行う。図２１の場合、引数を有するノードとはノード１４２ｅを指し、引数を与えるノードとはノード１４２ｂ、１４２ｆ、１４２ｉを指すことになる。標準化の際、引数を与えるノードは、その由来に拘らず結果的に同じ引数を与えるならば同じものと判断され、統一表現される。図２１の場合、ノード１４２ｂ、１４２ｆの内容は共にＰＲＥＤ‘factory’であり、共にノード１４２ｅの内容であるＰＲＥＤ‘construct（↑ ＢＹＯＢＪ）（↑ ＯＢＪ）’に引数を与える。ここで、引数を与えるノードの統一表現を行うため、素性ａｒｇ１、ａｒｇ２、・・・を導入し、素性表現の置き換えを行う。図２１の場合、素性“ＢＹＯＢＪ”を素性“ａｒｇ２”に、素性“ＯＢＪ”を素性“ａｒｇ１”に置き換える。
【０１１８】
このように、図２１に示した解析グラフ１４２からアークにＰＲＥＤ素性を持つノードの取り出し、素性表現の置き換えを行い、同じ引数を与えるノードを統一表現することにより、図２２に示す標準形１５０が得られる。そして、同様な手順で各文書を順次標準形に変換し、変換された各標準形をサブグラフとして蓄積する。この際、第１の実施の形態から第４の実施の形態において解析木スコア累積手段により解析木にスコアを累積した場合と同様に、同じサブグラフ同士を集めスコアの累積を行っていく。このサブグラフの累積は、全く同じサブグラフのみを集めることとしてもよいし、サブグラフを生成するごとにこれまで得られたサブグラフとユニフィケーション（Shieber、1986）を行い、これまで得られたサブグラフと素性構造が異なった場合に新たにサブグラフを登録していくこととしてもよい。また、第３の実施の形態のようにシソーラスを用いて変換したサブグラフを集めることとしてもよい。この場合、例えば‘make’を‘construct’及び‘build’の上位概念として定義しておけば、ＰＲＥＤの値に‘construct’或いは‘build’を持つものを、ＰＲＥＤの値に‘make’をもつサブグラフの集合として集めることができる。
【０１１９】
このようにサブグラフのスコア累積を行った後、第１の実施の形態から第４の実施の形態の場合と同様にスコアが最も高いサブグラフを順次取り出し、取り出したサブグラフを合成することにより要約文の生成を行う。ただし、本形態では英語で書かれた文書の要約文を生成することとなるため、日本語で書かれた文書の要約文の生成を行う第１の実施の形態から第４の実施の形態とは別のサブグラフ合成方法が必要となる。
【０１２０】
以下に、本形態におけるサブグラフ合成方法について説明する。
取り出されたサブグラフの合成を行う際、まず、生成される要約文の形式の指定を行う。この形式には、文形式（Ｖ）、名詞句形式（ＮＰ）、動名詞形式（Ｖ−ｉｎｇ）等があり、本形態における文書要約装置の使用者が任意に選択することができる。
【０１２１】
要約文の形式が決まると、次に要約文の生成パターンの決定を行う。本形態における文書要約装置の文合成手段は、さまざまな素性構造、形式、生成パターンが記録され、ＰＲＥＤ素性によりインデックスされたパターン辞書を有しており、取り出されたサブグラフの素性構造及び選択された形式をもとにパターン辞書を検索し、生成パターンの決定を行う。パターン辞書の検索を行う場合、まず、取り出されたサブグラフのＰＲＥＤ素性を取り出し、取り出したＰＲＥＤ素性によりパターン辞書のインデックスを参照し、取り出したＰＲＥＤ素性に一致するインデックスに対応するパターン辞書エントリ集合を得る。
【０１２２】
パターン辞書エントリ集合が抽出されると、次に、抽出された各パターン辞書エントリにおける素性構造と、取り出されたサブグラフの素性構造とのユニフィケーションを行い、取り出されたサブグラフと素性構造が一致するパターン辞書エントリを抽出する。次に、素性構造が一致した各パターン辞書エントリの形式と選択された形式を比較し、取り出されたサブグラフと素性構造も形式も同じパターン辞書エントリを抽出する。
【０１２３】
このように抽出されたパターン辞書エントリの生成パターンを取り出し、その生成パターンにおける引数を有する部分である“要素”に、取り出されたサブグラフの素性ａｒｇ１、ａｒｇ２、・・・の値を入力する。ここで、素性ａｒｇ１、ａｒｇ２、・・・の値を入力した生成パターンが文字列を含む場合、その文字列をそのまま部分文字列とし、一方、値を入力した生成パターンがさらに別の素性構造を含む場合、その素性構造に対し、ここまで述べたパターン辞書との照合を再帰的に適用し、最終的に部分文字列を得る。そして、このように得られた部分文字列を結合することにより要約文の生成を行う。
【０１２４】
次に、上記に示したサブグラフ合成方法を具体例を用いて説明する。ここでの説明では、図２２に示した標準形１５０が最もスコアが高いサブグラフとして取り出され、生成される要約文の形式としてＮＰが選択されたものとする。
【０１２５】
図２３は本具体例におけるパターン辞書インデックス１６０を示した概念図である。
パターン辞書インデックス１６０は、‘constrain’、‘construct’、‘consult’等の様々なＰＲＥＤ素性１６０ａ、１６０ｂ、１６０ｃをインデックスとして有している。ここで、取り出されたサブグラフである標準形１５０のＰＲＥＤ素性は‘construct’であるため、このＰＲＥＤ素性に一致するパターン辞書インデックス１６０のＰＲＥＤ素性１６０ｂが選択されることとなる。ＰＲＥＤ素性１６０ｂが選択されると、インデックスであるＰＲＥＤ素性１６０ｂに対応する素性構造、形式、生成パターンの集合であるパターン辞書エントリが、パターン辞書の中から抽出される。
【０１２６】
図２４はこのように抽出されたパターン辞書エントリ１６１を示した図である。ここで、図２４の（ａ）はパターン辞書エントリ１６１全体を、図２４の（ｂ）は図２４の（ａ）における素性構造１６２ａを、図２４の（ｃ）は図２４の（ａ）における素性構造１６２ｂをそれぞれ示している。
【０１２７】
ここで、パターン辞書エントリ１６１の各素性構造と、取り出されたサブグラフである標準形１５０の素性構造とのユニフィケーションの結果、素性構造１６２ａ、１６２ｂが標準形１５０の素性構造と一致したとする。図２４の（ａ）に示すように、パターン辞書エントリ１６１において、素性構造１６２ａ、１６２ｂに対応する形式は“Ｓ”及び“ＮＰ”の２種類存在する。本具体例では形式として“ＮＰ”が選択されているため、取り出されたサブグラフである標準形１５０と素性構造も形式も一致するパターン辞書エントリの生成パターンは、‘（ＰＯＳＳＥＳＳａｒｇ１）construction of （ＮＰａｒｇ２）’で示される生成パターン１６４ｃとなる。
【０１２８】
次に、この生成パターン１６４ｃに標準形１５０の“ａｒｇ１”及び“ａｒｇ２”の値を入力する。“ａｒｇ１”の値は別の素性構造[PRED‘AAA’]を有しており、これを要素である“（ＰＯＳＳＥＳＳａｒｇ１）”に入力し、“ＰＯＳＳＥＳＳ”を形式として、これまで述べたアルゴリズムを再帰的に適用する。この結果、文字列“AAA's”を得たものとする。また、“ａｒｇ２”の値も別の素性構造[ＰＲＥＤ‘factory’]を有しており、これを要素である“（ＮＰａｒｇ２）”に入力し、これまで述べたアルゴリズムを再帰的に適用することにより、文字列“a factory”を得たとする。
【０１２９】
そして、このように得られた文字列“AAA's”、“a factory”、及び生成パターン１６４ｃが有する文字列“construction of”を結合し“AAA's construction of a factory”を得る。
【０１３０】
次に、上記に示したサブグラフ合成方法を図２５及び図２６に示したフローチャートを用いて説明する。
［Ｓ１０］スコアが最も高いサブグラフの素性構造である入力素性構造をＦ、指定した形式をＳとする。
［Ｓ１１］ＦからＰＲＥＤ素性を取り出す。
［Ｓ１２］パターン辞書からＦとＰＲＥＤ素性が一致するものを選択し、それをＳ１とする。
［Ｓ１３］Ｓ１の各素性構造とＦとをユニフィケーションさせ、成功したものをＳ２とする。
［Ｓ１４］Ｓ２のうち、その形式がＳに一致するものの生成パターンＰを得る。
［Ｓ１５］最終的に要約文が生成される文字列ｓに空文字列を代入し、文字列ｓの初期化を行う。
［Ｓ１６］Ｐが引数を有する“要素”を含んでいないか否かを判断する。“要素”を含んでいない場合、ステップＳ１７に進む。“要素”を含んでいる場合、ステップＳ１８に進む。
［Ｓ１７］Ｐの文字列を結合した文字列ｓを出力する。
［Ｓ１８］Ｐの要素ｐを１つ取り出し、引数を入力する。
［Ｓ１９］引数を入力されたｐがさらに別の素性構造を持つか否か判断する。別の素性構造を持つ場合、ステップＳ２０に進む。別の素性構造を持たない場合、ステップＳ２４に進む。
［Ｓ２０］別の素性構造を有するｐを得る
［Ｓ２１］指定された形式を得る。
［Ｓ２２］ステップＳ１０からステップＳ２４に示すアルゴリズムを再帰的に適用する。
［Ｓ２３］ステップＳ２２で得られた結果をｓに結合する。
［Ｓ２４］ｓにｐを結合する。
【０１３１】
このように、本形態では、英語で書かれた文書を構文解析し、その結果をもとに解析グラフを生成し、そこからサブグラフを抽出し、抽出したサブグラフにスコアを付与し、累積されたスコアが最も大きいサブグラフを取り出し、取り出したサブグラフをパターン辞書と照合させることにより要約文を生成することとしたため、英語で書かれた文書であっても、第１の実施の形態から第４の実施の形態の場合と同様な効果を得ることができる。
【０１３２】
なお、本形態では、パターン辞書を“素性構造”、“形式”及び“生成パターン”の３つの要素から構成することとしたが、“形式”を“素性構造”の一部とすることにより、パターン辞書を“素性構造”及び“生成パターン”の２つの要素から構成することとしてもよい。
【０１３３】
また、パターン辞書の“生成パターン”をなくし、素性構造中に表層をもつ構成としてもよい。この構成では、ユニフィケーションに成功した場合、素性構造中に表層句が与えられることとなる。
【０１３４】
さらに、本形態では、各ＰＲＥＤに対して生成パターンを１対１で用意することとしたが、英語の単語は規則的に変化することが多いため、単語の一般変化パターンを用意し、それを単語の基本形により表現された生成パターンに適用する構成としてもよい。この場合、例えば、図２４に示した生成パターン１６４ｂのような単語の基本形である‘construct’を有する生成パターンが用意され、‘construct’の進行形である‘constructing’を含む生成パターンは‘＊-ing’と示されており、生成パターン１６４ｂが有する‘construct’を‘＊-ing’を用いて語形変化させる構成となる。
【０１３５】
また、上記の処理機能は、コンピュータによって実現することができる。その場合、文要約装置が有すべき機能の処理内容は、コンピュータで読み取り可能な記録媒体に記録されたプログラムに記述されており、このプログラムをコンピュータで実行することにより、上記処理がコンピュータで実現される。コンピュータで読み取り可能な記録媒体としては、磁気記録装置や半導体メモリ等がある。市場へ流通させる場合には、ＣＤ−ＲＯＭ(Compact Disk Read Only Memory)やフロッピーディスク等の可搬型記録媒体にプログラムを格納して流通させたり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。コンピュータで実行する際には、コンピュータ内のハードディスク装置等にプログラムを格納しておき、メインメモリにロードして実行する。
【０１３６】
【発明の効果】
以上説明したように本発明の文書要約装置では、処理対象となる文書の文から解析グラフを生成し、解析グラフにスコアを付与するとともに、同じ解析グラフのスコアを累積させ、スコアの高い解析グラフから要約文を生成するようにしたため、処理対象とする文書へ厳しい制約を設けなくても、文書群に関する理解し易い要約を生成することができる。
【０１３７】
また、本発明の文書要約方法では、文書に含まれる文から解析グラフを生成し、その解析グラフの重要度の高いものによって要約文を合成するようにしたため、処理対象とする文書へ厳しい制約を設けなくても、文書群に関する理解し易い要約を生成することができる。
【０１３８】
また、本発明の要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体では、記録された要約作成プログラムをコンピュータに実行させることにより、文書に含まれる文から解析グラフを生成し、その解析グラフの重要度の高いものによって要約文を合成するような処理をコンピュータに行わせることが可能となる。
【図面の簡単な説明】
【図１】本発明の原理構成図である。
【図２】第１の実施の形態の構成図である。
【図３】文合成処理の手順を示す図である。
【図４】解析木の例を示す図である。
【図５】表形式で表された解析木を示す図である。
【図６】サブツリーを含めた解析木群を示す図である。
【図７】スコア付けされた解析木群を示す図である。
【図８】解析木スコア累積手段に蓄積された解析木を示す図である。
【図９】ソート結果を示す図である。
【図１０】解析木から要約文を生成する様子を示す図である。
【図１１】要約文の例を示す図である。
【図１２】第２の実施の形態の構成図である。
【図１３】第３の実施の形態の構成図である。
【図１４】シソーラスによって変換された解析木のスコア付けの例を示す図である。
【図１５】第４の実施の形態の構成図である。
【図１６】関係対応表の例を示す図である。
【図１７】関係変換例を示す図である。
【図１８】動詞別の関係対応表の例を示す図である。
【図１９】言語現象ごとの関係対応表を示す図である。
【図２０】ＬＦＧに基づいて構文解析された文書を示す図である。
【図２１】図２０の（ｂ）に示した素性構造をグラフで表した解析グラフである。
【図２２】素性構造の標準形を示す図である。
【図２３】パターン辞書インデックスを示す図である。
【図２４】パターン辞書エントリを示す図である。
【図２５】サブグラフ合成方法を示したフローチャートである。
【図２６】サブグラフ合成方法を示したフローチャートである。
【符号の説明】
１文書
２文解析手段
３解析木
４解析木スコア付与手段
５解析木スコア累積手段
６文合成手段
７要約文

Claims

文書集合の要約を作成する文書要約装置において、
処理対象として指定された文書に含まれる文の構文を解析し、単語間の関係を記述した解析グラフを生成する文解析手段と、
前記文解析手段が生成した解析グラフに対し、重要度に応じたスコアを付与する解析グラフスコア付与手段と、
前記解析グラフスコア付与手段でスコア付けされた解析グラフを蓄積するとともに、同じ概念を示す解析グラフ同士を統合し、統合された解析グラフに対して付与されたスコアを統合内容に応じて増加させる解析グラフスコア累積手段と、処理対象として指定された全ての文書から解析グラフが生成され、前記解析グラフスコア累積手段に蓄積されたら、前記解析グラフスコア累積手段に蓄積された解析グラフ群からスコアの高いものを選択し、選択した解析グラフから要約文を合成する文合成手段と、
を有することを特徴とする文書要約装置。
前記文解析手段が生成した解析グラフを展開することで得られるサブグラフを生成する解析グラフ展開手段をさらに有し、
前記解析グラフスコア付与手段は、前記解析グラフ展開手段が生成したサブグラフも個別の解析グラフと見なし、重要度に応じたスコアを付与することを特徴とする請求項１記載の文書要約装置。
処理対象として指定された文書に含まれる各々の単語の重要度スコアを計算する単語スコア付与手段をさらに有し、
前記解析グラフスコア付与手段は、解析グラフの構成要素である単語に対して前記重要度スコア付与手段で計算された重要度スコアを用いて、解析グラフのスコアを計算することを特徴とする請求項１記載の文書要約装置。
単語間の意味の包含関係を管理するシソーラスと、
前記シソーラスを用いて、前記文解析手段の生成した解析グラフに対して、構成要素である単語を、意味的な関係の近い他の概念の単語に置き換えた解析グラフに変換する解析グラフ変換手段とをさらに有し、
前記解析グラフスコア付与手段は、前記解析グラフ変換手段によって得られた解析グラフに対しては、変換された度合いに応じて元の解析グラフよりも低いスコアを与えることを特徴とする請求項１記載の文書要約装置。
文としての意味を変えずに単語間の関係を変えるための変換規則が定義された関係対応表を保持する関係対応表保持手段をさらに有し、
前記解析グラフスコア累積手段は、前記関係対応表保持手段に保持された関係対応表に従って解析グラフを変換した場合に同じ解析グラフとなる解析グラフの組を検出し、一方の解析グラフのスコアを変換内容に応じて逓減し、他方の解析グラフのスコアに加算することを特徴とする請求項１記載の文書要約装置。
前記文合成手段は、前記解析グラフ及び形式に対応付けられた前記要約文の合成パターンを有し、前記解析グラフ及び前記形式が与えられることにより、前記要約文の合成パターンを決定することを特徴とする請求項１記載の文書要約装置。
文書集合の要約を作成する文書要約方法において、
文解析手段が、処理対象として指定された文書に含まれる文の構文を解析し、単語間の関係を記述した解析グラフを生成し、
解析グラフスコア付与手段が、生成された解析グラフに対し、重要度に応じたスコアを付与し、
解析グラフスコア累積手段が、スコア付けされた解析グラフを蓄積するとともに、同じ概念を示す解析グラフ同士を統合し、統合された解析グラフに対して付与されたスコアを統合内容に応じて増加させ、
文合成手段が、処理対象として指定された全ての文書から解析グラフが生成され、蓄積されたら、蓄積された解析グラフ群のスコアの高い解析グラフから要約文を合成する、
ことを特徴とする文書要約方法。
コンピュータに文書集合の要約を作成させるための要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体において、
処理対象として指定された文書に含まれる文の構文を解析し、単語間の関係を記述した解析グラフを生成する文解析手段、
前記文解析手段が生成した解析グラフに対し、重要度に応じたスコアを付与する解析グラフスコア付与手段、
前記解析グラフスコア付与手段でスコア付けされた解析グラフを蓄積するとともに、同じ概念を示す解析グラフ同士を統合し、統合された解析グラフに対して付与されたスコアを統合内容に応じて増加させる解析グラフスコア累積手段、
処理対象として指定された全ての文書から解析グラフが生成され、前記解析グラフスコア累積手段に蓄積されたら、前記解析グラフスコア累積手段に蓄積された解析グラフ群からスコアの高いものを選択し、選択した解析グラフから要約文を合成する文合成手段、
としてコンピュータを機能させること特徴とする要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体。