JP2008242612A

JP2008242612A - 文書要約装置、その方法及びプログラム

Info

Publication number: JP2008242612A
Application number: JP2007079397A
Authority: JP
Inventors: Hirosato Nomura; 浩郷野村
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2007-03-26
Filing date: 2007-03-26
Publication date: 2008-10-09

Abstract

【課題】文章構造解析から文章の論述の流れを捉え、「文」より小さいレベルとしての「句」を抽出することによって、冗長性の低い報知的な要約文章の生成の可能な文書要約装置の提供を目的とする。
【解決手段】本発明に係る文書要約装置は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段２１１と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段２１２と、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手段３１１と、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手段３１２と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手段３２とから構成される。
【選択図】図２

Description

長い文章を自動的に短くすることによって、ユーザの情報の発見を支援する文書要約装置に関する。

大量の情報が飛び交う情報社会において、我々が処理しなければならない情報量は増加している。しかし、それらを処理する人間の情報処理能力には限界があり、求めている情報のみを得ることは決して容易ではない。そのため、近年、ユーザーが効率よく目的の情報までアクセスできることを支援する技術の開発が急速に求められている。現在、キーワードを基にしたＷｅｂページの検索は一般的に広く普及している。しかし、キーワードによる単純な情報検索ではヒットした文章がたとえ求めていた情報の書かれた文章であったとしても内容が非常に長かった場合にユーザーに極度のストレスを与えることがある。
そこで、文章自体を自動的に小さくすることによって要約文を作成する要約文作成システム及びその方法が、特開２００２−２９７６３５号公報に開示されている。

背景技術の要約文作成システム及びその方法は、入力された文章を文に区切り単語に分割する形態素解析ステップ（Ｓ１）と、前記文の中から名詞と形容動詞及びそれらに類する単語を抽出する単語抽出ステップ（Ｓ２）と、前記単語の夫々を座標軸とする多次元ベクトル空間に前記単語の使用頻度及び／又は重要性の重み付けに応じてベクトルマップした単語ベクトルを設定し文ベクトルを計算する文ベクトル計算ステップ（Ｓ３）と、その文ベクトル計算ステップ（Ｓ３）を文章中に含まれる全ての文に対して徹底させる徹底ステップ（Ｓ４）と、前記文ベクトル計算ステップ（Ｓ３）と同様だが文章全体の単語に対して計算した単語ベクトルを文章全体のベクトルとする文章ベクトル計算ステップ（Ｓ５）と、前記文ベクトルの夫々と前記文章ベクトルの内積を計算するベクトル内積計算ステップ（Ｓ６）と、そのベクトル内積計算ステップ（Ｓ６）の計算値のうち最大値をもたらす文を抽出して重要文の候補とする内積値最大文抽出ステップ（Ｓ７）と、前記重要文のベクトルを前記文章ベクトルから引くことにより文章を補正する文章ベクトル補正ステップ（Ｓ８）と、それらのベクトル内積計算ステップ（Ｓ６）から内積値最大文抽出ステップ（Ｓ７）及び文章ベクトル補正ステップ（Ｓ８）からなる三ステップを適宜繰り返すことにより設定自在の要約率に到達させる要約率達成ステップ（Ｓ９）と、複数の重要文が得られた場合に元の文章の並び順を踏襲して整列し接続詞及び／又は指示代名詞が有れば指定の語句に置換又は削除して自然さを確保する出力文章整形ステップ（Ｓ１０）を実行することを特徴とするものである。
特開２００２−２９７６３５号公報

前記背景技術の要約文作成システム及びその方法によれば、複数の課題を含む文章を要約した場合にも、２番目以降の課題を箇条書き説明にも近い簡潔明瞭さを徹底するなどして、最重要課題の繰り返し説明を避け、結果的には冗漫さを極力排除して、しかも自然で読みやすい要約文を提供できる。

しかしながら、この方法では、文に含まれる修飾句などのような冗長な部分までも要約文書に残るため、生成された要約文書が簡潔なものとはならない欠点がある。また、重要文をむりやり繋げるため、要約文書内での文の流れ（結束性＝ｃｏｈｅｒｅｎｃｅ）が不自然となる。これは、重要文抽出による要約では文内に残る冗長性を排除することができないために、文字数制限の点から報知的な要約には非常に不利であることが多い。

ここで、一般的に自動要約には以下のような指向があると言われている。例えば、テキストの量としては、「単一テキスト要約」、「複数テキスト要約」の分類があり、ユーザーへの特化としては、「ｕｓｅｒ−ｆｏｃｕｓｅｄな要約」、「ｇｅｎｅｒｉｃな要約」の分類があり、利用目的としては、「指示的（ｉｎｄｉｃａｔｉｖｅ）な要約」、「報知的（ｉｎｆｏｒｍａｔｉｏｎ）な要約」がある。これらの指向の中で最も大きな違いとして、利用目的の違いによる指示的な要約と報知的な要約の違いが挙げられる。まず、指示的な要約とは、原文が読むに値するかを調べるための要約である。つまり、この要約の背後には要約を読んだ後で原文を読むという前提があり、ＴＦ＊ＩＤＦ値などで文章のキーワードを特定し、そのキーワードの含まれた文を抽出する要約で、ある程度十分にその機能を発揮する。一方、報知的な要約とは生成された要約文章を原文の代用として用いることを目的としている。そのため、指示的な要約では、あまり重要とされない原文の内容をどれだけ反映させているかという「情報の網羅性」や文章の読みやすさである「テキストの可読性」が非常に重要な鍵となり、一気に生成の難易度が増す。様々な新聞社や放送局が独自のＷｅｂページで無料で情報を配信しはじめた近年の状況を鑑みるに、報知的な要約の生成は更なる情報化社会の進展とともに重要な位置を占めてくる。ここで、報知的な要約では「情報の網羅性」と「テキストの可読性」が鍵となるが、これら２つの性質は相反するもので、トレードオフの関係にあると言える。なぜなら、「テキストの可読性」を高めるには、原文内の１つの話題について、ある程度内容を絞る必要があるが、内容を絞れば「情報の網羅性」は下がるからである。一方、「情報の網羅性」を高めるには、原文内の情報を多く載せればよいが、多くの情報を掲載すれば要約文章の首尾一貫性が失われ、「テキストの可読性」は著しく低下する。

そこで、原文に視点を戻すと、原文はたとえ多くの話題が掲載されていても、それらが論理的な関係によって結び付いているため、違和感無く読む事ができる。つまり、原文の論述の展開を要約文にも反映できれば、これら２つの相反する性質を反映できると考えられる。そして、そのためには文を切って句を生成し、掲載できる情報の量を増やすのはもちろん、何らかの形で原文の文章構造を解析する必要がある。

本発明は、前記課題を解決するためになされたものであり、文章構造解析から文章の論述の流れを捉え、「文」より小さいレベルとしての「句」を抽出することによって、冗長性の低い報知的な要約文章の生成の可能な文書要約装置の提供を目的とする。

ここで、本発明において重要な概念となる句の認定について以下に詳説する。重要な内容を含む句を抽出し、それらを基に要約文章を生成するにあたり、抽出する単位として句の単位の認定が必要となる。そこで、本発明では、ベケシュの要約文残存認定単位［参考文献：残存認定単位の規定と出現傾向、佐久間まゆみ（編）、文章構造と要約文の諸相、くろしお出版、２０００］を参考にして、句の抽出単位を定める。ここで、要約文残存認定単位とは、人手による要約を分析し、日本語の要約で使われる最小の単位を統計により定めたものである。しかし、ベケシュの研究は言語学研究上のものであり、それを要約装置に応用するためには表層的な特徴以外に非常に高度な意味理解の能力が必要となる。そこで、便宜的に要約文残存認定単位に制限をつけ、本発明の要約装置に適用するにあたって以下の規則を用いる。なお、日本語では句には明確な定義が無く言語単位の一種として幅広く取り扱われていることに鑑み、節なども句の一種とする。

［主節、従属節について］
単純に用言が用言にかかっている場合に主節従属節の関係とする。ただし、各用言が格関係を持たないものは抽出時に意味が通じない場合が多いので、句とせず統合してひとつの句とする。
例）事件は国会でも取り上げられ｜反響を呼んでいる。
（ａ）事件は反響を呼んでいる。
（ｂ）国会でもとりあげられる。

［連体修飾節について］
連体修飾節には被連体修飾語との関係によって内の関係、外の関係がある。内の関係とは被修飾語が連体修飾節の格要素になりうる関係で、外の関係とは被修飾語が連体修飾節の格要素にならない関係である。ここでは解析の困難さから、それら全てを内の関係として扱う。また、連体修飾節では、被修飾語を連体修飾節の主題主格として新たに文節を設け、以下のように分離することで句を生成する。
例）昨日響灘で発生した｜海難事故は惨事になった。
（ａ）海難事故は昨日響灘で発生した。
（ｂ）海難事故は惨事になった。

［引用節について］
引用の格助詞「と」を基に係り受け関係から抜き出し、句とする。ただし、重要度評価の結果、引用節の外が要約として抽出された場合には補完する。以下の例で言えば、２つめの句は本来は「被害者はいう」であるが、重要度評価の結果「被害者はいう」が重要であると判断された場合にはこれだけでは意味がよく理解できないので、「川の中に頭を突っ込まれたと」を加え「被害者は川の中に頭を突っ込まれたという」とする。
例）被害者は｜川の中に頭を突っ込まれたと｜いう。
（ａ）川の中に頭を突っ込まれた。
（ｂ）被害者は（川の中に頭を突っ込まれたと）いう。

［副詞、接続表現について］
副詞や接続詞は文の連接関係を示す指標である場合が多く、これらを句に残すのは不適当である。
例）しかし、｜その法律は万能とは言えない。
（ａ）しかし
（ｂ）その法律は万能とは言えない。
以上の規則を本発明に適用する。

（１）本発明に係る文書要約装置は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手段と、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手段と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手段とから構成される。

これにより、入力された記事の意味段落の線形の連接関係を作成し、意味段落の流れを保ちながら線形の連接関係を単純化し、意味段落から陳述形式による句の評価及び句の評価に重みを付けて句を抽出し、語を補完して要約文を作成することができるので、連接関係から局所的な文章構造をみながら、首尾一貫性の高い報知的な要約を生成することができる。また、文書に書かれている内容をすばやく理解し、推測することができる。

（２）本発明に係る文書要約装置は必要に応じて、単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手段とから構成される。
これにより、連接関係から局所的な文章構造を見つつ、飛び地構造の解析によって大極的な文章構造をみることができるので、主題に沿った意味段落の流れをより反映する形で首尾一貫性の高い報知的な要約を生成することができる。

（３）本発明に係る文書要約装置は必要に応じて、陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手段とから構成される。
これにより、連接関係から局所的な文章構造を見つつ陳述形式によって句を抽出し、飛び地構造の解析によって大極的な文章構造をみながら語の類似度による句の抽出をすることができるので、意味段落の流れを反映した出現頻度の高い重要語を多く含む首尾一貫性の高い報知的な要約を生成することができる。

（４）本発明に係る文書要約装置は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、意味段落同士の飛び地構造を解析する飛び地構造解析手段と、文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手段と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手段から構成される。
これにより、連接関係から局所的な文章構造を見つつ、飛び地構造の解析によって大極的な文章構造をみながら語の類似度により句を抽出することができるので、主題に沿った出現頻度の高い重要語に着目した首尾一貫性の高い報知的な要約を生成することができる。

（５）本発明に係る文書要約装置は、文章構造木を入力する文章構造木入力手段と、入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手段と、文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手段と、素性関数の重みを作成する素性関数重み作成手段と、素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手段と、求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手段と、自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手段と、前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手段とから構成される。

ここで、「文章構造木を入力する」とは、例えば、「人手によって作成された文章構造木を入力する」などを含む。また、「素性」とは、例えば、「文節」、「文末の付属語」、「相対的な類似度」、「主語の種類」、「主語の連鎖」、「陳述形式の評価値」、「葉ノードのからの距離」、「連接関係」、「ｓｈｉｆｔ素性」などを含む。また、「素性関数の重みを作成する」とは、例えば「反復スケジューリング法により素性関数の重みを作成する」ことを含む。また、「自動的に文章構造木を生成する」とは、例えば、「ＣＫＹ法による文章構造木を生成する」ことを含む。また、「言語表現から一定の条件を満たした重要句」とは、例えば、「展開型」、「逆接型」、「転換型」、「累加型」、「同格型」、「比較型」、「補足型」で定められた各ルールを含む。

これにより、文章構造木から素性を自動抽出し、その素性から素性関数及びその重み、意味段落における最大エントロピーを求めて、求められた最大エントロピーを利用した文章構造木を生成し、文章構造木における言語表現から一定の条件を満たした重要句を抽出し、句を補完することで要約文を作成することができるので、文章構造を意味段落間の２項関係によって階層的に構成することによって連接関係に順位付けを行いながら、主題に沿った形でより強く文章構造を要約文章に反映させ、かつ、冗長な記述を排除できる。また、簡潔で、文章として構文的、意味的結束性を保つ良質な要約が生成できる。

（６）本発明に係る文書要約方法は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価ステップと、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出ステップと、前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップとから構成される。

（７）本発明に係る文書要約方法は必要に応じて、単純化された意味段落同士の飛び地構造を解析する飛び地構造解析ステップとから構成される。

（８）本発明に係る文書要約方法は必要に応じて、陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出ステップとから構成される。

（９）本発明に係る文書要約方法は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、意味段落同士の飛び地構造を解析する飛び地構造解析ステップと、文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出ステップと、前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップとから構成される。

（１０）本発明に係る文書要約方法は、文章構造木を入力する文章構造木入力ステップと、入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出ステップと、文章構造木から自動抽出された素性から素性関数を作成する素性関数作成ステップと、素性関数の重みを作成する素性関数重み作成ステップと、素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算ステップと、求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成ステップと、自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出ステップと、前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理ステップとから構成される。

（１１）本発明に係る文書要約プログラムは、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手順と、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手順と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手順としてコンピュータを機能させる。

（１２）本発明に係る文書要約プログラムは必要に応じて、単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手順としてコンピュータを機能させる。

（１３）本発明に係る文書要約プログラムは必要に応じて、陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手順としてコンピュータを機能させる。

（１４）本発明に係る文書要約プログラムは、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、意味段落同士の飛び地構造を解析する飛び地構造解析手順と、文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手順と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手順としてコンピュータを機能させる。

（１５）本発明に係る文書要約プログラムは、文章構造木を入力する文章構造木入力手順と、入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手順と、文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手順と、素性関数の重みを作成する素性関数重み作成手順と、素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手順と、求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手順と、自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手順と、前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手順としてコンピュータを機能させる。

これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。

ここで、本発明は多くの異なる形態で実施可能である。したがって、下記の実施形態の記載内容のみで解釈すべきではない。実施形態では、主に装置について説明するが、所謂当業者であれば明らかな通り、本発明は、コンピュータで使用可能なプログラムとしても実施できる。また、本発明では、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、ＣＤ―ＲＯＭ、ＤＶＤ−ＲＯＭ、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。

（本発明の第１の実施形態）
［１．ハードウェア構成］
図１に本発明の第１の実施形態における文書要約装置のハードウェア構成図を示す。コンピュータ１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇＵｎｉｔ）２、メインメモリ３、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）４、ビデオカード５、マウス６、キーボード７、光学ディスク８等により構成される。コンピュータ１は、ＣＰＵ２によって制御される。コンピュータ１に電源を投入すると、ＣＰＵ２は、メインメモリ３に記憶されたＩＰＬ（ＩｎｉｔｉａｌＰｒｏｇｒａｍＬｏａｄｅｒ）を実行する。ＩＰＬは、ＨＤＤ４、光学ディスク８などの記録媒体に記憶されたＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）プログラムを読み出して実行するプログラムである。ＯＳを起動した後、ＣＰＵ２は、マウス６、キーボード７などにより入力されたユーザの指示にしたがって、あるいは、ＨＤＤ４などにあらかじめ記述された設定ファイルの内容にしたがって、ＨＤＤ４などに記憶されたアプリケーションプログラムを実行することができる。プログラムの実行に伴ない、ユーザに結果を報告したり、途中経過を見せるため、ＣＰＵ２は、液晶ディスプレイなどの表示装置に当該情報を表示することができる。また、必要に応じて、コンピュータ１はネットワークを介してデータベース等に接続することができる。

［１．２ブロック構成］
図２は、本発明の第１の実施形態に係る文書要約装置のブロック構成図である。
文書要約装置は、入力部１０、文章構造解析部２０、要約文作成部３０、出力部４０から構成される。また、文章構造解析部２０は、連接関係構造解析部２１、飛び地構造解析部２２から構成される。連接関係構造解析部２１は、連接関係作成部２１１、文章構成再編部２１２から構成される。また、要約文作成部３０は、句抽出部３１、語補完部３２から構成される。句抽出部３１は、句評価部３１１、句重み付け部３１２、語類似度評価部３１３から構成される。まず、入力部１０に入力された記事データは文章構造解析部２０に送られ、文章構造解析が行われる。ここで、文章構造解析部２０における文章構造解析処理について以下に詳説する。

［１．２．１文章構造解析］
［１．２．１．１連接関係構造解析］
「句」、「文」、「段落」といった文章表現間の連接関係は、文章の論述展開を見るうえで欠かせないものであるから、文章構造解析部２０における連接関係構造解析部２１の連接関係作成部２１１で連接関係による線形な文章構造解析を行う。
図３は、本発明の第１の実施形態に係る文書要約装置における文章構造解析の連接関係の種類の説明図である。「文章論総説」［参考文献：永野賢、朝倉書店、東京、１９８６］を参考に連接関係から文章構造を解析する。前述の「文章論総説」では、連接関係を図３のようにその性質から「展開型」、「反対型」、「累加型」、「同格型」、「補足型」、「対比型」、「転換型」の７種類に分類している。「展開型」は前文を受けて、後の文でいろいろに展開する。例えば、「だから」、「それで」、「すると」などを含む。「反対型」は、前文に対して、後の文でその反対の事柄を述べる。例えば、「だが」、「しかし」、「それなのに」などを含む。「累加型」は、前文に後の内容を付け加えたり、並列したりする。単純に文を連ねる。例えば、「そして」、「あわせて」、「〜も」などを含む。「同格型」は、前文の換言、要約、例示、説明、繰り返しである。例えば、「つまり」、「例えば」などである。「補足型」は、前文の内容に対して、後の文で説明を補う。例えば、「それは」、「〜からだ」、「なぜなら」、「というのは」などを含む。「対比型」は、前文の内容に後文の内容を対比、対立、または選択させる。例えば、「『〜は』の連続使用」、「または」、「あるいは」などを含む。「転換型」は、前文と違った内容のことに話題を変える。例えば、「さて」、「次に」、「では」、「ところで」などを含む。連接関係構造解析部２１は、図３をもとに接続詞や接続助詞を分類する。さらに、接続詞や接続助詞だけでは連接関係の解析として不十分であるため、接続詞や接続助詞以外の表現から抜き出したパターンマッチなどを連接関係の解析に用いることができる。そして、連接関係をもとに文章表現をまとめ、話材のまとまりである意味段落を構築する。つまり、接続詞等の分類結果により話の流れを作り、それ以外の表現により意味を付加する。構築された意味段落の連接関係を大きく分類すると、図３に示すようにその性質から「展開型」、「反対型」、「転換型、「累加型」、「同格型」、「補足型」、「対比型」に分類することができる。

次に、入力されたデータは、連接関係作成部２１１から文章構成再編部２１２に送られる。図４は、本発明の第１の実施形態に係る文書要約装置における文章構造解析の連接関係及び連接関係の単純化の説明図である。図４（ａ）は、連接関係作成部２１１によって作成された６つの段落の関係が、右から「添加」、「転換」、「補足」、「展開」、「同格」により構成されていることを示している。なお、ここでの連接関係は線形となる。文章構成再編部２１２が、図４（ａ）のような連接関係が与えられた場合に、人が文章を読み進めるのと同様に前から段落をまとめ上げていく。それによって、意味的なまとまりである意味段落を構成し、図４（ｂ）のように文章の構成を単純化することができる。具体的には、「添加」、「補足」、「同格」で接続された段落同士は、１つの意味段落としてまとめることができる。そうすると、６つの段落構成が、右から「転換」、「展開」によって接続される３つの意味段落によって再編される。そして、各意味段落から均等に句を抽出していくことにより論述展開を壊さずに要約を生成することとなる。なお、意味段落を考える上で文や段落内の情報は非常に話材同士の結束性が強いので、それらの単位を壊し、全てをフラットにして考えるのは好ましくない。そこで、文内、段落内、記事全体と言語表現ごとに階層的に意味段落を生成していくこととなる。

［１．２．１．２飛び地構造解析］
線形の連接関係による文章構造解析では、段落間の離れた繋がりである段落の飛び地構造を解析することができない。そこで、段落間の離れた繋がりである段落の飛び地構造を解析するために、連接関係構造解析部２１から飛び地構造解析部２２に送られる。前述の「文章論総説」では、単に文を連ねた場合は累加の連接関係であるとしているが、パターン化できるほどの情報を与えずに文脈に関係無い表現を用いる場合がある。ここで、飛び地構造解析について以下に詳説する。

図５は、本発明の第１の実施形態に係る文書要約装置における文章構造解析の段落間の関連性の説明図である。例示段落Ａと段落Ａによって内容を例示されている段落Ｂがあったとする。線の太さを類似度の大きさとし、図示すると図５（ａ）のようになる。段落Ａは段落Ｂの例を示しているので、段落Ａは段落Ｂに対しては類似度が高くとも、段落Ｂ以外の段落については類似度が低い。一方、段落Ｂは例示段落ではないので、段落Ａだけでなく、他の段落との類似度も高い。

そこで、この特徴を反映させるために、段落間に類似度を基にした向き付きのリンクを張る。そして、段落間にネットワークを構成し、抽出があった段落からある一定の値をネットワークのリンクの太さに応じて伝搬させる。そして、その値がある一定の閾値を越えない場合には連接関係から抽出候補となっている場合でも抽出候補から外すこととする。段落間ネットワークは段落間に含まれるの単語の類似度を基にしている。ＥＤＲ電子化辞書を用いて単語間の類似度を以下の式で求める。まず、概念は一般的に多義であり、さらに多重継承によっていくつかの上位概念を持っている。そこで最上位概念までのすべての経路を探索する。本発明ではそれらの経路１本を便宜上、上位概念列とし、それらの集合を上位概念列集合と呼ぶこととする。上位概念列集合の類似度ｕＳｉｍ（Ａ，Ｂ）を以下に示す。

Ａ：上位概念列集合
Ａ_i：上位概念列
｜Ａ｜：集合Ａの大きさ
また、語の類似度Ｓｉｍ（Ｃ，Ｄ）を以下に示す。

Ｃ（ｉ）：語Ｃの概念ｉ
Ｐ（Ｃ（ｉ）｜Ｃ）：語Ｃが概念Ｃ（ｉ）である確率
Ｃ（ｉ）_U：概念Ｃ（ｉ）の上位概念列集合
このようにして求まった語間の類似度を基に段落間にある全ての単語の類似度を求め、そしてその平均をとる。それを段落間の類似度とする。次に、その類似度の特徴を際立たせるために、他段落との類似度で最も高いものを１、最も低いものを０として正規化する。これによって０〜１までの段落間の相対的な類似度が計算される。段落間の相対的な類似度ＲｅｌａｔｉｖｅＰＳｉｍ（Ａ，Ｂ）を以下に示す。

ＰＳｉｍ（Ａ，Ｂ）：段落間の語の類似度リンクの平均値
ＰＳｉｍ（Ａ，ｍａｘ（Ａ））：段落Ａと段落Ａとの類似度が最大である段落との類似度
ＰＳｉｍ（Ａ，ｍｉｎ（Ａ））：段落Ａと段落Ａとの類似度が最小である段落との類似度
その結果、例えば図５（ａ）には図５（ｂ）のようなネットワークができあがる。このようにして、連接関係から局所的な文章構造を見つつ、飛び地構造の解析によって大極的な文章構造を見ることで、首尾一貫性と論述展開を保存することができる。

［１．２．２要約文作成］
［１．２．２．１句の陳述形式による重要度評価］
句の接辞表現を見ると筆者が話材をどれだけ伝えたいのか知ることができる。図６は、本発明の第１の実施形態に係る文書要約装置における文章構造解析の辞の分類の説明図である。前述の「文章論総説」では文末の接辞表現を分析し、筆者から読者への話材を訴える強度を図６のように７段階に分類している。「態度」としては、「客体事象の叙述」、「主体的立場の陳述」、「読み手への働きかけ」の３つに分類できる。また、「志向」としては、「客体事象の叙述」の「話材志向」、「話材→自分志向」、「主体的立場の陳述」の「自分志向」、「読み手への働きかけ」の「自分→相手志向」の４つに分類できる。具体的な語例として、「話材志向」では、例えば、「格助詞」などを含む。「話材→自分志向」では、上位に、「接続助詞」、「副助詞」などを含み、下位に「た（過去）」、「てしまう」などを含む。「自分志向」では、上位に「だ（形容動詞終止形零記号を含む）」、「そうだ（伝聞推量）」などを含み、下位に「た（確認）」、「のだ」などを含む。「自分→相手志向」では、上位に「か」、「ではないか（驚き）」などを含み、下位に「ね」、「よ」などを含む。図６は下へ行くほど読み手への志向が強い事を表しており、筆者の訴えたい句を選ぶ際の基準となる。そこで、一般に社説記事で重要な句は筆者の主張であるという性質から、まず陳述形式によって句抽出部３１における句評価部３１１が句の評価を行う。ここでは単純に図６の上から順に１から７まで値をつけ、それを陳述形式の重みとする。しかし、陳述形式の評価だけではなく連接関係によっても重要度に違いは生じる。

図７は、本発明の第１の実施形態に係る文書要約装置における文章構造解析の連接関係の重みの変化の説明図である。そこで、句抽出部３１における句重み付け部３１２が陳述形式の評価に連接関係による重要度評価を加味させるために、多少乱暴な処理ではあるが陳述形式の重みを、その性質から言語表現間の連接関係によって図７のように変化させる。連接関係が「展開」、「反対」では、変化として「後の言語表現の陳述形式の重みの増加」とする。「累加」、「添加」では、「重み付けを変化させない」とする。また、「同格」、「対比」では、「前の言語表現の陳述形式の重みの増加」とする。「補足」では、「前の言語表現がまだ抽出されていない場合、選出候補から外す」とする。

［１．２．２．２語の類似度に基づく句の重要度評価方法］
しかしながら、陳述形式は図６のように種類が少なく、それだけでは句を選択できない状態が起きる。その時には、できるだけ主題に沿った句を抽出したほうが良い。また、文章の主題は原文中で何度も参照されているため出現頻度が高いとされる。そこで、図５で示した段落間ネットワークを作る際に利用した語間の類似度を用い、句抽出部３１における語類似度評価部３１３が句を構成する語の類似度の総和の平均値が最も高い句を重要句とする。

［１．２．２．３語の補完］
句抽出の要約では多くの場合、主語の省略や指示代名詞によって句単体では句の意味が不十分であることが多い。図８は、本発明の第１の実施形態に係る文書要約装置における文章構造解析の語の置換の説明図である。そこで、図８のような処理を行い、情報を補間する。「補完対象」は、「連体詞」、「句頭の指示詞」、「句内の指示詞」、「ゼロ主語」がある。「補完方法」については、連体詞は「連体詞の被修飾語との類似度から類似度が高く、最も近い名詞で置換する」とする。また、句頭の指示語は「直前の句を補完」とする。また、句内の指示語は「共起辞書より素性を調べ、前５文中から素性との類似度と中心化理論［参考文献：Ｍ．ＯＫＵＭＵＲＡ，Ｋ．ＴＡＭＵＲＡ，“ＺｅｒｏＰｒｏｎｏｕｎＲｅｓｏｌｕｔｉｏｎｉｎＪａｐａｎｅｓｅＤｉｓｃｏｕｒｓｅＢａｓｅｄｏｎＣｅｎｔｅｒｉｎｇＴｈｅｏｒｙ”，ｈｔｔｐ：／／ａｃｌ．ｌｄｃ．ｕｐｅｎｎ．ｅｄｕ／Ｃ／Ｃ９６／Ｃ９６−２１４７．ｐｄｆ］より置換する」とする。また、ゼロ主語は「直前の句の主語を補完」とする。

［１．２．２．４要約文章の作成］
要約文章の生成は、要約文生成部３０において句抽出部３１、語補完部３２からの処理と同時に行われるので以下に詳説する。
図９は、本発明の第１の実施形態に係る文書要約装置における陳述形式からの句の抽出の説明図である。まず、新聞社説記事において、最も重要な筆者の主張は最終段落にあると仮定する。そこでまず要約の核となる句として最終段落から句抽出部３１が句を抽出する。句の抽出方法の例として今、図４（ａ）からの抽出を行うとする。まず、句評価部３１１が図４（ａ）の陳述形式の評価を行った結果、□の中の数字を陳述評価として、図９（ａ）のような右の段落から「３、４、６、４、５、３」の陳述形式の評価値が得られたとする。次に図９（ｂ）に示すように、連接関係によって意味段落を構成し、句重み付け部３１２が意味段落内で連接関係によって陳述形式の評価を変化させる。そうすると、陳述形式の評価値は右の段落から「３、４、×、４、５、４」となる。そして、図９（ｃ）に示すように、陳述形式を変化させた後、各意味段落から最も評価値の高いものを抜き出す。再び、連接関係より句重み付け部３１２が評価値を変化させる。最終的には、図９（ｄ）に示された形となる。

図１０は、本発明の第１の実施形態に係る文書要約装置における類似度による評価の説明図である。すると、今度は陳述形式からでは句を抽出できないので、語類似度評価部３１３により評価された句を構成する語の類似度から句を抽出する。なお、図１０にて○は文節を、実線は係り受け関係を、破線は類似度を表しているものとする。その結果、図９（ａ）での前から３番目の句が重要句として抽出される。そして、さらに抽出を進める。段落間ネットワークに最終段落から値を伝搬させる。ここで、便宜上、段落間ネットワークに流れる値を活性値、その値がある閾値を越えた状態を活性状態、越えていない状態を不活性状態とする。

図１１は、本発明の第１の実施形態に係る文書要約装置における句の抽出過程の説明図である。今、段落ｆから活性値を伝搬させた結果、段落ａと段落ｅが活性状態になったとする。図１１（ａ）に、最終段落の抽出を示す。なお、図１１（ａ）は図９（ａ）と似ているが図１１（ａ）は最終段落内を表し、図はテキスト全体を表しているものである。この２つは全く別である。また、図１１では実線の□を活性状態の段落、破線の□を不活性状態の段落として表現している。ここで、図１１（ｂ）に示すように、論述展開を保つために、抽出句の含まれる段落を次回の抽出候補から除外する。その結果、段落ａのみ抽出候補となるので、上述の方法で句を抽出し、段落ａから活性値を伝搬させる。その結果、図１１（ｃ）のようになったとする。段落ｄが活性状態になったものの、段落ｃと段落ｄは補足の関係にあり、段落ｃから抽出されるまでｄから抽出を行うことはできない。つまり、抽出候補が無くなったので、図１１（ｄ）に示すように、論述展開を保つために抽出候補から排除していた制限を解除する。その結果、次は段落ｅから句の抽出が行われる。これを繰り返し、要約の文字数が要求の文字数になるまで抽出を行う。

［１．３動作］
図１２は、本発明の第１の実施形態に係る文書要約装置のフローシートである。
ユーザは記事を入力する（Ｓ１００）。なお、データベース等の記憶装置に記録されている記事を読み込むこともできる。連接関係作成部２１１が、入力された記事を構造解析し、意味段落の線形の連接関係を作成する（Ｓ１１０）。文章構成再編部２１２が、意味段落の流れを保った状態で連接関係の構成を単純化する（Ｓ１２０）。飛び地構造解析部２２が意味段落同士の飛び地構造を解析する（Ｓ１３０）。句評価部３１１が、意味段落の中から陳述形式による句の評価を行う（Ｓ１４０）。句重み付け部３１２が、陳述形式による句の評価に重みを付けて抽出を行う（Ｓ１５０）。語類似度評価部３１３が、陳述形式によって抽出された以外の句に対する語の類似度による句の抽出を行う（Ｓ１６０）。語補完部３２が、前記抽出された句の集合について語の補完を行う（Ｓ１７０）。要約文作成部３０が抽出された句及び補完された語により要約文を作成する（Ｓ１８０）。要約文が所定の字数を満たしているか否かを判断する（Ｓ１９０）。要約文が所定の字数を満たしていない場合に、陳述形式による句の評価に戻る（Ｓ１４０）。出力部４０が要約文が所定の字数を満たしている場合には、作成された要約文を出力する（Ｓ２００）。
（本発明の第２の実施形態）

［２．１ブロック構成図］
図１３は、本発明の第２の実施形態に係る文書要約装置のブロック図である。
文書要約装置は、入力部１０、文章構造解析部２０ａ、要約文作成部３０ａ、出力部４０から構成される。また、文章構造解析部２０ａは、素性抽出部２３、素性関数作成部２４、素性関数重み作成部２５、最大エントロピー計算部２６、自動文章構造木作成部２７から構成される。また、要約文作成部３０ａは、重要句抽出部３１ａ、句補完処理部３２ａから構成される。

［２．１．１文章構造解析］
文章構造をより強く要約文章に反映させるには連接関係になんらかの順位付けが必要である。そこで、本発明の第２の実施形態では、文章構造を意味段落間の２項関係によって階層的に構成することによって連接関係に順位付けを行う。また、第１の実施形態では接続詞や相当表現で言語表現間の連接関係を作成するが、接続詞にも曖昧さがあり、人は連接関係を指示詞、接続詞だけで判断しているとは限らず、様々な要素が連接関係を作る上で特徴となっている。そこで、本発明の第２の実施形態では前処理により作成された文章構造木を入力し、素性抽出部２３が特徴となりそうなものを自動抽出し、最大エントロピー計算部２６によって求められる最大エントロピー法を用いて、部分木の構成される確率を求めながら、自動文章構造木作成部２７が図１４のような文章構造木を生成する。ここで、前処理された文章構造木は、人によって作成することもできる。図１４は、本発明の第２の実施形態に係る文書要約装置における文章構造木の一例の図である。

［２．１．１．１最大エントロピー法］
ここで、最大エントロピー法について説明する。最大エントロピー法とは、与えられた制約のもとで、その制約を満たしつつエントロピーＨ（Ｐ）＝―Σ_x,yＰ（ｘ，ｙ）ｌｏｇＰ（ｘ，ｙ）を最大化するような一様な確率モデルを推定することである。ここで、制約をｆ_iで表し、ｎ個の制約が与えられたとする。Ｅ_P[ｆ_i]を推定される確率モデルの期待値、（数式９）の制約条件１の右辺を学習データから導かれる経験的確率分布の期待値とすると、この時、以下のような制約等式を満たすモデルの集合Ｐが定義される。

一般に集合Ｐの要素は無数に存在するが、推定すべき確率モデルは、この中でエントロピーを最大にするものである。

（数式５）を最大エントロピー原理と呼ぶ。この最大エントロピー原理を満たすように確率モデルを定めることが最大エントロピー法の特徴である。最大エントロピー法ではエントロピーが最大になるような一様な確率モデルを選ぶため、局所解に陥りづらく、モデルに組み込むべき特性を制約として容易に記述できるためゼロ頻度問題に伴うパラメータの増大や学習データの断片化を防ぐことができる。最大エントロピー法ではモデルに対する制約は素性関数という２値関数で与える。素性関数作成部２４が、素性関数を（数式６）のように定義することができる。

上記の素性関数ｆ₁（ｗ_i，ｗ_j）の場合はｗ_iがｗ₁のとき１を返し、それ以外の場合には０を返す素性関数を表している。ここで、条件付き最大エントロピーモデルについて説明する。本発明の第２の実施形態では、ある特徴が現れたときにそれがどのような連接関係で結合するかという確率が必要であるので、条件付き最大エントロピーモデルを用いる。条件付き最大エントロピーモデルは以下の（数式７）で与えられる。

ここで、ｆ_i（ｘ，ｙ）は素性関数、Λ＝λ₁，・・・，λ_nはモデルのパラメータである。また、Ｚ_Λ（ｘ）はΣ_yＰ_Λ（ｙ｜ｘ）＝１とするための正規化項である。そして、λ_iは素性関数ｆ_i（ｘ，ｙ）に対する重みで、素性関数の重要さを表している。最大エントロピー法では後述する反復スケーリング法という方法を用いてΛ＝ λ₁，・・・，λ_nを学習データから定める。ここで、最大エントロピー原理を満たすモデルの導出について説明する。最大エントロピー原理を満たすモデルを求める問題はＨ（Ｐ）を最大にするような確率分布を以下の制約条件下で見付けることである。

この最適化問題を解くために、制約条件付きの最適化問題の解法としてよく用いられるラグランジュ関数▲Ｌ▼（Ｐ，Λ）を導入する。ここで、Λ＝｛λ₁，・・・，λ_n｝は制約条件１に対応するラグランジュ乗数である。

ここで、Ａは後に述べる反復スケーリング法で求めるので、Λを固定し、Ｐに関して▲Ｌ▼（Ｐ，Λ）を最大化する。そのためには、ΛをＰ（ｙ｜ｘ）で偏微分し、それを０とおいて解を求める。

これを０と置き、Ｐ（ｙ｜ｘ）について解くと、以下のようになる。

ここで、制約条件２、３を満たすために

ここで、Ｚ_A（ｘ）＝Σ_yｅｘｐ（Σ_iλ_iｆ_i（ｘ，ｙ））とおくと以下のようになる。

となり、（数式７）と一致する。

［２．１．１．２反復スケーリング法］
素性関数重み作成部２５が各素性関数の重みを決定するために、反復スケーリング法を用いる。反復スケーリング法とはまず、Λ＝ λ₁，・・・，λ_nに適当な初期値を与えておいて、対数尤度Ｌ（Ｐ_Λ）を増加させるようにΛを徐々に修正していく方法である。まず、パラメータΛをΛ＋Δに変化させた時の変化量の下限を与える式Ａ（Λ，Δ）を求める。

そして、Ａ（Λ，Δ）を最大にするようなΔを求めることにより、Λ＋Δを最適値に近づけるものである。式の変形には、補助定理として以下のジェンセンの不等式を用いる。
補助定理１：ｌｏｇｘ≧ｘ−１
補助定理２：Ｐ（ｘ）が確率分布ならば、

また、以下の式の変形にて、便宜上

と表現する。
ここで、反復スケーリング法の導出を以下に示す。

ここで、補助定理１より

ここで、補助定理２より

ここで、（数式２０）をＡ（Λ，Δ）と置いて、δ_iについて偏微分を行う。

これを０とおくと、

ここで、任意のｘ，ｙについてｆ^#（ｘ，ｙ）が定数でない場合、ニュートン法等の数値解析的な手法により、δ_iを計算するか、次のような新しい素性関数ｆ_n+1を用意して、ｆ^#（ｘ，ｙ）を定数にしてδ_iを計算する。なお、本発明の第２の実施形態ではｆ_n+1を用意して計算を行う。

以上より、反復スケーリング法のアルゴリズムは次の（１）から（４）ようになる。
（１）Λ＝｛λ₁，・・・，λ_n｝に適当な初期値を与える。
（２）（数式２２）、（数式２３）より、Λの増分である、Δ＝｛δ₁，・・・，δ_n｝を計算する。
（３）Λの値を更新する。λ_i＝λ_i＋δ_i
（４）Λの値が収束していなければ、ステップ２へ戻る。

［２．１．１．３利用素性］
前処理によって作成された文章構造木を基に以下の素性を素性抽出部２３が自動抽出し、素性関数作成部２４が素性関数として与えて学習を行う。また、文章構造木を生成する際には特徴として以下の素性を自動抽出し、確率を最大エントロピー法で計算する。なお、本発明の第２の実施形態では、文をまとめて意味段落を構成したり、段落をまとめて意味段落を構成したり、意味段落と文をまとめて意味段落を構成する。そこで、文、段落、意味段落を全てまとめて、便宜上「言語表現」とする。また、意味段落を構成する２つの言語表現のうち、原文内での位置的に前にあるものを「前言語表現」、後ろにあるものを「後言語表現」とする。なお、各利用素性については次の（１）から（８）に説明する。

（１）文節
接続詞、指示詞は連接関係を作る上で非常に大きな特徴になる。他にも「言い替えれば」、「第一に」、「とはいえ」など接続詞に相当するような言語表現は多い。そこで、後言語表現の先頭の文を対象とし、それらをそのまま素性として与えることができる。なお、全ての文節を利用すると、素性関数の量が爆発してしまう上に、ノイズとしていらない情報まで加わり、精度を下げる結果になる場合もあるため、以下の制約を満たすものを素性として抜き出すこともできる。
（制約１）文節内の自立語が複合語や一般名詞、固有名詞ではない。形態素解析器の精度に大きく依存してしまうが、一般名詞、固有名詞、複合語は一般的にその文章の特徴語にはなり得ても、連接関係を形作るような汎用性のある言葉である可能性は低い。
（制約２）品詞が名詞、形容詞、動詞、形容動詞、未知語の場合、先頭から２文節以内。
文の後ろの方にある語は前言語表現との連接関係を取りづらい。
「〜を言い替えるならば」など、文節より大きなレベルで特徴語となりうるものもあるが、ここでは単一文節のみを扱う。なお、複数文節を扱うこともできる。

（２）文末の付属語
「〜だからだ」のように文末の情報で補足のような連接関係を特定できるものもある。
そこで、文末の付属語を素性として与える。例えば、「〜だからだ」の場合には、「だ」「から」「だ」の３つの素性を抽出できる。また、対象は文節素性と同じく後言語表現の先頭の文とし、付属語が無い場合には「無」として素性を与えることができる。

（３）相対的な類似度
第１の実施形態では、段落間の相対的な類似度を用いることで要約の精度が格段に向上することから、相対的な類似度は、文脈を考える上で大きな指標になっている。そこで、前言語表現を構成する段落から後言語表現を構成する段落への相対的な類似度の平均値と後言語表現を構成する段落から前言語表現を構成する段落への相対的な類似度の平均値をその意味段落間の相対的な類似度とし、その差を０．５刻みで４段階にわけ、それを素性として与えることができる。言語表現Ａから言語表現Ｂへの相対的な類似度をＲｅｌＳｉｍＡ（Ｂ）とすると、相対的な類似度素性ＲｅｌＳｉｍＦｅａｔ（Ａ，Ｂ）は以下のように表せる。

（４）主語の種類
日本語の主語には主格主語と主題主語の２種類がある。簡単に言えば、主格主語とは「〜が」という主語で、主題主語とは「〜は」という主語である。前述の「文章論総説」では主格主語は主語に力点が置かれるため、新しいことを述べ始めるときに使われることが多く、主題主語は文の内容に力点が置かれるため、内容に意味を付加して発展させていく傾向が強いとしている。そこで、後言語表現の先頭文を見て「主格主語」、「主題主語」、「ゼロ主語」の３種類で素性を与える。なお、ゼロ主語とは主語が省略されているものである。

（５）主語の連鎖
主語が意味的につながっている場合、話が１つのまとまりであることが多い。前言語表現のうち陳述形式の評価値が最も高い文でできるだけ前にある文の主語と後言語表現の先頭文の主語を、前章で述べた方法で、類似度を計算し、０．８以上で真、それ以外を偽で素性として与えることができる。なお、ゼロ主語の場合は真として扱うことができる。

（６）陳述形式の評価値
前言語表現の陳述形式の評価値が後言語表現の陳述形式の評価値より高い場合補足の関係になっていることが多い。また、その逆の場合では話を展開させている場合が多い。そこで、各言語表現の中の最大の陳述形式の重みを、その言語表現の陳述形式の重みとし、その差をとって、５段階で素性を与えることができる。なお、陳述形式の重みは第１の実施の形態で説明した図６を基にしている。しかし、接辞表現だけは「〜に怒りを覚える」のような接辞表現はないが表現として訴える力の強いものに対して対応できていなかったので、文末表現辞書を図６に基づいて再分類して利用する。言語表現Ａの陳述形式の評価値をＤｅｓｃＶａｌｕｅＡとすると、陳述形式の素性ＤｅｓｃｒｉｂｅＦｅａｔ（Ａ，Ｂ）は以下のように表せる。

（７）葉ノードからの距離
構造木の葉付近と根付近とでは段落同士を結束させる力が違うことが予測されるため、意味段落を構成する２つの言語表現のうち、葉ノードからの距離が遠い方を素性とし、０、１、２、それ以上で与えることができる。図１４で言えば、葉ノードからの距離素性が０となるのは言語表現Ｇ、Ｈ、１は、言語表現Ｉ、２は言語表現Ｊ、３は言語表現Ｋとなる。

（８）連接関係
先述の７つの連接関係以外に、連接関係を作らない連接関係として、Ｓｈｉｆｔという素性を加える。Ｓｈｉｆｔ素性は正解の構造木で繋がっていない部分に作られる。以上の７つの素性から入力素性を以下のようなベクトルで表現して与える。

つまり、最大エントロピー法を用いて、ある葉ノードからの距離にある意味段落でｘを素性とした時にある連接関係の導かれる確率を求める。なお、素性ベクトルｘは、文節素性、文末の付属語素性１つにつき１つ作られる。文末の付属語素性は付属語が無くても「無」素性が１つ作られるので、全ての意味段落から少なくとも１つの素性ベクトルｘが生成される。また、素性関数ｆ（ｘ，ｙ）は、ｙとｘ₁が一致し、それ以外の素性のうち２つが一致したときに１を返す関数とした。理由として、連接関係の解析に接続詞が用いられるように、連接関係を見る上で文節素性の影響は強い。そこで、本発明の第２の実施形態では、ｘ₁素性は必ず一致し、学習データに無い関係がきても問題がないように、その他の制約は２つだけとする。

［２．１．１．４学習データからの素性の自動抽出］
最大エントロピー法を利用するには、まず、制約である素性関数を手に入れなければならない。本発明の第２の実施形態では、前処理された文章構造木から特徴を素性抽出部２３が自動抽出し、それをもとに確率モデルを定める。まず、前処理として、文章構造解析結果を基に、文章構造木を構成する。ここで、仮に図１４のような文章構造木が構築されたとする。Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆを段落、Ｇ、Ｈ、Ｉ、Ｊ、Ｋを意味的なまとまりということで意味段落とする。また、段落Ａと段落Ｂとの間で生成された素性をｘ_A,Bと表記する。なお、文節素性や文末の付属語素性の数だけｘ_A,Bは生成されるのでｘ_A,Bは１つだけとは限らないが、便宜的にｘ_A,Bだけであるとする。まず、素性抽出部２３が連接関係を持つ全ての素性をトップダウンに下りながら抽出していく。その結果、素性関数作成部２４によって、以下のような素性関数が手に入る。
ｆ₁（ｘ_A,J，｛展開，３｝）ｆ₂（ｘ_I,H，｛展開，２｝）ｆ₃（ｘ_G,D，｛同格，１｝）
ｆ₄（ｘ_B,C，｛逆説，０｝）ｆ₅（ｘ_E,F，｛累加，０｝）
次に、連接関係を切り離す関係であるＳｈｉｉｆｔ素性を抽出していく。Ｓｈｉｆｔ素性は構造木の中で連接関係によって接続されていない場所から取っていく。
ｆ₆（ｘ_A,I，｛Ｓｈｉｆｔ，２｝）ｆ₇（ｘ_A,G，｛Ｓｈｉｆｔ，１｝）
ｆ₈（ｘ_A,B，｛Ｓｈｉｆｔ，０｝）ｆ₉（ｘ_I,E，｛Ｓｈｉｆｔ，２｝）
ｆ₁₀（ｘ_C,D，｛Ｓｈｉｆｔ，０｝）ｆ₁₁（ｘ_D,H，｛Ｓｈｉｆｔ，１｝）
ｆ₁₂（ｘ_D,E，｛Ｓｈｉｆｔ，０｝）
こうして、構造木から素性が自動抽出される。なお、自動抽出方法の性質上、Ｓｈｉｆｔ素性がそれ以外の素性の合計より多く抽出されるために学習データがＳｈｉｆｔ側に強く出てしまうことから、１記事ごとに素性関数の頻度がＳｈｉｆｔとそれ以外の素性の頻度でほぼ同数になるようにＳｈｉｆｔ以外の素性の頻度に（Ｓｈｉｆｔの素性関数の頻度）／（Ｓｈｉｆｔ以外の素性関数の頻度）をかけることで頻度差を補正する。

［２．１．１．５文章構造木の生成］
文章構造木は構文解析でもよく知られているＣＫＹ法［参考文献：野村浩郷、自然言語処理の基礎技術、電子情報通信学会、１９８８］を基に解析を行う。図１５は本発明の第２の実施形態に係る文書要約装置におけるの文章構造解析のＣＫＹ法の説明図である。ＣＫＹ法とは図１５のように自動文章構造木作成部２７が小さい部分解析木から大きな部分解析木を作成するという操作を繰り返し、解析を行うものである。その解析アルゴリズムは以下のとおりである。なお、Ｐ_iは段落を表し、Ｐ₁は最初の段落、Ｐ_nは最終段落を表しているものとする。
１．ｉ＝１，２，・・・，ｎに対してｔ_i,1＝｛Ａ｜Ａ→Ｐ_i｝を作成する。
２．ｊ＝２，３，・・・，ｎに対して、以下の操作を行う。
ｉ＝１，２，・・・，ｎ−ｊ＋１に対して、以下の操作を行う。
ｋ＝１，２，・・・，ｊ−１に対して、以下の操作を行う。
ｔ_i,j＝｛Ａ｜Ａ→ＢＣ，Ｂ∈ｔ_i,k，Ｃ∈ｔ_i+k,j-k｝
そして、各部分構造木を生成する際に、一時的に意味段落を構成し、その意味段落から素性ｘを取り出して、ある連接関係でその意味段落が構成される確率を次の方法で計算する。まず、連接関係ｒｅｌで段落Ａ、Ｂ、葉ノードからの距離ｄの意味段落が構成される確率は、

となる。次に、段落Ａ、Ｂか、葉ノードからの距離ｄの意味段落が構成されない確率は

となる。ここで、段落Ａ、段落Ｂの存在する確率をそれぞれＰ（Ｐａｒａｇ_A）、Ｐ（Ｐａｒａｇ_B）とすると、（数式２７）、（数式２８）から意味段落Ｐａｒａｇ_A,Bが存在する確率Ｐ（Ｐａｒａｇ_A,B）は

となる。なお、通常、ｘ_A,Bは１つではないので、素性が複数ある場合は確率が最大になるものを採用する。また、意味段落の連接関係は確率が最大となる関係名を採用する。

［２．１．２文章要約］
［２．１．２．１重要度評価］
要約文章の生成は、要約文生成部３０において重要句抽出部３１ａ、句補完処理部３２ａからの処理と同時に行われるので以下に詳説する。要約文作成部３０ａは、連接関係の意味的な性質から文章構造木をトップダウンに以下の（１）から（５）ルール順に下り、重要句を探索し、要約を生成する。

（１）展開型：後言語表現から句を抽出する。展開型の場合、後言語表現に結論があるので、後言語表現に探索に向かう。

（２）逆接型、転換型：前後の両方の言語表現から句を抽出する。逆接型はなんらかの話があって、それに対して反論するというタイプの論述展開である。当然、結論が大切であるのだが、前提となる前の話が無いと宙に浮いた表現になりやすい。そのため、前後両方から重要句を抽出しに向かう。転換型も話の筋は転換するものの、内容としては前の事を踏まえているケースが多いので、前後の両方から句を抽出する。

（３）累加型：前後両方の言語表現から抽出し、既抽出句との類似度の高い方を採用する。累加型は既に出ている事柄に話を加えて話題を膨らませる働きをする。そのため、既に抽出している句と類似性した話題の方が良い。そこで、前後両方の意味段落から句を抽出してきて、既に抽出している句との類似度が高い方を句として採用する。既抽出句が無い場合は、後に結論があると考え、後言語表現より抽出を行う。

（４）同格型、比較型：前後の両方の言語表現から句を抽出する。同格や比較はあるものとあるものとを比較したり並べて出すケースである。特に比較の関係は前後両方が無いと比較にならない。そこで、両方から抜き出す。

（５）補足型：前言語表現から句を抽出する。補足型は前言語表現に後言語表現が意味を補足する形を取るので、当然、前言語表現の方が重要となる。そこで、前言語表現から抽出を行う。重要句抽出部３１ａが以下のような手順で抽出を進めていく。例えば、図１４のような文章構造木が構成されたとすると、その後の処理は以下のように示される。

図１６は、本発明の第２の実施形態に係る文書要約装置における文章構造木からの句の抽出の説明図である。まず、図１６（ａ）に示すように言語表現Ｋの連接関係は「展開型」なので後言語表現であるＪに移る。次に、言語表現J も「展開型」なので、言語表現Ｈへ移る。言語表現Ｈは「累加型」なので、子ノードである段落Ｅと段落Ｆから重要句を抽出し比較する。しかし、まだ抽出句が無いので、今回は後言語表現であるＦからの抽出句を採用する。次に、図１６（ｂ）に示すように論述展開を保つために、Ｊ、Ｈ、Ｆが抽出不可能の状態に遷移する。そして、図１６（ｃ）に示すように再び抽出に移る。今度はＪに移ることができないので、段落Ａから抽出を行う。そして、図１６（ｄ）に示すようにＡは抽出不可能の状態に移る。すると、今度はどこからも抽出できなくなる。そこで、図１６（ｅ）に示すように一段階制約を解除して、Ｊに移る。ＪではＨに遷移することができないので、Ｉに移る。Ｉは「同格型」の関係なので、Ｄから句を抽出しながら、Ｇに移る。すると今度はＧが「逆接型」なので、ＢとＣから句を抽出する。こうして、Ｉ以下の段落は全て抽出不可能の状態になる。同様にして、次はＡから抽出を行い、次はＪに移る。すると既にＩは抽出できないので、Ｈへ向かい、Ｆは抽出できないので、Ｅから抽出を行う。このように抽出可能状態と抽出不可能状態を繰り返し、句を抽出していく。

［２．１．２．２補完処理］
可読性を上げるためには語の補完は必要不可欠である。特に句抽出の場合、１つの抽出単位あたりの情報量が文より少なくなるため、語の補完を行わないと句が意味のわからない「文字の羅列」となりかねない。そこで、句補完処理部３２ａでは、指示詞等の補完対象を決めても、その語で置換するのではなく、補完対象を含む句全てを抜き出す。これにより、１つの句が長くなり過ぎるということも無くなり、補完対象を間違っていた場合でも、句を抜き出すことで、その語に対する情報が付加されて宙に浮いた表現にはなりづらくなる。さらに今回、階層的な文章構造を構築したことによって、補完対象の探索範囲を変える。構造木を遡り、補足の関係でない一番近い段落を補完の対象の探索範囲とする。また、記事の冒頭には読者に内容について簡単に入れるように導入として簡単な記事の要約が載せられる傾向があり、そこには語についての端的な要約が含まれている可能性がある。そこで、記事全体の４分の１以下になる範囲を探索の範囲に加える。

［２．１．２．３要約文章の生成］
まず、抽出された句の表示状態として「圧縮状態」と「通常状態」の２つの表示状態があるが、それらを含めて次の（１）から（５）のように取り扱う。
（１）圧縮状態については、格要素と、その格要素への用言の連体修飾で用言に格要素がある場合に表示する。

（２）通常状態については、句を構成する文節の全ての要素を表示する。ここで、先述のルールを基に、文章構造木を下り、文になるまで木を下ったら、文内の句の中で既抽出句との類似度がもっとも高いものを抽出句の核となる「ＣｏｒｅＰｈｒａｓｅ」として通常状態で採用する。次に「ＣｏｒｅＰｈｒａｓｅ」と同じ文内の他の句との関係を参照する。「ＣｏｒｅＰｈｒａｓｅ」との関係が以下の場合には、可読性を上げるためにその句を圧縮状態で追加する。

（３）逆接、対比、同格については、接続助詞を参照し。これらの関係にある場合は、言語表現を下る時の操作と同様の理由から、句を追加する。

（４）埋め込み文については、例えば、「市場から日銀に規制の早期緩和を求める声が上がっている。」という文があったとき、これまでの方法で句に分割すると「声は日銀に規制の早期緩和を求める」「市場から声が上がっている」の２つに分割される。しかし、「声」という名詞は非常に抽象的なため、この場合ではどちらかが単一で抽出されても意味がわかりづらい。そこで「ＣｏｒｅＰｈｒａｓｅ」として「市場から声が上がっている」が採用された場合には「声」が、ある程度具体的になると思われる複合名詞である場合を除いて「声は日銀に規制の早期緩和を求める」の句も補完する事とし、「ＣｏｒｅＰｈｒａｓｅ」として「声は日銀に規制の早期緩和を求める」が採用された場合は、「市場から声が上がっている」も補完する。

（５）引用については、引用句を外から参照する場合はその句を補完する。これらの規則については、適当に決めたものであるので、補完すべきところが補完できなかったり、補完しなくてもよいところで補完したりする。しかし、今回はこれについては詳しくは扱わない事とする。こうして抜き出された各句から、指示詞による参照対象を含む句を圧縮状態としてさらに追加する。また、その句についても、宙に浮いた表現にならないようにするために、上述の補完を繰り返す。こうすることで、可読性を保ちつつ、文章構造を反映した要約文章を生成する。

［２．２動作］
図１７は、本発明の第２の実施形態に係る文書要約装置のフローシートである。
ユーザは、あらかじめ前処理された文章構造木を入力する（Ｓ２００）。素性抽出部２３が、入力された文章構造木から素性を抽出する（Ｓ２１０）。素性関数作成部２４が抽出された素性から素性関数を作成する（Ｓ２２０）。素性関数重み作成部２５が素性関数の重みを作成する（Ｓ２３０）。最大エントロピー計算部２６が最大エントロピーを計算する（Ｓ２４０）。自動文章構造木作成部２７がＣＫＹ法により自動的に文章構造木を生成する（Ｓ２５０）。なお、文章構造木が生成されると、素性抽出に戻る（Ｓ２１０）。重要句抽出部３１ａが、重要句を抽出する（Ｓ２６０）。句補完処理部３２ａが句の補完処理を行う（Ｓ２７０）。要約文作成部３０ａが抽出された句及び補完された句により要約文を作成する（Ｓ２８０）。要約文が所定の字数を満たしているか否かを判断する（Ｓ２９０）。要約文が所定の字数を満たしていない場合に、重要句の抽出に戻る（Ｓ２６０）。出力部４０が要約文が所定の字数を満たしている場合には、作成された要約文を出力する（Ｓ３００）。

以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からも明らかなことである。

本発明の第１の実施形態に係る文書要約装置のハードウェア構成図である。本発明の第１の実施形態に係る文書要約装置のブロック構成図である。本発明の第１の実施形態に係る文書要約装置における文章構造解析の連接関係の種類の説明図である。本発明の第１の実施形態に係る文書要約装置における文章構造解析の連接関係及び連接関係の単純化の説明図である。本発明の第１の実施形態に係る文書要約装置における文章構造解析の段落間の関連性の説明図である。本発明の第１の実施形態に係る文書要約装置における文章構造解析の辞の分類の説明図である。本発明の第１の実施形態に係る文書要約装置における文章構造解析の連接関係の重みの変化の説明図である。本発明の第１の実施形態に係る文書要約装置における文章構造解析の語の置換の説明図である。本発明の第１の実施形態に係る文書要約装置における陳述形式からの句の抽出の説明図である。本発明の第１の実施形態に係る文書要約装置における類似度による評価の説明図である。本発明の第１の実施形態に係る文書要約装置における句の抽出過程の説明図である。本発明の第１の実施形態に係る文書要約装置のフローシートである。本発明の第２の実施形態に係る文書要約装置のブロック図である。本発明の第２の実施形態に係る文書要約装置における文章構造木の一例の図である。本発明の第２の実施形態に係る文書要約装置におけるの文章構造解析のＣＫＹ法の説明図である。本発明の第２の実施形態に係る文書要約装置における文章構造木からの句の抽出の説明図である。本発明の第２の実施形態に係る文書要約装置のフローシートである。

符号の説明

１コンピュータ
２ＣＰＵ
３メインメモリ
４ＨＤＤ
５ビデオカード
６マウス
７キーボード
８光学ディスク
１０入力部
２０文章構造解析部
２０ａ文章構造解析部
２１連接関係構造解析部
２２飛び地構造解析部
２３素性抽出部
２４素性関数作成部
２５素性関数重み作成部
２６最大エントロピー計算部
２７自動文章構造木作成部
３０要約文作成部
３０ａ要約文作成部
３１句抽出部
３１ａ重要句抽出部
３２語補完部
３２ａ句補完処理部
４０出力部
２１１連接関係作成部
２１２文章構成再編部
３１１句評価部
３１２句重み付け部
３１３語類似度評価部

Claims

入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、
意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、
前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手段と、
前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手段と、
前記抽出された句で構成された要約文に対する語の補完を行う語補完手段と、
から構成される文書要約装置。
単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手段と、
から構成される請求項１の文書要約装置。
陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手段と、
から構成される請求項１又は請求項２の文書要約装置。
入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、
意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、
意味段落同士の飛び地構造を解析する飛び地構造解析手段と、
文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手段と、
前記抽出された句で構成された要約文に対する語の補完を行う語補完手段と、
から構成される文書要約装置。
文章構造木を入力する文章構造木入力手段と、
入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手段と、
文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手段と、
素性関数の重みを作成する素性関数重み作成手段と、
素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手段と、
求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手段と、
自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手段と、
前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手段と、
から構成される文書要約装置。
入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、
意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、
前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価ステップと、
前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出ステップと、
前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップと、
から構成される文書要約方法。
単純化された意味段落同士の飛び地構造を解析する飛び地構造解析ステップと、
から構成される請求項６の文書要約方法。
陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出ステップと、
から構成される請求項６又は請求項７の文書要約方法。
入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、
意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、
意味段落同士の飛び地構造を解析する飛び地構造解析ステップと、
文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出ステップと、
前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップと、
から構成される文書要約方法。
文章構造木を入力する文章構造木入力ステップと、
入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出ステップと、
文章構造木から自動抽出された素性から素性関数を作成する素性関数作成ステップと、
素性関数の重みを作成する素性関数重み作成ステップと、
素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算ステップと、
求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成ステップと、
自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出ステップと、
前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理ステップと、
から構成される文書要約方法。
入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、
意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、
前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手順と、
前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手順と、
前記抽出された句で構成された要約文に対する語の補完を行う語補完手順
としてコンピュータを機能させる文書要約プログラム。
単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手順
としてコンピュータを機能させる請求項１１の文書要約プログラム。
陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手順
としてコンピュータを機能させる請求項１１又は請求項１２の文書要約プログラム。
入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、
意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、
意味段落同士の飛び地構造を解析する飛び地構造解析手順と、
文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手順と、
前記抽出された句で構成された要約文に対する語の補完を行う語補完手順
としてコンピュータを機能させる文書要約プログラム。
文章構造木を入力する文章構造木入力手順と、
入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手順と、
文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手順と、
素性関数の重みを作成する素性関数重み作成手順と、
素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手順と、
求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手順と、
自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手順と、
前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手順
としてコンピュータを機能させる文書要約プログラム。