JP2001034624A

JP2001034624A - 文書要約装置およびその方法

Info

Publication number: JP2001034624A
Application number: JP11205061A
Authority: JP
Inventors: Yoshio Nakao; 由雄仲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-07-19
Filing date: 1999-07-19
Publication date: 2001-02-09
Anticipated expiration: 2019-07-19
Also published as: EP1071023B1; US6963830B1; EP1071023A2; JP3791879B2; EP1071023A3

Abstract

(57)【要約】【課題】長い文書に対して理解しやすい要約を作成す
ることが課題である。【解決手段】文書要約装置は、文書中の話題の階層的
構成を認定し、話題境界の候補区間から、文と話題のま
とまりとの関連度を用いて、話題の転換点に対応する境
界文を抽出する。次に、この境界文から始まる話題の導
入部から、話題を導入する役割を持つ話題導入文を抽出
し、境界文と話題導入文を用いて要約を作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語などで書
かれた機械可読文書の要約を行う装置およびその方法に
関する。特に、本発明をコンピュータディスプレイ上で
の文書閲覧の支援へ応用し、マニュアルや報告書、ある
いは１冊の本などの長い文書を１画面に納まる程度に要
約して、文書内容の骨子の理解を助けることを意図して
いる。

【０００２】

【従来の技術】現時点で実際的に使用されている主要な
文書要約技術として、文書において重要な文を認定し、
それを抜粋することで要約を作成する技術がある。この
技術は、さらに、何を手掛かりに文の重要性を評価する
かによっていくつかの方法に分類される。代表的な方法
としては、次の２つが挙げられる。（１）文書中に出現する単語の頻度と分布を手掛かりと
する方法（２）文と文とのつながり方や文の出現位置を手掛かり
とする方法これらのうち、（１）の方法は、まず、文書中に含まれ
る単語（語句）の重要度を決定し、次に、重要な単語を
どれ位含んでいるかによって文の重要度を評価する。そ
して、評価結果に基づいて重要な文を選択して要約を作
成する。

【０００３】単語の重要度を決定する方法としては、文
書中の単語の出現頻度（出現度数）そのものを用いる方
法、単語の出現度数と一般的な文書集合におけるその単
語の出現度数とのずれなどを加味して重みを付ける方
法、単語の出現位置に応じて重みを付ける方法などが知
られている。単語の出現位置に応じて重みを付ける場合
は、例えば、見出しに出現する語を重要とみなすなどの
処理が付加される。

【０００４】このような要約作成方法には、例えば、次
のようなものがある。特開平６−２５９４２４「文書表
示装置及び文書要約装置並びにディジタル複写装置」と
その発明者による文献（亀田雅之、擬似キーワード相関
法による重要キーワードと重要文の抽出、言語処理学会
第２回年次大会発表論文集、ｐｐ．９７−１００、１９
９６年３月．）では、見出しに含まれる単語を多く含む
部分を、見出しに関連の深い重要な部分として抜粋する
ことで要約を作成している。

【０００５】特開平７−３６８９６「文書を要約する方
法および装置」では、文書中に現れる表現（単語など）
の複雑さ（語の長さなど）から重要な表現の候補（シー
ド）を選び、重要性の高いシードをより多く含む文を抜
粋することで要約を作成している。

【０００６】特開平８−２９７６７７「主題の要約を生
成する自動的な方法」では、文書内の単語の出現頻度が
大きい順に「主題の用語」を認定し、重要な「主題の用
語」を多く含む文を抽出することで要約を作成してい
る。

【０００７】また、（２）の方法は、順接・逆接・展開
などの文の接続関係や、文が出現している文書中の位置
などをもとに、文の（相対的）重要性を判定し、重要な
文を選択する。

【０００８】この方法を紹介している文献としては、例
えば、特開平６−１２４４７「要約文章作成装置」、特
開平７−１８２３７３「文書情報検索装置及び文書検索
結果表示方法」、およびこれらの出願の発明者らによる
文献（住田一男（Kazuo Sumita）、知野哲朗（Tetsuro
Chino ）、小野顕司（Kenji Ono）、三池誠司（SeijiMi
ike ）、文書構造解析に基づく自動抄録生成と検索提示
機能としての評価、電気情報通信学会論文誌、Ｖｏｌ．
Ｊ７８−Ｄ−ＩＩ、Ｎｏ．３、ｐｐ．５１１−５１９、
１９９５年３月．）、あるいは別の著者による文献（山
本和英（Kazuhide Yamamoto ）、増山繁（Shigeru Masu
yama）、内藤昭三（Shozo Naito ）、文章内構造を複合
的に利用した論説文要約システムＧＲＥＥＮ、情報研報
ＮＬ−９９−３、情報処理学会、１９９４年１月．）
がある。

【０００９】これらの文書要約技術は、新聞記事や社
説、論文などの内容的に１つにまとまっている文書に対
しては有効であるが、いくつかの話題に関する文章が混
在した長い文書の要約は難しい。

【００１０】（１）の方法では、複数の話題に関する文
章が混在している場合、話題毎に重要な単語が異なる可
能性が高いので、文書中で出現頻度の大きい単語を単純
に重要語とみなすことができない。単純に重要語を決定
してしまうと、ある話題に関する重要性を手掛かりに、
別の話題の部分から重要でない文が抜粋されてしまうこ
とがあるからである。

【００１１】また、（２）の方法でも、接続詞などで表
される文間のつながりは局所的なものであるため、ある
論旨に沿って記述された複数の文章が緩やかな関連性の
下に並べ置かれている場合には、それぞれの文章の重要
性を判定することが困難である。

【００１２】そこで、この問題を解決するため、文書中
の話題のまとまりを認定する技術と組み合わせて要約を
作成する技術が開発されている。例えば、本発明の発明
者による文献（仲尾由雄（Yoshio Nakao）、文書の意味
的階層構造の自動認定に基づく要約作成、第４回年次大
会併設ワークショップ「テキスト要約の現状と将来」論
文集、ｐｐ．７２−７９、言語処理学会、１９９８年３
月．）および先願の特願平１０−０７２７２４「文書要
約装置およびその方法」には、文書中の話題の階層的構
成を認定し、それぞれの話題に特徴的な語を多く含む文
を抜粋する技術が示されている。

【００１３】また、特開平１１−４５２７８「文書処理
装置、文書処理プログラムが記憶された記憶媒体、及び
文書処理方法」では、文書全体をいくつかのサブ文書に
分割し、サブ文書間の類似度を調べて話題の変わり目を
認識し、話題毎に文書を要約するというアイディアが示
されている。

【００１４】なお、この文献では、話題の変わり目の認
定方法が抽象的なレベルでごく簡単にしか示されていな
いが、その手法は、Saltonらの文献（Gerard Salton, A
mitSinghal, Chris Buckley, and Mandar Mitra. Autom
atic text decomposition using text segments and te
xt themes. In Proc. of Hypertext '96, pp.53-65.the
Association for Computing Machinery, March 1996.
）などで従来より知られていた技術を簡略化したもの
と考えられる。

【００１５】また、長い文書の要約を目的とはしていな
いが、特開平２−２５４５６６にも、内容的に関連度の
高い一連の型式段落（字下げなどにより形式的に区切ら
れた段落）を意味段落として自動認定し、文書全体で出
現頻度の大きい語だけでなく、それぞれの意味段落で出
現頻度の大きい語も重要語として抽出して、要約を作成
している。

【００１６】

【発明が解決しようとする課題】しかしながら、上述し
た従来の要約技術で長い文書を要約した場合、話題毎に
主要な文を抜粋しても、理解しがたい要約になりやすい
という問題がある。

【００１７】例えば、話題毎に分けた部分でもまだ大き
すぎる場合などに重要語が多く出現する文を抜粋する
と、たまたま論の半ば付近の文が抜粋されて、要約が理
解不能になってしまうことがある。詳細な議論を行って
いる箇所を前提となる説明なしに抜粋してしまうと、読
者には何を議論しているのかが掴めない可能性が高いか
らである。また、１％程度以下の極端に短い要約を作成
する場合、重要な文の中から少数の文を選択しなければ
ならないため、要約が関連性のない文の羅列になってし
まう可能性も大きくなる。

【００１８】もう１つの問題として、長い文書を要約す
る場合、必然的に要約結果の分量も大きくなり、結果と
して読みにくい要約になってしまうという問題もある。
例えば、１００頁の本を要約した場合、１％に縮めて
も、要約は１頁になってしまう。１頁の文書は、少なく
とも数段落に分けて見出しなどを付与し、内容の区切り
の目印をつけない限り、読みづらい。従来の要約技術の
主たる対象は、多くとも十数頁程度の論文などであった
こともあり、この問題を解決する汎用の技術は現状では
見当たらない。

【００１９】例えば、前述の特開平６−１２４４７で
は、論文などを対象として、書式などの手掛かりに認定
した章や節毎に要約を作成し、章立ての構造に基づいて
要約結果を再構成して提示する技術が示されている。し
かし、数十頁を越える長い文書を対象とする場合、そも
そも、上述した理由により、それぞれの章や節毎に主要
な文を抜粋しても、簡潔で理解しやすい要約とはならな
い可能性が高い。また、書式は、ある種類の文書におけ
る約束毎であるため、文書の種類毎に経験的な規則を用
意しなければならず、汎用性という点にも問題がある。

【００２０】本発明の第１の課題は、長い文書に対して
理解しやすい要約を作成する文書要約装置およびその方
法を提供することである。また、本発明の第２の課題
は、長い要約を読みやすく提示する文書要約装置および
その方法を提供することである。

【００２１】

【課題を解決するための手段】図１は、本発明の文書要
約装置の原理図である。図１の文書要約装置は、構成認
定手段１、話題文抽出手段２、および要約成形手段３を
備える。

【００２２】構成認定手段１は、与えられた文書中の話
題の階層的構成を認定する。話題文抽出手段２は、各話
題の導入部を検出し、検出された導入部から集中的に、
話題内容を端的に表す１つ以上の文を話題文として抽出
する。要約成形手段３は、抽出された話題文を話題毎に
まとめて要約を生成する。

【００２３】構成認定手段１は、例えば、文書全体の大
きさの１／４〜１／１０程度から段落程度の大きさま
で、数種類の大きさの窓幅を設定し、語彙的結束性の強
さを表す結束度を各窓幅で測定する。これにより、大き
な間隔で繰り返される語などによる大局的な結束性と、
小さな間隔で繰り返される語などによる局所的な結束性
の両方を捉えることができ、語彙の繰り返し状況によっ
て、大きな話題のまとまりから小さな話題のまとまりに
至る話題の階層的構成を認定することができる。

【００２４】ここで、話題の階層的構成とは、文書を構
成する複数の話題のまとまりが２段以上の階層構造を成
していることを意味する。この階層的構成は、例えば、
文書を構成する複数の大きな話題のまとまりの各々が、
１つ以上のより小さな話題のまとまりを含み、小さな話
題のまとまりの各々が、１つ以上のさらに小さな話題の
まとまりを含むというような話題の包含関係に対応す
る。

【００２５】話題文抽出手段２は、話題の階層的構成を
利用して適切な粒度（大きさ）の話題を選び、その話題
の導入部から話題文を抽出する。話題の導入部として
は、例えば、話題の開始位置付近の所定領域が指定さ
れ、その領域から集中的に（局所的に）話題文が抽出さ
れる。

【００２６】例えば、話題文抽出手段２は、大きな話題
に関しては、大きな話題の導入部だけでなく、大きな話
題と開始位置がほぼ一致する、より小さな話題の導入部
からも話題文を抽出する。さらに、抜粋量に余裕がある
場合には、大きな話題のまとまりに包含される、より小
さな話題の導入部からも話題文を抽出する。このよう
に、比較的狭い範囲から集中的に文を抽出して要約に取
り込むので、要約が関連性のない文の羅列になることが
少なくなる。

【００２７】また、話題文抽出手段２は、それぞれの話
題境界の近傍領域内の数文を文書における出現順に取り
出し、各文中の語彙の直前・直後の話題のまとまりにお
ける情報量（語彙の出現により伝達される情報の量を出
現確率によって評価した値）に基づき、文と話題境界の
直後の話題のまとまりとの関連度（順方向関連度）と、
文と話題境界の直前の話題のまとまりとの関連度（逆方
向関連度）を求める。

【００２８】そして、順方向関連度と逆方向関連度との
差を直後の話題のまとまりに対する相対的な関連度（順
方向相対関連度）として求め、順方向相対関連度に基づ
いて、話題の転換点に対応する文を第１種の話題文（境
界文）として抽出する。例えば、順方向相対関連度が大
きく上昇する文が境界文として抽出される。また、話題
文抽出手段２は、抽出された境界文の位置を、話題の導
入部の開始位置に設定する。こうして、導入部が検出さ
れる。

【００２９】これにより、直前の話題から直後の話題へ
の転換点に対応する文を抽出することができるので、書
式情報などの手掛かりを併用しなくても、話題の開始位
置に掲げられている見出しなど、話題内容を端的に表す
文を抽出できる可能性が高くなる。

【００３０】さらに、話題文抽出手段２は、境界文から
始まる数文の範囲を導入部として採用し、その範囲から
候補文を取り出して順方向関連度を求める。そして、順
方向関連度に基づいて、話題を導入する役割を持つ文を
第２種の話題文（話題導入文）として抽出する。例え
ば、順方向関連度が最大となる文が話題導入文として抽
出される。

【００３１】これにより、話題の転換点の少し後ろか
ら、話題を導入する役割を持つ文（後続の話題に関連の
深い文）を抽出できるので、話題に関する情報を補足す
る役割を持った文が抽出できる可能性が高くなる。

【００３２】要約成形手段３は、話題文抽出手段２によ
り抽出された文を、適切な粒度の話題毎に区別して（ま
とめて）要約に出力する。例えば、話題文抽出手段２に
より、２つの話題に関する文が抽出された場合、抽出さ
れた文を、いずれの話題に対して抽出されたかによって
２つのグループに分け、それぞれのグループを空行など
で区切って要約に出力する。

【００３３】これにより、要約を適切な粒度のまとまり
に区切ることができるので、要約文書が長くなった場合
でも、内容の区切りが一目で把握できる読みやすい要約
が作成できる。

【００３４】このとき、話題文抽出手段２は、要約の出
力量に応じて、要約に取り入れる話題の大きさを決定
し、構成認定手段１が認定した話題のまとまりの中か
ら、決定された大きさの話題に関する話題のまとまりで
あって、文章としてのまとまりを備えているものを、話
題文抽出対象として選択する。そして、それぞれの話題
の導入部を検出し、そこから話題文を抽出する。これに
より、望ましい粒度の話題を効率よく要約に取り込むこ
とが可能になる。

【００３５】さらに、要約成形手段３は、抽出された話
題文に章番号などの順序ラベル情報の付いた見出しが含
まれる場合、順序ラベル情報を話題文から分離して、順
序ラベル情報を含まない話題文を出力する。これによ
り、ユーザは、要約中では大きな意味を持たない順序ラ
ベルに煩わされることなく、要約を読み進められるよう
になる。

【００３６】また、要約成形手段３は、分離された順序
ラベル情報を加工して、順序ラベル情報を含まない話題
文と原文書の対応関係を示す補足情報として出力するこ
ともできる。このとき、順序ラベル情報は、要約の読解
の邪魔にならない形に変形されて出力される。

【００３７】例えば、図１の構成認定手段１は、後述す
る図２の話題構成認定部２５に対応し、図１の話題文抽
出手段２は図２の話題文抽出部２７に対応し、図１の要
約成形手段３は図２の出力部２８に対応する。

【００３８】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。図２は、本発明の文
書要約装置の基本構成を示している。図２において、文
書要約装置（digest generator）１２は、要約対象文書
（input document）１１が入力されると、その要約文書
１３を作成して出力する。

【００３９】文書要約装置１２は、入力部（input uni
t）２１、単語認定部（tokenizer ）２２、単語辞書（m
achine readable dictionary ）２４、話題構成認定部
（topic structure detector）２５、話題文抽出部（le
ading sentence extractor）２７、および出力部（outp
ut unit ）２８を備える。

【００４０】入力部２１は、要約対象文書１１を読み込
み、単語認定部２２に渡す。単語認定部２２は、サブモ
ジュールの形態素解析部（morphological analyzer）２
３を含み、それを用いて要約対象文書１１を言語的に解
析して、文書１１に含まれる内容語（名詞・動詞・形容
詞・形容動詞など）を切り出す。このとき、形態素解析
部２３は、単語辞書２４を参照して、文書１１中の文
を、品詞情報付きの単語リストに変換する。単語辞書２
４は、形態素解析用の単語辞書であって、単語の表記文
字列と品詞・活用の情報との対応関係などを記述してい
る。

【００４１】話題構成認定部２５は、サブモジュールの
話題境界候補区間認定部（topic boundary detector ）
２６を含み、それを用いて共通の話題について記述して
いる文書の部分（話題のまとまり）を自動認定する。話
題境界候補区間認定部２６は、語彙的結束度の小さい区
間を話題境界の近傍領域（候補区間）として認定する。
語彙的結束度とは、文書１１中の各位置の近傍領域にお
ける語彙的結束性の強さを表す指標であり、例えば、各
位置の前後に設定したある幅の窓内に出現する語彙の類
似性から求められる。

【００４２】話題文抽出部２７は、まず、話題構成認定
部２５で認定した各々の話題のまとまりに対して、話題
の開始位置付近にある導入部を検出し、検出された導入
部から話題文を認定する。次に、文書１１の大きさと望
ましい要約の大きさから、要約として抽出すべき話題の
数を計算し、要約作成の単位とする話題のまとまりの大
きさを決定する。そして、決定した大きさ程度の話題の
まとまりに属する話題文を、要約に取り入れる文として
抽出する。

【００４３】出力部２８は、話題文抽出部２７が抽出し
た文を、話題毎にまとめて要約文書１３を作成し、処理
結果として出力する。図２の文書要約装置１２によれ
ば、話題構成認定部２５が、共通の話題について記述し
ている文書の部分を話題のまとまりとして認定し、話題
文抽出部２７が、それぞれの話題の開始位置付近から集
中的に文を抽出する。このように、比較的狭い範囲から
集中的に文を抽出して要約に取り込むので、要約が関連
性のない文の羅列になることが少なくなる。

【００４４】また、話題文抽出部２７は、それぞれの話
題境界付近の数文を文書の出現順に取り出し、文中の単
語と直前・直後の話題のまとまりとの関連度に基づき、
直後の話題との関連度（順方向関連度）が直前の話題と
の関連度（逆方向関連度）に比べて急激に大きくなる文
を境界文として認定する。これにより、書式情報などの
手掛かりを併用しなくても、直前の話題から直後の話題
への転換点に対応する文を精度よく抽出することができ
る。

【００４５】さらに、話題文抽出部２７は、境界文以降
の数文の範囲で候補文を取り出し、境界文以降の文につ
いて順方向関連度を求め、順方向関連度が最大となる文
を話題導入文として抽出する。これにより、話題の転換
点の少し後ろから、話題を導入する役割を持つ文（後続
の話題に関連の深い文）を抽出できるので、話題に関す
る情報を補足する役割を持った文が抽出できる可能性が
高くなる。

【００４６】また、話題文抽出部２７は、話題構成認定
部２５が認定した話題のまとまりの中から、適切な粒度
の話題のまとまりで、結束性（文章としてのまとまり）
の強いものを話題文抽出処理対象として選択し、そこか
ら話題文を抽出する。これにより、望ましい粒度の話題
を効率よく要約に取り込むことが可能になる。

【００４７】出力部２８は、話題文抽出部２７が抽出し
た文を、適切な粒度の話題毎にまとめて要約文書１３を
作成し、出力する。これにより、要約を適切な粒度のま
とまりに区切ることができるので、要約文書１３が長く
なった場合でも、内容の区切りが一目で把握できる読み
やすい要約が作成できる。

【００４８】さらに、出力部２８は、章番号などの順序
ラベル付きの見出しに対しては、順序ラベルを、本文と
の対応関係を示す補足情報の形に加工して出力する。こ
れにより、ユーザは、要約中では大きな意味をもたない
順序ラベルに煩わされることなく、要約を読み進められ
るようになる。また、要約文書１３の内容を要約対象文
書１１の内容との対応関係も把握しやすくなる。

【００４９】図２の文書要約装置１２は、例えば、図３
に示すような情報処理装置（コンピュータ）を用いて構
成することができる。図３の情報処理装置は、出力装置
４１、入力装置４２、ＣＰＵ（中央処理装置）４３、ネ
ットワーク接続装置４４、媒体駆動装置４５、補助記憶
装置４６、およびメモリ（主記憶）４７を備え、それら
はバス４８により互いに接続されている。

【００５０】メモリ４７は、例えば、ＲＯＭ（read onl
y memory）、ＲＡＭ（random access memory）などを含
み、文書要約処理に用いられるプログラムとデータを格
納する。ここでは、図２に示した入力部２１、単語認定
部２２、形態素解析部２３、話題構成認定部２５、話題
境界候補区間認定部２６、話題文抽出部２７、および出
力部２８が、プログラムモジュールとして格納されてい
る。ＣＰＵ４３は、メモリ４７を利用してプログラムを
実行することにより、必要な処理を行う。

【００５１】出力装置４１は、例えば、ディスプレイや
プリンタなどであり、ユーザへの問い合わせや要約文書
１３などの出力に用いられる。入力装置４２は、例え
ば、キーボード、ポインティングデバイス、タッチパネ
ルなどであり、ユーザからの指示や要約対象文書１１の
入力に用いられる。

【００５２】補助記憶装置４６は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク（magneto-op
tical disk）装置などであり、要約対象文書１１、要約
文書１３、単語辞書２４などの情報を格納する。情報処
理装置は、この補助記憶装置４６に、上述のプログラム
とデータを保存しておき、必要に応じて、それらをメモ
リ４７にロードして使用することもできる。

【００５３】媒体駆動装置４５は、可搬記録媒体４９を
駆動し、その記録内容にアクセスする。可搬記録媒体４
９としては、メモリカード、フロッピーディスク、ＣＤ
−ＲＯＭ（compact disk read only memory ）、光ディ
スク、光磁気ディスクなど、任意のコンピュータ読み取
り可能な記録媒体が用いられる。ユーザは、この可搬記
録媒体４９に上述のプログラムとデータを格納してお
き、必要に応じて、それらをメモリ４７にロードして使
用することもできる。

【００５４】ネットワーク接続装置４４は、ＬＡＮ（lo
cal area network）などの任意のネットワーク（回線）
を介して外部の装置と通信し、通信に伴うデータ変換を
行う。また、情報処理装置は、必要に応じて、上述のプ
ログラムとデータを外部の装置から受け取り、それらを
メモリ４７にロードして使用することもできる。

【００５５】図４は、図３の情報処理装置にプログラム
とデータを供給することのできるコンピュータ読み取り
可能な記録媒体を示している。可搬記録媒体４９や外部
のデータベース５０に保存されたプログラムとデータ
は、メモリ４７にロードされる。そして、ＣＰＵ４３
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。

【００５６】次に、図２の文書要約装置１２の各モジュ
ールの動作を、具体例を用いてより詳細に説明する。要
約対象文書としては、（社）電子工業振興協会「自然言
語処理システムの動向に関する調査報告書」（平成９年
３月）第４章「ネットワークアクセス技術専門委員会活
動報告」（ｐｐ．１１７−１９７）を用いた。以下の実
施形態では、この文書から文を抜粋してＡ４、１〜２枚
（１５００文字）程度の要約の作成を試みる。

【００５７】従来、要約の大きさとしては、原文書の１
／４程度の大きさが目安とされてきたが、この要約対象
文書は８１ページの大きさを持ち、従来の自動要約技術
が対象としてきた新聞の社説や記事、数頁程度の論文な
どに比べて巨大である。また、オンラインで文書を閲覧
する場合、画面に一度に表示できるのは２ページ程度が
限度である。これらの条件を考慮して、上述のような要
約の大きさが決められている。

【００５８】要約対象文書の全体を掲載することは適当
ではないので、参考として、要約対象文書中の見出しの
一覧を図５から図７に示す。図５は、４．１節および
４．２節の見出しを出現順に示しており、図６は、４．
３節の見出しを出現順に示しており、図７は、４．４節
の見出しを出現順に示している。

【００５９】図８は、単語認定部２２による単語認定処
理のフローチャートである。単語認定部２２は、まず、
要約対象文書に形態素解析を施し、品詞付きの単語リス
トを作成する（ステップＳ１１）。次に、品詞を手掛か
りに内容語（名詞・動詞・形容詞・形容動詞）を認定
し、内容語に対応する文書の部分に印を付けて（ステッ
プＳ１２）、処理を終了する。図９は、要約対象文書の
冒頭部分を示しており、図１０は、単語認定部２２から
の対応する出力を示している。

【００６０】図８のステップＳ１１において、形態素解
析部２３は、図１１に示すような形態素解析処理を行
う。形態素解析部２３は、まず、単語リストをクリアし
（ステップＳ２１）、文書の先頭から句点（またはピリ
オド）などを手掛かりに文の取り出しを試み（ステップ
Ｓ２２）、文が取り出せたかどうかを判定する（ステッ
プＳ２３）。

【００６１】文が取り出せれば、次に、単語辞書２４を
参照して、文に含まれている単語の候補を求める（ステ
ップＳ２４）。日本語の場合は、図９に示したように、
単語と単語の境界が形式的に明示されていないので、文
に含まれる部分文字列に対応するすべての単語を候補と
して求める。例えば、「東京都は大都市だ」という文が
取り出された場合、図１２に示すように、この文に含ま
れるすべての部分文字列が単語の候補となる。

【００６２】これに対して、英語の場合は、単語の境界
が空白（スペース）により明示されているため、空白で
区切られた文字列に対応する単語について、品詞の候補
を求めることが主な処理となる。例えば、“Tokyo is t
he Japanese capital.”という文が取り出された場合、
図１３に示すように、この文に明示的に含まれる５つの
単語の基本形と品詞が求められる。

【００６３】次に、形態素解析部２３は、品詞レベルの
連接の観点から、妥当な単語の並びを選択し（ステップ
Ｓ２５）、選択された単語の並びに品詞と出現位置の情
報を付加して、出現順に単語リストに追加する（ステッ
プＳ２６）。次に、次の文の取り出しを試み（ステップ
Ｓ２７）、ステップＳ２３以降の処理を繰り返す。そし
て、ステップＳ２３において文が取り出せなくなると、
処理を終了する。

【００６４】図１０の単語認定結果において、墨付き括
弧で括られた部分が形態素解析部２３の認定した内容語
である。内容語が活用語（動詞・形容詞）の場合、墨付
き括弧内で、スラッシュ（／）の前の部分は語幹を表
し、スラッシュの後の部分は終止形の活用語尾を表す。
これは、後の処理で単語の区別を行うために用いられる
情報であるが、この情報の代わりに、品詞と活用を付加
しておいてもよい。要するに、例えば、「い／る」と
「い／く」のように、語幹だけでは区別の付かない単語
を区別するための識別情報であれば、任意のものを用い
ることができる。

【００６５】また、ステップＳ２５において、単語の並
びの妥当性を評価する方法は、形態素解析法として各種
のものが知られており、任意のものを用いることができ
る。例えば、単語の並びの妥当性を訓練データにより推
定された出現確率を用いて評価する方法が報告されてい
る（Eugene Charniak. Hidden markov models and two
applications. In Statistical Language Learning, ch
apter 3, pp.37-73. The MIT Press, 1993. ／ Masaak
i Nagata. A stochastic japanese morphological anal
yzer using a forward-DP backward-A^*N-best search a
lgorithm. In Proceedings of COLING'94, pp.201-207,
1994.／永田昌明、前向きＤＰ後向きＡ^*アルゴリズ
ムを用いた確率的日本語形態素解析システム、情処研報
ＮＬ−１０１−１０、情報処理学会、１９９４年５
月．）。

【００６６】なお、図１０の例では、単語認定部２２が
すべての内容語を切り出しているが、切り出しの対象を
名詞だけに絞っても構わない。また、英語の文書を対象
に処理する場合には、形態素解析処理を行う代わりに、
空白で区切られたすべての語のうち、話題に関わらずど
こにでも出現する語彙（冠詞、前置詞などの機能語や特
に高い頻度で出現する語）を取り除いて、単語を切り出
してもよい。このような処理は、単語辞書２４の代わり
に、機能語や特に高い頻度で出現する語を格納したスト
ップワードリスト（stop word list）を用意すれば、容
易に実現できる。

【００６７】次に、話題構成認定部２５の処理について
説明する。本実施形態においては、話題のまとまりを、
先願の特願平１０−０７２７２４「文書要約装置および
その方法」に示された技術に基づいて認定することにす
る。この方法では、以下の手順で話題の階層構成が認定
される。１．話題境界位置の区間推定ある窓幅で計算した結束度に基づき、話題境界が存在し
そうな区間を、話題境界候補区間として求める。この話
題境界候補区間は、話題境界の近傍領域の１つであると
考えられる。そして、大きさの異なる複数の窓幅に対し
てこの処理を繰り返し、大きな話題の切れ目を示す境界
から小さな話題の切れ目を示す境界まで、話題の大きさ
別に話題境界候補区間を求める。２．話題の階層関係の認定異なる窓幅により求めた話題境界候補区間を統合し、話
題の階層構成とそれぞれの話題境界の位置を決定する。

【００６８】これに対して、本実施形態では、話題の階
層関係の認定の処理を簡略化し、大きな窓幅による話題
境界候補区間と小さな窓幅による話題境界候補区間と
で、境界位置が候補区間の範囲内で一致するとみなせる
もの同士を、互いに関係付けるだけにとどめている。最
終的な話題境界位置は、後述するように、話題文抽出部
２７による話題文認定処理で決定される。

【００６９】図１４は、話題構成認定部２６による話題
構成認定処理のフローチャートである。話題構成認定部
２６は、まず、最大窓幅ｗ₁、最小窓幅ｗ_min、窓幅比
ｒの３つのパラメータをユーザから受け取り（ステップ
Ｓ４１）、結束度を測定するための窓幅の集合Ｗを求め
る（ステップＳ４２）。図１４では、図面の見やすさを
考慮して、記号“ｗ_min”の添字を、“ｗｍｉｎ”の
ように記している。窓幅の集合Ｗは、初項をｗ₁とし、
公比を１／ｒとする等比級数から、ｗ_min以上の大きさ
の項を集めて作成される。

【００７０】このとき、Ｗにおける最大窓幅ｗ₁として
は、文書全体の１／２〜１／４程度の大きさを与え、最
小窓幅ｗ_minとしては、段落程度の大きさ（例えば、４
０語）を与え、窓幅比ｒとしては２を与えておけば、実
用上十分である。そこで、以下では、ｗ₁＝５，１２０
（語）、ｗ_min＝４０（語）、ｒ＝２の値を用いてい
る。

【００７１】次に、話題構成認定部２５は、図１０に示
したように、内容語に印が付けられた文書をもとに、文
書中の各位置の結束度を、Ｗ中のそれぞれの窓幅毎に計
算し、結束度系列として記録する（ステップＳ４３）。

【００７２】ここでは、まず、文書の各位置（基準点）
の前後に設定した２つの窓の中に出現している語彙（こ
こでは内容語）を比較し、共通している語彙が多い程大
きくなるような値を計算して、その位置における結束度
とする。そして、窓の位置を文書の冒頭から末尾に向か
って一定の刻み幅ｔｉｃでずらしながら、結束度の計算
を繰り返し、計算した結束度を、文書の冒頭から末尾に
向かう系列として記録する。

【００７３】なお、刻み幅ｔｉｃは、窓幅より小さけれ
ばいずれの値でも構わないが、処理効率を考慮して、こ
こでは、窓幅の１／８の値を用いた。このｔｉｃの値
は、ユーザが指定することもできる。

【００７４】結束度の計算方法としては各種の方法が考
えられるが、以下では、情報検索などの分野で類似度の
指標として広く用いられてきた余弦測度（cosine measu
re）を用いている。この余弦測度は、次式により求めら
れる。

【００７５】

【数１】

【００７６】ここで、ｂ_lとｂ_rは、それぞれ、左窓
（文書の冒頭側の窓）、右窓（文書の末尾側の窓）に含
まれる文書の部分を表し、ｗ_t,bl、ｗ_t,brは、それぞ
れ、左窓、右窓に出現する単語ｔの出現頻度を表す。ま
た、（１）式の右辺のΣ_tは、単語ｔに関する総和を表
す。

【００７７】（１）式の類似度は、左右の窓に含まれる
語彙に共通のものが多いほど大きくなり（最大１）、共
通のものがない時に０となる。つまり、この値が大きい
部分は、左右の窓で共通の話題を扱っている可能性が高
く、逆に、この値が小さい部分は、話題の境界である可
能性が高いことになる。

【００７８】次に、図１５は、ステップＳ４３で記録さ
れた結束度の系列を示している。ここでは、窓幅ｗの１
／４が刻み幅ｔｉｃとして用いられており、文書領域ａ
１〜ａ１１は、刻み幅ｔｉｃに対応する一定幅の領域で
ある。また、ｃ１は、文書中のａ４とａ５の境界を基準
点として計算した、窓幅ｗの結束度を表す。すなわち、
ｃ１は、文書領域ａ１〜ａ４の部分を左窓の範囲とし、
ａ５〜ａ８の部分を右窓の範囲として計算された結束度
である。

【００７９】次のｃ２は、窓をｔｉｃ分だけ右へずらし
て計算された結束度を表し、ａ５とａ６の境界を基準点
とする窓幅ｗの結束度である。このようにして、窓をｔ
ｉｃ分ずつ順に右へずらして計算したｃ１，ｃ２，ｃ
３，ｃ４，．．．を、文書の冒頭から末尾へ向かう窓幅
ｗの結束度系列と呼んでいる。

【００８０】図１６は、上述の単語認定結果において、
文書の冒頭から各基準点までの間に出現した内容語の延
べ数を横軸にとり、６４０語の窓幅の結束度系列をプロ
ットしたグラフである。例えば、図１５の結束度ｃ２の
場合は、ａ１〜ａ５の領域中の内容語の延べ数が、文書
における基準点の位置となる。ここでは、６４０語の窓
幅の１／８（８０語）を刻み幅ｔｉｃとして、文書の冒
頭から末尾に向かって結束度を計算している。

【００８１】次に、話題構成認定部２５は、サブモジュ
ールの話題境界候補区間認定部２６を使って、それぞれ
の窓幅の結束度系列を解析し、結束度の低い区間を話題
境界候補区間として認定する（ステップＳ４４）。

【００８２】図１６に示したように、結束度系列におけ
る極小点は、実際の話題境界（点線で示した節の境界）
に対応することが多いが、すべての極小点が話題境界に
対応するわけではない。話題境界候補区間認定部２６
は、結束度系列の極小点を手掛かりに、それぞれの結束
度系列の窓幅程度の大きさの話題のまとまりの境界位置
を区間推定する。本実施形態では、この処理を、移動平
均法を用いて実現している。

【００８３】次に、話題構成認定部２５は、異なる窓幅
の結束度系列に基づいて求めた話題境界候補区間を互い
に関連付けて出力する（ステップＳ４５）。これによ
り、話題構成認定処理が終了する。

【００８４】次に、図１４のステップＳ４４における話
題境界候補区間認定処理について、図１５および図１７
を使って説明する。ここで用いられる移動平均法は、株
価の変動などの統計的分析方法である時系列分析（time
series analysis）において、細かい変動を取り除いて
大局的な傾向を把握するために使われている。本実施形
態では、結束度系列の移動平均値を細かい変動を無視す
るために用いるだけでなく、それを移動平均の開始点に
おける順方向結束力および移動平均の終了点における逆
方向結束力とみなすことで、話題境界候補区間認定のた
めの直接的な手掛かりとしている。

【００８５】図１５は、前述したように、結束度の系列
ｃ１〜ｃ４と文書領域ａ１〜ａ１１との関係を示してい
る。結束度系列の移動平均値とは、例えば、（ｃ１＋ｃ
２）／２（２項の移動平均）、（ｃ１＋ｃ２＋ｃ３）／
３（３項の移動平均）、（ｃ１＋ｃ２＋ｃ３＋ｃ４）／
４（４項の移動平均）のように、結束度系列において連
続するｎ個の値を算術平均した値である。

【００８６】図１７は、図１５の結束度系列の移動平均
の例と文書領域との関係を示している。ここでは、移動
平均の例として、図１５の結束度の２項〜４項の移動平
均が示され、それぞれの移動平均に関わる結束度の計算
において、各文書領域が使用された回数が示されてい
る。このうち、下線を付けた値は、対応する文書領域が
移動平均に関わるすべての結束度の計算に用いられてい
ることを表す。

【００８７】例えば、左上角の値“１”は、ｃ１〜ｃ４
までの４項の移動平均において、文書領域ａ１が一度だ
け左窓の一部として扱われたことを示している。また、
その右の値“２”は、ｃ１〜ｃ４までの４項の移動平均
において、文書領域ａ２が２回左窓の一部として扱われ
たことを示している。他の使用回数についても、同様で
ある。

【００８８】結束度は境界の前後の部分の結び付きの強
さを表す指標であるので、領域ａ１を左窓に含んで得ら
れた結束度ｃ１を用いて計算された移動平均値も、領域
ａ１がそれより右側（文書の末尾側）の部分に結び付い
ているかどうかを示す指標の１つと考えられる。

【００８９】言い換えれば、移動平均値は、移動平均を
とった結束度の左窓部分の領域（ｃ１〜ｃ４の４項平均
に対してはａ１〜ａ７）が文書の末尾方向（順方向：図
１５では右方向）に引っ張られる強さの指標（順方向結
束力）になっていると言える。一方、逆に、移動平均を
とった結束度の右窓部分の領域（ｃ１〜ｃ４の４項平均
に対してａ５〜ａ１１）が文章の冒頭方向（逆方向：図
１５では左方向）に引っ張られる強さの指標（逆方向結
束力）になっているとも言える。

【００９０】ここで、結束力とそれぞれの文書領域との
関連性を考察すると、結束度の計算においてより多く窓
に含まれていた領域との関連が強いと考えられる。ま
た、語彙的結束性は、一般に、近傍で繰り返される語彙
に基づくものほど強いと考えられるので、移動平均をと
った結束度の基準点（左右の窓の境界位置）に近い位置
にある領域ほど関連が強いとも言える。

【００９１】例えば、図１７の４項の移動平均について
は、結束度の基準点は、ａ４とａ５の境界、ａ５とａ６
の境界、ａ６とａ７の境界、およびａ７とａ８の境界の
４つである。この場合、ａ４は最も多く左窓に含まれて
おり、かつ、これらの基準点に最も近いことが分かる。
また、ａ８は最も多く右窓に含まれており、かつ、これ
らの基準点に最も近いことが分かる。したがって、移動
平均値と最も関連の強い領域は、左窓についてはａ４、
右窓についてはａ８となる。

【００９２】同様にして、３項の移動平均と最も関連の
強い領域を選ぶと、左窓についてはａ４、右窓について
はａ７となり、２項の移動平均と最も関連の強い領域を
選ぶと、左窓についてはａ４、右窓についてはａ６とな
る。これらの領域の使用回数は、図１７では斜線を付け
て示されている。

【００９３】以上の考察に基づき、話題境界候補区間認
定部２６は、結束度の移動平均値を、移動平均をとった
領域内の最初の基準点における順方向結束力および最後
の基準点における逆方向結束力の指標として取り扱う。
例えば、ｃ１〜ｃ４の４項の移動平均値は、ａ４とａ５
の境界における順方向結束力およびａ７とａ８の境界に
おける逆方向結束力となる。図１８は、話題境界候補
区間認定部２６による話題境界候補区間認定処理のフロ
ーチャートである。候補区間認定部２６は、まず、話題
構成認定部２５から結束度系列の刻み幅ｔｉｃを受け取
り、ユーザから移動平均の項数ｎを受け取る（ステップ
Ｓ５１）。

【００９４】これらのパラメータの値の目安は、刻み幅
ｔｉｃについては、例えば、窓幅ｗの１／８〜１／１０
程度の大きさであり、項数ｎについては、ｗ／ｔｉｃの
半分（４〜５）程度である。また、移動平均をとる領域
の最初の基準点から最後の基準点までの隔たりを、（ｎ
−１）＊ｔｉｃにより計算して、それを移動平均の幅ｄ
（語）とする。

【００９５】次に、文書中の各位置ｐについて、ｐ〜ｐ
＋ｄの範囲内で結束度の移動平均をとり、平均値を位置
ｐにおける順方向結束力として記録する（ステップＳ５
２）。この値は、同時に、移動平均をとった範囲の終了
位置ｐ＋ｄにおける逆方向結束力としても記録される。

【００９６】次に、記録された順方向結束力をもとに、
文書中の冒頭から末尾に向かって各位置における順方向
結束力と逆方向結束力の差（順方向結束力−逆方向結束
力）を調べ、その値が負から正に変化する位置を負の結
束力拮抗点ｍｐとして記録する（ステップＳ５３）。

【００９７】負の結束力拮抗点とは、その位置の左では
逆方向結束力が優勢であり、その位置の右では順方向結
束力が優勢であるような点である。したがって、この点
の左右の部分は意味的な結び付きが弱いと考えられ、負
の結束力拮抗点は話題境界の候補位置となる。

【００９８】次に、記録された負の結束力拮抗点ｍｐの
直前・直後のｄ語以内の範囲［ｍｐ−ｄ，ｍｐ＋ｄ］を
話題境界候補区間と認定して（ステップＳ５３）、処理
を終了する。

【００９９】ここで、順・逆方向の結束力の差に基づい
て話題境界候補区間を認定する意味を、図１９を使って
説明する。図１９は、図１６の１２０００語の手前付近
（１１０００語〜１１５００語付近）における３２０語
幅の窓による結束度と順・逆方向の結束力の分布を示し
ている。刻み幅ｔｉｃとしては、窓幅の１／８を採用し
ている。

【０１００】図１９において、記号＋でプロットした折
れ線グラフは、結束度Ｃの系列を表し、記号＊でプロッ
トした折れ線グラフは、順方向結束力ＦＣの系列を表
し、記号□でプロットした折れ線グラフは、逆方向結束
力ＢＣの系列を表す。話題境界候補区間と結束力拮抗点
を表す２重矩形で示された領域については、後述するこ
とにする。

【０１０１】また、点線で示されたｅｐ１、ｅｐ２、ｅ
ｐ３は、順・逆方向の結束力の差が０になる３つの点
（結束力拮抗点）を表す。最初の点ｅｐ１の左側では、
逆方向結束力が順方向結束力より優勢であり、その右側
から次の点ｅｐ２までは、順方向結束力が逆方向結束力
より優勢である。さらに、その右側から最後の点ｅｐ３
までは、逆方向結束力が順方向結束力より優勢であり、
その右側では、順方向結束力が逆方向結束力より優勢で
ある。

【０１０２】したがって、ｅｐ１とｅｐ３は、順方向結
束力と逆方向結束力の差が負から正に変化する負の結束
力拮抗点であり、ｅｐ２は、その差が正から負に変化す
る正の結束力拮抗点である。

【０１０３】このような結束力の変化から、最初の点ｅ
ｐ１の左側の領域は、それより左側のいずれかの部分へ
向かって結束し、真中の点ｅｐ２の両側の領域は、ｅｐ
２に向かって結束し、最後の点ｅｐ３の右側の領域は、
それより右側のいずれかの部分ヘ向かって結束している
ことが分かる。実際、順・逆方向の結束力と共にプロッ
トした結束度は、ｅｐ１とｅｐ３の近傍で極小値をと
り、ｅｐ２の近傍で極大値をとっている。このように、
順・逆方向の結束力の変化と結束度の変化は密接に関連
している。

【０１０４】例えば、図１９の結束力拮抗点ｅｐ３の近
傍の水平の矢印で示した部分Ｐ１は、結束度が極小とな
る部分の１つである。このため、この部分Ｐ１の移動平
均（ここでは、ｃ１〜ｃ４の４項平均）の値も、Ｐ２お
よびＰ３における結束力が示しているように、通常は、
極小値をとる。ただし、移動平均をとる領域より狭い範
囲で細かい変動がある場合には、移動平均の平滑化作用
により、移動平均値すなわち結束力が極小値をとらない
こともある。

【０１０５】また、順方向結束力は移動平均値を移動平
均をとる領域の開始位置に記録した指標であるので、順
方向結束力の極小位置は結束度の極小位置の左になる。
同様の理由により、逆方向結束力の極小位置は結束度の
極小位置の右になる。そして、結束度の変動が十分に大
きければ、移動平均をとる領域内に結束力拮抗点が生成
されることになる。

【０１０６】図２０は、図１４のステップＳ４５におい
て行われる話題境界候補区間関連付け処理のフローチャ
ートである。話題構成認定部２５は、まず、認定された
話題境界候補区間を、認定に使った結束度系列の窓幅
と、話題境界候補区間内の結束力拮抗点の文書における
出現位置とによってソートしてまとめ、話題境界候補区
間データの系列Ｂ（ｊ）［ｐ］を作成する（ステップＳ
６１）。

【０１０７】ここで、制御変数ｊは、窓幅ｗ_jの結束度
系列により認定されたことを表す系列番号であり、制御
変数ｐは、系列内の各話題境界候補区間を表すデータ番
号である。実際には、ｊは、窓幅の大きい順に０，１，
２，．．．のような値をとり、ｐは、結束力拮抗点の出
現順に１，２，．．．のような値をとる。なお、系列番
号０に対応するデータＢ（０）は、文書全体に対応して
作成される特殊なデータであり、その話題境界候補区間
は結束度系列とは独立に設定される。それぞれのデータ
Ｂ（ｊ）［ｐ］は、次のような要素データを含む。

【０１０８】・Ｂ（ｊ）［ｐ］．ｒａｎｇｅ：話題境界
候補区間。（開始位置、終了位置）の組。・Ｂ（ｊ）［ｐ］．ｂｐ：結束力拮抗点。

【０１０９】・Ｂ（ｊ）［ｐ］．ｃｈｉｌｄ：境界位置
の話題境界候補区間の範囲で一致するＢ（ｊ＋１）系列
の話題境界候補区間（子候補区間）。ここで、結束力拮
抗点は理論的には点であるが、前述のように、順方向結
束力と逆方向結束力の差の符号が反転する地点を拮抗点
として認定しているので、実際には、差が負の点（開始
位置）と差が正の点（終了位置）の組が得られる。そこ
で、本実施形態では、結束力拮抗点の開始位置ｌｐと終
了位置ｒｐにおける（順方向結束力−逆方向結束力）の
値を、それぞれ、ＤＣ（ｌｐ）とＤＣ（ｒｐ）として、
左右の結束力が０になる点ｂｐを、次式により補間して
求める。ｂｐ＝（ＤＣ（ｒｐ）＊ｌｐ−ＤＣ（ｌｐ）＊ｒｐ）／（ＤＣ（ｒｐ）−ＤＣ（ｌｐ））（２）そして、得られたｂｐを、Ｂ（ｊ）［ｐ］．ｂｐとす
る。

【０１１０】次に、話題構成認定部２５は、窓幅の異な
る話題境界候補区間データを関連付ける処理を行う。こ
こでは、１つの系列に属するＢ（ｊ）［ｐ］をまとめて
Ｂ（ｊ）と記し、さらに、次のような表記法を用いて、
以下の処理を説明する。

【０１１１】・ｉｅ：最小窓幅ｗ_minに対応する系列番
号。・｜Ｂ（ｊ）｜：Ｂ（ｊ）におけるデータ番号ｐの最大
値。まず、処理対象を表す系列番号ｉを１に初期化する（ス
テップＳ６２）。これにより、最大窓幅ｗ₁による話題
境界候補区間の系列が処理対象に設定される。そして、
ｊ＋１≦ｊｅである限り、ｊをインクリメントしなが
ら、Ｂ（ｊ＋１）を関連付け対象の系列とする関連付け
処理を行う。

【０１１２】この関連付け処理では、処理対象系列中の
それぞれの話題境界候補区間データＢ（ｊ）［ｐ］（ｐ
＝１，．．．，｜Ｂ（ｊ）｜）について、それと同じ付
近を境界候補としている関連付け対象系列中のデータＢ
（ｊ＋１）［ｑ］のうち、Ｂ（ｊ＋１）［ｑ］．ｂｐが
Ｂ（ｊ）［ｐ］．ｂｐに最も近いデータが選ばれ、関連
境界候補区間データとしてＢ（ｊ）［ｐ］．ｃｈｉｌｄ
に格納される。

【０１１３】具体的な手順は以下の通りである。まず、
ｊ＋１とｊｅを比較し（ステップＳ６３）、ｊ＋１≦ｊ
ｅであれば、ｐに１を代入して（ステップＳ６４）、ｐ
と｜Ｂ（ｊ）｜を比較する（ステップＳ６５）。ｐ≦｜
Ｂ（ｊ）｜であれば、ステップＳ６６以降の関連付け処
理を行い、ｐが｜Ｂ（ｊ）｜を越えれば、ｊ＝ｊ＋１と
おいて（ステップＳ７１）、ステップＳ６３以降の処理
を繰り返す。

【０１１４】ステップＳ６６では、話題構成認定部２５
は、関連付け候補となる系列中のデータＢ（ｊ＋１）
［ｑ］（ｑ＝１，．．．，｜Ｂ（ｊ＋１）｜）の中か
ら、Ｂ（ｊ＋１）［ｑ］．ｂｐ∈Ｂ（ｊ）［ｐ］．ｒａ
ｎｇｅとなるデータでＢ（ｊ＋１）［ｑ］．ｂｐがＢ
（ｊ）［ｐ］．ｂｐに最も近いデータを、関連付け対象
データとして選択し、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄに格
納する。

【０１１５】ここで、Ｂ（ｊ＋１）［ｑ］．ｂｐ∈Ｂ
（ｊ）［ｐ］．ｒａｎｇｅという条件は、Ｂ（ｊ）
［ｐ］の話題境界候補区間の中にＢ（ｊ＋１）［ｑ］の
結束力拮抗点が含まれていることを表す。また、処理対
象データＢ（ｊ）［ｐ］と関連付け対象データＢ（ｊ＋
１）［ｑ］は、双方向のリンクで関連付けてもよく、片
方向のリンクで関連付けてもよい。

【０１１６】図２１は、関連付け対象データの選択例を
示している。図２１において、記号＋でプロットした折
れ線グラフは、処理対象に対応する６４０語幅の窓によ
る順方向結束力の系列を表し、記号×でプロットした折
れ線グラフは、６４０語幅の窓による逆方向結束力の系
列を表す。また、記号＊でプロットした折れ線グラフ
は、関連付け対象に対応する３２０語幅の窓による順方
向結束力の系列を表し、記号□でプロットした折れ線グ
ラフは、３２０語幅の窓による逆方向結束力の系列を表
す。

【０１１７】また、２重矩形で示された領域のうち、大
きな矩形領域が話題境界候補区間に対応し、それに含ま
れている小さな矩形領域が結束力拮抗点に対応する。こ
こでは、結束力拮抗点は、開始位置と終了位置により区
切られた小さな区間として表されている。

【０１１８】例えば、処理対象データをＢ（４）［１
２］とすると、その話題境界候補区間Ｂ（４）［１
２］．ｒａｎｇｅには、関連付け対象系列の２つのデー
タの結束力拮抗点Ｂ（５）［２４］．ｂｐとＢ（５）
［２５］．ｂｐが含まれている。このため、Ｂ（５）
［２４］とＢ（５）［２５］が関連付け対象データの候
補となる。これらのうち、Ｂ（５）［２５］．ｂｐの方
が、処理対象データの結束力拮抗点Ｂ（４）［１２］．
ｂｐにより近いので、Ｂ（５）［２５］が関連付け対象
データとして選択される。

【０１１９】次に、話題構成認定部２５は、関連付け対
象データが選択できたかどうかを判定する（ステップＳ
６７）。ここでは、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄが空で
なければ、関連付け対象データが選択できたと判定さ
れ、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄが空であれば、関連付
け対象データが選択できなかったと判定される。そし
て、関連付け対象データが選択できた場合は、ｐ＝ｐ＋
１とおいて（ステップＳ７０）、ステップＳ６５以降の
処理を繰り返す。

【０１２０】関連付け対象データが選択できなかった場
合には、Ｂ（ｊ）［ｐ］と同じ話題境界候補区間を持つ
疑似的な関連付け対象データ（ダミーデータ）Ｂ（ｊ＋
１）［ｑ］を作成し、Ｂ（ｊ＋１）の系列に挿入する
（ステップＳ６８）。

【０１２１】ステップＳ６８では、まず、Ｂ（ｊ＋１）
［ｑ］．ｒａｎｇｅとＢ（ｊ＋１）［ｑ］．ｂｐに、そ
れぞれ、Ｂ（ｊ）［ｐ］．ｒａｎｇｅとＢ（ｊ）
［ｐ］．ｂｐの値を設定して、新たなデータＢ（ｊ＋
１）［ｑ］を作成する。そして、系列Ｂ（ｊ＋１）の中
で、Ｂ（ｊ＋１）［ｑ−１］．ｂｐ＜Ｂ（ｊ＋１）
［ｑ］．ｂｐかつＢ（ｊ＋１）［ｑ］．ｂｐ＜Ｂ（ｊ＋
１）［ｑ＋１］．ｂｐとなるような位置に、作成したデ
ータＢ（ｊ＋１）［ｑ］を挿入する。

【０１２２】これにより、疑似的な関連付け対象データ
のデータ番号ｑが決定され、それ以降の既存データのデ
ータ番号は書き換えられる。ここで、擬似的な話題境界
候補区間データを作成するのは、以降の処理において、
ｊ以下のすべての系列番号の話題階層において話題文を
抽出するためである。

【０１２３】次に、作成されたダミーデータＢ（ｊ＋
１）［ｑ］をＢ（ｊ）［ｐ］．ｃｈｉｌｄに格納し（ス
テップＳ６９）、ステップＳ７０以降の処理を行う。そ
して、ステップＳ６３においてｊ＋１がｊｅを越えれ
ば、処理を終了する。

【０１２４】最終的には、ｊｅ未満のすべての系列番号
ｊのデータに対して、その話題境界候補区間内に結束力
拮抗点を持つ系列番号ｊ＋１のデータが、Ｂ（ｊ）
［ｐ］．ｃｈｉｌｄに設定される。したがって、Ｂ
（ｊ）［ｐ］．ｃｈｉｌｄにより、複数の階層の話題境
界候補区間データが連鎖的に関連付けられることにな
る。

【０１２５】図２２は、こうして得られた話題境界の認
定結果を示している。図２２において、５１２０語、２
５６０語、１２８０語、６４０語の各窓幅に対応して２
重矩形で示された領域のうち、大きな矩形領域が話題境
界候補区間に対応し、それに含まれている小さな矩形領
域が結束力拮抗点に対応する。Ｂ（１）、Ｂ（２）、Ｂ
（３）、Ｂ（４）は、それぞれ、５１２０語、２５６０
語、１２８０語、６４０語の各窓幅に対応する系列を表
し、２重矩形に添えられた番号［１］，［２］，．．．
などは、各系列内のデータ番号を表す。

【０１２６】また、各系列には、文書全体の開始位置に
対応する番号［０］の境界データが加えられている。こ
れは、番号［０］のデータから、文書の先頭の話題のま
とまりに対する話題文、特に、文書全体のまとまり（Ｂ
（０））に対する話題文を抽出するための措置である。
いずれの系列の番号［０］のデータについても、その話
題境界候補区間の幅は、最小窓幅による移動平均幅程度
（２５語）に設定されている。

【０１２７】図２２の認定結果では、大きな窓幅によっ
て認定された境界ほど大きな話題の切れ目に対応すると
いう傾向にあることが見てとれる。例えば、最大窓幅
（５１２０語幅）による話題境界が４．３節、４．４節
というような大きな節の開始位置とよく対応しており、
その次に大きな窓幅（２５６０語幅）による話題境界が
４．３．１節、４．３．２節などの次に大きな節の開始
位置とよく対応している。

【０１２８】次に、話題文抽出部２７の処理について説
明する。話題文抽出部２７の処理には、大きく分けて２
種類の処理が含まれる。第１の処理は、話題文認定処理
であり、話題構成認定部２５が認定したそれぞれの話題
のまとまりに対して、話題文を認定し、境界位置を確定
するために行われる。第２の処理は、話題文抽出処理で
あり、要約の出力量に応じて要約に取り入れる話題の粒
度を調整するための処理である。

【０１２９】話題文抽出部２７は、話題文認定処理にお
いて、まず、話題構成認定部２５が認定した話題境界候
補区間のそれぞれに対して、その範囲内の文を候補とし
て、直後の話題が立ち上がる位置にあたる文を検出す
る。そして、この文を第１種の話題文（境界文）として
認定する。

【０１３０】次に、この境界文の位置を話題の導入部の
開始位置として記録し、候補区間内の境界文以降の部分
を導入部と認定する。そして、話題文抽出部２７は、導
入部の文の中で、直後の話題のまとまりとの関連度が最
大となる文を第２種の話題文（話題導入文）として認定
する。

【０１３１】話題文抽出部２７は、境界文および話題導
入文を認定するために、順方向関連度および逆方向関連
度という２種類の関連度を用いる。順方向関連度とは、
話題構成認定部２５が認定した話題境界候補区間内のそ
れぞれの文と、その直後の話題のまとまりとの関連性の
度合いを示す指標である。逆方向関連度とは、話題境界
候補区間内のそれぞれの文と、その直前の話題のまとま
りとの関連性の度合いを示す指標である。

【０１３２】ここで、文Ｓと話題のまとまりｂとの関連
度ｒ_S,bは、語彙の繰り返し状況によって定義すること
ができ、例えば、次式により求められる。

【０１３３】

【数２】

【０１３４】（３）式において、｜Ｓ｜は、文Ｓに含ま
れる延べ単語数を表し、｜ｂ｜は、話題のまとまりｂに
含まれる延べ単語数を表し、ｔｆ_w,bは、話題のまとま
りｂにおける単語ｗの出現頻度を表し、｜Ｄ｜は、文書
全体を固定幅（８０語）刻みに区切って得られるブロッ
クの数を表し、ｄｆ_wは、単語ｗが出現しているブロッ
クの数を表す。

【０１３５】（３）式は、発明者による文献（仲尾由
雄、文書の話題構成に基づく重要語の抽出、情処研報
ＦＩ−５０−１、情報処理学会、１９９８年７月．）に
おいて、単語の重要度の評価用に取り上げられた尺度の
１つ（「情報量型複数ブロックｔｆ×ｉｄｆ法」）を応
用したものである。この文献では、（３）式のΣ内の部
分の数式を用いて文書内の単語の重要度を評価する実験
を行ったところ、評価値が高い順に単語を抽出すること
で、見出しに出現する単語（重要語）が効率よく抽出で
きたことが報告されている。

【０１３６】文Ｓと話題のまとまりｂとの関連度ｒ_s,b
の計算方法は（３）式に限られず、各種の方法を用いる
ことも可能である。ただし、（３）式に基づく関連度に
は以下のような望ましい性質があることから、本実施形
態では、この計算方法を採用した。（１）話題のまとま
り中の高頻度語が重視される。

【０１３７】文Ｓ中の単語が、計算対象の話題のまとま
りに高い頻度で出現すると、ｔｆ_w, _bの値が大きくなる
ので、関連度が大きくなる。（２）話題のまとまりに特徴的に出現する単語が重視さ
れる。

【０１３８】語の文書全体における出現密度が低いほ
ど、ｌｏｇの部分の値が大きくなるので、文書全体では
出現密度が低い単語が文Ｓと話題のまとまりの両方に出
現した場合、関連度が大きくなる。（３）主要な話題と
して取り上げられている単語が重視される傾向にある。

【０１３９】ｌｏｇ内の部分は、局所的に集中して出現
する単語の出現頻度を低めに補正した出現密度の逆数の
形をとっている。このため、文Ｓ中の単語が話題のまと
まりの中で１ヶ所に集中して出現している場合に、関連
度が大きくなる。

【０１４０】なお、それぞれの話題のまとまりの最終的
な境界位置は、境界文の開始位置であるため、話題文認
定処理の途中では決定されていない場合がある。そこ
で、話題文認定処理では、決定されていない境界位置に
対しては、話題構成認定部２５が認定した結束力拮抗点
の位置を話題境界の仮位置として用いて、上記の関連度
を計算することにする。

【０１４１】図２３および図２４は、話題文抽出部２７
による話題文認定処理のフローチャートである。話題文
認定部２７は、まず、文書全体を固定幅のブロックに分
割し、文書内に出現するそれぞれの単語ｗが出現するブ
ロックの数を集計し、ブロック出現頻度ｄｆ_wとして記
録する（図２３、ステップＳ８１）。次に、処理対象の
系列番号を示す制御変数ｊの初期値として系列番号の最
大値ｊｅを代入する（ステップＳ８２）。これにより、
最小の話題に関する話題境界候補区間データが処理対象
に位置付けられる。

【０１４２】続いて、ｊ≧０である限り、Ｂ（ｊ）系列
を話題文認定系列とする処理を行う。まず、ｊが０以上
であるか否かを判定し（ステップＳ８３）、ｊが０未満
の場合には処理を終了する。次に、ｐに０を代入して
（ステップＳ８４）、ｐと｜Ｂ（ｊ）｜を比較する（ス
テップＳ８５）。ｐ≦｜Ｂ（ｊ）｜であれば、ステップ
Ｓ８６以降の処理を行い、ｐが｜Ｂ（ｊ）｜を越えれ
ば、ｊ＝ｊ−１として（ステップＳ９１）、ステップＳ
８３以降の処理を繰り返す。

【０１４３】ステップＳ８６では、Ｂ（ｊ）［ｐ］に関
連付けられたより小さい話題に関する話題境界候補区間
データ（子候補区間データ）があるか否かを判定する。
そして、子候補区間データがあれば、Ｂ（ｊ）［ｐ］．
ｒａｎｇｅを子候補区間データの話題境界候補区間Ｂ
（ｊ）［ｐ］．ｃｈｉｌｄ．ｒａｎｇｅに合わせて修正
し（ステップＳ８７）、子候補区間データがなければ、
ステップＳ８７の処理をスキップする。

【０１４４】次に、Ｂ（ｊ）［ｐ］がダミーデータであ
るか否かを判定し（ステップＳ８９）、それがダミーデ
ータの場合には、図２４の処理をスキップし、ｐ＝ｐ＋
１として（ステップＳ９０）、次のデータの処理に移
る。

【０１４５】Ｂ（ｊ）［ｐ］がダミーデータでなけれ
ば、話題文認定部２７は、Ｂ（ｊ）［ｐ］．ｒａｎｇｅ
内に少なくともその一部分が含まれる文を話題文の候補
ｓ［ｉ］（１≦ｉ≦ｉｅ）として取り出し（図２４、ス
テップＳ９２）、２種類の話題文（境界文と話題導入
文）の認定処理を行う。ここで、ｉｅは、取り出された
話題文の候補の数を表す。

【０１４６】まず、話題文認定部２７は、取り出された
候補ｓ［ｉ］のすべてに対して、順方向関連度と逆方向
関連度を（３）式に基づいて計算する（ステップＳ９
３）。次に、順方向相対関連度、すなわち、順方向関連
度と逆方向関連度との差を、候補中の先頭の文から末尾
の文まで調べる（ステップＳ９４）。そして、順方向相
対関連度が正で、かつ、直前の順方向相対関連度からの
増分が最大となる文を境界文と認定し、その境界文以降
の候補を導入部と認定する。

【０１４７】話題の境界においては、一般に、順方向関
連度と逆方向関連度がともに急激に変化することが多
い。このため、順方向関連度と逆方向関連度との差の増
分を指標として用いることで、境界文の検出精度が向上
すると考えられる。

【０１４８】次に、境界文が認定できたか否かを判定し
（ステップＳ９５）、境界文が認定できた場合には、そ
の境界文以降（または、境界文より後ろ）にある候補の
中で、順方向関連度が最大となる文を話題導入文として
認定する（ステップＳ９６）。また、境界文が認定でき
なかった場合には、すべての候補の中で、順方向関連度
が最大となる文を、境界文かつ話題導入文として認定す
る（ステップ９７）。

【０１４９】次に、Ｂ（ｊ）［ｐ］．ｒａｎｇｅの終端
を認定された境界文の位置に合わせ（ステップＳ９
８）、ｐ＝ｐ＋１として（図２３、ステップＳ９０）、
ステップＳ８５以降の処理を繰り返す。これにより、次
の話題境界候補区間データの話題文認定処理が行われ
る。

【０１５０】ステップＳ９８において、話題境界候補区
間の終了位置を修正しているのは、以降の処理で、より
大きな話題のまとまりに対する境界文を、現在の処理対
象の話題に対する境界文以前の範囲から認定するためで
ある。これにより、例えば、章見出しの直後に節見出し
がある場合に、小さい話題に関する境界文として節見出
しを、大きな話題に関する境界文として章見出しを認定
できる可能性を高めることができる。

【０１５１】図２５は、要約対象文書の４．４節の開始
位置付近（図２２の横軸の１２，０００語の手前付近）
の話題文の認定例を示している。図２５において、＜外
＞の印が付けられた文（１２００２語の位置）の次の文
から最後の文（１２０５５語の位置）までが話題文の候
補であり、それらの文の少なくとも一部分が話題境界候
補区間（ここでは、［１２０２６，１２０５９］の３５
語幅の区間）にかかっている。ここでは、境界文より後
ろにある候補の中から話題導入文が選択されている。

【０１５２】＜境＞の印が付けられた文（１２０３１語
の位置）においては、順方向関連度（“対直後”の列の
値）と逆方向関連度（“対直前”の列の値）との差、す
なわち、順方向相対関連度（“後−前”の列の値）が正
（０．０１６）であり、かつ、直前の順方向相対関連度
（−０．００８）からの増分が最大（０．０２４）とな
っている。したがって、この文は、境界文と認定されて
いる。

【０１５３】また、＜導＞の印が付けられた文（１２０
３３語の位置）においては、境界文より後ろにある文
（この場合は２文）の中で、順方向関連度が最大（０．
０２３）となっている。したがって、この文は、話題導
入文と認定されている。

【０１５４】なお、後続の要約成形処理においては、境
界文は見出しであることが望ましく、話題導入文は、後
続の話題を紹介する文であることが望ましい。そこで、
図２４の処理において、それぞれの話題文候補の文末表
現や文型などの手掛かりを併用することで、この性質を
満たす境界文と話題導入文を増やすことも可能である。

【０１５５】例えば、見出しは、日本語であれば句点で
終わらない文であることが多く、英語であればピリオド
で終わらない文であることが多い。そこで、ステップＳ
９４において、まず、話題文の候補の中で句点／ピリオ
ドで終わらない文だけを対象に境界文の認定を試み、そ
れが認定できなかった場合にだけ、その他の文を対象に
境界文の認定処理を行うようにすれば、認定される境界
文が文書中の見出しと一致する可能性を高めることがで
きる。

【０１５６】また、後続の話題を紹介する文は、日本語
であれば、“〜する”のように終止形の動詞で終わる文
であることが多く、英語であれば、“Ｉ”、“ｗｅ”の
ような１人称の代名詞や“Ｔｈｉｓｓｅｃｔｉｏｎ”
のような章などを表す名詞句から始まる現在時制／未来
時制の文であることが多い。そこで、ステップＳ９６に
おいて、まず、そのような性質を満たす文だけを対象に
話題導入文の認定を試み、それが認定できなかった場合
にだけ、その他の文を対象に話題導入文の認定処理を行
うようにすれば、認定される話題導入文が後続の話題を
紹介する文と一致する可能性を高めることができる。

【０１５７】次に、図２６は、話題文抽出部２７による
話題文抽出処理のフローチャートである。話題文抽出部
２７は、まず、望ましい要約の大きさＳａ、望ましい各
話題の抜粋量Ｓｔの２つのパラメータをユーザから受け
取る（ステップＳ１０１）。

【０１５８】次に、ＳａをＳｔで割って抽出すべき話題
の概数Ｎｔを求め（ステップＳ１０２）、Ｎｔ個以下の
境界からなる最下層の話題の話題境界候補区間データ系
列を求め、その系列番号を制御変数ｊに設定する（ステ
ップＳ１０３）。これにより、Ｂ（ｊ）が話題文抽出処
理の基本的な対象に位置付けられ、話題の粒度が決定さ
れる。

【０１５９】具体例では、Ｓａとして１５００文字程度
を与え、Ｓｔとして１５０文字程度を与えているので、
Ｎｔ＝１０となる。この場合、図２２の話題構成の認定
結果によれば、１２８０語の窓幅による話題境界候補区
間データ（系列番号は３）が話題文抽出処理の基本的な
対象となる。

【０１６０】次に、系列番号ｊのすべての話題境界候補
区間データＢ（ｊ）［ｐ］について、それぞれの話題境
界候補区間の中で最も前にある境界文、すなわち最大の
話題のまとまりに対する境界文の開始位置を、話題境界
表示記号の出力位置に指定する（ステップＳ１０４）。
この指定を行うことで、出力部２８が要約を成形する際
に、話題のまとまり毎に話題文を区切って出力すること
が可能になる。

【０１６１】続いて、ｊ≧０である限り、Ｂ（ｊ）系列
から話題文を抽出する処理を行う。まず、ｊが０以上で
あるか否かを判定し（ステップＳ１０５）、ｊが０未満
の場合には処理を終了する。

【０１６２】ｊが０以上の場合には、Ｂ（ｊ）を話題文
抽出系列として、Ｂ（ｊ）中の個々の話題境界候補区間
データＢ（ｊ）［ｐ］について、それと関連付けられて
いるより大きな話題の中で最大のものに対応する系列番
号を求める。そして、それらのＢ（ｊ）［ｐ］を得られ
た系列番号順にソートする（ステップＳ１０６）。これ
により、Ｂ（ｊ）［ｐ］のデータ番号ｐはソート順に置
き換えられる。

【０１６３】このような操作は、必須ではないが、より
大きな話題から優先的に話題文を抽出するために行われ
る。これにより、ステップＳ１０９において要約の出力
量に関する制約から話題文抽出処理が打ち切られた場合
でも、大きな話題に関する話題文が要約に取り入れられ
るようにすることができる。

【０１６４】次に、話題文抽出部２７は、ｐに０を代入
して（ステップＳ１０７）、ｐと｜Ｂ（ｊ）｜を比較す
る（ステップＳ１０８）。ｐ≦｜Ｂ（ｊ）｜であれば、
ステップＳ１０９以降の処理を行い、ｐが｜Ｂ（ｊ）｜
を越えれば、ｊ＝ｊ＋１とおいて（ステップＳ１１
２）、ステップＳ１０５以降の処理を繰り返す。

【０１６５】次に、話題文抽出部２７は、ＳａおよびＳ
ｔの制約の範囲内で文を抜粋する余地があるか否かを調
べ（ステップＳ１０９）、抜粋する余地がなければ、話
題文抽出処理を終了する。抜粋する余地があれば、処理
対象のＢ（ｊ）［ｐ］の境界文と話題導入文、および、
その話題境界候補区間に含まれている境界文の中で最も
前にあるものを、抜粋対象の文として抽出する（ステッ
プＳ１１０）。

【０１６６】次に、ｐ＝ｐ＋１とおいて次のデータを処
理対象に位置付け（ステップＳ１１１）、ステップＳ１
０８以降の処理を繰り返す。なお、結束度が低い話題の
まとまりは、例えば、項目を羅列しただけの部分のよう
に、内容が薄い部分であることが多いので、そこからの
話題文の抽出をスキップすることも考えられる。抽出を
スキップする場合には、ステップＳ１１０に先立って、
所定の方法で話題のまとまりの結束度を計算し、得られ
た結束度を何らかの基準値と比較する。そして、結束度
が基準値より小さい場合に、その話題のまとまりの開始
位置に対応する話題境界候補区間を求め、その区間につ
いてのステップＳ１１０の処理を行わないようにすれば
よい。

【０１６７】図２７は、このような場合に行われる結束
度計算処理のフローチャートである。話題文抽出部２７
は、まず、処理対象話題区間ｂとその話題区間の窓幅ｗ
を受け取り（ステップＳ１２１）、話題区間ｂの大きさ
とｗを比較する（ステップＳ１２２）。

【０１６８】話題区間ｂの大きさがｗより大きければ、
話題区間ｂから、その両端ｗ／２の部分を除外した区間
における最大結束度を求め、その値を中央結束度として
記録して（ステップＳ１２３）、処理を終了する。ま
た、話題区間ｂの大きさがｗ以下であれば、話題区間ｂ
の中心位置における結束度を中央結束度として記録し
（ステップＳ１２４）、処理を終了する。こうして得ら
れた中央結束度を基準値と比較して、話題文の抽出をス
キップするか否かが判定される。

【０１６９】次に、図２８は、出力部２８による要約成
形処理のフローチャートである。出力部２８は、まず、
話題文抽出部２７が抽出したｉｅ個の話題文をｓ［ｉ］
（１≦ｉ≦ｉｅ）とし、それらを要約対象文書１１にお
ける出現位置順にソートする（ステップＳ１３１）。次
に、話題文抽出部２７が設定したｊｅ個の話題境界表示
記号の出力位置（話題境界出力位置）をｂ［ｊ］（１≦
ｊ≦ｊｅ）とし、それらを同様にソートする（ステップ
Ｓ１３２）。

【０１７０】次に、制御変数ｉとｊにそれぞれ１を代入
し、先頭の話題文と話題境界出力位置を処理対象に位置
付ける（ステップＳ１３３）。続いて、ｉ≦ｉｅである
限り、話題文の出力処理を行う。

【０１７１】この処理において、出力部２８は、まず、
ｉとｉｅを比較し（ステップＳ１３４）、ｉ＞ｉｅであ
れば処理を終了する。ｉ≦ｉｅであれば、次に、話題境
界出力位置ｂ［ｊ］の位置データＬＯＣ（ｂ［ｊ］）と
出力対象の話題文ｓ［ｉ］の位置データＬＯＣ（ｓ
［ｉ］）を比較する（ステップＳ１３５）。

【０１７２】話題文ｓ［ｉ］が話題境界出力位置ｂ
［ｊ］以降にある場合には、話題境界表示記号を出力し
（ステップＳ１３６）、ｊ＝ｊ＋１とおいて（ステップ
Ｓ１３７）、ステップＳ１３５以降の処理を繰り返す。
話題境界表示記号は、話題文抽出部２７が抽出対象とし
て決定した粒度の話題の間に区切りを付けるための記号
であり、例えば、空行などである。

【０１７３】また、話題文ｓ［ｉ］が話題境界出力位置
ｂ［ｊ］より前にある場合には、その話題文ｓ［ｉ］を
出力し（ステップＳ１３８）、ｉ＝ｉ＋１とおいて次の
話題文を出力対象に位置付け（ステップＳ１３９）、ス
テップＳ１３４以降の処理を繰り返す。

【０１７４】図２９、３０、３１は、このような処理に
よって作成された要約文書を示している。この要約文書
は、１４４９文字（要約対象文書との文字数比で１．５
％）の長さを持ち、１０個の空行（話題境界表示記号）
により１１個の部分に分けて出力されている。この要約
結果によれば、話題文抽出部２７に条件として与えたパ
ラメータに従って、適切な粒度の話題が適切な分量で要
約に取り入れられたことが分かる。

【０１７５】また、この要約結果において、空行により
区切られた部分の中には、その中に含まれる文の相互の
関連性が明確であるものが多い。また、文の内容も、調
査内容の紹介などに関するものが多く、理解するのは容
易である。ただし、比較的数は少ないものの、図３０の
「（４）分散検索」から始まる部分に含まれている
「４．３．３電子出版及び電子図書館」のように、よ
り大きな話題の見出しと考えられる文を含む部分なども
ある。

【０１７６】しかし、全体的に見れば、図２９、３０、
３１の要約結果は、長い文書に対しても本発明の狙い通
りに要約が作成可能なことを示している。また、空行で
区切られた各部分の先頭には、適切な見出しが抽出され
ていることが多いという事実は、本発明の方法によれ
ば、文書の書式を参照しなくても、適切な話題境界が認
定できることを示唆している。

【０１７７】なお、空行で区切られた部分の先頭に見出
しが抽出されることが多いことを利用して、要約中の話
題のまとまりをより強調して提示することも可能であ
る。例えば、空行の直後にある文を見出しとして扱い、
独立した行に出力し、後続の文を段下げして表示すれ
ば、話題の切れ目をより強調して提示することができ
る。

【０１７８】図３２は、このような方法で要約中の話題
のまとまりを強調した例を示している。この要約結果
は、要約全体の長さのパラメータ（望ましい要約の大き
さＳａ）を５００文字に変更して話題文を抽出した後、
話題境界表示記号（空行）の直後にある見出しを強調し
て出力することにより得られたものである。

【０１７９】なお、図３２の要約文書には、４．１節、
４．３節、および４．４節の見出しが含まれているの
に、４．２節の見出しが含まれていない。そのため、要
約文書のユーザが４．２節に何が書いてあるのかを気に
することも考えられる。この場合、節番号のような順序
を規定するラベル（順序ラベル）が付加された見出しを
特別に処理し、順序ラベルを外すことで、ユーザの心理
的な負荷を軽減することも可能である。

【０１８０】例えば、順序ラベルを見出しから分離し、
まず、見出しを出力してから、順序ラベルを「（４．参
照）」のような形に加工し、原文書（要約対象文書）と
の対応関係を示す補足情報（対応箇所表示表現）として
見出しに添えてやると、図３３のような要約文書を作成
することができる。図３３では、「（４．参照）」、
「（４．３参照）」、および「（４．４．参照）」が対
応箇所表示表現として、各見出しに添えられている。

【０１８１】図３４は、このような話題文出力処理のフ
ローチャートである。この処理は、図２８のステップＳ
１３８において、通常の出力処理の代わりに行われる。
出力部２８は、まず、出力対象の話題文ｓ［ｉ］の位置
が話題境界表示記号の直後か否かを判定する（ステップ
Ｓ１４１）。それが話題境界表示記号の直後であれば、
次に、ｓ［ｉ］は順序ラベル付きの見出しであるか否か
を判定する（ステップＳ１４２）。

【０１８２】ｓ［ｉ］が順序ラベル付きの見出しであれ
ば、順序ラベルを見出しから分離し（ステップＳ１４
３）、順序ラベルを用いて対応箇所表示表現を作成する
（ステップＳ１４４）。そして、見出しと対応箇所表示
表現を出力して（ステップＳ１４５）、処理を終了す
る。

【０１８３】ステップＳ１４１において、ｓ［ｉ］の位
置が話題境界表示記号の直後でない場合、および、ステ
ップＳ１４２において、ｓ［ｉ］が順序ラベル付きの見
出しでない場合は、ｓ［ｉ］を通常通り出力して（ステ
ップＳ１４６）、処理を終了する。

【０１８４】上述の要約成形処理においては、話題境界
表示記号として、空行以外にも罫線などの任意の表示情
報を用いることができ、順序ラベルには、節番号以外に
も章番号やアルファベットなどの任意の順序情報が含ま
れる。さらに、対応箇所表示表現としては、「（４．参
照）」のような表現以外の任意の表現を用いることがで
きる。

【０１８５】また、上述の要約成形処理においては、１
階層の話題境界（図３３では、Ｂ（１）系列の境界デー
タ）のみを用いて要約結果中の話題を区切って出力して
いるが、複数階層の話題境界を併用すれば、要約結果中
の大きな話題と小さな話題を区別して出力することも可
能である。

【０１８６】例えば、図３３の「ネットワーク上の検索
サービス（４．３参照）」で始まる部分には、Ｂ（２）
系列の境界データＢ（２）［２］とＢ（２）［３］に対
する境界文「（１）キーワード抽出」と「（４）分散検
索」が含まれている。それらを見出しとして扱って、同
様の手順で出力すれば、図３５のような要約結果が得ら
れる。

【０１８７】次に、英語の要約対象文書として、米国出
願の明細書の原稿（２３，０００語）を用いた例につい
て説明する。ここでは、次のような処理方法およびパラ
メータを採用した。（１）単語認定の方法：ストップワードリストを用いた
方法（２）結束度計算用の窓の幅：最大窓幅ｗ₁＝６，５５６（語）最小窓幅ｗ_min＝１０４（語）刻み幅ｔｉｃ＝１３（語）（要約対象文書における１文
あたりの平均語数）（３）話題文抽出における抜粋量：望ましい要約の大きさＳａ：１０００文字程度望ましい各話題の抜粋量Ｓｔ：３００文字程度要約対象文書の全体を掲載することは適当ではないの
で、参考として、要約対象文書中の見出しの一覧を図３
６に示す。図３６において、（）内の表現は、説明のた
めに付加された見出しの省略形であり、要約対象文書に
は含まれていない。

【０１８８】図３７は、入力された要約対象文書の先頭
部分を示しており、図３８は、その部分に対する単語認
定処理の結果を示している。図３８において、［］で括
られた部分が、認定された単語に対応する。先頭の１文
字のみが大文字の単語は、［］では、すべて小文字に置
き換えられている。

【０１８９】ここでは、空白およ
び“，”、“．”、“：”、“；”などの区切り記号を
手掛かりに単語が切り出され、それらの単語のうち、図
３９に示すストップワードリストに含まれる単語が取り
除かれた。ストップワードリストとは、重要語として抽
出したくない冠詞、前置詞などの単語を、あらかじめ定
義したリストである。

【０１９０】図４０は、話題構成認定部２５による話題
構成の認定結果を示している。図４０において、節境界
の近くに記された（Ｂｇ）、＜１＞などは、図３６に示
された見出しの省略形を表している。

【０１９１】図４１は、要約対象文書の＜２＞の見出し
の開始位置付近（図４０の横軸の６，０００語の手前付
近）の話題文の認定例を示している。図４１において、
最初の文（５５２２語の位置）から最後の文（５５７１
語の位置）までが話題文の候補であり、それらの文の少
なくとも一部分が話題境界候補区間（ここでは、［５５
４５，５５８５］の４１語幅の区間）にかかっている。

【０１９２】＜境＞の印が付けられた文（５５６４語の
位置）においては、順方向関連度（“対直後”の列の
値）と逆方向関連度（“対直前”の列の値）との差、す
なわち、順方向相対関連度（“後−前”の列の値）が正
（０．０８９）であり、かつ、直前の順方向相対関連度
（−０．０２６）からの増分が最大（０．１１５）とな
っている。したがって、この文は、境界文と認定されて
いる。

【０１９３】また、＜導＞の印が付けられた文（５５６
７語の位置）においては、境界文より後ろにある文（こ
の場合は２文）の中で、順方向関連度が最大（０．０５
１）となっている。したがって、この文は、話題導入文
と認定されている。

【０１９４】こうして抽出された話題文を話題毎にまと
めて出力すると、図４２のような要約文書が生成され
た。この要約文書は、９１４文字（要約対象文書との文
字数比で０．７％）の長さを持ち、４つの部分に分けて
出力されている。ここでは、各話題の先頭の文を見出し
として出力し、さらに、各話題の先頭にピリオドで終わ
っていない文が続いている場合には、そのようなすべて
の文を見出し扱いにして出力している。

【０１９５】以上説明した実施形態においては、日本語
および英語の文書を例に挙げて要約処理を説明したが、
本発明は、これらの文書以外にも、任意の言語および任
意の形式の文書に対して適用され、同様の結果を得るこ
とができる。

【０１９６】また、要約対象文書は、必ずしもディジタ
ル化された電子文書である必要はなく、例えば、紙媒体
などに記載された文書でもよい。この場合、イメージス
キャナなどの光電変換装置により文書画像を取り込み、
文字認識を行うことで、単語認定可能な文書データを作
成することができる。

【０１９７】

【発明の効果】本発明によれば、数十頁に渡るような長
い文書についても、文書サイズの１／２〜１／４程度の
大きな話題のまとまりから、段落程度の大きさ（数十語
から１００語程度）の話題のまとまりまでを含む話題の
階層的構成を認定することができる。そして、この階層
的構成を利用して、話題を端的に示す文を多く含み、か
つ、意味的なまとまりの強い要約を作成することができ
る。また、話題の階層的構成を活用して、要約を適切な
粒度の話題に分けて出力することもできる。

【０１９８】これにより、長い文書に対しても、内容の
理解が容易で読みやすい要約が作成できるようになり、
長い要約を読みやすく提示することも可能になる。

【図面の簡単な説明】

【図１】本発明の文書要約装置の原理図である。

【図２】文書要約装置の構成図である。

【図３】情報処理装置の構成図である。

【図４】記録媒体を示す図である。

【図５】第１の要約対象文書中の見出しを示す図（その
１）である。

【図６】第１の要約対象文書中の見出しを示す図（その
２）である。

【図７】第１の要約対象文書中の見出しを示す図（その
３）である。

【図８】単語認定処理のフローチャートである。

【図９】第１の入力文書を示す図である。

【図１０】第１の単語認定結果を示す図である。

【図１１】形態素解析処理のフローチャートである。

【図１２】日本語の辞書引きの例を示す図である。

【図１３】英語の辞書引きの例を示すである。

【図１４】話題構成認定処理のフローチャートである。

【図１５】結束度の系列を示す図である。

【図１６】結束度分布を示す図である。

【図１７】移動平均値と文書領域の関係を示す図であ
る。

【図１８】話題境界候補区間認定処理のフローチャート
である。

【図１９】結束力分布を示す図である。

【図２０】話題境界候補区間関連付け処理のフローチャ
ートである。

【図２１】関連付け対象データを示す図である。

【図２２】話題構成の第１の認定結果を示す図である。

【図２３】話題文認定処理のフローチャート（その１）
である。

【図２４】話題文認定処理のフローチャート（その２）
である。

【図２５】境界文と話題導入文の第１の認定例を示す図
である。

【図２６】話題文抽出処理のフローチャートである。

【図２７】中央結束度計算処理のフローチャートであ
る。

【図２８】要約成形処理のフローチャートである。

【図２９】第１の要約結果を示す図（その１）である。

【図３０】第１の要約結果を示す図（その２）である。

【図３１】第１の要約結果を示す図（その３）である。

【図３２】第２の要約結果を示す図である。

【図３３】第２の要約結果の第１の改良例を示す図であ
る。

【図３４】話題文出力処理のフローチャートである。

【図３５】第２の要約結果の第２の改良例を示す図であ
る。

【図３６】第２の要約対象文書中の見出しを示す図であ
る。

【図３７】第２の入力文書を示す図である。

【図３８】第２の単語認定結果を示す図である。

【図３９】ストップワードを示す図である。

【図４０】話題構成の第２の認定結果を示す図である。

【図４１】境界文と話題導入文の第２の認定例を示す図
である。

【図４２】第３の要約結果を示す図である。

【符号の説明】

１構成認定手段２話題文抽出手段３出力手段１１要約対象文書１２文書要約装置１３要約文書２１入力部２２単語認定部２３形態素解析部２４単語辞書２５話題構成認定部２６話題境界候補区間認定部２７話題文抽出部２８出力部４１出力装置４２入力装置４３ＣＰＵ４４ネットワーク接続装置４５媒体駆動装置４６補助記憶装置４７メモリ４８バス４９可搬記録媒体５０データベース

Claims

【特許請求の範囲】

【請求項１】与えられた文書中の話題の階層的構成を
認定する構成認定手段と、各話題の導入部を検出し、該導入部から集中的に、話題
内容を端的に表す１つ以上の文を話題文として抽出する
話題文抽出手段と、抽出された話題文を話題毎にまとめて要約を生成する要
約成形手段とを備えることを特徴とする文書要約装置。
【請求項２】前記話題文抽出手段は、前記構成認定手
段が認定した話題境界の近傍領域内の文の中から、文と
該話題境界の直後の話題のまとまりとの関連度を表す順
方向関連度と、文と該話題境界の直前の話題のまとまり
との関連度を表す逆方向関連度との差に基づいて、話題
の転換点に対応する境界文を話題文として抽出し、該境
界文の位置を前記導入部の開始位置に設定することを特
徴とする請求項１記載の文書要約装置。
【請求項３】前記話題文抽出手段は、前記境界文から
始まる前記導入部の文の中から、さらに、前記順方向関
連度に基づいて、話題を導入する役割を持つ話題導入文
を話題文として抽出することを特徴とする請求項２記載
の文書要約装置。
【請求項４】前記要約成形手段は、前記話題文を適切
な大きさの話題毎に区別して出力することを特徴とする
請求項１記載の文書要約装置。
【請求項５】前記話題文抽出手段は、前記要約の出力
量に応じて、該要約に取り入れる話題の大きさを決定す
ることを特徴とする請求項４記載の文書要約装置。
【請求項６】前記要約成形手段は、前記話題文に含ま
れる見出しの順序ラベル情報を該話題文から分離して、
該順序ラベル情報を含まない話題文を出力することを特
徴とする請求項１記載の文書要約装置。
【請求項７】前記要約成形手段は、前記順序ラベル情
報を加工して、前記順序ラベル情報を含まない話題文の
補足情報として出力することを特徴とする請求項６記載
の文書要約装置。
【請求項８】与えられた文書中の各話題の導入部を検
出し、該導入部から集中的に１つ以上の文を抽出する話
題文抽出手段と、抽出された文を用いて要約を生成する要約成形手段とを
備えることを特徴とする文書要約装置。
【請求項９】コンピュータのためのプログラムを記録
した記録媒体であって、与えられた文書中の話題の階層的構成を認定するステッ
プと、各話題の導入部を検出するステップと、前記導入部から集中的に、話題内容を端的に表す１つ以
上の文を話題文として抽出するステップと、抽出された話題文を話題毎にまとめて要約を生成するス
テップとを含む処理を前記コンピュータに実行させるた
めのプログラムを記録したコンピュータ読み取り可能な
記録媒体。
【請求項１０】与えられた文書中の話題の階層的構成
を、語彙の繰り返し状況に基づいて認定し、各話題の導入部を、語彙の繰り返し状況に基づいて検出
し、前記導入部から集中的に、話題内容を端的に表す１つ以
上の文を話題文として抽出し、抽出された話題文を話題毎にまとめて要約を生成するこ
とを特徴とする文書要約方法。