JP5530393B2

JP5530393B2 - 文書要約装置、文書要約方法、及びプログラム

Info

Publication number: JP5530393B2
Application number: JP2011087411A
Authority: JP
Inventors: 陽子田中; 伸章廣嶋; 克人別所; 義昌小池; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-04-11
Filing date: 2011-04-11
Publication date: 2014-06-25
Anticipated expiration: 2031-04-11
Also published as: JP2012221293A

Description

本発明は、文書要約装置、文書要約方法、及びプログラムに係り、特に、複数の文から構成されるテキスト（入力文書）を要約する文書要約装置、文書要約方法、及びプログラムに関する。

従来より、文書の要点を簡潔にまとめた短い文書を生成する、文書要約に関する技術が提案されている。要約の種類の一つに、ユーザによって入力されたクエリを基に要約するｑｕｅｒｙ−ｂｉａｓｅｄな要約がある。Ｑｕｅｒｙ−ｂｉａｓｅｄな要約は、情報検索の際にクエリに対する検索結果の概要を把握するためにも用いることができる。ユーザが入力した検索語についてＱｕｅｒｙ−ｂｉａｓｅｄな要約を生成する従来技術として以下のような方法がある。

まず、文書について文書中の単語を全て単語に区切り、単語の全組み合わせによる要約候補を生成し、それぞれの要約候補について、元文書に対する忠実性及びクエリとの関連性から最適な要約を見つけ出す方法が知られている（非特許文献１）。

また、文書について、文書中の単語の文書頻度とクエリの文書頻度および文書中の単語と検索語の共起頻度に基づいて関連度を計算し、各単語と検索語との関連度に基づいて文重要度を計算し、重要度の高い順に選択して出現順に並べ替えて出力するテキスト要約装置が知られている（特許文献１）。

A.Berger, V.O.Mittal: Query-relevant summarization using FAQs, ACL '00 Proceedings of the 38th Annual Meeting on Association for Computational Linguistics.

特開２０１０−１２８６７７号公報

同じクエリで検索していても、ユーザによって求めている情報が異なる場合がある。例えば、同じ「旅行」というクエリでも、家族連れ向きの旅行を探しているユーザもいれば、安くてお得な旅行を探しているユーザもいる。このように、性別や年齢、家族構成といったユーザの属性や安い商品を買いたいといった趣向等によって、注目する部分や意思決定の際に重要視する部分がそれぞれ異なる。これを着眼点とする。しかし、上記の従来技術の手法では、要約生成の際に着眼点は考慮されないため、どんなユーザに対してもクエリが同じであれば同じ要約が生成される。そのため、ユーザは、検索結果の文書のタイトルや要約から判断して選び、その文書の中からさらに自分の着眼点に関する情報を探さなければならない上、その作業を複数回繰り返さなければならない。

また、上記の従来技術の手法において、着眼点をクエリとして入力することで、ある程度着眼点を考慮した要約を生成することはできるが、その場合、その単語が文書中にそのまま含まれていなければ、求めている情報を含んでいる文書でも検索結果から外れてしまう可能性がある。例えば、家族連れ向きの旅行を探しているユーザが「旅行」と「家族」の二つをクエリとして検索した場合、「お子様向き」「大人も子供も楽しめる」といったキーワードが含まれている文書はユーザが求めている情報を含んでいる可能性があるが、検索結果から除外されてしまうため、ユーザは着眼点のクエリを工夫しながら複数回検索を行わなければならない。さらに、着眼点が少なければ数回の検索で済むが、一般的には着眼点は数多く存在すると考えられるため、それらを全て網羅した検索を行うのは難しい。また、着眼点をクエリとして入力した場合、そもそものクエリの検索結果の中から着眼点に関する記述がある文書だけに絞った一覧がユーザに提示されることとなる。つまり、着眼点に関する明確な記述がない文書は一覧に表示されない可能性がある。しかし、着眼点にはあまり沿っていなくてもそれ以外の点がユーザにとって非常に魅力的な場合も考えられる。そのため、検索結果の中からそのような文書が取り除かれてしまうと、本当にユーザが欲しい情報を持つ文書があってもユーザはその存在さえ気づかない可能性がある。

本発明は、上記の事実を鑑みてなされたもので、クエリだけでなくユーザの着眼点に関する情報を含んだ要約を生成することができる文書要約装置、文書要約方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る文書要約装置は、複数の文で構成される入力文書から少なくとも１文を選択して当該入力文書に対応する要約を生成する文書要約装置であって、ユーザにより入力された検索語を受け付ける検索語入力手段と、ユーザにより入力された着眼点を示す単語を受け付ける着眼点入力手段と、形態素解析済みの入力文書を受け付ける文書入力手段と、前記入力文書から、要約候補としての単語列を複数生成する要約候補単語列生成手段と、前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算する忠実度計算手段と、前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算する関連度計算手段と、前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算する選好度計算手段と、前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する要約生成手段と、を含んで構成されている。

本発明に係る文書要約方法は、複数の文で構成される入力文書から少なくとも１文を選択して当該入力文書に対応する要約を生成する文書要約方法であって、ユーザにより入力された検索語を受け付け、ユーザにより入力された着眼点を示す単語を受け付け、形態素解析済みの入力文書を受け付け、前記入力文書から、要約候補としての単語列を複数生成し、前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算し、前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算し、前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算し、前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成することを特徴としている。

本発明に係る文書要約装置及び文書要約方法によれば、ユーザにより入力された検索語を受け付け、ユーザにより入力された着眼点を示す単語を受け付け、形態素解析済みの入力文書を受け付ける。

そして、前記入力文書から、要約候補としての単語列を複数生成する。前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算し、前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算し、前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算する。

そして、前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する。

このように、要約候補の各々について、入力文書に対する忠実度、検索語との関連度、及び着眼点をどれだけ表現しているかを示す選好度を算出し、要約候補を選択して、入力文書に対応する要約を生成することにより、クエリだけでなくユーザの着眼点に関する情報を含んだ要約を生成することができる。

本発明に係る選好度の計算は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算するようにすることができる。

本発明に係るプログラムは、コンピュータを、上記の文書要約装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の文書要約装置、文書要約方法、及びプログラムによれば、要約候補の各々について、入力文書に対する忠実度、検索語との関連度、及び着眼点をどれだけ表現しているかを示す選好度を算出し、要約候補を選択して、入力文書に対応する要約を生成することにより、クエリだけでなくユーザの着眼点に関する情報を含んだ要約を生成することができる、という効果が得られる。

本発明の第１の実施の形態に係る文書要約装置の構成を示す概略図である。本発明の第１の実施の形態に係る文書要約装置における文書要約処理ルーチンの内容を示すフローチャートである。要約候補の単語列を生成する方法を説明するための図である。本発明の第１の実施の形態に係る文書要約装置における文書要約処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。まず、第１の実施の形態について説明する。

＜文書要約装置の構成＞
本実施の第１の形態に係る文書要約装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、後述する文書要約処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）とを備えたコンピュータで構成され、機能的には次に示すように構成されている。文書要約装置は、図１に示すように、文書入力部１と、検索語入力部２と、着眼点入力部３と、要約候補について忠実性スコアを計算する忠実性計算部４と、要約候補について関連性スコアを計算する関連性計算部５と、要約候補について選好性スコアを計算する選好性計算部６と、単語間の類似性を判定するための単語間類似性判定データベース７と、入力文書に対応する要約を生成する要約生成部８と、生成された要約を出力する出力部９とを備えている。

文書入力部１は、既知のキーボード、マウス、記憶装置などの入力器により入力された、要約の対象となるテキスト（入力文書）及び要約の制限長を受け付ける。文書入力部１には、文に分割され、更に形態素解析されたテキストが入力として与えられる。

検索語入力部２は、入力器により入力された検索語（クエリ）を受け付ける。

着眼点入力部３は、入力器により入力されたユーザの着眼点を示す単語を受け付ける。

要約生成部８は、入力文書に基づいて、要約候補となる単語列を複数生成する要約候補単語列生成部８１と、各要約候補について計算された忠実性スコア、関連性スコア、及び選好性スコアに基づいて、要約候補を選択する要約候補選択部８２とを備えている。

忠実性計算部４は、各要約候補について、以下に説明する忠実性スコアを計算する。

まず、要約は、文書の代用として利用されるものであり、文書の概要を正しく表した内容である必要がある。そこで、入力文書に対して、生成した要約候補の単語列が元の文書の内容をどれだけ忠実に再現しているかを数値化したものを忠実性スコアとして計算する。

ここでは、要約候補の単語列が、入力文書中のｎ個の単語からｕｎｉｇｒａｍ確率に基づきｍ個の単語を選択することにより生成したものとし、多項分布に基づく確率値を入力文書に対する忠実性スコアとする。忠実性スコアは、要約候補の単語列が入力文書の内容をどれだけ忠実に再現しているかを表していれば、算出方法はこれに限るものではない。また、ここでは忠実性スコアの算出の際、単語列中の名詞のみを単語として選択することとするが、単語の選択方法はこれに限るものではなく、単語列中の名詞・動詞・形容詞などを単語として選択してもよい。

以下に、忠実性スコアの計算方法の一例を示す。まず、要約候補の単語列sを単語に分解し、そのうち名詞をs₁, s₂, …, s_mとする。入力文書中の全名詞数がnとすると、名詞s_iが入力文書中にk_i回出現する場合の確率をp_i= k_i/ nとし、この多項分布に基づく確率を以下の（１）式に従って計算し、忠実性スコアＦとする。

しかし、上記（１）式を用いた計算方法では、長さが短く、名詞の数が少ない要約候補の数値が高くなってしまうため、補正が必要となる。

ここでは、ゼロ頻度問題において用いられるラプラス法を用いて、長さに対するスコアの補正を行うこととする。補正方法はこれに限るものではなく、グッドチューリング推定法等の他の補正方法を用いてもよい。また、長さに対する補正を行わずに長さの短い要約候補の単語列のスコアが高くなるようにしてもかまわない。

以下にラプラス法を用いたスコア補正の計算方法の一例を示す。名詞数が最も多い単語列と最も少ない単語列の名詞数の差がdとすると、d種類の仮想の名詞があるとし、仮想の名詞それぞれが、入力文書中に１回ずつ出現しているとする。入力文書中の名詞の種類がＶ個であるとすると、名詞s_iが入力文書中にk_i回出現する場合の確率を、

とする。また、単語列の名詞数がm_iとし、名詞数が最も多い単語列の名詞数をm_maxとすると、( m_max - m_i) 個の仮想の名詞があるとし、その仮想の名詞が入力文書中に１回出現する場合の確率を

とする。忠実性計算部４は、上記（１）式において、ｐ_iの代わりに、上記のｐ_i´、ｐ_d´で表わされる確率を用いて、多項分布に基づく確率を計算し、忠実性スコアＦとする。これによって、単語列の長さによる忠実性スコアの差が補正される。

関連性計算部５は、各要約候補について、以下に説明する関連性スコアを計算する。

文書中に、与えられたクエリと関連を持つ部分と持たない部分がある場合、生成された要約がクエリと関連を持つ部分をどれだけ含んでいるかを示すスコアを算出する必要がある。これをクエリとの関連性スコアとする。

ここでは、関連性計算部５が、ｍ個のクエリ単語がｎ個の単語からなる要約候補の単語列の中に出現する回数の多項分布に基づく確率値を、関連性スコアとして計算する。関連性スコアは、要約がクエリと関連を持つ部分をどれだけ含んでいるかを表していれば、これに限るものではない。また、ここでは、関連性スコアの算出の際、忠実性スコアと同様に要約候補の単語列の中から名詞のみを単語として選択することとするが、単語の選択方法はこれに限るものではなく、単語列中の名詞・動詞・形容詞等を選択してもよい。

以下に、関連性の計算方法の一例を示す。要約sの全名詞数をnとする。与えられたクエリq₁, q₂, …, q_mについて、q_iが要約候補中にk_i回出現する場合の確率をp_i=k_i/nとし、この多項分布を関連性スコアＲとして、以下の（２）式に従って算出する。

選好性計算部６は、各要約候補について、以下に説明する選好性スコアを計算する。

選好性とは、ユーザの性別や年齢、家族構成といった属性や安い商品を買いたいといったような趣向等によって、物事を判断する際に注目する点や重要視する点を着眼点として与えた際、生成された要約がユーザの着眼点をどれだけ表現しているかを数値化したものである。

要約候補の単語列のそれぞれの単語と着眼点の単語について、単語間類似性判定データベース７を参照して単語間の類似度を求める。ここでは、単語間類似性判定データベース７として概念ベースを用いる。概念ベースとは、コーパスにおける単語同士の共起頻度を記録した共起行列に対し、特異値分解を行い、単語を次元数の縮退したベクトルで表現した概念ベクトルのデータベースであり、非特許文献（別所克人、古瀬蔵、片岡良治、「単語と意味属性との共起に基づく概念ベクトル生成法」、人工知能学会全国大会２００６.）に記載のものと同様のものを用いればよい。単語間の類似性は、概念ベースを用いる方法に限らず、シソーラスなどを用いても構わない。

以下に、選好性スコアの計算方法の一例として、単語の概念ベースを用いた方法を示す。着眼点の単語a₁, a₂, …, a_nとし、それぞれの概念ベクトルをv₁, v₂, …, v_nとする。同様に、要約候補に含まれる名詞s₁, s₂, …, s_mについて、それぞれの概念ベクトルをV₁, V₂, …, V_mとした場合、着眼点の単語a_iと名詞s_jの距離を単語間の類似度t_ijとする。ここで、単語間の類似度を、単語の概念ベクトルのコサイン距離とすると、単語間の類似度は、

となる。なお、類似度はコサイン距離でなくてもかまわない。着眼点の単語と要約候補の名詞との全ての組み合わせについて単語間の類似度を計算したら、そこから選好性スコアを求める。ここでは、単語間の類似度の中で、各着眼点について、値が高い順から２つ抜き出す。選好性計算部６は、これをｔ_ij1,ｔ_ij2とし、その平均を求め、以下の（３）式に従って、全着眼点における当該平均の積を要約の選好性スコアＰとして計算する。

選好性スコアＰは、類似度の高い順から２つの平均の積に限るものではなく、類似度すべての平均の積など、ユーザの着眼点をどれだけ表現しているかを表していれば計算方法は問わない。

要約候補単語列生成部８１は、入力文書に基づいて、要約候補となる単語列を複数生成する。生成方法の一例として、入力文書を一文ずつに区切り、文字数が要約の上限（制限長）を超えないような文又は単語の組み合わせを生成し、それを要約候補の単語列とする。

要約候補選択部８２は、各要約候補について計算された忠実性スコア、関連性スコア、及び選好性スコアに基づいて、要約候補の単語列の要約スコアを計算する。ここでは、要約スコアｓ^*は、忠実性スコアと関連性スコアと選好性スコアを掛け合わせることにより計算される。

要約候補選択部８２は、以下の（４）式に示すように、要約候補の単語列のうち、最も要約スコアが高いものを、最適な要約として選択する。

なお、要約スコアは、忠実性スコアと関連性スコアと選好性スコアに基づいて計算されていれば算出方法は問わない。よって、どこかのスコアに重みを付けて計算をする方法や、３つのスコアの平均をする方法などでもかまわない。

要約生成部８が、最適な要約として選択した要約候補の単語列を出力部９に渡し、出力部９により要約がユーザに出力される。

＜文書要約装置の作用＞
次に、本実施の形態に係る文書要約装置の作用について説明する。

文書要約装置に、形態素解析済みの要約対象のテキスト（入力文書）と、要約の制限長と、クエリと、ユーザの着眼点を示す単語とが入力されると、文書要約装置において、図２に示す文書要約処理ルーチンが実行される。

まず、ステップ１００において、入力された形態素解析済みの要約対象のテキスト（入力文書）と、要約の制限長とを受け付け、ステップ１０２において、入力されたクエリと着眼点を示す単語とを受け付ける。

そして、ステップ１０４において、入力文書に基づいて、要約の制限長を超えない範囲で、複数の要約候補の単語列を生成する。次のステップ１０６では、上記ステップ１０４で生成された要約候補の単語列のうちの何れか１つを処理対象として設定する。

ステップ１０８において、入力文書と、処理対象の要約候補の単語列とに基づいて、処理対象の要約候補の忠実性スコアを算出する。そして、ステップ１１０において、処理対象の要約候補の単語列と、入力されたクエリとに基づいて、上記（２）式に従って、処理対象の要約候補の関連性スコアを算出する。

次のステップ１１２では、処理対象の要約候補の単語列と、入力された着眼点を示す単語とに基づいて、全ての単語の組み合わせの単語間の類似度を計算し、上記（３）式に従って、処理対象の要約候補の選好性スコアを算出する。

そして、ステップ１１４において、全ての要約候補の単語列について、上記ステップ１０６〜１１２の処理を実行したか否かを判定し、上記ステップ１０６〜１１２の処理が実行されていない要約候補の単語列が存在する場合には、上記ステップ１０６へ戻り、当該要約候補の単語列を、処理対象として設定する。

一方、上記ステップ１１４で、全ての要約候補の単語列について、上記ステップ１０６〜１１２の処理を実行したと判定された場合には、ステップ１１６において、上記ステップ１０８〜１１２の算出結果に基づいて、各要約候補の単語列に対して、要約スコアを算出し、要約スコアが最も高い要約候補の単語列を選択する。

そして、ステップ１１８において、上記ステップ１１６で選択された要約候補の単語列を、入力文書に対応する要約として出力して、文書要約処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係る文書要約装置によれば、クエリとは別に着眼点を入力し、忠実性スコア、関連性スコアの計算に加えて選好性スコアの計算を行うことで、ユーザ属性や趣向等による着眼点を考慮して文書要約を生成することができ、ユーザが効率的に情報を見つけることができるようになる。

例えば、ウェブ上の文書において、文書に対する忠実性、クエリとの関連性に加え、ユーザの着眼点による選好性を考慮することで、ユーザの着眼点に関する情報を含んだ、ｑｕｅｒｙ−ｂｉａｓｅｄな要約を生成することができる。文書中の単語について、着眼点との類似度を計算することによって、入力した単語がそのまま含まれていなくても、近い意味を持つ単語が含まれている場合は、その部分の重みを高くし、要約に反映することができる。

例として、初期のクエリが「観光」、着眼点が「子供」である場合の要約生成について考える。従来技術のように「観光」、「子供」の２つをクエリとし、すべてのクエリを含むような要約を作る場合、いずれかのクエリを含むような要約を作る場合、そして本発明の技術を利用してクエリと着眼点を分けて入力して要約を作る場合を比較する。

まず、すべてのクエリを含むような要約を作る場合、つまり、「観光」「子供」の２つのクエリの両方が含まれている要約を生成する場合について考える。対象となる文書が「観光」（初期クエリ）は含んでいるが「子供」（着眼点）に関する内容が書かれていない場合、「観光」「子供」の２つのクエリの両方が含まれている要約を生成しようとすると、文書には子供に関する内容がないため、２つのクエリについてｑｕｅｒｙ−ｂｉａｓｅｄな要約は生成することができない。

次に、いずれかのクエリを含むような要約を作る場合、つまり、「観光」「子供」の２つのクエリのどちらか一方が含まれている要約を生成する場合について考える。対象となる文書が「観光」（初期クエリ）も「子供」（着眼点）も含んでいる場合、観光に関しての記述がなく、子供に関する記述のみで構成されている要約が生成される可能性がある。しかし、このような要約では、元の文書が観光について述べられている文書なのかどうかがわからない。

このように、従来技術を利用して着眼点もクエリとして入力した場合、すべてのクエリを含む要約が生成できない場合や、着眼点を表すクエリのみしか含まれず、従来のクエリを含まない要約が生成されてしまう場合があった。しかし、本発明の技術を利用した場合、つまり、「観光」をクエリとし、「子供」を着眼点とした場合、どのような文書に対してもｑｕｅｒｙ−ｂｉａｓｅｄな要約が生成できる。対象となる文書が「観光」（初期クエリ）は含んでいるが、「子供」（着眼点）に関する内容が書かれていない場合でも、クエリとして入力されているのは「観光」のみであるので、観光について関連性を持ったｑｕｅｒｙ−ｂｉａｓｅｄな要約が生成可能である。また、対象となる文書が「観光」（初期クエリ）も「子供」（着眼点）も含んでいる場合、「観光」は必ず含んだｑｕｅｒｙ−ｂｉａｓｅｄな要約で、さらに子供に関する記述の部分に重みがつけられ、要約に含まれる可能性が高くなる。よって、着眼点に関する内容を含んだｑｕｅｒｙ−ｂｉａｓｅｄな要約が生成できる。

この要約を検索結果の概要文として表示することで、ユーザは自分が重要視している点が検索結果の文書に含まれているかどうかを短い要約を読んで判断することができる。そのため、ユーザが文書を選択する際により有力な補助となる情報を提示することができ、ユーザの効率的な情報検索につながると考えられる。

次に、第２の実施の形態について説明する。なお、第２の実施の形態に係る文書要約装置の構成は、第１の実施の形態と同様であるため、同一符号を付して説明を省略する。

第２の実施の形態では、要約候補の単語列の生成方法が、第１の実施の形態と異なっている。

第２の実施の形態では、要約候補単語列生成部８１が、あらかじめ要約候補となる単語列を全て生成せず、要約スコアを計算しながら、要約候補の単語列を生成していく。図３に示すように、要約候補単語列生成部８１が、はじめに入力文書を一文ずつに区切り、それぞれの文を、要約候補の単語列とみなす。要約候補選択部８２は、忠実性計算部４、関連性計算部５、及び選好性計算部６によって計算された忠実性スコア、関連性スコア、及び選好性スコアから、各要約候補の単語列の要約スコアを計算し、最もスコアが高かった要約候補の単語列（文）を選択する。要約候補単語列生成部８１は、選択された要約候補の単語列（文）に、それ以外の文を１つ加えた組み合わせを、新たな要約候補の単語列として生成する。要約候補選択部８２は、同様に、新たな要約候補の単語列について要約スコアを算出する。要約の制限長（文字数の上限）を満たす範囲で、要約候補単語列生成部８１による新たな要約候補の単語列の生成、及び要約候補選択部８２による要約スコアの算出を繰り返し、最適な要約候補を、入力文書に対応する要約とする。

次に、第２の実施の形態に係る文書要約処理ルーチンについて図４を用いて説明する。なお、第１の実施の形態と同様の処理となる部分については、同一符号を付して詳細な説明を省略する。

まず、ステップ１００において、入力文書と、要約の制限長とを受け付け、ステップ１０２において、入力されたクエリと着眼点を示す単語とを受け付ける。

そして、ステップ２００において、入力文書の各文を、要約候補の単語列とする。次のステップ１０６では、上記ステップ２００又は後述するステップ２０２で生成された要約候補の単語列のうちの何れか１つを処理対象として設定する。

ステップ１０８において、入力文書と、処理対象の要約候補の単語列とに基づいて、処理対象の要約候補の忠実性スコアを算出する。そして、ステップ１１０において、処理対象の要約候補の単語列と、入力されたクエリとに基づいて、処理対象の要約候補の関連性スコアを算出する。

次のステップ１１２では、処理対象の要約候補の単語列と、入力された着眼点を示す単語とに基づいて、全ての単語の組み合わせの単語間の類似度を計算し、処理対象の要約候補の選好性スコアを算出する。

一方、上記ステップ１１４で、全ての要約候補の単語列について、上記ステップ１０６〜１１２の処理を実行したと判定された場合には、ステップ２０２において、上記ステップ１０８〜１１２の算出結果に基づいて、各要約候補の単語列に対して、要約スコアを算出し、要約スコアが最も高い要約候補の単語列を選択する。そして、選択した要約候補の単語列と、当該要約候補の単語列に含まれない入力文書中の各文とを組み合わせて、新たな要約候補の単語列を生成する。このとき、生成された新たな要約候補の単語列のうち、入力された要約の制限長を超えたものについては、要約候補から除外する。

そして、ステップ２０６において、上記ステップ２０２で生成された全ての要約候補の単語列が、要約の制限長を超えたか否かを判定する。生成された新たな要約候補の単語列のうち、要約の制限長を超えないものがある場合には、上記ステップ１０６へ戻るが、一方、生成された全ての要約候補の単語列が、要約の制限長を超える場合には、ステップ２０６へ移行する。

ステップ２０６では、上記ステップ２０２で前回生成された要約候補の単語列の中から、要約スコアが最も高い要約候補の単語列を選択する。

そして、ステップ１１８において、上記ステップ２０６で選択された要約候補の単語列を、入力文書に対応する要約として出力して、文書要約処理ルーチンを終了する。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、１つの文書が入力される場合を例に説明したが、これに限定されるものではなく、複数の文書が入力されてもよい。この場合には、複数の文書から、要約候補の単語列を生成するようにすればよい。

また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。

また、上述の文書要約装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

＜実施例＞
以下に、実施例を示す。あるユーザは京都の観光に関する情報を求めており、中でも家族連れや親子連れにも適しているかどうかを重要視しているとする。クエリは「京都」「観光」の２つとし、着眼点を「家族」「親子」の２つとして、下記の本文から本発明を用いて７０文字以上１００文字以内の要約を生成する。

本文：「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。京都ならではのお菓子や食べ物もいろいろ美味しかったです。」

まず、要約候補の単語列を生成する。ここでは、７０〜１００文字かつクエリを少なくとも一つ以上含むような文の組み合わせを要約候補の単語列とした。

F：忠実性スコア、R：関連性スコア、P：選好性スコア、S_FR：忠実性スコア及び関連性スコアに基づく要約スコア、S_FRP：忠実性スコア、関連性スコア、及び選好性スコアに基づく要約スコアとし、それぞれの要約候補の単語列における各種スコアの算出結果を以下に示す。

要約候補の単語列（１）：「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。」

F=1.58232915383865e-15, R=0.00888888888888889, P=0.0681549171695407
S_FR =1.40651480341214e-17, S_FRP=9.5860899924287e-19

要約候補の単語列（２）：「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。」

F=1.31036633052264e-15, R=0.0330578512396694, P=0.0078330336676984
S_FR =4.33178952238888e-17, S_FRP=3.39310531702552e-19

要約候補の単語列（３）：「お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。」

F=1.23465627587022e-13, R=0.0, P=0.0681549171695407,
S_FR =0.0, S_FRP =0.0

要約候補の単語列（４）：「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。」

F=2.22238129656639e-12, R=0.0246913580246914, P=0.0681549171695407,
S_FR =5.48736122608985e-14, S_FRP=3.73990649843503e-15

要約候補の単語列（５）：「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。」

F=1.22693967414603e-12, R=0.0612244897959184, P=0.00859351429278517
S_FR =7.51187555599609e-14, S_FRP=6.45534099560759e-16

要約候補の単語列（６）：「先日、京都観光にいってきました。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。食べ物もいろいろ美味しかったです。」

F=3.95582288459663e-16, R=0.0118343195266272, P=0.0681549171695407,
S_FR =4.68144720070608e-18, S_FRP=3.19063646197701e-19

要約候補の単語列（７）：「先日、京都観光にいってきました。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。食べ物もいろいろ美味しかったです。」

F=3.27591582630659e-16, R=0.0493827160493827, P=0.00269936153606952,
S_FR =1.61773621052177e-17, S_FRP=4.36685490218934e-20

要約候補の単語列（８）：「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。食べ物もいろいろ美味しかったです。」

F=3.16465830767731e-15, R=0.0078125, P=0.0681549171695407,
S_FR =2.4723893028729e-17, S_FRP=1.68505488148161e-18

要約候補の単語列（９）：「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。食べ物もいろいろ美味しかったです。」

F=2.62073266104527e-15, R=0.0277777777777778, P=0.0078330336676984
S_FR =7.27981294734797e-17, S_FRP=5.70230199111234e-19

上記の要約候補の単語列（１）〜（９）の中から、最も要約スコアが高いものが最適な要約となる。よって、忠実性スコア及び関連性スコアに基づく要約スコアから生成した要約としては、

が最適な要約となる。また、忠実性スコア、関連性スコア、及び選好性スコアに基づく要約スコアから生成した要約としては、

が最適な要約となる。選好性を考慮することによって、「お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。」という、ユーザの着眼点に合った内容が要約に含まれている。また、「お子様」という単語は、クエリにも着眼点にも含まれていないが、選好性スコアが高くなっており、着眼点に関する情報が単語の意味から抽出することができていることがわかる。

１文書入力部
２検索語入力部
３着眼点入力部
４忠実性計算部
５関連性計算部
６選好性計算部
７単語間類似性判定データベース
８要約生成部
９出力部
８１要約候補単語列生成部
８２要約候補選択部

Claims

複数の文で構成される入力文書から少なくとも１文を選択して当該入力文書に対応する要約を生成する文書要約装置であって、
ユーザにより入力された検索語を受け付ける検索語入力手段と、
ユーザにより入力された着眼点を示す単語を受け付ける着眼点入力手段と、
形態素解析済みの入力文書を受け付ける文書入力手段と、
前記入力文書から、要約候補としての単語列を複数生成する要約候補単語列生成手段と、
前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算する忠実度計算手段と、
前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算する関連度計算手段と、
前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算する選好度計算手段と、
前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する要約生成手段と、
を含む文書要約装置。
前記選好度計算手段は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算する請求項１記載の文書要約装置。
複数の文で構成される入力文書から少なくとも１文を選択して当該入力文書に対応する要約を生成する文書要約方法であって、
ユーザにより入力された検索語を受け付け、
ユーザにより入力された着眼点を示す単語を受け付け、
形態素解析済みの入力文書を受け付け、
前記入力文書から、要約候補としての単語列を複数生成し、
前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算し、
前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算し、
前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算し、
前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する
ことを特徴とする文書要約方法。
前記選好度の計算は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算する請求項３記載の文書要約方法。
コンピュータを、請求項１又は２記載の文書要約装置の各手段として機能させるためのプログラム。