JP5530393B2 - 文書要約装置、文書要約方法、及びプログラム - Google Patents

文書要約装置、文書要約方法、及びプログラム Download PDF

Info

Publication number
JP5530393B2
JP5530393B2 JP2011087411A JP2011087411A JP5530393B2 JP 5530393 B2 JP5530393 B2 JP 5530393B2 JP 2011087411 A JP2011087411 A JP 2011087411A JP 2011087411 A JP2011087411 A JP 2011087411A JP 5530393 B2 JP5530393 B2 JP 5530393B2
Authority
JP
Japan
Prior art keywords
word
document
input
candidate
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011087411A
Other languages
English (en)
Other versions
JP2012221293A (ja
Inventor
陽子 田中
伸章 廣嶋
克人 別所
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011087411A priority Critical patent/JP5530393B2/ja
Publication of JP2012221293A publication Critical patent/JP2012221293A/ja
Application granted granted Critical
Publication of JP5530393B2 publication Critical patent/JP5530393B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書要約装置、文書要約方法、及びプログラムに係り、特に、複数の文から構成されるテキスト(入力文書)を要約する文書要約装置、文書要約方法、及びプログラムに関する。
従来より、文書の要点を簡潔にまとめた短い文書を生成する、文書要約に関する技術が提案されている。要約の種類の一つに、ユーザによって入力されたクエリを基に要約するquery−biasedな要約がある。Query−biasedな要約は、情報検索の際にクエリに対する検索結果の概要を把握するためにも用いることができる。ユーザが入力した検索語についてQuery−biasedな要約を生成する従来技術として以下のような方法がある。
まず、文書について文書中の単語を全て単語に区切り、単語の全組み合わせによる要約候補を生成し、それぞれの要約候補について、元文書に対する忠実性及びクエリとの関連性から最適な要約を見つけ出す方法が知られている(非特許文献1)。
また、文書について、文書中の単語の文書頻度とクエリの文書頻度および文書中の単語と検索語の共起頻度に基づいて関連度を計算し、各単語と検索語との関連度に基づいて文重要度を計算し、重要度の高い順に選択して出現順に並べ替えて出力するテキスト要約装置が知られている(特許文献1)。
A.Berger, V.O.Mittal: Query-relevant summarization using FAQs, ACL '00 Proceedings of the 38th Annual Meeting on Association for Computational Linguistics.
特開2010−128677号公報
同じクエリで検索していても、ユーザによって求めている情報が異なる場合がある。例えば、同じ「旅行」というクエリでも、家族連れ向きの旅行を探しているユーザもいれば、安くてお得な旅行を探しているユーザもいる。このように、性別や年齢、家族構成といったユーザの属性や安い商品を買いたいといった趣向等によって、注目する部分や意思決定の際に重要視する部分がそれぞれ異なる。これを着眼点とする。しかし、上記の従来技術の手法では、要約生成の際に着眼点は考慮されないため、どんなユーザに対してもクエリが同じであれば同じ要約が生成される。そのため、ユーザは、検索結果の文書のタイトルや要約から判断して選び、その文書の中からさらに自分の着眼点に関する情報を探さなければならない上、その作業を複数回繰り返さなければならない。
また、上記の従来技術の手法において、着眼点をクエリとして入力することで、ある程度着眼点を考慮した要約を生成することはできるが、その場合、その単語が文書中にそのまま含まれていなければ、求めている情報を含んでいる文書でも検索結果から外れてしまう可能性がある。例えば、家族連れ向きの旅行を探しているユーザが「旅行」と「家族」の二つをクエリとして検索した場合、「お子様向き」「大人も子供も楽しめる」といったキーワードが含まれている文書はユーザが求めている情報を含んでいる可能性があるが、検索結果から除外されてしまうため、ユーザは着眼点のクエリを工夫しながら複数回検索を行わなければならない。さらに、着眼点が少なければ数回の検索で済むが、一般的には着眼点は数多く存在すると考えられるため、それらを全て網羅した検索を行うのは難しい。また、着眼点をクエリとして入力した場合、そもそものクエリの検索結果の中から着眼点に関する記述がある文書だけに絞った一覧がユーザに提示されることとなる。つまり、着眼点に関する明確な記述がない文書は一覧に表示されない可能性がある。しかし、着眼点にはあまり沿っていなくてもそれ以外の点がユーザにとって非常に魅力的な場合も考えられる。そのため、検索結果の中からそのような文書が取り除かれてしまうと、本当にユーザが欲しい情報を持つ文書があってもユーザはその存在さえ気づかない可能性がある。
本発明は、上記の事実を鑑みてなされたもので、クエリだけでなくユーザの着眼点に関する情報を含んだ要約を生成することができる文書要約装置、文書要約方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る文書要約装置は、複数の文で構成される入力文書から少なくとも1文を選択して当該入力文書に対応する要約を生成する文書要約装置であって、ユーザにより入力された検索語を受け付ける検索語入力手段と、ユーザにより入力された着眼点を示す単語を受け付ける着眼点入力手段と、形態素解析済みの入力文書を受け付ける文書入力手段と、前記入力文書から、要約候補としての単語列を複数生成する要約候補単語列生成手段と、前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算する忠実度計算手段と、前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算する関連度計算手段と、前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算する選好度計算手段と、前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する要約生成手段と、を含んで構成されている。
本発明に係る文書要約方法は、複数の文で構成される入力文書から少なくとも1文を選択して当該入力文書に対応する要約を生成する文書要約方法であって、ユーザにより入力された検索語を受け付け、ユーザにより入力された着眼点を示す単語を受け付け、形態素解析済みの入力文書を受け付け、前記入力文書から、要約候補としての単語列を複数生成し、前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算し、前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算し、前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算し、前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成することを特徴としている。
本発明に係る文書要約装置及び文書要約方法によれば、ユーザにより入力された検索語を受け付け、ユーザにより入力された着眼点を示す単語を受け付け、形態素解析済みの入力文書を受け付ける。
そして、前記入力文書から、要約候補としての単語列を複数生成する。前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算し、前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算し、前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算する。
そして、前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する。
このように、要約候補の各々について、入力文書に対する忠実度、検索語との関連度、及び着眼点をどれだけ表現しているかを示す選好度を算出し、要約候補を選択して、入力文書に対応する要約を生成することにより、クエリだけでなくユーザの着眼点に関する情報を含んだ要約を生成することができる。
本発明に係る選好度の計算は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算するようにすることができる。
本発明に係るプログラムは、コンピュータを、上記の文書要約装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の文書要約装置、文書要約方法、及びプログラムによれば、要約候補の各々について、入力文書に対する忠実度、検索語との関連度、及び着眼点をどれだけ表現しているかを示す選好度を算出し、要約候補を選択して、入力文書に対応する要約を生成することにより、クエリだけでなくユーザの着眼点に関する情報を含んだ要約を生成することができる、という効果が得られる。
本発明の第1の実施の形態に係る文書要約装置の構成を示す概略図である。 本発明の第1の実施の形態に係る文書要約装置における文書要約処理ルーチンの内容を示すフローチャートである。 要約候補の単語列を生成する方法を説明するための図である。 本発明の第1の実施の形態に係る文書要約装置における文書要約処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。まず、第1の実施の形態について説明する。
<文書要約装置の構成>
本実施の第1の形態に係る文書要約装置は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書要約処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。文書要約装置は、図1に示すように、文書入力部1と、検索語入力部2と、着眼点入力部3と、要約候補について忠実性スコアを計算する忠実性計算部4と、要約候補について関連性スコアを計算する関連性計算部5と、要約候補について選好性スコアを計算する選好性計算部6と、単語間の類似性を判定するための単語間類似性判定データベース7と、入力文書に対応する要約を生成する要約生成部8と、生成された要約を出力する出力部9とを備えている。
文書入力部1は、既知のキーボード、マウス、記憶装置などの入力器により入力された、要約の対象となるテキスト(入力文書)及び要約の制限長を受け付ける。文書入力部1には、文に分割され、更に形態素解析されたテキストが入力として与えられる。
検索語入力部2は、入力器により入力された検索語(クエリ)を受け付ける。
着眼点入力部3は、入力器により入力されたユーザの着眼点を示す単語を受け付ける。
要約生成部8は、入力文書に基づいて、要約候補となる単語列を複数生成する要約候補単語列生成部81と、各要約候補について計算された忠実性スコア、関連性スコア、及び選好性スコアに基づいて、要約候補を選択する要約候補選択部82とを備えている。
忠実性計算部4は、各要約候補について、以下に説明する忠実性スコアを計算する。
まず、要約は、文書の代用として利用されるものであり、文書の概要を正しく表した内容である必要がある。そこで、入力文書に対して、生成した要約候補の単語列が元の文書の内容をどれだけ忠実に再現しているかを数値化したものを忠実性スコアとして計算する。
ここでは、要約候補の単語列が、入力文書中のn個の単語からunigram確率に基づきm個の単語を選択することにより生成したものとし、多項分布に基づく確率値を入力文書に対する忠実性スコアとする。忠実性スコアは、要約候補の単語列が入力文書の内容をどれだけ忠実に再現しているかを表していれば、算出方法はこれに限るものではない。また、ここでは忠実性スコアの算出の際、単語列中の名詞のみを単語として選択することとするが、単語の選択方法はこれに限るものではなく、単語列中の名詞・動詞・形容詞などを単語として選択してもよい。
以下に、忠実性スコアの計算方法の一例を示す。まず、要約候補の単語列sを単語に分解し、そのうち名詞をs1, s2, …, smとする。入力文書中の全名詞数がnとすると、名詞siが入力文書中にki回出現する場合の確率をpi = ki / nとし、この多項分布に基づく確率を以下の(1)式に従って計算し、忠実性スコアFとする。
Figure 0005530393
しかし、上記(1)式を用いた計算方法では、長さが短く、名詞の数が少ない要約候補の数値が高くなってしまうため、補正が必要となる。
ここでは、ゼロ頻度問題において用いられるラプラス法を用いて、長さに対するスコアの補正を行うこととする。補正方法はこれに限るものではなく、グッドチューリング推定法等の他の補正方法を用いてもよい。また、長さに対する補正を行わずに長さの短い要約候補の単語列のスコアが高くなるようにしてもかまわない。
以下にラプラス法を用いたスコア補正の計算方法の一例を示す。名詞数が最も多い単語列と最も少ない単語列の名詞数の差がdとすると、d種類の仮想の名詞があるとし、仮想の名詞それぞれが、入力文書中に1回ずつ出現しているとする。入力文書中の名詞の種類がV個であるとすると、名詞siが入力文書中にki回出現する場合の確率を、
Figure 0005530393
とする。また、単語列の名詞数がmiとし、名詞数が最も多い単語列の名詞数をmmaxとすると、( mmax - mi ) 個の仮想の名詞があるとし、その仮想の名詞が入力文書中に1回出現する場合の確率を
Figure 0005530393
とする。忠実性計算部4は、上記(1)式において、piの代わりに、上記のpi´、pd´で表わされる確率を用いて、多項分布に基づく確率を計算し、忠実性スコアFとする。これによって、単語列の長さによる忠実性スコアの差が補正される。
関連性計算部5は、各要約候補について、以下に説明する関連性スコアを計算する。
文書中に、与えられたクエリと関連を持つ部分と持たない部分がある場合、生成された要約がクエリと関連を持つ部分をどれだけ含んでいるかを示すスコアを算出する必要がある。これをクエリとの関連性スコアとする。
ここでは、関連性計算部5が、m個のクエリ単語がn個の単語からなる要約候補の単語列の中に出現する回数の多項分布に基づく確率値を、関連性スコアとして計算する。関連性スコアは、要約がクエリと関連を持つ部分をどれだけ含んでいるかを表していれば、これに限るものではない。また、ここでは、関連性スコアの算出の際、忠実性スコアと同様に要約候補の単語列の中から名詞のみを単語として選択することとするが、単語の選択方法はこれに限るものではなく、単語列中の名詞・動詞・形容詞等を選択してもよい。
以下に、関連性の計算方法の一例を示す。要約sの全名詞数をnとする。与えられたクエリq1, q2, …, qmについて、qiが要約候補中にki回出現する場合の確率をpi=ki/nとし、この多項分布を関連性スコアRとして、以下の(2)式に従って算出する。
Figure 0005530393
選好性計算部6は、各要約候補について、以下に説明する選好性スコアを計算する。
選好性とは、ユーザの性別や年齢、家族構成といった属性や安い商品を買いたいといったような趣向等によって、物事を判断する際に注目する点や重要視する点を着眼点として与えた際、生成された要約がユーザの着眼点をどれだけ表現しているかを数値化したものである。
要約候補の単語列のそれぞれの単語と着眼点の単語について、単語間類似性判定データベース7を参照して単語間の類似度を求める。ここでは、単語間類似性判定データベース7として概念ベースを用いる。概念ベースとは、コーパスにおける単語同士の共起頻度を記録した共起行列に対し、特異値分解を行い、単語を次元数の縮退したベクトルで表現した概念ベクトルのデータベースであり、非特許文献(別所克人、古瀬蔵、片岡良治、「単語と意味属性との共起に基づく概念ベクトル生成法」、人工知能学会全国大会 2006.)に記載のものと同様のものを用いればよい。単語間の類似性は、概念ベースを用いる方法に限らず、シソーラスなどを用いても構わない。
以下に、選好性スコアの計算方法の一例として、単語の概念ベースを用いた方法を示す。着眼点の単語a1, a2, …, anとし、それぞれの概念ベクトルをv1, v2, …, vnとする。同様に、要約候補に含まれる名詞s1, s2, …, smについて、それぞれの概念ベクトルをV1, V2, …, Vmとした場合、着眼点の単語aiと名詞sjの距離を単語間の類似度tijとする。ここで、単語間の類似度を、単語の概念ベクトルのコサイン距離とすると、単語間の類似度は、
Figure 0005530393
となる。なお、類似度はコサイン距離でなくてもかまわない。着眼点の単語と要約候補の名詞との全ての組み合わせについて単語間の類似度を計算したら、そこから選好性スコアを求める。ここでは、単語間の類似度の中で、各着眼点について、値が高い順から2つ抜き出す。選好性計算部6は、これをtij1,tij2とし、その平均を求め、以下の(3)式に従って、全着眼点における当該平均の積を要約の選好性スコアPとして計算する。
Figure 0005530393
選好性スコアPは、類似度の高い順から2つの平均の積に限るものではなく、類似度すべての平均の積など、ユーザの着眼点をどれだけ表現しているかを表していれば計算方法は問わない。
要約候補単語列生成部81は、入力文書に基づいて、要約候補となる単語列を複数生成する。生成方法の一例として、入力文書を一文ずつに区切り、文字数が要約の上限(制限長)を超えないような文又は単語の組み合わせを生成し、それを要約候補の単語列とする。
要約候補選択部82は、各要約候補について計算された忠実性スコア、関連性スコア、及び選好性スコアに基づいて、要約候補の単語列の要約スコアを計算する。ここでは、要約スコアs*は、忠実性スコアと関連性スコアと選好性スコアを掛け合わせることにより計算される。
要約候補選択部82は、以下の(4)式に示すように、要約候補の単語列のうち、最も要約スコアが高いものを、最適な要約として選択する。
Figure 0005530393
なお、要約スコアは、忠実性スコアと関連性スコアと選好性スコアに基づいて計算されていれば算出方法は問わない。よって、どこかのスコアに重みを付けて計算をする方法や、3つのスコアの平均をする方法などでもかまわない。
要約生成部8が、最適な要約として選択した要約候補の単語列を出力部9に渡し、出力部9により要約がユーザに出力される。
<文書要約装置の作用>
次に、本実施の形態に係る文書要約装置の作用について説明する。
文書要約装置に、形態素解析済みの要約対象のテキスト(入力文書)と、要約の制限長と、クエリと、ユーザの着眼点を示す単語とが入力されると、文書要約装置において、図2に示す文書要約処理ルーチンが実行される。
まず、ステップ100において、入力された形態素解析済みの要約対象のテキスト(入力文書)と、要約の制限長とを受け付け、ステップ102において、入力されたクエリと着眼点を示す単語とを受け付ける。
そして、ステップ104において、入力文書に基づいて、要約の制限長を超えない範囲で、複数の要約候補の単語列を生成する。次のステップ106では、上記ステップ104で生成された要約候補の単語列のうちの何れか1つを処理対象として設定する。
ステップ108において、入力文書と、処理対象の要約候補の単語列とに基づいて、処理対象の要約候補の忠実性スコアを算出する。そして、ステップ110において、処理対象の要約候補の単語列と、入力されたクエリとに基づいて、上記(2)式に従って、処理対象の要約候補の関連性スコアを算出する。
次のステップ112では、処理対象の要約候補の単語列と、入力された着眼点を示す単語とに基づいて、全ての単語の組み合わせの単語間の類似度を計算し、上記(3)式に従って、処理対象の要約候補の選好性スコアを算出する。
そして、ステップ114において、全ての要約候補の単語列について、上記ステップ106〜112の処理を実行したか否かを判定し、上記ステップ106〜112の処理が実行されていない要約候補の単語列が存在する場合には、上記ステップ106へ戻り、当該要約候補の単語列を、処理対象として設定する。
一方、上記ステップ114で、全ての要約候補の単語列について、上記ステップ106〜112の処理を実行したと判定された場合には、ステップ116において、上記ステップ108〜112の算出結果に基づいて、各要約候補の単語列に対して、要約スコアを算出し、要約スコアが最も高い要約候補の単語列を選択する。
そして、ステップ118において、上記ステップ116で選択された要約候補の単語列を、入力文書に対応する要約として出力して、文書要約処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る文書要約装置によれば、クエリとは別に着眼点を入力し、忠実性スコア、関連性スコアの計算に加えて選好性スコアの計算を行うことで、ユーザ属性や趣向等による着眼点を考慮して文書要約を生成することができ、ユーザが効率的に情報を見つけることができるようになる。
例えば、ウェブ上の文書において、文書に対する忠実性、クエリとの関連性に加え、ユーザの着眼点による選好性を考慮することで、ユーザの着眼点に関する情報を含んだ、query−biasedな要約を生成することができる。文書中の単語について、着眼点との類似度を計算することによって、入力した単語がそのまま含まれていなくても、近い意味を持つ単語が含まれている場合は、その部分の重みを高くし、要約に反映することができる。
例として、初期のクエリが「観光」、着眼点が「子供」である場合の要約生成について考える。従来技術のように「観光」、「子供」の2つをクエリとし、すべてのクエリを含むような要約を作る場合、いずれかのクエリを含むような要約を作る場合、そして本発明の技術を利用してクエリと着眼点を分けて入力して要約を作る場合を比較する。
まず、すべてのクエリを含むような要約を作る場合、つまり、「観光」「子供」の2つのクエリの両方が含まれている要約を生成する場合について考える。対象となる文書が「観光」(初期クエリ)は含んでいるが「子供」(着眼点)に関する内容が書かれていない場合、「観光」「子供」の2つのクエリの両方が含まれている要約を生成しようとすると、文書には子供に関する内容がないため、2つのクエリについてquery−biasedな要約は生成することができない。
次に、いずれかのクエリを含むような要約を作る場合、つまり、「観光」「子供」の2つのクエリのどちらか一方が含まれている要約を生成する場合について考える。対象となる文書が「観光」(初期クエリ)も「子供」(着眼点)も含んでいる場合、観光に関しての記述がなく、子供に関する記述のみで構成されている要約が生成される可能性がある。しかし、このような要約では、元の文書が観光について述べられている文書なのかどうかがわからない。
このように、従来技術を利用して着眼点もクエリとして入力した場合、すべてのクエリを含む要約が生成できない場合や、着眼点を表すクエリのみしか含まれず、従来のクエリを含まない要約が生成されてしまう場合があった。しかし、本発明の技術を利用した場合、つまり、「観光」をクエリとし、「子供」を着眼点とした場合、どのような文書に対してもquery−biasedな要約が生成できる。対象となる文書が「観光」(初期クエリ)は含んでいるが、「子供」(着眼点)に関する内容が書かれていない場合でも、クエリとして入力されているのは「観光」のみであるので、観光について関連性を持ったquery−biasedな要約が生成可能である。また、対象となる文書が「観光」(初期クエリ)も「子供」(着眼点)も含んでいる場合、「観光」は必ず含んだquery−biasedな要約で、さらに子供に関する記述の部分に重みがつけられ、要約に含まれる可能性が高くなる。よって、着眼点に関する内容を含んだquery−biasedな要約が生成できる。
この要約を検索結果の概要文として表示することで、ユーザは自分が重要視している点が検索結果の文書に含まれているかどうかを短い要約を読んで判断することができる。そのため、ユーザが文書を選択する際により有力な補助となる情報を提示することができ、ユーザの効率的な情報検索につながると考えられる。
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る文書要約装置の構成は、第1の実施の形態と同様であるため、同一符号を付して説明を省略する。
第2の実施の形態では、要約候補の単語列の生成方法が、第1の実施の形態と異なっている。
第2の実施の形態では、要約候補単語列生成部81が、あらかじめ要約候補となる単語列を全て生成せず、要約スコアを計算しながら、要約候補の単語列を生成していく。図3に示すように、要約候補単語列生成部81が、はじめに入力文書を一文ずつに区切り、それぞれの文を、要約候補の単語列とみなす。要約候補選択部82は、忠実性計算部4、関連性計算部5、及び選好性計算部6によって計算された忠実性スコア、関連性スコア、及び選好性スコアから、各要約候補の単語列の要約スコアを計算し、最もスコアが高かった要約候補の単語列(文)を選択する。要約候補単語列生成部81は、選択された要約候補の単語列(文)に、それ以外の文を1つ加えた組み合わせを、新たな要約候補の単語列として生成する。要約候補選択部82は、同様に、新たな要約候補の単語列について要約スコアを算出する。要約の制限長(文字数の上限)を満たす範囲で、要約候補単語列生成部81による新たな要約候補の単語列の生成、及び要約候補選択部82による要約スコアの算出を繰り返し、最適な要約候補を、入力文書に対応する要約とする。
次に、第2の実施の形態に係る文書要約処理ルーチンについて図4を用いて説明する。なお、第1の実施の形態と同様の処理となる部分については、同一符号を付して詳細な説明を省略する。
まず、ステップ100において、入力文書と、要約の制限長とを受け付け、ステップ102において、入力されたクエリと着眼点を示す単語とを受け付ける。
そして、ステップ200において、入力文書の各文を、要約候補の単語列とする。次のステップ106では、上記ステップ200又は後述するステップ202で生成された要約候補の単語列のうちの何れか1つを処理対象として設定する。
ステップ108において、入力文書と、処理対象の要約候補の単語列とに基づいて、処理対象の要約候補の忠実性スコアを算出する。そして、ステップ110において、処理対象の要約候補の単語列と、入力されたクエリとに基づいて、処理対象の要約候補の関連性スコアを算出する。
次のステップ112では、処理対象の要約候補の単語列と、入力された着眼点を示す単語とに基づいて、全ての単語の組み合わせの単語間の類似度を計算し、処理対象の要約候補の選好性スコアを算出する。
そして、ステップ114において、全ての要約候補の単語列について、上記ステップ106〜112の処理を実行したか否かを判定し、上記ステップ106〜112の処理が実行されていない要約候補の単語列が存在する場合には、上記ステップ106へ戻り、当該要約候補の単語列を、処理対象として設定する。
一方、上記ステップ114で、全ての要約候補の単語列について、上記ステップ106〜112の処理を実行したと判定された場合には、ステップ202において、上記ステップ108〜112の算出結果に基づいて、各要約候補の単語列に対して、要約スコアを算出し、要約スコアが最も高い要約候補の単語列を選択する。そして、選択した要約候補の単語列と、当該要約候補の単語列に含まれない入力文書中の各文とを組み合わせて、新たな要約候補の単語列を生成する。このとき、生成された新たな要約候補の単語列のうち、入力された要約の制限長を超えたものについては、要約候補から除外する。
そして、ステップ206において、上記ステップ202で生成された全ての要約候補の単語列が、要約の制限長を超えたか否かを判定する。生成された新たな要約候補の単語列のうち、要約の制限長を超えないものがある場合には、上記ステップ106へ戻るが、一方、生成された全ての要約候補の単語列が、要約の制限長を超える場合には、ステップ206へ移行する。
ステップ206では、上記ステップ202で前回生成された要約候補の単語列の中から、要約スコアが最も高い要約候補の単語列を選択する。
そして、ステップ118において、上記ステップ206で選択された要約候補の単語列を、入力文書に対応する要約として出力して、文書要約処理ルーチンを終了する。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、1つの文書が入力される場合を例に説明したが、これに限定されるものではなく、複数の文書が入力されてもよい。この場合には、複数の文書から、要約候補の単語列を生成するようにすればよい。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
また、上述の文書要約装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
<実施例>
以下に、実施例を示す。あるユーザは京都の観光に関する情報を求めており、中でも家族連れや親子連れにも適しているかどうかを重要視しているとする。クエリは「京都」「観光」の2つとし、着眼点を「家族」「親子」の2つとして、下記の本文から本発明を用いて70文字以上100文字以内の要約を生成する。
本文:「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。京都ならではのお菓子や食べ物もいろいろ美味しかったです。」
まず、要約候補の単語列を生成する。ここでは、70〜100文字かつクエリを少なくとも一つ以上含むような文の組み合わせを要約候補の単語列とした。
F:忠実性スコア、R:関連性スコア、P:選好性スコア、SFR:忠実性スコア及び関連性スコアに基づく要約スコア、SFRP:忠実性スコア、関連性スコア、及び選好性スコアに基づく要約スコアとし、それぞれの要約候補の単語列における各種スコアの算出結果を以下に示す。
要約候補の単語列(1):「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。」
F=1.58232915383865e-15, R=0.00888888888888889, P=0.0681549171695407
SFR =1.40651480341214e-17, SFRP=9.5860899924287e-19
要約候補の単語列(2):「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。」
F=1.31036633052264e-15, R=0.0330578512396694, P=0.0078330336676984
SFR =4.33178952238888e-17, SFRP=3.39310531702552e-19
要約候補の単語列(3):「お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。」
F=1.23465627587022e-13, R=0.0, P=0.0681549171695407,
SFR =0.0, SFRP =0.0
要約候補の単語列(4):「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。」
F=2.22238129656639e-12, R=0.0246913580246914, P=0.0681549171695407,
SFR =5.48736122608985e-14, SFRP=3.73990649843503e-15
要約候補の単語列(5):「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。」
F=1.22693967414603e-12, R=0.0612244897959184, P=0.00859351429278517
SFR =7.51187555599609e-14, SFRP=6.45534099560759e-16
要約候補の単語列(6):「先日、京都観光にいってきました。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。食べ物もいろいろ美味しかったです。」
F=3.95582288459663e-16, R=0.0118343195266272, P=0.0681549171695407,
SFR =4.68144720070608e-18, SFRP=3.19063646197701e-19
要約候補の単語列(7):「先日、京都観光にいってきました。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。食べ物もいろいろ美味しかったです。」
F=3.27591582630659e-16, R=0.0493827160493827, P=0.00269936153606952,
SFR =1.61773621052177e-17, SFRP=4.36685490218934e-20
要約候補の単語列(8):「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。食べ物もいろいろ美味しかったです。」
F=3.16465830767731e-15, R=0.0078125, P=0.0681549171695407,
SFR =2.4723893028729e-17, SFRP=1.68505488148161e-18
要約候補の単語列(9):「京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。食べ物もいろいろ美味しかったです。」
F=2.62073266104527e-15, R=0.0277777777777778, P=0.0078330336676984
SFR =7.27981294734797e-17, SFRP=5.70230199111234e-19
上記の要約候補の単語列(1)〜(9)の中から、最も要約スコアが高いものが最適な要約となる。よって、忠実性スコア及び関連性スコアに基づく要約スコアから生成した要約としては、
要約候補の単語列(5):「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。今回は嵐山を中心に回りましたが、京都ならではのお土産が沢山あって楽しかったです。」
が最適な要約となる。また、忠実性スコア、関連性スコア、及び選好性スコアに基づく要約スコアから生成した要約としては、
要約候補の単語列(4):「先日、京都観光にいってきました。京都は神社や寺など、観光する場所はたくさんあり、いつ来ても楽しめます。お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。」
が最適な要約となる。選好性を考慮することによって、「お子様連れの方なら、市街地の中心にある漫画ミュージアムもおもしろいスポットだと思います。」という、ユーザの着眼点に合った内容が要約に含まれている。また、「お子様」という単語は、クエリにも着眼点にも含まれていないが、選好性スコアが高くなっており、着眼点に関する情報が単語の意味から抽出することができていることがわかる。
1 文書入力部
2 検索語入力部
3 着眼点入力部
4 忠実性計算部
5 関連性計算部
6 選好性計算部
7 単語間類似性判定データベース
8 要約生成部
9 出力部
81 要約候補単語列生成部
82 要約候補選択部

Claims (5)

  1. 複数の文で構成される入力文書から少なくとも1文を選択して当該入力文書に対応する要約を生成する文書要約装置であって、
    ユーザにより入力された検索語を受け付ける検索語入力手段と、
    ユーザにより入力された着眼点を示す単語を受け付ける着眼点入力手段と、
    形態素解析済みの入力文書を受け付ける文書入力手段と、
    前記入力文書から、要約候補としての単語列を複数生成する要約候補単語列生成手段と、
    前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算する忠実度計算手段と、
    前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算する関連度計算手段と、
    前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算する選好度計算手段と、
    前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する要約生成手段と、
    を含む文書要約装置。
  2. 前記選好度計算手段は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算する請求項1記載の文書要約装置。
  3. 複数の文で構成される入力文書から少なくとも1文を選択して当該入力文書に対応する要約を生成する文書要約方法であって、
    ユーザにより入力された検索語を受け付け、
    ユーザにより入力された着眼点を示す単語を受け付け、
    形態素解析済みの入力文書を受け付け、
    前記入力文書から、要約候補としての単語列を複数生成し、
    前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算し、
    前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算し、
    前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算し、
    前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する
    ことを特徴とする文書要約方法。
  4. 前記選好度の計算は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算する請求項3記載の文書要約方法。
  5. コンピュータを、請求項1又は2記載の文書要約装置の各手段として機能させるためのプログラム。
JP2011087411A 2011-04-11 2011-04-11 文書要約装置、文書要約方法、及びプログラム Active JP5530393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011087411A JP5530393B2 (ja) 2011-04-11 2011-04-11 文書要約装置、文書要約方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011087411A JP5530393B2 (ja) 2011-04-11 2011-04-11 文書要約装置、文書要約方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012221293A JP2012221293A (ja) 2012-11-12
JP5530393B2 true JP5530393B2 (ja) 2014-06-25

Family

ID=47272703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011087411A Active JP5530393B2 (ja) 2011-04-11 2011-04-11 文書要約装置、文書要約方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5530393B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632976A (zh) * 2019-09-20 2021-04-09 株式会社Ntt都科摩 文本处理装置、方法、设备以及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4021525B2 (ja) * 1997-07-28 2007-12-12 株式会社ジャストシステム 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP3707044B2 (ja) * 1999-04-14 2005-10-19 沖電気工業株式会社 情報抽出装置
JP2005189955A (ja) * 2003-12-24 2005-07-14 Canon Inc 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2005301584A (ja) * 2004-04-09 2005-10-27 Mitsubishi Electric Corp 要約記事配信サーバ及び要約記事配信方法及び要約記事配信プログラム
US7702611B2 (en) * 2005-01-07 2010-04-20 Xerox Corporation Method for automatically performing conceptual highlighting in electronic text
JP4942727B2 (ja) * 2008-11-26 2012-05-30 日本電信電話株式会社 テキスト要約装置、その方法およびプログラム

Also Published As

Publication number Publication date
JP2012221293A (ja) 2012-11-12

Similar Documents

Publication Publication Date Title
US9836511B2 (en) Computer-generated sentiment-based knowledge base
US20170161259A1 (en) Method and Electronic Device for Generating a Summary
EP3398082A1 (en) Systems and methods for suggesting emoji
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US8812504B2 (en) Keyword presentation apparatus and method
JP5143057B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
Hamilton et al. Fast and automated sensory analysis: Using natural language processing for descriptive lexicon development
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
Di Fabbrizio et al. Summarizing online reviews using aspect rating distributions and language modeling
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN107122404A (zh) 一种用户意图数据提取方法和装置
CN112749272A (zh) 面向非结构化数据的新能源规划性文本智能推荐方法
CN110889292B (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
JP6340351B2 (ja) 情報検索装置、辞書作成装置、方法、及びプログラム
KR101928074B1 (ko) 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
JP5234992B2 (ja) 回答文書分類装置、回答文書分類方法及びプログラム
Stadsnes Evaluating semantic vectors for norwegian
JP5530393B2 (ja) 文書要約装置、文書要約方法、及びプログラム
JP5284761B2 (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
JP2008152641A (ja) 類似例文検索装置
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2017134675A (ja) 情報検索装置及びプログラム
JP5214523B2 (ja) 関連キーワード提示装置及びプログラム
JP2009223781A (ja) 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140418

R150 Certificate of patent or registration of utility model

Ref document number: 5530393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150