JP6537340B2

JP6537340B2 - 要約生成装置、要約生成方法、及び要約生成プログラム

Info

Publication number: JP6537340B2
Application number: JP2015091548A
Authority: JP
Inventors: 隼人小林; 正樹野口; 太一谷塚
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2015-04-28
Filing date: 2015-04-28
Publication date: 2019-07-03
Anticipated expiration: 2035-04-28
Also published as: JP2016207141A

Description

本発明は、要約生成装置、要約生成方法、及び要約生成プログラムに関する。

従来、文章の要約を自動で生成する要約生成に関する技術が提供されている。例えば、文章から抽出した文により要約を生成する、いわゆる重要文抽出に関する技術が提供されている。例えば、ＴＦ−ＩＤＦ（Term Frequency−Inverse Document Frequency）に関する技術を用いて要約生成を行う技術が提供されている。

特開２０１１−２８６３８号公報

"word2vec"、[online]、[平成27年4月17日検索]、インターネット<URL：https://code.google.com/p/word2vec/>

しかしながら、上記の従来技術では、文章から適切に要約を生成できるとは限らない。例えば、ＴＦ−ＩＤＦのように単語の出現頻度のみに基づいて文章の要約を生成する場合、生成された要約が文章の内容を適切に要約していない場合がある。

本願は、上記に鑑みてなされたものであって、文章から適切に要約を生成する要約生成装置、要約生成方法、及び要約生成プログラムを提供することを目的とする。

本願に係る要約生成装置は、文が含まれる文章を取得する取得部と、前記文章に含まれる構成要素である第１構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第２構成要素のうち、前記第１構成要素と所定の類似関係を有する前記第２構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出部と、を備えたことを特徴とする。

実施形態の一態様によれば、文章から適切に要約を生成することができるという効果を奏する。

図１は、実施形態に係る要約生成処理の一例を示す図である。図２は、実施形態に係る要約生成装置の構成例を示す図である。図３は、実施形態に係る文章情報記憶部の一例を示す図である。図４は、実施形態に係る単語情報記憶部の一例を示す図である。図５は、実施形態に係る要約生成処理手順を示すフローチャートである。図６は、変形例１に係る要約生成処理の一例を示す図である。図７は、変形例１に係る要約生成装置の構成例を示す図である。図８は、変形例１に係る文章情報記憶部の一例を示す図である。図９は、変形例１に係る単語情報記憶部の一例を示す図である。図１０は、変形例１に係る文情報記憶部の一例を示す図である。図１１は、変形例２に係る要約生成処理の一例を示す図である。図１２は、変形例２に係る要約生成装置の構成例を示す図である。図１３は、変形例２に係る要約生成処理手順を示すフローチャートである。図１４は、要約生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る要約生成装置、要約生成方法、及び要約生成プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る要約生成装置、要約生成方法、及び要約生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．要約生成処理〕
まず、図１を用いて、実施形態に係る要約生成処理の一例について説明する。図１は、実施形態に係る要約生成処理の一例を示す図である。図１では、５つの文Ｂ１０１〜Ｂ１０５が含まれる文章ＤＣ１０の要約を生成する場合を図示する。図１に示す例においては、要約に含む文数、すなわち抽出する文数は「２」である場合を示す。なお、要約に含める文を抽出する条件は、文数に限らず、例えば、バイト数、文字数、モーラ数、名詞数など、種々の要素を目的に応じて適宜選択してもよい。図１では、文章ＤＣ１０から２つの文を抽出し、抽出した２つの文を要約とする例を示す。なお、図１に示す例においては、構成要素を単語とした場合を示す。また、図１に示す例においては、文章に含まれる構成要素（第１構成要素）のうち、品詞が名詞である単語（構成要素）を対象とする場合を示す。すなわち、以下に示す例においては、単語は名詞と読み替えることができる。また、以下では、文章から要約として抽出される対象となる文に含まれる単語（第２構成要素）が、第１構成要素と最も類似することを所定の類似関係として、要約に含める文を文章から抽出する例を示す。

まず、要約生成装置１００は、文章ＤＣ１０に含まれる文Ｂ１０１〜Ｂ１０５の各々に含まれる単語のベクトル（以下、「単語ベクトル」とする場合がある）を分散表現の学習により導出する。なお、単語ベクトルの導出については後述する。ここで、図１に示す例においては、文Ｂ１０１は単語ａ１，ａ２を含み、文Ｂ１０２は単語ｂ１，ｂ２を含み、文Ｂ１０３は単語ｃ１，ｃ２，ｃ３を含み、文Ｂ１０４は単語ｄ１，ｄ２を含み、文Ｂ１０５は単語ｅ１，ｅ２，ｅ３を含む。なお、各単語ａ１等は、説明のために各単語を概念的に表現した符号であり、単語ａ１は例えば“私”や“今日”等の単語に対応する。また、図１に示す例においては、各文Ｂ１０１〜Ｂ１０５の各単語を異なる符号により示すが、各文Ｂ１０１〜Ｂ１０５には同じ単語が含まれてもよい。

図１に示す例においては、文Ｂ１０１〜Ｂ１０５の各々に含まれる単語の単語ベクトルを対応する符号を「○」で囲んだ点として表現する。例えば、文Ｂ１０１に含まれる単語ａ１の単語ベクトルは、「ａ１」を「○」で囲んだ点として表現する。例えば、図１に示す例において、各単語ａ１，ａ２，ｂ１，ｂ２，ｃ１〜ｃ３，ｄ１，ｄ２，ｅ１〜ｅ３の単語ベクトルは、ｍ次元の実数値ベクトルである。

図１に示す例において、ユークリッド空間ＥＳ１は、文Ｂ１０１〜Ｂ１０５に含まれる各単語ａ１，ａ２，ｂ１，ｂ２，ｃ１〜ｃ３，ｄ１，ｄ２，ｅ１〜ｅ３が含まれるユークリッド空間を示す。なお、図１に示すユークリッド空間ＥＳ１〜ＥＳ３は、各単語ベクトル間の距離等の説明のための概念的な図である。例えば、ユークリッド空間ＥＳ１〜ＥＳ３は、ｍ次元の多次元空間となる。

本実施形態においては、ユークリッド空間ＥＳ１〜ＥＳ３における各単語ベクトル間の距離を対応する各単語間の類似度とする。ここに、図１に示す例においては、ユークリッド空間ＥＳ１〜ＥＳ３における各単語ベクトル間の距離が小さい単語同士の類似度が高く、ユークリッド空間ＥＳ１〜ＥＳ３における各単語ベクトル間の距離が大きい単語同士の類似度が小さい。例えば、図１中のユークリッド空間ＥＳ１〜ＥＳ３において、単語ｃ１の単語ベクトルと単語ｅ２の単語ベクトルとは近接しており、すなわち距離が小さいため、単語ｃ１と単語ｅ２とは類似度が大きいことを示す。また、ユークリッド空間ＥＳ１〜ＥＳ３において、単語ａ１の単語ベクトルと単語ａ２の単語ベクトルとは近接しておらず、すなわち距離が大きいため、単語ａ１と単語ａ２とは類似度が小さいことを示す。

図１に示す例において、要約生成装置１００は、抽出する文数「２」に基づいて、文Ｂ１０１〜Ｂ１０５から２つの文を要約として抽出する抽出処理を行う。要約生成装置１００は、文章ＤＣ１０に含まれる単語と、文章ＤＣ１０のうち要約ＡＢ１０として抽出される対象となる文（以下、「対象文」とする場合がある）に含まれる単語のうち最も類似する単語との類似度に基づいて、要約ＡＢ１０に含める文を文章ＤＣ１０から抽出する。具体的には、要約生成装置１００は、文章ＤＣ１０の文に含まれる単語について、対象文に含まれる単語のうち最も類似する単語との間の距離（以下、「最小距離」とする場合がある）に基づいて、文Ｂ１０１〜Ｂ１０５のうち、２つの文を要約として抽出する。なお、対象文に含まれる単語から最小距離の単語は、その単語自身であり距離は「０」となるため、図１に示す例においては図示を省略する。

具体的には、要約生成装置１００は、文章ＤＣ１０に含まれる単語と、対象文に含まれる単語のうち最も類似度が大きい、すなわち距離が小さい単語との距離の総和が最も小さくなる一の文を、文章ＤＣ１０から対象文として抽出して要約ＡＢ１０に加える抽出処理を、要約の文数が２になるまで繰り返す。まず、要約生成装置１００は、要約ＡＢ１０の文数は０であるため、各文Ｂ１０１〜Ｂ１０５について文章ＤＣ１０に含まれる単語とその文に含まれる単語のうち最も類似する単語との距離の総和（以下、「総和距離」とする場合がある）が最も小さくなる一の文を抽出する。

図１に示す例においては、単語ｃ１〜ｃ３を含む文Ｂ１０３を対象文とした場合、他の文Ｂ１０１，Ｂ１０２，Ｂ１０４，Ｂ１０５に含まれる各単語との最小距離の総和である総和距離が、他の文Ｂ１０１，Ｂ１０２，Ｂ１０４，Ｂ１０５を対象文とした場合の最小距離の総和である総和距離よりも小さくなる。具体的には、単語ｃ１〜ｃ３を含む文Ｂ１０３を対象文とした場合、他の文Ｂ１０１，Ｂ１０２，Ｂ１０４，Ｂ１０５に含まれる単語ａ１，ｂ１，ｄ１，ｅ２と最も類似度が大きい文Ｂ１０３中の単語は単語ｃ１となる。ここに、単語ａ１と単語ｃ１との最小距離は距離ｄ１０１となり、単語ｂ１と単語ｃ１との最小距離は距離ｄ１０２となり、単語ｄ１と単語ｃ１との最小距離は距離ｄ１０３となり、単語ｅ２と単語ｃ１との最小距離は距離ｄ１０４となる。また、他の文Ｂ１０１，Ｂ１０４，Ｂ１０５に含まれる単語ａ２，ｄ２，ｅ３と最も類似度が大きい文Ｂ１０３中の単語は単語ｃ２となる。ここに、単語ａ２と単語ｃ２との最小距離は距離ｄ１０５となり、単語ｄ２と単語ｃ２との最小距離は距離ｄ１０６となり、単語ｅ３と単語ｃ２との最小距離は距離ｄ１０７となる。また、他の文Ｂ１０２，Ｂ１０５に含まれる単語ｂ２，ｅ１と最も類似度が大きい文Ｂ１０３中の単語は単語ｃ３となる。ここに、単語ｂ２と単語ｃ３との最小距離は距離ｄ１０８となり、単語ｅ１と単語ｃ３との最小距離は距離ｄ１０９となる。

上記のように、単語ｃ１〜ｃ３を含む文Ｂ１０３を対象文とした場合における、距離ｄ１０１〜ｄ１０９の総和である総和距離は、他の文Ｂ１０１，Ｂ１０２，Ｂ１０４，Ｂ１０５を対象文とした場合の総和距離よりも小さい。すなわち、単語ｃ１〜ｃ３を含む文Ｂ１０３を対象文として要約ＡＢ１０に加えた場合、総和距離が最も小さくなる。例えば、単語ａ１，ａ２を含む文Ｂ１０１を対象文とした場合、単語ｂ２，ｃ３，ｅ１の最小距離は、単語ａ２の単語ベクトルからの距離となり、最小距離が大きくなる。そのため、単語ａ１，ａ２を含む文Ｂ１０１を対象文とした場合の総和距離は、単語ｃ１〜ｃ３を含む文Ｂ１０３を対象文とした場合の総和距離に比べて大きくなる。したがって、図１に示す例においては、要約生成装置１００は、単語ｃ１〜ｃ３を含む文Ｂ１０３を抽出し、要約ＡＢ１０に加える。

ここで、文Ｂ１０３が加えられた要約ＡＢ１０の文数は１であり、抽出する文数は「２」であるため、要約生成装置１００は、さらにもう１つの文を抽出する。すなわち、要約生成装置１００は、文Ｂ１０３が含まれる要約ＡＢ１０に加えた場合に総和距離が最も小さくなる文を対象文として抽出する。

図１に示す例においては、単語ｄ１，ｄ２を含む文Ｂ１０４を対象文とした場合、他の文Ｂ１０１，Ｂ１０２，Ｂ１０５に含まれる各単語との最小距離の総和である総和距離が、他の文Ｂ１０１，Ｂ１０２，Ｂ１０５を対象文とした場合の最小距離の総和である総和距離よりも小さくなる。具体的には、単語ｄ１，ｄ２を含む文Ｂ１０４を対象文とした場合、他の文Ｂ１０１，Ｂ１０２に含まれる単語ａ１，ｂ１と最も類似度が大きい対象文中の単語は文Ｂ１０４の単語ｄ１となる。ここに、単語ａ１と単語ｄ１との最小距離は距離ｄ２０１となり、単語ｂ１と単語ｄ１との最小距離は距離ｄ２０２となる。ここで、単語ａ１と単語ｄ１との最小距離である距離ｄ２０１は、文Ｂ１０４を対象文とする前における単語ａ１と単語ｃ１との最小距離である距離ｄ１０１よりも小さい。また、単語ｂ１と単語ｄ１との最小距離である距離ｄ２０２は、文Ｂ１０４を対象文とする前における単語ｂ１と単語ｃ１との最小距離である距離ｄ１０２よりも小さい。また、他の文Ｂ１０５に含まれる単語ｅ２と最も類似度が大きい対象文中の単語は文Ｂ１０３の単語ｃ１であり、単語ｅ２と単語ｃ１との最小距離は距離ｄ１０４のままである。

また、他の文Ｂ１０１に含まれる単語ａ２と最も類似度が大きい対象文中の単語は文Ｂ１０４の単語ｄ２であり、単語ａ２と単語ｄ２との最小距離は距離ｄ２０３となる。また、他の文Ｂ１０５に含まれる単語ｅ３と最も類似度が大きい対象文中の単語は文Ｂ１０３の単語ｃ２であり、単語ｅ３と単語ｃ２との最小距離は距離ｄ１０７のままである。また、他の文Ｂ１０２，Ｂ１０５に含まれる単語ｂ２，ｅ１と最も類似度が大きい対象文中の単語は文Ｂ１０３の単語ｃ３であり、単語ｂ２と単語ｃ３との最小距離は距離ｄ１０８、単語ｅ１と単語ｃ３との最小距離は距離ｄ１０９のままである。

上記のように、単語ｄ１，ｄ２を含む文Ｂ１０４を対象文とした場合における総和距離は、距離ｄ１０４，ｄ１０７，ｄ１０８，ｄ１０９，ｄ２０１〜ｄ２０３の総和になる。単語ｄ１，ｄ２を含む文Ｂ１０４を対象文とした場合における総和距離は、他の文Ｂ１０１，Ｂ１０２，Ｂ１０５を対象文とした場合の総和距離よりも小さい。すなわち、単語ｄ１，ｄ２を含む文Ｂ１０４を対象文として要約ＡＢ１０に加えた場合、総和距離が最も小さくなる。例えば、単語ａ１，ａ２を含む文Ｂ１０１を対象文とした場合、単語ｂ１からの最小距離は、単語ｃ１の単語ベクトルからの距離ｄ１０２のままであり、文Ｂ１０４を対象文とした場合における単語ｂ１と単語ｄ１との距離ｄ２０２よりも大きい。そのため、単語ａ１，ａ２を含む文Ｂ１０１を対象文とした場合の総和距離は、単語ｄ１，ｄ２を含む文Ｂ１０４を対象文とした場合の総和距離に比べて大きくなる。したがって、図１に示す例においては、要約生成装置１００は、単語ｄ１，ｄ２を含む文Ｂ１０４を抽出し、要約ＡＢ１０に加える。ここに、要約生成装置１００は、要約ＡＢ１０に含める文Ｂ１０３，Ｂ１０４を文章ＤＣ１０から抽出する。これにより、要約生成装置１００は、２つの文Ｂ１０３，Ｂ１０４を含む要約ＡＢ１０を生成する。

このように、実施形態に係る要約生成装置１００は、設定される抽出する文数に応じて、総和距離ができるだけ小さくなるように文章から要約として用いる文を抽出する。そして、要約生成装置１００は、抽出した文を要約とする。これにより、要約生成装置１００は、文章から適切に要約を生成することができる。例えば、図１に示す例において、要約生成装置１００が抽出した文Ｂ１０３，Ｂ１０４における距離ｄ１０４，ｄ１０７，ｄ１０８，ｄ１０９，ｄ２０１〜ｄ２０３の総和である総和距離は、他の文、例えば文Ｂ１０１，Ｂ１０２を対象文として抽出した場合の総和距離よりも小さい。すなわち、文Ｂ１０３，Ｂ１０４の組合せは、文Ｂ１０１，Ｂ１０２の組合せよりもより適切に文章ＤＣ１０を要約している。このように、要約生成装置１００は、規定される文の数に基づいて、総和距離ができるだけ小さくなるように文を抽出することにより、文章から要約として用いる文を適切に抽出することができる。したがって、要約生成装置１００は、文章から適切に要約を生成することができる。

また、要約生成装置１００は、上述のように要約に含める文を文章から抽出することにより、要約における単語（第２構成要素）の分布が文章における単語（第１構成要素）の分布と類似するように、要約を生成することができる。例えば、要約生成装置１００は、上述のように要約に含める文を文章から抽出することにより、要約における単語の類似度に基づく分布が文章における単語の類似度に基づく分布と類似するように、要約を生成することができる。これにより、要約生成装置１００は、文章からより適切に要約を生成することができる。なお、図１に示す例においては、要約生成装置１００が、構成要素（単語）間の類似度としてユークリッド空間における距離（ユークリッド距離）に基づいて、要約に含める文を文章から抽出する例を示したが、構成要素間の類似度に関する情報はユークリッド距離以外であっても、類似度（非類似度）に関する情報（関数）であれば、目的に応じて種々の情報を用いてもよい。例えば、要約生成装置１００は、ユークリッド距離のα乗（例えば、「ｄ（ｘ→，ｖ→）＾α」、下記の式（２）参照）などを構成要素間の類似度に関する情報（関数）としてもよい。この場合、例えば、α＞１のときはより広範囲の話題に対応しやすくなり、α＜１の場合は大きな話題に集中しやすくなる。

また、所定の類似関係は、上記に限らず、例えば第１構成要素と類似度が大きい複数（例えば３つ等）の第２構成要素を第１構成要素と所定の類似関係を有するとしたり、目的に応じて種々の関係を適宜選択したり組み合わせたりしてもよい。この場合、例えば、第１構成要素と複数の第２構成要素との類似度の平均に基づいて、要約に含める文を文章から抽出してもよい。また、例えば、複数の第２構成要素のうち類似度が大きいほどより重みを大きくし、第１構成要素と複数の第２構成要素との類似度と重みとに基づいて、要約に含める文を文章から抽出してもよい。なお、図１に示す例においては、文章に含まれる構成要素（第１構成要素）のうち、品詞が名詞である単語（構成要素）を対象とする場合を示したが、要約生成装置１００は、名詞に限らず、動詞や形容詞等の品詞を目的に応じて適宜選択したり、組み合わせたりしてもよい。また、例えば、文や文書（文章）に含まれる単語が抽出され、文や文章のタグとして利用されてもよい。この場合、要約生成装置１００は、文の選択（抽出）ではなく、文章中の単語を選択（抽出）してもよい。これにより、要約生成装置１００は、単語を文書のタグとして利用することが可能となる。

〔２．要約生成装置の構成〕
次に、図２を用いて、実施形態に係る要約生成装置１００の構成について説明する。図２は、実施形態に係る要約生成装置の構成例を示す図である。図２に示すように、要約生成装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、要約生成装置１００は、各種の情報を表示する表示部や、各種の情報を入力する入力部を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ等によって実現される。そして、通信部１１０は、所定のネットワークと有線または無線で接続され、外部の情報処理装置との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図２に示すように、文章情報記憶部１２１と、単語情報記憶部１２２とを有する。

（文章情報記憶部１２１）
実施形態に係る文章情報記憶部１２１は、文章情報を記憶する。図３は、実施形態に係る文章情報記憶部の一例を示す図である。図３に示す例においては、文章情報記憶部１２１には、文章に関する情報が記憶される。図３に示すように、文章情報記憶部１２１は、文章情報として、「文章ＩＤ」、「文ＩＤ」、「単語１」〜「単語３」等の項目を有する。

「文章ＩＤ」は、文章を識別するための識別情報を示す。「文ＩＤ」は、文を識別するための識別情報を示す。また、「単語１」〜「単語３」・・・は、単語に関する情報を記憶する。図３に示す例においては、「単語１」〜「単語３」・・・の項目に単語が記憶される。すなわち、図３に示す例において、文ＩＤ「Ｂ１０１」により識別される文は、単語ａ１、単語ａ２を含むことを示す。また、文ＩＤ「Ｂ１０２」により識別される文は、単語ｂ１、単語ｂ２を含むことを示す。なお、「単語１」〜「単語３」・・・は、各文の語順に対応してもよい。「単語」の項目には、単語を識別する単語ＩＤ等が記憶されてもよい。

例えば、図３に示す例において、文章ＩＤ「ＤＣ１０」により識別される文章（図１に示す文章ＤＣ１０に対応）は、文ＩＤ「Ｂ１０１」により識別される文（図１に示す文Ｂ１０１に対応）、文ＩＤ「Ｂ１０２」により識別される文（図１に示す文Ｂ１０２に対応）、文ＩＤ「Ｂ１０３」により識別される文（図１に示す文Ｂ１０３に対応）、文ＩＤ「Ｂ１０４」により識別される文（図１に示す文Ｂ１０４に対応）、文ＩＤ「Ｂ１０５」により識別される文（図１に示す文Ｂ１０５に対応）により構成されることを示す。つまり、文章ＤＣ１０は、文ＩＤ「Ｂ１０１」〜文ＩＤ「Ｂ１０５」により識別される５つの文により構成されることを示す。

（単語情報記憶部１２２）
実施形態に係る単語情報記憶部１２２は、単語情報を記憶する。図４は、実施形態に係る単語情報記憶部の一例を示す図である。図４に示すように、単語情報記憶部１２２は、各単語に関する情報を記憶する。具体的には、単語情報記憶部１２２は、分散表現により学習された各単語の素性の重みに関する情報を記憶する。図４に示すように、単語情報記憶部１２２は、単語情報として、「単語」、「素性１」〜「素性３」等の項目を有する。

例えば、図４に示す例において、単語ａ１は、素性１の重みが「−２．３」、素性２の重みが「１．８」、素性３の重みが「０．４５」等であることを示す。また、単語ａ２は、素性１の重みが「０」、素性２の重みが「−１０．４」、素性３の重みが「−２．２」等であることを示す。例えば、各単語がｍ次元のベクトルで表現される場合、素性数はｍ個になり、素性１〜素性ｍの重みが記憶される。

（制御部１３０）
図２の説明に戻って、制御部１３０は、例えば、ＣＰＵやＭＰＵ等によって、要約生成装置１００内部の記憶装置に記憶されている各種プログラム（判定プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図２に示すように、制御部１３０は、取得部１３１と、生成部１３２と、抽出部１３３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図２に示した接続関係に限られず、他の接続関係であってもよい。また、制御部１３０は、例えば、生成した要約を外部の情報処理装置に送信する場合、送信部を有してもよい。

（取得部１３１）
本実施形態における取得部１３１は、文章情報等を取得する。また、取得部１３１は、外部の情報処理装置から単語情報を取得してもよい。また、取得部１３１は、外部の情報処理装置から単語情報を取得した場合、取得した単語情報を単語情報記憶部１２２に格納する。

（生成部１３２）
生成部１３２は、単語の類似度に関する情報を生成する。具体的には、生成部１３２は、文章情報記憶部１２１に記憶された文章情報に基づいて、分散表現の学習を行い、各単語の素性の重みを単語情報として生成する。例えば、生成部１３２は、非特許文献１の「ｗｏｒｄ２ｖｅｃ」に関する技術に基づいて、分散表現の学習を行ってもよい。生成部１３２は、各単語についてｍ次元の実数値ベクトルである単語ベクトル（例えば、「ｗｏｒｄｅｍｂｅｄｄｉｎｇ」等と称される）を導出する。例えば、各次元の実数値が、単語情報における各素性の重みに対応する。このように、生成部１３２は、分散表現の学習により単語情報を生成する。例えば、単語ベクトルは、図１に示すユークリッド空間ＥＳ１〜ＥＳ３において、単語の単語ベクトルを対応する符号を「○」で囲んだ点として表現される。また、生成部１３２は、生成した単語情報を単語情報記憶部１２２に格納する。なお、生成部１３２は、上記に限らず目的に応じて種々の技術に基づいて単語情報を生成してもよい。また、要約生成装置１００は、単語情報が外部の情報処理装置から取得される場合、生成部１３２を有さなくてもよい。

（抽出部１３３）
抽出部１３３は、生成部１３２により生成された単語情報に基づいて、文章から要約とする文を抽出する。例えば、抽出部１３３は、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる単語（第１構成要素）と、文章から要約として抽出される対象となる文である対象文に含まれる単語（第２構成要素）のうち、文章に含まれる単語（第１構成要素）と所定の類似関係を有する単語（第２構成要素）との類似度に基づいて、要約に含める文を文章から抽出する。具体的には、抽出部１３３は、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる単語と、文章から要約として抽出される対象となる文である対象文に含まれる単語のうち最も類似する単語との類似度に基づいて、要約に含める文を文章から抽出する。

例えば、抽出部１３３は、文章に含まれる単語と、対象文に含まれる単語のうち最も類似する単語との類似度から算出される算出値ＥＶが最も高くなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。例えば、抽出部１３３は、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。また、例えば、抽出部１３３は、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。以下、要約に含まれる文の数が所定数（例えば、「３」等）に達することを所定の条件とした場合の抽出処理について説明する。

抽出部１３３は、文章に含まれる単語について、要約中の文（対象文）に含まれる単語のうち最も類似する単語との間の距離である最小距離に基づいて、所定数の文を要約として抽出する。ここで、ある単語ｘについて、要約中の文に含まれる単語のうち最も類似する単語は、以下の式（１）により定義される。ここで、以下に示す式（１）〜（４）におおて、記号「Ｄ（以下「文章集合Ｄ」とする）」は文章の集合を示し、記号「Ｃ（以下「要約集合Ｃ」とする）」は要約の集合を示す。なお、文章集合Ｄや要約集合Ｃは多重集合であってもよい。また、以下に示す式（１）〜（４）において、記号「ｘ」や記号「ｖ」は単語に対応し、記号「ｓ」は文に対応する。以下、記号「ｘ」に対応する単語を単語ｘとし、記号「ｖ」に対応する単語を単語ｖとし、記号「ｓ」に対応する文を文ｓとする場合がある。また、以下に示す式（１）〜（４）において、記号「ｘ」や記号「ｖ」の上に「→」が付された記号は単語ベクトルに対応する。明細書中においては、記号「ｘ」上に「→」が付された記号を「ｘ→」と表記し、記号「ｖ」上に「→」が付された記号を「ｖ→」と表記する。また、「ｓ∈Ｃ」は、要約集合Ｃに含まれる文ｓを示し、「ｖ∈ｓ」は、文ｓに含まれる単語ｖを示す。

上記の式（１）の左辺中の「ｎ（ｘ，Ｃ）」は、ある単語ｘについて要約中の文に含まれる単語のうち最も類似する単語を示す。以下、「ｎ（ｘ，Ｃ）」に対応する単語を「最近接単語」と称する場合がある。上記の式（１）の右辺中の「ｄ（ｘ→，ｖ→）」は、単語ｘと単語ｖとの距離を示し、以下の式（２）により定義される。

例えば、図１中のユークリッド空間ＥＳ３に示す例においては、ある単語ｘが単語ａ１である場合、最近接単語ｎ（ｘ，Ｃ）は、単語ｄ１となる。ここに、ある単語ｘとその最近接単語ｎ（ｘ，Ｃ）との距離は、以下の式（３）により定義される。なお、記号「ｎ（ｘ，Ｃ）」の上に「→」が付された記号は単語ベクトルに対応する。以下、明細書中においては、記号「ｎ（ｘ，Ｃ）」上に「→」が付された記号を「ｎ（ｘ，Ｃ）→」と表記する。つまり、「ｎ（ｘ，Ｃ）→」は、最近接単語ｎ（ｘ，Ｃ）の単語ベクトルに対応する。

上記の式（３）により、各単語ｘの最近接単語ｎ（ｘ，Ｃ）との距離が算出される。つまり、上記の式（３）により算出される「Ｎ（ｘ，Ｃ）」の値は、単語ｘの最小距離となる。以下、「Ｎ（ｘ，Ｃ）」を、単語ｘの最小距離Ｎ（ｘ，Ｃ）とする。例えば、図１中のユークリッド空間ＥＳ３に示す例においては、ある単語ｘが単語ａ１である場合、単語ａ１の最小距離Ｎ（ａ１，Ｃ）は、距離ｄ２０１に対応する値となる。そして、上記の式（３）により文章集合Ｄ中の全単語における最小距離に基づく目的関数は、以下の式（４）により定義される。なお、以下の式（４）中において、「ｓ∈Ｄ」は、文章集合Ｄに含まれる文ｓを示し、「ｘ∈ｓ」は、文ｓに含まれる単語ｘを示す。

上記の式（４）の左辺中の目的関数「ｆ^ＮＮ（Ｃ）」の値は、文章集合Ｄ中の全単語における最小距離の総和である総和距離をマイナス倍（−１倍）した値（以下、「算出値ＥＶ」とする）となる。つまり、算出値ＥＶは、総和距離が小さくなるほど大きくなる。なお、目的関数「ｆ^ＮＮ（Ｃ）」（算出値ＥＶ）は、上記に限らず、目的関数「ｆ^ＮＮ（Ｃ）」を最大化する最適化問題（最大化問題）に帰着できれば、種々の目的関数を適宜選択されてもよい。例えば、目的関数「ｆ^ＮＮ（Ｃ）」は、総和距離の逆数（１／総和距離）に対応する目的関数であってもよい。ここに、抽出部１３３は、上記の式（４）により算出される算出値ＥＶが大きくなるように、要約に含める文を文章から抽出する。なお、目的関数「ｆ^ＮＮ（Ｃ）」は、劣モジュラー関数である。また、上記の式（４）においては、要約に含める文（対象文）として抽出された文中の単語も単語ｘの対象として含まれるが、対象文に含まれる単語から最小距離の単語は、その単語自身であり距離は「０」となる。そのため、抽出部１３３は、単語ｘの対象に、対象文として抽出された文中の単語を含めなくてもよい。

〔３．要約生成処理のフロー〕
次に、図５を用いて、実施形態に係る要約生成装置１００による要約生成処理の手順について説明する。図５は、実施形態に係る要約生成処理手順を示すフローチャートである。

図５に示すように、要約生成装置１００の取得部１３１は、文章情報を取得する（ステップＳ１０１）。例えば、取得部１３１は、文章ＤＩを文章情報として取得する。その後、例えば、生成部１３２は、取得部１３１により取得された単語情報に基づいて分散表現の学習を行い、単語情報を生成する。なお、単語情報が外部の処理装置から取得される場合、生成部１３２は単語情報の生成を行わなくてもよい。

そして、抽出部１３３は、取得した文章ＤＩを処理用文章ＤＴにコピーする（ステップＳ１０２）。また、抽出部１３３は、要約Ａを空に設定する（ステップＳ１０３）。その後、抽出部１３３は、処理用文章ＤＴのうち、要約Ａに含めた場合、上記の式（４）により算出される算出値ＥＶが最も大きくなる文ｓを抽出する（ステップＳ１０４）。

その後、抽出部１３３は、抽出した文ｓを処理用文章ＤＴから除外する（ステップＳ１０５）。そして、抽出部１３３は、抽出した文ｓを要約Ａに追加する（ステップＳ１０６）。

その後、抽出部１３３は、抽出した文の数、すなわち要約Ａに含まれる文の数が所定数未満の場合（ステップＳ１０７：Ｙｅｓ）、ステップＳ１０４に戻りステップＳ１０４〜Ｓ１０６の処理を繰り返す。また、抽出部１３３は、抽出した文の数、すなわち要約Ａに含まれる文の数が所定数に達した場合（ステップＳ１０７：Ｎｏ）、処理を終了する。このように、抽出部１３３は、要約Ａに含める文を文章ＤＩから抽出する。これにより、要約生成装置１００は、要約Ａを生成する。なお、上記の処理は一例であり、要約生成装置１００は、例えば、ステップＳ１０４において抽出した文ｓについて、文章ＤＩに含まれる文ｓにフラグを付ける等の処理により要約Ａに追加した文ｓを識別可能な場合、ステップＳ１０２等に示す処理用文章ＤＴを用いることなく、文章ＤＩと要約Ａとにより要約生成処理を行ってもよい。この場合、抽出部１３３は、例えば、ステップＳ１０２を行わず、ステップＳ１０４において文章ＤＩのうちフラグが付けられていない文を対象に文ｓを抽出する。そして、抽出部１３３は、例えば、ステップＳ１０５において文章ＤＩ中の文ｓにフラグを付ける。

〔４．変形例１〕
上述した実施形態に係る要約生成装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてもよい。そこで、以下では、要約生成装置１００の他の実施形態について説明する。

〔４−１．要約生成処理〕
上述した実施形態において、要約生成装置１００は、構成要素を単語として、各文に含まれる単語の類似度に基づいて算出された算出値ＥＶに基づいて、要約に含める文を文章から抽出し、要約を生成する。しかしながら、変形例１に係る要約生成装置１００Ａは、構成要素を文として、文の類似度に基づいて算出された算出値ＥＶに基づいて、要約に含める文を文章から抽出し、要約を生成する点において、実施形態に係る要約生成装置１００と相違する。この点について、図６〜図１０を用いて説明する。なお、実施形態と同様の内容については、説明を適宜省略する。

まず、図６を用いて、変形例１に係る要約生成処理の一例について説明する。図６は、変形例１に係る要約生成処理の一例を示す図である。図６では、１２の文Ｂ１〜Ｂ１２が含まれる文章ＤＣ１１の要約を生成する場合を図示する。図６に示す例においては、要約に含む文数、すなわち抽出する文数は「２」である場合を示す。図６では、文章ＤＣ１１から２つの文を抽出し、抽出した２つの文を要約とする例を示す。なお、図６に示す例においては、構成要素を文とした場合を示す。

まず、要約生成装置１００Ａは、文章ＤＣ１１に含まれる文Ｂ１〜Ｂ１２の各々のベクトル（以下、「文ベクトル」とする場合がある）を導出する。図６に示す例においては、文Ｂ１〜Ｂ１２の各々の文ベクトルを対応する符号を「○」で囲んだ点として表現する。例えば、文Ｂ１の文ベクトルは、「Ｂ１」を「○」で囲んだ点として表現する。図６に示す例においては、要約生成装置１００Ａは、分散表現の学習により導出された文章ＤＣ１１に含まれる単語の各々の単語ベクトルに基づいて、文Ｂ１〜Ｂ１２の各々の文ベクトルを導出するが、詳細は後述する。なお、図６に示す例において、単語ベクトル及び文ベクトルは、ｍ次元の実数値ベクトルである。また、図６に示す例においては、文章に含まれる単語のうち、品詞が名詞である単語を対象とする場合を示す。

図６に示す例において、ユークリッド空間ＥＳ１１は、文Ｂ１〜Ｂ１２の各々の文ベクトルが含まれるユークリッド空間を示す。なお、図６に示すユークリッド空間ＥＳ１１，ＥＳ１２は、各文ベクトル間の距離等の説明のための概念的な図である。例えば、ユークリッド空間ＥＳ１１，ＥＳ１２は、ｍ次元の多次元空間となる。

本変形例１においては、ユークリッド空間ＥＳ１１，ＥＳ１２における各文ベクトル間の距離を対応する各文間の類似度とする。ここに、図６に示す例においては、ユークリッド空間ＥＳ１１，ＥＳ１２における各文ベクトル間の距離が小さい文同士の類似度が高く、ユークリッド空間ＥＳ１１，ＥＳ１２における各文ベクトル間の距離が大きい文同士の類似度が小さい。例えば、図６中のユークリッド空間ＥＳ１１，ＥＳ１２において、文Ｂ４の文ベクトルと文Ｂ９の文ベクトルとは近接しており、すなわち距離が小さいため、文Ｂ４と文Ｂ９とは類似度が大きいことを示す。また、ユークリッド空間ＥＳ１１，ＥＳ１２において、文Ｂ５の文ベクトルと文Ｂ１２の文ベクトルとは近接しておらず、すなわち距離が大きいため、文Ｂ５と文Ｂ１２とは類似度が小さいことを示す。

図６に示す例において、要約生成装置１００Ａは、抽出する文数「２」に基づいて、文Ｂ１〜Ｂ１２から２つの文を要約として抽出する抽出処理を行う。要約生成装置１００Ａは、文章ＤＣ１１に含まれる文（第１構成要素）と、文章ＤＣ１１のうち要約ＡＢ１１に含まれる文（対象文）のうち、文章ＤＣ１１に含まれる文（第１構成要素）と所定の類似関係を有する文（第２構成要素）との類似度に基づいて、要約ＡＢ１１に含まれる文を文章ＤＣ１１から抽出する。また、以下では、文章から要約として抽出される対象となる対象文に含まれる文（第２構成要素）が、文章ＤＣ１１に含まれる文（第１構成要素）と最も類似することを所定の類似関係として、要約に含める文を文章から抽出する例を示す。具体的には、要約生成装置１００Ａは、文章ＤＣ１１に含まれる文について、要約ＡＢ１１に含まれる文（対象文）のうち最も類似する文との間の距離（以下、「最小距離」とする場合がある）に基づいて、文Ｂ１〜Ｂ１２のうち、２つの文を要約として抽出する。なお、対象文から最小距離の文は、その対象文自身であり距離は「０」となるため、図６に示す例においては図示を省略する。

具体的には、要約生成装置１００Ａは、文章ＤＣ１１に含まれる文と、最も類似度が大きい、すなわち距離が小さい文との距離の総和が最も小さくなる一の文を、文章ＤＣ１１から対象文として抽出して要約ＡＢ１１に加える抽出処理を、要約の文数が２になるまで繰り返す。まず、要約生成装置１００Ａは、要約ＡＢ１１の文数は０であるため、各文Ｂ１〜Ｂ１２について文章ＤＣ１１に含まれる文Ｂ１〜Ｂ１２と、その文との距離の総和（以下、「総和距離」とする場合がある）が最も小さくなる一の文を抽出する。図６に示す例においては、文Ｂ８を対象文とした場合における総和距離は、他の文Ｂ１〜Ｂ７，Ｂ９〜Ｂ１２を対象文とした場合の総和距離よりも小さい。すなわち、文Ｂ８を対象文として要約ＡＢ１１に加えた場合、総和距離が最も小さくなる。したがって、図６に示す例においては、要約生成装置１００Ａは、文Ｂ８を抽出し、要約ＡＢ１１に加える。

また、文Ｂ８が加えられた要約ＡＢ１１の文数は１であり、抽出する文数は「２」であるため、要約生成装置１００Ａは、さらにもう１つの文を抽出する。すなわち、要約生成装置１００Ａは、文Ｂ８が含まれる要約ＡＢ１１に加えた場合に総和距離が最も小さくなる文を対象文として抽出する。図６に示す例においては、文Ｂ６を対象文とした場合における総和距離は、他の文Ｂ１〜Ｂ５，Ｂ７，Ｂ９〜Ｂ１２を対象文とした場合の総和距離よりも小さい。すなわち、文Ｂ６を対象文として要約ＡＢ１１に加えた場合、総和距離が最も小さくなる。したがって、図６に示す例においては、要約生成装置１００Ａは、文Ｂ６を抽出し、要約ＡＢ１１に加える。このように、図６に示す例においては、要約生成装置１００Ａは、距離ｄ１〜ｄ１０の総和が小さくなるように２つの文を抽出する。ここに、要約生成装置１００Ａは、要約ＡＢ１１に含める文Ｂ６，Ｂ８を文章ＤＣ１１から抽出する。これにより、要約生成装置１００Ａは、２つの文Ｂ６，Ｂ８を含む要約ＡＢ１１を生成する。

このように、変形例１に係る要約生成装置１００Ａは、設定される抽出する文数に応じて、総和距離ができるだけ小さくなるように文章から要約として用いる文を抽出する。そして、要約生成装置１００Ａは、抽出した文を要約とする。これにより、要約生成装置１００Ａは、文章から適切に要約を生成することができる。例えば、図６に示す例において、要約生成装置１００Ａが抽出した文Ｂ６，Ｂ８における距離ｄ１〜ｄ１０の総和である総和距離は、他の文、例えば文Ｂ１及び文Ｂ２を対象文として抽出した場合の総和距離よりも小さい。すなわち、文Ｂ６，Ｂ８の組合せは、文Ｂ１，Ｂ２の組合せよりもより適切に文章ＤＣ１１を要約している。このように、要約生成装置１００Ａは、総和距離ができるだけ小さくなるように文を抽出することにより、文章から要約として用いる文を適切に抽出することができる。したがって、要約生成装置１００Ａは、文章から適切に要約を生成することができる。また、要約生成装置１００Ａは、上述のように要約に含める文を文章から抽出することにより、要約における文（第２構成要素）の分布が文章における文（第１構成要素）の分布と類似するように、要約を生成することができる。例えば、要約生成装置１００は、上述のように要約に含める文を文章から抽出することにより、要約における文の類似度に基づく分布が文章における文の類似度に基づく分布と類似するように、要約を生成することができる。これにより、要約生成装置１００Ａは、文章からより適切に要約を生成することができる。また、所定の類似関係は、上記に限らず、例えば第１構成要素と類似度が大きい複数の第２構成要素を第１構成要素と所定の類似関係を有するとしたり、目的に応じて種々の関係を適宜選択したり組み合わせたりしてもよい。例えば第１構成要素と類似度が大きい複数（例えば３つ等）の第２構成要素を第１構成要素と所定の類似関係を有するとしたり、目的に応じて種々の関係を適宜選択したり組み合わせたりしてもよい。この場合、例えば、第１構成要素と複数の第２構成要素との類似度の平均に基づいて、要約に含める文を文章から抽出してもよい。また、例えば、複数の第２構成要素のうち類似度が大きいほどより重みを大きくし、第１構成要素と複数の第２構成要素との類似度と重みとに基づいて、要約に含める文を文章から抽出してもよい。

〔４−２．要約生成装置の構成〕
次に、図７を用いて、変形例１に係る要約生成装置１００Ａの構成について説明する。図７は、変形例１に係る要約生成装置の構成例を示す図である。なお、要約生成装置１００Ａにおいて、実施形態に係る要約生成装置１００と同様の構成は、同一の符号を付して説明を省略する。

図７に示すように、要約生成装置１００は、通信部１１０と、記憶部１２０Ａと、制御部１３０Ａとを有する。図７に示すように、要約生成装置１００Ａは、記憶部１２０Ａに文情報記憶部１２３を有する点において要約生成装置１００と相違する。また、制御部１３０Ａは、取得部１３１と、生成部１３２Ａと、抽出部１３３Ａとを有し、その他の点は制御部１３０と同様である。

（文章情報記憶部１２１Ａ）
変形例１に係る文章情報記憶部１２１Ａは、文章情報を記憶する。図８は、変形例１に係る文章情報記憶部の一例を示す図である。図８に示す例においては、文章情報記憶部１２１Ａには、文章に関する情報が記憶される。図８に示すように、文章情報記憶部１２１Ａは、文章情報として、「文章ＩＤ」、「文ＩＤ」、「単語１」〜「単語３」等の項目を有する。

「文章ＩＤ」は、文章を識別するための識別情報を示す。「文ＩＤ」は、文を識別するための識別情報を示す。また、「単語１」〜「単語３」・・・は、単語に関する情報を記憶する。図８に示す例においては、「単語１」〜「単語３」・・・の項目に単語が記憶される。すなわち、図８に示す例において、文ＩＤ「Ｂ１」により識別される文は、単語Ｗ１、単語Ｗ２、単語Ｗ３等を含むことを示す。また、文ＩＤ「Ｂ２」により識別される文は、単語Ｗ４、単語Ｗ５、単語Ｗ６等を含むことを示す。「単語１」〜「単語３」・・・は、各文の語順に対応してもよい。なお、「単語」の項目には、単語を識別する単語ＩＤ等が記憶されてもよい。

例えば、図８に示す例において、文章ＩＤ「ＤＣ１１」により識別される文章（図６に示す文章ＤＣ１１に対応）は、文ＩＤ「Ｂ１」により識別される文（図６に示す文Ｂ１に対応）、文ＩＤ「Ｂ２」により識別される文（図６に示す文Ｂ２に対応）、文ＩＤ「Ｂ３」により識別される文（図６に示す文Ｂ３に対応）、文ＩＤ「Ｂ４」により識別される文（図６に示す文Ｂ４に対応）等により構成されることを示す。具体的には、文章ＤＣ１１は、文ＩＤ「Ｂ１」〜文ＩＤ「Ｂ１２」により識別される１２の文により構成される。

（単語情報記憶部１２２Ａ）
変形例１に係る単語情報記憶部１２２Ａは、単語情報を記憶する。図９は、変形例１に係る単語情報記憶部の一例を示す図である。図９に示すように、単語情報記憶部１２２Ａは、各単語に関する情報を記憶する。具体的には、単語情報記憶部１２２Ａは、分散表現により学習された各単語の素性の重みに関する情報を記憶する。図９に示すように、単語情報記憶部１２２Ａは、単語情報として、「単語」、「素性１」〜「素性３」等の項目を有する。

例えば、図９に示す例において、単語Ｗ１は、素性１の重みが「１．５」、素性２の重みが「０」、素性３の重みが「０．８」等であることを示す。また、単語Ｗ２は、素性１の重みが「−１．４」、素性２の重みが「２．７５」、素性３の重みが「０．０５」等であることを示す。例えば、各単語がｍ次元のベクトルで表現される場合、素性数はｍ個になり、素性１〜素性ｍの重みが記憶される。

（文情報記憶部１２３）
変形例１に係る文情報記憶部１２３は、文情報を記憶する。図１０は、変形例１に係る文情報記憶部の一例を示す図である。図８に示すように、文情報記憶部１２３は、各文に関する情報を記憶する。具体的には、文情報記憶部１２３は、分散表現により学習された学習結果に基づく、各文の素性の重みに関する情報を記憶する。図１０に示すように、文情報記憶部１２３は、文情報として、「文ＩＤ」、「素性１」〜「素性３」等の項目を有する。

例えば、図１０に示す例において、文ＩＤ「Ｂ１」により識別される文は、素性１の重みが「２．９５」、素性２の重みが「１．４６」、素性３の重みが「−４．２」等であることを示す。また、文ＩＤ「Ｂ２」により識別される文は、素性１の重みが「０．５」、素性２の重みが「−２．４５」、素性３の重みが「３．２」等であることを示す。例えば、各文がｍ次元のベクトルで表現される場合、素性数はｍ個になり、素性１〜素性ｍの重みが記憶される。

（生成部１３２Ａ）
生成部１３２Ａは、単語や文の類似度に関する情報を生成する。具体的には、生成部１３２Ａは、文章情報記憶部１２１Ａに記憶された文章情報に基づいて、分散表現の学習を行い、各単語の素性の重みを単語情報として生成する。例えば、生成部１３２Ａは、非特許文献１の「ｗｏｒｄ２ｖｅｃ」に関する技術に基づいて、分散表現の学習を行ってもよい。生成部１３２Ａは、各単語についてｍ次元の実数値ベクトルである単語ベクトルを導出する。例えば、各次元の実数値が、単語情報における各素性の重みに対応する。このように、生成部１３２Ａは、分散表現の学習により単語情報を生成する。また、生成部１３２Ａは、生成した単語情報を単語情報記憶部１２２Ａに格納する。なお、生成部１３２Ａは、上記に限らず目的に応じて種々の技術に基づいて単語情報を生成してもよい。また、単語情報が外部の情報処理装置から取得される場合、生成部１３２Ａは、単語情報の生成を行わなくてもよい。

また、生成部１３２Ａは、分散表現の学習結果に基づいて、文の類似度に関する情報を生成する。具体的には、生成部１３２Ａは、単語情報記憶部１２２Ａに記憶された単語情報に基づいて、文情報を生成する。例えば、生成部１３２Ａは、文に含まれる単語の単語ベクトルに基づいて、各文の文ベクトルを生成してもよい。例えば、生成部１３２Ａは、文に含まれる単語の単語ベクトルの総和を文ベクトルとしてもよい。この場合、図１０に示す例において、文Ｂ１の文ベクトルは、単語Ｗ１の単語ベクトル、単語Ｗ２の単語ベクトル、単語３の単語ベクトル等の総和となる。つまり、生成部１３２Ａは、各文についてｍ次元の実数値ベクトルである文ベクトルを導出する。例えば、各次元の実数値が、文情報における各素性の重みに対応する。このように、生成部１３２Ａは、単語情報に基づいて文情報を生成する。例えば、図６に示すユークリッド空間ＥＳ１１，ＥＳ１２における文ベクトルは、各文を構成する単語の単語ベクトルの総和である。

なお、生成部１３２Ａは、上記に限らず目的に応じて種々の情報に基づいて文情報を生成してもよい。例えば、生成部１３２Ａは、単語の語順等に基づいて文情報を生成してもよい。また、生成部１３２Ａは、文に含まれる各単語の単語ベクトルの平均に基づいて文情報を算出してもよい。また、生成部１３２Ａは、文に含まれる各単語の単語ベクトルごとに重み値を算出し、単語ベクトルと重み値に基づいて文情報を算出してもよい。なお、要約生成装置１００Ａは、単語情報及び文情報が外部の情報処理装置から取得される場合、生成部１３２Ａを有さなくてもよい。

（抽出部１３３Ａ）
抽出部１３３Ａは、生成部１３２Ａにより生成された文情報に基づいて、文章から要約とする文を抽出する。具体的には、抽出部１３３Ａは、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる文と、文章から要約として抽出される対象となる文である対象文のうち最も類似する文との類似度に基づいて、要約に含める文を文章から抽出する。

例えば、抽出部１３３Ａは、文章に含まれる文と、対象文のうち最も類似する文との類似度から算出される算出値ＥＶが最も高くなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。例えば、抽出部１３３Ａは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。また、例えば、抽出部１３３Ａは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。以下、要約に含まれる文の数が所定数（例えば、「４」等）に達することを所定の条件とした場合の抽出処理について説明する。

抽出部１３３Ａは、文章に含まれる文について、要約中の文（対象文）のうち最も類似する文との間の距離である最小距離に基づいて、所定数の文を要約として抽出する。ここで、ある文ｘについて、要約中の文に含まれる文のうち最も類似する文は、以下の式（５）により定義される。ここで、以下に示す式（５）〜（８）において、記号「Ｄ（以下「文章集合Ｄ」とする）」は文章の集合を示し、記号「Ｃ（以下「要約集合Ｃ」とする）」は要約の集合を示す。なお、文章集合Ｄや要約集合Ｃは多重集合であってもよい。また、以下に示す式（５）〜（８）において、記号「ｘ」や記号「ｓ」は文に対応する。以下、記号「ｘ」に対応する文を文ｘとし、記号「ｓ」に対応する文を文ｓとする場合がある。また、以下に示す式（５）〜（８）において、記号「ｘ」や記号「ｓ」の上に「→」が付された記号は文ベクトルに対応する。以下、明細書中においては、記号「ｘ」上に「→」が付された記号を「ｘ→」と表記し、記号「ｓ」上に「→」が付された記号を「ｓ→」と表記する。また、「ｓ∈Ｃ」は、要約集合Ｃに含まれる文ｓを示す。

上記の式（５）の左辺中の「ｎ’（ｘ，Ｃ）」は、ある文ｘについて要約中に含まれる文のうち最も類似する文を示す。以下、「ｎ’（ｘ，Ｃ）」に対応する文を「最近接文」と称する場合がある。上記の式（５）の右辺中の「ｄ’（ｘ→，ｓ→）」は、文ｘと文ｓとの距離を示し、以下の式（６）により定義される。

例えば、図６中のユークリッド空間ＥＳ１２に示す例においては、ある文ｘが文Ｂ１である場合、最近接文ｎ’（Ｂ１，Ｃ）は、文Ｂ６となる。ここに、ある文ｘとその最近接文ｎ’（ｘ，Ｃ）との距離は、以下の式（７）により定義される。なお、記号「ｎ’（ｘ，Ｃ）」の上に「→」が付された記号は文ベクトルに対応する。以下、明細書中においては、記号「ｎ’（ｘ，Ｃ）」上に「→」が付された記号を「ｎ’（ｘ，Ｃ）→」と表記する。つまり、「ｎ’（ｘ，Ｃ）→」は、最近接文ｎ’（ｘ，Ｃ）の文ベクトルに対応する。

上記の式（７）により、各文ｘの最近接文ｎ’（ｘ，Ｃ）との距離が算出される。つまり、上記の式（７）により算出される「Ｎ’（ｘ，Ｃ）」の値は、文ｘの最小距離となる。以下、「Ｎ’（ｘ，Ｃ）」を、文ｘの最小距離Ｎ’（ｘ，Ｃ）とする。例えば、図６中のユークリッド空間ＥＳ１２に示す例においては、ある文ｘが文Ｂ１である場合、文Ｂ１の最小距離Ｎ’（Ｂ１，Ｃ）は、距離ｄ８に対応する値となる。そして、上記の式（７）により文章集合Ｄ中の全文における最小距離に基づく目的関数は、以下の式（８）により定義される。なお、以下の式（８）において、「ｓ∈Ｄ」は、文章集合Ｄに含まれる文ｓを示す。

上記の式（８）の左辺中の目的関数「ｆ^ＮＮ’（Ｃ）」の値は、文章集合Ｄ中の全文における最小距離の総和である総和距離をマイナス倍（−１倍）した値である算出値ＥＶとなる。つまり、算出値ＥＶは、総和距離が小さくなるほど大きくなる。ここに、抽出部１３３Ａは、上記の式（８）により算出される算出値ＥＶが大きくなるように、要約に含める文を文章から抽出する。なお、上記の式（８）においては、要約に含める文（対象文）として抽出された文中の文も文ｘの対象として含まれるが、対象文に含まれる文から最小距離の文は、その文自身であり距離は「０」となる。そのため、抽出部１３３Ａは、文ｘの対象に、対象文として抽出された文を含めなくてもよい。

〔５．変形例２〕
上述した実施形態に係る要約生成装置１００や変形例１に係る要約生成装置１００Ａは、文や単語の類似度に基づいて算出された算出値ＥＶに基づいて、要約に含める文を文章から抽出し、要約を生成する。しかしながら、変形例２に係る要約生成装置１００Ｂは、文章に対応するベクトル（以下、「文章ベクトル」とする場合がある）と要約に対応するベクトル（以下、「要約ベクトル」とする場合がある）とのコサイン類似度に基づいて、要約に含める文を文章から抽出し、要約を生成する点において、実施形態に係る要約生成装置１００や変形例１に係る要約生成装置１００Ａと相違する。この点について、図１１〜図１３を用いて説明する。なお、実施形態や変形例１と同様の内容については、説明を適宜省略する。

〔５−１．要約生成処理〕

まず、図１１を用いて、変形例２に係る要約生成処理の一例について説明する。図１１は、変形例２に係る要約生成処理の一例を示す図である。図１１では、図６に示す例と同様に１２の文Ｂ１〜Ｂ１２が含まれる文章ＤＣ１１の要約を生成する場合を図示する。図１１に示す例においては、要約に含む文数、すなわち抽出する文数は「２」である場合を示す。図１１では、文章ＤＣ１１から２つの文を抽出し、抽出した２つの文を要約とする例を示す。

まず、要約生成装置１００Ｂは、文章ＤＣ１１に含まれる文Ｂ１〜Ｂ１２の各々のベクトルを導出する。図１１に示す例においては、文Ｂ１〜Ｂ１２の各々の文ベクトルを対応する符号を「○」で囲んだ点として表現する。例えば、文Ｂ１の文ベクトルは、「Ｂ１」を「○」で囲んだ点として表現する。図１１に示す例においては、要約生成装置１００Ｂは、分散表現の学習により導出された文章ＤＣ１１に含まれる単語の各々の単語ベクトルに基づいて、文Ｂ１〜Ｂ１２の各々の文ベクトルを導出する。なお、図１１に示す例において、単語ベクトル及び文ベクトルは、ｍ次元の実数値ベクトルである。

図１１に示す例において、ユークリッド空間ＥＳ２１は、文Ｂ１〜Ｂ１２の各々の文ベクトルが含まれるユークリッド空間を示す。なお、図１１に示すユークリッド空間ＥＳ２１，ＥＳ２２は、各文ベクトル間の距離等の説明のための概念的な図である。例えば、ユークリッド空間ＥＳ２１，ＥＳ２２は、ｍ次元の多次元空間となる。

本変形例２においては、ユークリッド空間ＥＳ２１，ＥＳ２２における各文ベクトル間の距離を対応する各文間の類似度とする。ここに、図１１に示す例においては、ユークリッド空間ＥＳ２１，ＥＳ２２における各文ベクトル間の距離が小さい文同士の類似度が高く、ユークリッド空間ＥＳ２１，ＥＳ２２における各文ベクトル間の距離が大きい文同士の類似度が小さい。例えば、図１１中のユークリッド空間ＥＳ２１，ＥＳ２２において、文Ｂ４の文ベクトルと文Ｂ９の文ベクトルとは近接しており、すなわち距離が小さいため、文Ｂ４と文Ｂ９とは類似度が大きいことを示す。また、ユークリッド空間ＥＳ２１，ＥＳ２２において、文Ｂ５の文ベクトルと文Ｂ１２の文ベクトルとは近接しておらず、すなわち距離が大きいため、文Ｂ５と文Ｂ１２とは類似度が小さいことを示す。

図１１に示す例において、要約生成装置１００Ｂは、抽出する文数「２」に基づいて、文Ｂ１〜Ｂ１２から２つの文を要約として抽出する抽出処理を行う。要約生成装置１００Ｂは、文章ＤＣ１１のうち要約ＡＢ２１として抽出される対象となる文である対象文を含む要約ＡＢ２１と、文章ＤＣ１１との類似度に基づいて、要約ＡＢ２１に含める文を文章ＤＣ１１から抽出する。具体的には、要約生成装置１００Ｂは、対象文を含む要約ＡＢ２１に対応する要約ベクトルと、文章ＤＣ１１に対応する文章ベクトルとにより算出されるコサイン類似度に基づいて、文章ＤＣ１１から要約ＡＢ２１に含める文を抽出する。すなわち、要約生成装置１００Ｂは、要約ＡＢ２１の要約ベクトルと、文章ＤＣ１１の文章ベクトルとにより算出されるコサイン類似度に基づいて、文Ｂ１〜Ｂ１２から２つの文を要約として抽出する。例えば、文章ＤＣ１１の文章ベクトルは、文章ＤＣ１１に含まれる文Ｂ１〜Ｂ１２の文ベクトルの総和により算出される。また、要約ＡＢ２１の要約ベクトルは、要約ＡＢ２１に含まれる文の文ベクトルの総和により算出される。

具体的には、要約生成装置１００Ｂは、要約ＡＢ２１の要約ベクトルと文章ＤＣ１１の文章ベクトルとに基づいて算出されるコサイン類似度が最も大きくなる一の文を、文章ＤＣ１１から対象文として抽出して要約ＡＢ２１に加える抽出処理を、要約の文数が２になるまで繰り返す。まず、要約生成装置１００Ｂは、要約ＡＢ２１の文数は０であるため、各文Ｂ１〜Ｂ１２について文章ＤＣ１１の文章ベクトルと、その文の文ベクトルとのコサイン類似度が最も大きい一の文を抽出する。図１１に示す例においては、文Ｂ８を対象文とした場合における文章ＤＣ１１の文章ベクトルとのコサイン類似度は、他の文Ｂ１〜Ｂ７，Ｂ９〜Ｂ１２を対象文とした場合の文章ＤＣ１１の文章ベクトルとのコサイン類似度よりも大きい。すなわち、文Ｂ８を対象文として要約ＡＢ２１に加えた場合、文章ＤＣ１１の文章ベクトルとのコサイン類似度が最も大きくなる。したがって、図１１に示す例においては、要約生成装置１００Ｂは、文Ｂ８を抽出し、要約ＡＢ２１に加える。

また、文Ｂ８が加えられた要約ＡＢ２１の文数は１であり、抽出する文数は「２」であるため、要約生成装置１００Ｂは、さらにもう１つの文を抽出する。すなわち、要約生成装置１００Ｂは、文Ｂ８が含まれる要約ＡＢ２１に加えた場合に文章ＤＣ１１の文章ベクトルとのコサイン類似度が最も大きくなる文を対象文として抽出する。図１１に示す例においては、文Ｂ２を対象文とした場合における文章ＤＣ１１の文章ベクトルとのコサイン類似度は、他の文Ｂ１，Ｂ３〜Ｂ７，Ｂ９〜Ｂ１２を対象文とした場合の文章ＤＣ１１の文章ベクトルとのコサイン類似度よりも大きい。すなわち、文Ｂ２を対象文として要約ＡＢ２１に加えた場合、文章ＤＣ１１の文章ベクトルとのコサイン類似度が最も大きくなる。したがって、図１１に示す例においては、要約生成装置１００Ｂは、文Ｂ２を抽出し、要約ＡＢ２１に加える。このように、図１１に示す例においては、要約生成装置１００Ｂは、文章ＤＣ１１の文章ベクトルとのコサイン類似度が大きくなるように２つの文を抽出する。ここに、要約生成装置１００Ｂは、要約ＡＢ２１に含める文Ｂ２，Ｂ８を文章ＤＣ１１から抽出する。これにより、要約生成装置１００Ｂは、２つの文Ｂ２，Ｂ８を含む要約ＡＢ２１を生成する。

このように、変形例２に係る要約生成装置１００Ｂは、設定される抽出する文数に応じて、文章ＤＣ１１の文章ベクトルとのコサイン類似度ができるだけ大きくなるように文章から要約として用いる文を抽出する。そして、要約生成装置１００Ｂは、抽出した文を要約とする。これにより、要約生成装置１００Ｂは、文章から適切に要約を生成することができる。例えば、図１１に示す例において、要約生成装置１００Ｂが抽出した文Ｂ２，Ｂ８を含む要約ＡＢ２１の要約ベクトルと文章ＤＣ１１の文章ベクトルとのコサイン類似度は、他の文、例えば文Ｂ１及び文Ｂ２を対象文として抽出した場合の文章ＤＣ１１の文章ベクトルとのコサイン類似度よりも大きい。すなわち、文Ｂ２，Ｂ８の組合せは、文Ｂ１，Ｂ２の組合せよりもより適切に文章ＤＣ１１を要約している。このように、要約生成装置１００Ｂは、文章ＤＣ１１の文章ベクトルとのコサイン類似度ができるだけ大きくなるように文を抽出することにより、文章から要約として用いる文を適切に抽出することができる。したがって、要約生成装置１００Ｂは、文章から適切に要約を生成することができる。

〔５−２．要約生成装置の構成〕
次に、図１２を用いて、変形例２に係る要約生成装置１００Ｂの構成について説明する。図１２は、変形例２に係る要約生成装置の構成例を示す図である。なお、要約生成装置１００Ｂにおいて、実施形態に係る要約生成装置１００や変形例１に係る要約生成装置１００Ａと同様の構成は、同一の符号を付して説明を省略する。図１２に示すように、要約生成装置１００は、通信部１１０と、記憶部１２０Ａと、制御部１３０Ｂとを有する。図７に示すように、要約生成装置１００Ａは、制御部１３０Ｂに抽出部１３３Ａに代えて抽出部１３３Ｂを有する点において要約生成装置１００Ａと相違する。

（抽出部１３３Ｂ）
抽出部１３３Ｂは、生成部１３２Ａにより生成された文情報に基づいて、文章から要約とする文を抽出する。具体的には、抽出部１３３Ｂは、文章に含まれる単語に関する分散表現の学習結果に基づく、対象文を含む要約と文章との類似度に応じて、要約に含める文を文章から抽出する。

例えば、抽出部１３３Ｂは、要約ベクトルと文章ベクトルとに基づいて算出されるコサイン類似度が最も大きくなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。例えば、抽出部１３３Ｂは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。また、例えば、抽出部１３３Ｂは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。以下、要約に含まれる文の数が所定数（例えば、「５」等）に達することを所定の条件とした場合の抽出処理について説明する。

ここで、文章の文章ベクトルは、以下の式（９）により定義される。

上記の式（９）の左辺中のｖ_Ｄは、文章の文章ベクトルを示す。ここに、文章ベクトルｖ_Ｄは、文章中の文に含まれる単語ｘの単語ベクトルの総和により得られる。なお、抽出部１３３Ｂは、上記の式（９）に限らず、例えば、文章中の内容との関連が高い文を抽出し、抽出した文に含まれる単語の単語ベクトルに基づいて、文章ベクトルｖ_Ｄを算出してもよい。また、例えば、抽出部１３３Ｂは、文章中の内容との関連が高い文を抽出し、抽出した文の文ベクトルに基づいて、文章ベクトルｖ_Ｄを算出してもよい。また、例えば、抽出部１３３Ｂは、文章中からキーワードを抽出し、抽出したキーワードを含む文の文ベクトルや抽出したキーワードを含む文に含まれる単語の単語ベクトルに基づいて、文章ベクトルｖ_Ｄを算出してもよい。また、例えば、抽出部１３３Ｂは、文章中の文や単語の各々に対して重み付けを行い、各文の重み値及び文ベクトルや各単語の重み値及び単語ベクトルに基づいて、文章ベクトルｖ_Ｄを算出してもよい。また、要約の要約ベクトルは、以下の式（１０）により定義される。

上記の式（１０）の左辺中のｖ_Ｃは、要約の要約ベクトルを示す。ここに、要約ベクトルｖ_Ｃは、要約中の対象文に含まれる単語ｘの単語ベクトルの総和により得られる。なお、抽出部１３３Ｂは、上記の式（１０）に限らず、例えば、要約中の文や単語の各々に対して重み付けを行い、各文の重み値及び文ベクトルや各単語の重み値及び単語ベクトルに基づいて、要約ベクトルｖ_Ｃを算出してもよい。また、上記の式（９）及び式（１０）により、文章ベクトルｖ_Ｄと要約ベクトルｖ_Ｃとのコサイン類似度に基づく目的関数は、以下の式（１１）により定義される。

上記の式（１１）の左辺中の目的関数ｆ^Ｃｏｓ（Ｃ）の値は、文章ベクトルｖ_Ｄと要約ベクトルｖ_Ｃとのコサイン類似度ＣＳを示す。また、上記の式（１１）の右辺中の式の分子ｖ_Ｃ・ｖ_Ｄは、文章ベクトルｖ_Ｄと要約ベクトルｖ_Ｃとの内積である。また、上記の式（１１）の右辺中の式の分母は、文章ベクトルｖ_Ｄ及び要約ベクトルｖ_Ｃの各々のノルムである。ここに、抽出部１３３Ｂは、上記の式（１１）により定義されるコサイン類似度ＣＳが大きくなるように、要約に含める文を文章から抽出する。

〔５−３．要約生成処理のフロー〕
次に、図１３を用いて、変形例２に係る要約生成装置１００Ｂによる要約生成処理の手順について説明する。図１３は、変形例２に係る要約生成処理手順を示すフローチャートである。

図１３に示すように、要約生成装置１００Ｂの取得部１３１は、文章情報を取得する（ステップＳ２０１）。例えば、取得部１３１は、文章ＤＩを文章情報として取得する。その後、例えば、生成部１３２Ａは、取得部１３１により取得された単語情報に基づいて分散表現の学習を行い、単語情報を生成する。なお、単語情報が外部の処理装置から取得される場合、生成部１３２Ａは単語情報の生成を行わなくてもよい。

そして、抽出部１３３Ｂは、取得した文章ＤＩを処理用文章ＤＴにコピーする（ステップＳ２０２）。また、抽出部１３３Ｂは、要約Ａを空に設定する（ステップＳ２０３）。その後、抽出部１３３Ｂは、処理用文章ＤＴのうち、要約Ａに含めた場合、上記の式（１１）により算出されるコサイン類似度ＣＳが最も大きくなる文ｓを抽出する（ステップＳ２０４）。

その後、抽出部１３３Ｂは、抽出した文ｓを処理用文章ＤＴから除外する（ステップＳ２０５）。そして、抽出部１３３Ｂは、抽出した文ｓを要約Ａに追加する（ステップＳ２０６）。

その後、抽出部１３３Ｂは、抽出した文の数、すなわち要約Ａに含まれる文の数が所定数未満の場合（ステップＳ２０７：Ｙｅｓ）、ステップＳ２０４に戻りステップＳ２０４〜Ｓ２０６の処理を繰り返す。また、抽出部１３３Ｂは、抽出した文の数、すなわち要約Ａに含まれる文の数が所定数に達した場合（ステップＳ２０７：Ｎｏ）、処理を終了する。このように、抽出部１３３Ｂは、要約Ａに含める文を文章ＤＩから抽出する。これにより、要約生成装置１００Ｂは、要約Ａを生成する。なお、上記の処理は一例であり、要約生成装置１００Ｂは、例えば、ステップＳ２０４において抽出した文ｓについて、文章ＤＩに含まれる文ｓにフラグを付ける等の処理により要約Ａに追加した文ｓを識別可能な場合、ステップＳ２０２等に示す処理用文章ＤＴを用いることなく、文章ＤＩと要約Ａとにより要約生成処理を行ってもよい。この場合、抽出部１３３Ｂは、例えば、ステップＳ２０２を行わず、ステップＳ２０４において文章ＤＩのうちフラグが付けられていない文を対象に文ｓを抽出する。そして、抽出部１３３Ｂは、例えば、ステップＳ２０５において文章ＤＩ中の文ｓにフラグを付ける。

〔６．実施形態及び変形例１，２の組合せ〕
なお、上記の実施形態、変形例１及び変形例２においては、単語の類似度に基づく算出値、文の類似度に基づく算出値、及び文章ベクトルと要約ベクトルとのコサイン類似度に応じて、文章から要約に含める文を抽出する場合を示した。しかしながら、要約生成装置は、実施形態に係る要約生成装置１００、変形例１に係る要約生成装置１００Ａ、及び変形例２に係る要約生成装置１００Ｂの機能を適宜組み合わせた要約生成装置であってもよい。要約生成装置は、要約生成装置１００、要約生成装置１００Ａ、及び要約生成装置１００Ｂの機能を適宜選択して要約生成処理を行ったり、要約生成装置１００、要約生成装置１００Ａ、及び要約生成装置１００Ｂの機能を適宜組み合わせて要約生成処理を行ったりしてもよい。例えば、要約生成装置１００や要約生成装置１００Ａは、文章の文章ベクトルと要約の要約ベクトルとにより算出されるコサイン類似度に基づいて、文章から要約に含める文を抽出してもよい。また、例えば、要約生成装置１００Ｂは、文章に含まれる構成要素（文や単語等）と、文章のうち要約として抽出される対象となる文である対象文に含まれる構成要素のうち最も類似する構成要素との類似度に基づいて、要約に含める文を文章から抽出してもよい。

例えば、要約生成装置は、文の文ベクトルと単語の単語ベクトルとの類似度に基づいて、文章から要約に含める文を抽出してもよい。例えば、実施形態に係る要約生成装置１００は、文情報記憶部１２３を有し、文の文ベクトルと単語の単語ベクトルとの類似度に基づいて、文章から要約に含める文を抽出してもよい。また、例えば、要約生成装置は、単語や文の類似度に基づく算出値と、文章ベクトルと要約ベクトルとのコサイン類似度とに基づいて、文章から要約に含める文を抽出してもよい。

例えば、実施形態に係る抽出部１３３は、抽出部１３３Ａや抽出部１３３Ｂの機能を有し、目的に応じて各機能を適宜選択しまたは組み合わせて抽出処理を行ってもよい。また、例えば、実施形態に係る生成部１３２は、生成部１３２Ａの機能を有し、目的に応じて文情報の生成を行ってもよい。また、例えば、要約生成装置１００、要約生成装置１００Ａ、及び要約生成装置１００Ｂは、あるクエリの検索結果の要約とする場合、クエリ中の単語が含まれるときの距離をα乗（例えば、「ｄ（ｘ→，ｖ→）＾α」、上記の式（２）参照）すると、クエリに関係するトピックに絞り込んで要約することなどが可能となる。また、要約生成装置１００、要約生成装置１００Ａ、及び要約生成装置１００Ｂは、クエリ中の単語に類似する単語を単語ベクトルのコサイン類似度で抽出してから、その類似する単語集合が含まれるか否かの情報を使ってもいいし、それらの類似度に基づいて距離を変化させてもよい。

〔７．効果〕
上述してきたように、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、取得部１３１と、抽出部１３３，１３３Ａとを有する。取得部１３１は、文が含まれる文章を取得する。抽出部１３３，１３３Ａは、文章に含まれる構成要素である第１構成要素と、文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第２構成要素のうち、第１構成要素と所定の類似関係を有する第２構成要素との類似度に基づいて、要約に含める文を文章から抽出する。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、文章に含まれる構成要素（第１構成要素）と、文章から要約として抽出される対象となる文である対象文に含まれる構成要素（第２構成要素）のうち、第１構成要素と所定の類似関係を有する第２構成要素との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。例えば、要約生成装置１００，１００Ａは、設定される抽出する文数に応じて、類似度（実施形態においては算出値ＥＶ）ができるだけ大きくなるように文章から要約として用いる文を抽出することにより、要約に含める文を文章から適切に抽出することができる。また、要約生成装置１００及び要約生成装置１００Ａは、上述のように要約に含める文を文章から抽出することにより、要約における単語（第２構成要素）の分布が文章における単語（第１構成要素）の分布と類似するように、要約を生成することができる。これにより、要約生成装置１００及び要約生成装置１００Ａは、文章からより適切に要約を生成することができる。

また、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３，１３３Ａは、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる第１構成要素と、対象文に含まれる第２構成要素のうち、第１構成要素と所定の類似関係を有する第２構成要素との類似度に応じて、要約に含める文を文章から抽出する。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、分散表現の学習結果である各単語の単語ベクトルに基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。

また、実施形態に係る要約生成装置１００において、抽出部１３３は、文章に含まれる単語を構成要素として、要約に含める文を文章から抽出する。

これにより、実施形態に係る要約生成装置１００は、文章に含まれる単語の類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００は、文章から適切に要約を生成することができる。

また、変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３Ａは、文章に含まれる文を構成要素として、要約に含める文を文章から抽出する。

これにより、変形例１に係る要約生成装置１００Ａは、文章に含まれる文の類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００Ａは、文章から適切に要約を生成することができる。

また、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３，１３３Ａは、文章に含まれる第１構成要素と、対象文に含まれる第２構成要素のうち、第１構成要素と所定の類似関係を有する第２構成要素との類似度から算出される算出値が最も高くなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、文章に含まれる構成要素の類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。また、要約生成装置１００，１００Ａは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。

また、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３，１３３Ａは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、予め定められた要約に含める文の数に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。また、要約生成装置１００，１００Ａは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。

また、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３，１３３Ａは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。

また、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３，１３３Ａは、第１構成要素と最も類似することを所定の類似関係として、要約に含める文を文章から抽出する。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、文章に含まれる構成要素（第１構成要素）と、文章から要約として抽出される対象となる文である対象文に含まれる構成要素（第２構成要素）のうち最も類似する構成要素との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。例えば、要約生成装置１００，１００Ａは、設定される抽出する文数に応じて、類似度ができるだけ大きくなるように文章から要約として用いる文を抽出することにより、要約に含める文を文章から適切に抽出することができる。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、予め定められた要約に含める単語の数に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。また、要約生成装置１００，１００Ａは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。

また、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３，１３３Ａは、対象文を含む要約と文章との類似度に基づいて、要約に含める文を文章から抽出する。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、文章全体と要約との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。

また、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａにおいて、抽出部１３３，１３３Ａは、対象文を含む要約に対応する要約ベクトルと、文章に対応する文章ベクトルとにより算出されるコサイン類似度に基づいて、要約に含める文を文章から抽出する。

これにより、実施形態に係る要約生成装置１００及び変形例１に係る要約生成装置１００Ａは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００，１００Ａは、文章から適切に要約を生成することができる。

また、変形例２に係る要約生成装置１００Ｂは、取得部１３１と、抽出部１３３Ｂとを有する。取得部１３１は、文が含まれる文章を取得する。抽出部１３３Ｂは、文章から要約として抽出される対象となる文である対象文を含む要約と、文章との類似度に基づいて、要約に含める文を文章から抽出する。

これにより、変形例２に係る要約生成装置１００Ｂは、文章全体と要約との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００Ｂは、文章から適切に要約を生成することができる。

また、変形例２に係る要約生成装置１００Ｂにおいて、抽出部１３３Ｂは、文章に含まれる単語に関する分散表現の学習結果に基づく、対象文を含む要約と文章との類似度に応じて、要約に含める文を文章から抽出する。

これにより、変形例２に係る要約生成装置１００Ｂは、分散表現の学習結果である各単語の単語ベクトルに基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００Ｂは、文章から適切に要約を生成することができる。

また、変形例２に係る要約生成装置１００Ｂにおいて、抽出部１３３Ｂは、対象文を含む要約に対応する要約ベクトルと、文章に対応する文章ベクトルとにより算出されるコサイン類似度に基づいて、文章から要約に含める文を抽出する。

これにより、変形例２に係る要約生成装置１００Ｂは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００Ｂは、文章から適切に要約を生成することができる。

また、変形例２に係る要約生成装置１００Ｂにおいて、抽出部１３３Ｂは、要約ベクトルと文章ベクトルとに基づいて算出されるコサイン類似度が最も大きくなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。

これにより、変形例２に係る要約生成装置１００Ｂは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置１００Ｂは、文章から適切に要約を生成することができる。また、要約生成装置１００Ｂは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。

また、変形例２に係る要約生成装置１００Ｂにおいて、抽出部１３３Ｂは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。

また、変形例２に係る要約生成装置１００Ｂにおいて、抽出部１３３Ｂは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。

〔８．ハードウェア構成〕
上述してきた実施形態に係る要約生成装置１００、変形例１に係る要約生成装置１００Ａ、及び変形例２に係る要約生成装置１００Ｂは、例えば図１４に示すような構成のコンピュータ１０００によって実現される。図１４は、要約生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定のネットワークＮを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定のネットワークＮを介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る要約生成装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定のネットワークを介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔９．その他〕
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１００，１００Ａ，１００Ｂ要約生成装置
１２１，１２１Ａ文章情報記憶部
１２２，１２２Ａ単語情報記憶部
１２３文情報記憶部
１３０制御部
１３１取得部
１３２，１３２Ａ生成部
１３３，１３３Ａ，１３３Ｂ抽出部

Claims

文が含まれる１つの文書である文章を取得する取得部と、
前記文章に含まれる構成要素である第１構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素であり、前記第１構成要素と同じ種別の構成要素である第２構成要素のうち、前記第１構成要素と所定の類似関係を有する前記第２構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出部と、
を備えたことを特徴とする要約生成装置。
前記抽出部は、
前記文章に含まれる単語に関する分散表現の学習結果に基づいて、前記文章に含まれる前記第１構成要素と、前記対象文に含まれる前記第２構成要素のうち、前記第１構成要素と前記所定の類似関係を有する前記第２構成要素との類似度に応じて、前記要約に含める文を前記文章から抽出する
ことを特徴とする請求項１に記載の要約生成装置。
前記抽出部は、
前記文章に含まれる単語を構成要素として、前記要約に含める文を前記文章から抽出する
ことを特徴とする請求項１または請求項２に記載の要約生成装置。
前記抽出部は、
前記文章に含まれる前記文を構成要素として、前記要約に含める文を前記文章から抽出する
ことを特徴とする請求項１または請求項２に記載の要約生成装置。
前記抽出部は、
前記文章に含まれる前記第１構成要素と、前記文章から複製された処理用文章中の文である前記対象文に含まれる前記第２構成要素のうち、前記第１構成要素と前記所定の類似関係を有する前記第２構成要素との類似度から算出される算出値が最も高くなる一の文を、前記処理用文章から前記対象文として抽出して前記要約に加え、当該一の文を前記処理用文章から除外する抽出処理を、所定の条件を満たすまで繰り返す
ことを特徴とする請求項１〜４のいずれか１項に記載の要約生成装置。
前記抽出部は、
前記要約に含まれる文の数が所定数に達するまで、前記抽出処理を繰り返す
ことを特徴とする請求項５に記載の要約生成装置。
前記抽出部は、
前記要約中の文に含まれる単語の数が所定数に達するまで、前記抽出処理を繰り返す
ことを特徴とする請求項５または請求項６に記載の要約生成装置。
前記抽出部は、
前記第１構成要素と最も類似することを前記所定の類似関係として、前記要約に含める文を前記文章から抽出する
ことを特徴とする請求項１〜７のいずれか１項に記載の要約生成装置。
文が含まれる１つの文書である文章を取得する取得部と、
前記文章から要約として抽出される対象となる文である各対象文及び前記要約として抽出済みの文である抽出済文の組合せに対応する各文集合に各々含まれる構成要素である各第１構成要素と、前記文章に含まれる構成要素であり、前記第１構成要素と同じ種別の構成要素である第２構成要素との各類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出部と、
を備えたことを特徴とする要約生成装置。
前記抽出部は、
前記文章に含まれる単語に関する分散表現の学習結果に基づく、前記各文集合と前記文章との前記各類似度に応じて、前記要約に含める文を前記文章から抽出する
ことを特徴とする請求項９に記載の要約生成装置。
前記抽出部は、
前記各文集合に対応する各要約ベクトルと、前記文章に対応する文章ベクトルとより算出される各コサイン類似度に基づいて、前記文章から前記要約に含める前記文を抽出する
ことを特徴とする請求項９または請求項１０に記載の要約生成装置。
前記抽出部は、
前記文章から複製された処理用文章中の文である前記各対象文及び前記抽出済文の組合せに対応する前記各文集合の前記各要約ベクトルと、前記文章ベクトルとに基づいて算出される前記各コサイン類似度のうち、最も大きなコサイン類似度に対応する一の文を、前記処理用文章から抽出して前記要約に加え、当該一の文を前記処理用文章から除外する抽出処理を、所定の条件を満たすまで繰り返す
ことを特徴とする請求項１１に記載の要約生成装置。
前記抽出部は、
前記要約に含まれる文の数が所定数に達するまで、前記抽出処理を繰り返す
ことを特徴とする請求項１２に記載の要約生成装置。
前記抽出部は、
前記要約中の文に含まれる単語の数が所定数に達するまで、前記抽出処理を繰り返す
ことを特徴とする請求項１２または請求項１３に記載の要約生成装置。
コンピュータが実行する要約生成方法であって、
文が含まれる１つの文書である文章を取得する取得工程と、
前記文章に含まれる構成要素である第１構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素であり、前記第１構成要素と同じ種別の構成要素である第２構成要素のうち、前記第１構成要素と所定の類似関係を有する前記第２構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出工程と、
を含むことを特徴とする要約生成方法。
文が含まれる１つの文書である文章を取得する取得手順と、
前記文章に含まれる構成要素である第１構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素であり、前記第１構成要素と同じ種別の構成要素である第２構成要素のうち、前記第１構成要素と所定の類似関係を有する前記第２構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出手順と、
をコンピュータに実行させることを特徴とする要約生成プログラム。
コンピュータが実行する要約生成方法であって、
文が含まれる１つの文書である文章を取得する取得工程と、
前記文章から要約として抽出される対象となる文である各対象文及び前記要約として抽出済みの文である抽出済文の組合せに対応する各文集合に各々含まれる構成要素である各第１構成要素と、前記文章に含まれる構成要素であり、前記第１構成要素と同じ種別の構成要素である第２構成要素との各類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出工程と、
を含むことを特徴とする要約生成方法。
文が含まれる１つの文書である文章を取得する取得手順と、
前記文章から要約として抽出される対象となる文である各対象文及び前記要約として抽出済みの文である抽出済文の組合せに対応する各文集合に各々含まれる構成要素である各第１構成要素と、前記文章に含まれる構成要素であり、前記第１構成要素と同じ種別の構成要素である第２構成要素との各類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出手順と、
をコンピュータに実行させることを特徴とする要約生成プログラム。