JP2016207141A - 要約生成装置、要約生成方法、及び要約生成プログラム - Google Patents

要約生成装置、要約生成方法、及び要約生成プログラム Download PDF

Info

Publication number
JP2016207141A
JP2016207141A JP2015091548A JP2015091548A JP2016207141A JP 2016207141 A JP2016207141 A JP 2016207141A JP 2015091548 A JP2015091548 A JP 2015091548A JP 2015091548 A JP2015091548 A JP 2015091548A JP 2016207141 A JP2016207141 A JP 2016207141A
Authority
JP
Japan
Prior art keywords
sentence
word
component
similarity
generation device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015091548A
Other languages
English (en)
Other versions
JP6537340B2 (ja
Inventor
隼人 小林
Hayato Kobayashi
隼人 小林
正樹 野口
Masaki Noguchi
正樹 野口
太一 谷塚
Taichi Tanizuka
太一 谷塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2015091548A priority Critical patent/JP6537340B2/ja
Publication of JP2016207141A publication Critical patent/JP2016207141A/ja
Application granted granted Critical
Publication of JP6537340B2 publication Critical patent/JP6537340B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文章から適切に要約を生成すること。【解決手段】本願に係る要約生成装置は、取得部と、抽出部とを有する。取得部は、文が含まれる文章を取得する。抽出部は、文章に含まれる構成要素である第1構成要素と、文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第2構成要素のうち、第1構成要素と所定の類似関係を有する第2構成要素との類似度に基づいて、要約に含める文を文章から抽出する。【選択図】図2

Description

本発明は、要約生成装置、要約生成方法、及び要約生成プログラムに関する。
従来、文章の要約を自動で生成する要約生成に関する技術が提供されている。例えば、文章から抽出した文により要約を生成する、いわゆる重要文抽出に関する技術が提供されている。例えば、TF−IDF(Term Frequency−Inverse Document Frequency)に関する技術を用いて要約生成を行う技術が提供されている。
特開2011−28638号公報
"word2vec"、[online]、[平成27年4月17日検索]、インターネット<URL:https://code.google.com/p/word2vec/>
しかしながら、上記の従来技術では、文章から適切に要約を生成できるとは限らない。例えば、TF−IDFのように単語の出現頻度のみに基づいて文章の要約を生成する場合、生成された要約が文章の内容を適切に要約していない場合がある。
本願は、上記に鑑みてなされたものであって、文章から適切に要約を生成する要約生成装置、要約生成方法、及び要約生成プログラムを提供することを目的とする。
本願に係る要約生成装置は、文が含まれる文章を取得する取得部と、前記文章に含まれる構成要素である第1構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第2構成要素のうち、前記第1構成要素と所定の類似関係を有する前記第2構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出部と、を備えたことを特徴とする。
実施形態の一態様によれば、文章から適切に要約を生成することができるという効果を奏する。
図1は、実施形態に係る要約生成処理の一例を示す図である。 図2は、実施形態に係る要約生成装置の構成例を示す図である。 図3は、実施形態に係る文章情報記憶部の一例を示す図である。 図4は、実施形態に係る単語情報記憶部の一例を示す図である。 図5は、実施形態に係る要約生成処理手順を示すフローチャートである。 図6は、変形例1に係る要約生成処理の一例を示す図である。 図7は、変形例1に係る要約生成装置の構成例を示す図である。 図8は、変形例1に係る文章情報記憶部の一例を示す図である。 図9は、変形例1に係る単語情報記憶部の一例を示す図である。 図10は、変形例1に係る文情報記憶部の一例を示す図である。 図11は、変形例2に係る要約生成処理の一例を示す図である。 図12は、変形例2に係る要約生成装置の構成例を示す図である。 図13は、変形例2に係る要約生成処理手順を示すフローチャートである。 図14は、要約生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る要約生成装置、要約生成方法、及び要約生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る要約生成装置、要約生成方法、及び要約生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.要約生成処理〕
まず、図1を用いて、実施形態に係る要約生成処理の一例について説明する。図1は、実施形態に係る要約生成処理の一例を示す図である。図1では、5つの文B101〜B105が含まれる文章DC10の要約を生成する場合を図示する。図1に示す例においては、要約に含む文数、すなわち抽出する文数は「2」である場合を示す。なお、要約に含める文を抽出する条件は、文数に限らず、例えば、バイト数、文字数、モーラ数、名詞数など、種々の要素を目的に応じて適宜選択してもよい。図1では、文章DC10から2つの文を抽出し、抽出した2つの文を要約とする例を示す。なお、図1に示す例においては、構成要素を単語とした場合を示す。また、図1に示す例においては、文章に含まれる構成要素(第1構成要素)のうち、品詞が名詞である単語(構成要素)を対象とする場合を示す。すなわち、以下に示す例においては、単語は名詞と読み替えることができる。また、以下では、文章から要約として抽出される対象となる文に含まれる単語(第2構成要素)が、第1構成要素と最も類似することを所定の類似関係として、要約に含める文を文章から抽出する例を示す。
まず、要約生成装置100は、文章DC10に含まれる文B101〜B105の各々に含まれる単語のベクトル(以下、「単語ベクトル」とする場合がある)を分散表現の学習により導出する。なお、単語ベクトルの導出については後述する。ここで、図1に示す例においては、文B101は単語a1,a2を含み、文B102は単語b1,b2を含み、文B103は単語c1,c2,c3を含み、文B104は単語d1,d2を含み、文B105は単語e1,e2,e3を含む。なお、各単語a1等は、説明のために各単語を概念的に表現した符号であり、単語a1は例えば“私”や“今日”等の単語に対応する。また、図1に示す例においては、各文B101〜B105の各単語を異なる符号により示すが、各文B101〜B105には同じ単語が含まれてもよい。
図1に示す例においては、文B101〜B105の各々に含まれる単語の単語ベクトルを対応する符号を「○」で囲んだ点として表現する。例えば、文B101に含まれる単語a1の単語ベクトルは、「a1」を「○」で囲んだ点として表現する。例えば、図1に示す例において、各単語a1,a2,b1,b2,c1〜c3,d1,d2,e1〜e3の単語ベクトルは、m次元の実数値ベクトルである。
図1に示す例において、ユークリッド空間ES1は、文B101〜B105に含まれる各単語a1,a2,b1,b2,c1〜c3,d1,d2,e1〜e3が含まれるユークリッド空間を示す。なお、図1に示すユークリッド空間ES1〜ES3は、各単語ベクトル間の距離等の説明のための概念的な図である。例えば、ユークリッド空間ES1〜ES3は、m次元の多次元空間となる。
本実施形態においては、ユークリッド空間ES1〜ES3における各単語ベクトル間の距離を対応する各単語間の類似度とする。ここに、図1に示す例においては、ユークリッド空間ES1〜ES3における各単語ベクトル間の距離が小さい単語同士の類似度が高く、ユークリッド空間ES1〜ES3における各単語ベクトル間の距離が大きい単語同士の類似度が小さい。例えば、図1中のユークリッド空間ES1〜ES3において、単語c1の単語ベクトルと単語e2の単語ベクトルとは近接しており、すなわち距離が小さいため、単語c1と単語e2とは類似度が大きいことを示す。また、ユークリッド空間ES1〜ES3において、単語a1の単語ベクトルと単語a2の単語ベクトルとは近接しておらず、すなわち距離が大きいため、単語a1と単語a2とは類似度が小さいことを示す。
図1に示す例において、要約生成装置100は、抽出する文数「2」に基づいて、文B101〜B105から2つの文を要約として抽出する抽出処理を行う。要約生成装置100は、文章DC10に含まれる単語と、文章DC10のうち要約AB10として抽出される対象となる文(以下、「対象文」とする場合がある)に含まれる単語のうち最も類似する単語との類似度に基づいて、要約AB10に含める文を文章DC10から抽出する。具体的には、要約生成装置100は、文章DC10の文に含まれる単語について、対象文に含まれる単語のうち最も類似する単語との間の距離(以下、「最小距離」とする場合がある)に基づいて、文B101〜B105のうち、2つの文を要約として抽出する。なお、対象文に含まれる単語から最小距離の単語は、その単語自身であり距離は「0」となるため、図1に示す例においては図示を省略する。
具体的には、要約生成装置100は、文章DC10に含まれる単語と、対象文に含まれる単語のうち最も類似度が大きい、すなわち距離が小さい単語との距離の総和が最も小さくなる一の文を、文章DC10から対象文として抽出して要約AB10に加える抽出処理を、要約の文数が2になるまで繰り返す。まず、要約生成装置100は、要約AB10の文数は0であるため、各文B101〜B105について文章DC10に含まれる単語とその文に含まれる単語のうち最も類似する単語との距離の総和(以下、「総和距離」とする場合がある)が最も小さくなる一の文を抽出する。
図1に示す例においては、単語c1〜c3を含む文B103を対象文とした場合、他の文B101,B102,B104,B105に含まれる各単語との最小距離の総和である総和距離が、他の文B101,B102,B104,B105を対象文とした場合の最小距離の総和である総和距離よりも小さくなる。具体的には、単語c1〜c3を含む文B103を対象文とした場合、他の文B101,B102,B104,B105に含まれる単語a1,b1,d1,e2と最も類似度が大きい文B103中の単語は単語c1となる。ここに、単語a1と単語c1との最小距離は距離d101となり、単語b1と単語c1との最小距離は距離d102となり、単語d1と単語c1との最小距離は距離d103となり、単語e2と単語c1との最小距離は距離d104となる。また、他の文B101,B104,B105に含まれる単語a2,d2,e3と最も類似度が大きい文B103中の単語は単語c2となる。ここに、単語a2と単語c2との最小距離は距離d105となり、単語d2と単語c2との最小距離は距離d106となり、単語e3と単語c2との最小距離は距離d107となる。また、他の文B102,B105に含まれる単語b2,e1と最も類似度が大きい文B103中の単語は単語c3となる。ここに、単語b2と単語c3との最小距離は距離d108となり、単語e1と単語c3との最小距離は距離d109となる。
上記のように、単語c1〜c3を含む文B103を対象文とした場合における、距離d101〜d109の総和である総和距離は、他の文B101,B102,B104,B105を対象文とした場合の総和距離よりも小さい。すなわち、単語c1〜c3を含む文B103を対象文として要約AB10に加えた場合、総和距離が最も小さくなる。例えば、単語a1,a2を含む文B101を対象文とした場合、単語b2,c3,e1の最小距離は、単語a2の単語ベクトルからの距離となり、最小距離が大きくなる。そのため、単語a1,a2を含む文B101を対象文とした場合の総和距離は、単語c1〜c3を含む文B103を対象文とした場合の総和距離に比べて大きくなる。したがって、図1に示す例においては、要約生成装置100は、単語c1〜c3を含む文B103を抽出し、要約AB10に加える。
ここで、文B103が加えられた要約AB10の文数は1であり、抽出する文数は「2」であるため、要約生成装置100は、さらにもう1つの文を抽出する。すなわち、要約生成装置100は、文B103が含まれる要約AB10に加えた場合に総和距離が最も小さくなる文を対象文として抽出する。
図1に示す例においては、単語d1,d2を含む文B104を対象文とした場合、他の文B101,B102,B105に含まれる各単語との最小距離の総和である総和距離が、他の文B101,B102,B105を対象文とした場合の最小距離の総和である総和距離よりも小さくなる。具体的には、単語d1,d2を含む文B104を対象文とした場合、他の文B101,B102に含まれる単語a1,b1と最も類似度が大きい対象文中の単語は文B104の単語d1となる。ここに、単語a1と単語d1との最小距離は距離d201となり、単語b1と単語d1との最小距離は距離d202となる。ここで、単語a1と単語d1との最小距離である距離d201は、文B104を対象文とする前における単語a1と単語c1との最小距離である距離d101よりも小さい。また、単語b1と単語d1との最小距離である距離d202は、文B104を対象文とする前における単語b1と単語c1との最小距離である距離d102よりも小さい。また、他の文B105に含まれる単語e2と最も類似度が大きい対象文中の単語は文B103の単語c1であり、単語e2と単語c1との最小距離は距離d104のままである。
また、他の文B101に含まれる単語a2と最も類似度が大きい対象文中の単語は文B104の単語d2であり、単語a2と単語d2との最小距離は距離d203となる。また、他の文B105に含まれる単語e3と最も類似度が大きい対象文中の単語は文B103の単語c2であり、単語e3と単語c2との最小距離は距離d107のままである。また、他の文B102,B105に含まれる単語b2,e1と最も類似度が大きい対象文中の単語は文B103の単語c3であり、単語b2と単語c3との最小距離は距離d108、単語e1と単語c3との最小距離は距離d109のままである。
上記のように、単語d1,d2を含む文B104を対象文とした場合における総和距離は、距離d104,d107,d108,d109,d201〜d203の総和になる。単語d1,d2を含む文B104を対象文とした場合における総和距離は、他の文B101,B102,B105を対象文とした場合の総和距離よりも小さい。すなわち、単語d1,d2を含む文B104を対象文として要約AB10に加えた場合、総和距離が最も小さくなる。例えば、単語a1,a2を含む文B101を対象文とした場合、単語b1からの最小距離は、単語c1の単語ベクトルからの距離d102のままであり、文B104を対象文とした場合における単語b1と単語d1との距離d202よりも大きい。そのため、単語a1,a2を含む文B101を対象文とした場合の総和距離は、単語d1,d2を含む文B104を対象文とした場合の総和距離に比べて大きくなる。したがって、図1に示す例においては、要約生成装置100は、単語d1,d2を含む文B104を抽出し、要約AB10に加える。ここに、要約生成装置100は、要約AB10に含める文B103,B104を文章DC10から抽出する。これにより、要約生成装置100は、2つの文B103,B104を含む要約AB10を生成する。
このように、実施形態に係る要約生成装置100は、設定される抽出する文数に応じて、総和距離ができるだけ小さくなるように文章から要約として用いる文を抽出する。そして、要約生成装置100は、抽出した文を要約とする。これにより、要約生成装置100は、文章から適切に要約を生成することができる。例えば、図1に示す例において、要約生成装置100が抽出した文B103,B104における距離d104,d107,d108,d109,d201〜d203の総和である総和距離は、他の文、例えば文B101,B102を対象文として抽出した場合の総和距離よりも小さい。すなわち、文B103,B104の組合せは、文B101,B102の組合せよりもより適切に文章DC10を要約している。このように、要約生成装置100は、規定される文の数に基づいて、総和距離ができるだけ小さくなるように文を抽出することにより、文章から要約として用いる文を適切に抽出することができる。したがって、要約生成装置100は、文章から適切に要約を生成することができる。
また、要約生成装置100は、上述のように要約に含める文を文章から抽出することにより、要約における単語(第2構成要素)の分布が文章における単語(第1構成要素)の分布と類似するように、要約を生成することができる。例えば、要約生成装置100は、上述のように要約に含める文を文章から抽出することにより、要約における単語の類似度に基づく分布が文章における単語の類似度に基づく分布と類似するように、要約を生成することができる。これにより、要約生成装置100は、文章からより適切に要約を生成することができる。なお、図1に示す例においては、要約生成装置100が、構成要素(単語)間の類似度としてユークリッド空間における距離(ユークリッド距離)に基づいて、要約に含める文を文章から抽出する例を示したが、構成要素間の類似度に関する情報はユークリッド距離以外であっても、類似度(非類似度)に関する情報(関数)であれば、目的に応じて種々の情報を用いてもよい。例えば、要約生成装置100は、ユークリッド距離のα乗(例えば、「d(x→,v→)^α」、下記の式(2)参照)などを構成要素間の類似度に関する情報(関数)としてもよい。この場合、例えば、α>1のときはより広範囲の話題に対応しやすくなり、α<1の場合は大きな話題に集中しやすくなる。
また、所定の類似関係は、上記に限らず、例えば第1構成要素と類似度が大きい複数(例えば3つ等)の第2構成要素を第1構成要素と所定の類似関係を有するとしたり、目的に応じて種々の関係を適宜選択したり組み合わせたりしてもよい。この場合、例えば、第1構成要素と複数の第2構成要素との類似度の平均に基づいて、要約に含める文を文章から抽出してもよい。また、例えば、複数の第2構成要素のうち類似度が大きいほどより重みを大きくし、第1構成要素と複数の第2構成要素との類似度と重みとに基づいて、要約に含める文を文章から抽出してもよい。なお、図1に示す例においては、文章に含まれる構成要素(第1構成要素)のうち、品詞が名詞である単語(構成要素)を対象とする場合を示したが、要約生成装置100は、名詞に限らず、動詞や形容詞等の品詞を目的に応じて適宜選択したり、組み合わせたりしてもよい。また、例えば、文や文書(文章)に含まれる単語が抽出され、文や文章のタグとして利用されてもよい。この場合、要約生成装置100は、文の選択(抽出)ではなく、文章中の単語を選択(抽出)してもよい。これにより、要約生成装置100は、単語を文書のタグとして利用することが可能となる。
〔2.要約生成装置の構成〕
次に、図2を用いて、実施形態に係る要約生成装置100の構成について説明する。図2は、実施形態に係る要約生成装置の構成例を示す図である。図2に示すように、要約生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、要約生成装置100は、各種の情報を表示する表示部や、各種の情報を入力する入力部を有してもよい。
(通信部110)
通信部110は、例えば、NIC等によって実現される。そして、通信部110は、所定のネットワークと有線または無線で接続され、外部の情報処理装置との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図2に示すように、文章情報記憶部121と、単語情報記憶部122とを有する。
(文章情報記憶部121)
実施形態に係る文章情報記憶部121は、文章情報を記憶する。図3は、実施形態に係る文章情報記憶部の一例を示す図である。図3に示す例においては、文章情報記憶部121には、文章に関する情報が記憶される。図3に示すように、文章情報記憶部121は、文章情報として、「文章ID」、「文ID」、「単語1」〜「単語3」等の項目を有する。
「文章ID」は、文章を識別するための識別情報を示す。「文ID」は、文を識別するための識別情報を示す。また、「単語1」〜「単語3」・・・は、単語に関する情報を記憶する。図3に示す例においては、「単語1」〜「単語3」・・・の項目に単語が記憶される。すなわち、図3に示す例において、文ID「B101」により識別される文は、単語a1、単語a2を含むことを示す。また、文ID「B102」により識別される文は、単語b1、単語b2を含むことを示す。なお、「単語1」〜「単語3」・・・は、各文の語順に対応してもよい。「単語」の項目には、単語を識別する単語ID等が記憶されてもよい。
例えば、図3に示す例において、文章ID「DC10」により識別される文章(図1に示す文章DC10に対応)は、文ID「B101」により識別される文(図1に示す文B101に対応)、文ID「B102」により識別される文(図1に示す文B102に対応)、文ID「B103」により識別される文(図1に示す文B103に対応)、文ID「B104」により識別される文(図1に示す文B104に対応)、文ID「B105」により識別される文(図1に示す文B105に対応)により構成されることを示す。つまり、文章DC10は、文ID「B101」〜文ID「B105」により識別される5つの文により構成されることを示す。
(単語情報記憶部122)
実施形態に係る単語情報記憶部122は、単語情報を記憶する。図4は、実施形態に係る単語情報記憶部の一例を示す図である。図4に示すように、単語情報記憶部122は、各単語に関する情報を記憶する。具体的には、単語情報記憶部122は、分散表現により学習された各単語の素性の重みに関する情報を記憶する。図4に示すように、単語情報記憶部122は、単語情報として、「単語」、「素性1」〜「素性3」等の項目を有する。
例えば、図4に示す例において、単語a1は、素性1の重みが「−2.3」、素性2の重みが「1.8」、素性3の重みが「0.45」等であることを示す。また、単語a2は、素性1の重みが「0」、素性2の重みが「−10.4」、素性3の重みが「−2.2」等であることを示す。例えば、各単語がm次元のベクトルで表現される場合、素性数はm個になり、素性1〜素性mの重みが記憶される。
(制御部130)
図2の説明に戻って、制御部130は、例えば、CPUやMPU等によって、要約生成装置100内部の記憶装置に記憶されている各種プログラム(判定プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASICやFPGA等の集積回路により実現される。
図2に示すように、制御部130は、取得部131と、生成部132と、抽出部133とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図2に示した接続関係に限られず、他の接続関係であってもよい。また、制御部130は、例えば、生成した要約を外部の情報処理装置に送信する場合、送信部を有してもよい。
(取得部131)
本実施形態における取得部131は、文章情報等を取得する。また、取得部131は、外部の情報処理装置から単語情報を取得してもよい。また、取得部131は、外部の情報処理装置から単語情報を取得した場合、取得した単語情報を単語情報記憶部122に格納する。
(生成部132)
生成部132は、単語の類似度に関する情報を生成する。具体的には、生成部132は、文章情報記憶部121に記憶された文章情報に基づいて、分散表現の学習を行い、各単語の素性の重みを単語情報として生成する。例えば、生成部132は、非特許文献1の「word2vec」に関する技術に基づいて、分散表現の学習を行ってもよい。生成部132は、各単語についてm次元の実数値ベクトルである単語ベクトル(例えば、「word embedding」等と称される)を導出する。例えば、各次元の実数値が、単語情報における各素性の重みに対応する。このように、生成部132は、分散表現の学習により単語情報を生成する。例えば、単語ベクトルは、図1に示すユークリッド空間ES1〜ES3において、単語の単語ベクトルを対応する符号を「○」で囲んだ点として表現される。また、生成部132は、生成した単語情報を単語情報記憶部122に格納する。なお、生成部132は、上記に限らず目的に応じて種々の技術に基づいて単語情報を生成してもよい。また、要約生成装置100は、単語情報が外部の情報処理装置から取得される場合、生成部132を有さなくてもよい。
(抽出部133)
抽出部133は、生成部132により生成された単語情報に基づいて、文章から要約とする文を抽出する。例えば、抽出部133は、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる単語(第1構成要素)と、文章から要約として抽出される対象となる文である対象文に含まれる単語(第2構成要素)のうち、文章に含まれる単語(第1構成要素)と所定の類似関係を有する単語(第2構成要素)との類似度に基づいて、要約に含める文を文章から抽出する。具体的には、抽出部133は、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる単語と、文章から要約として抽出される対象となる文である対象文に含まれる単語のうち最も類似する単語との類似度に基づいて、要約に含める文を文章から抽出する。
例えば、抽出部133は、文章に含まれる単語と、対象文に含まれる単語のうち最も類似する単語との類似度から算出される算出値EVが最も高くなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。例えば、抽出部133は、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。また、例えば、抽出部133は、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。以下、要約に含まれる文の数が所定数(例えば、「3」等)に達することを所定の条件とした場合の抽出処理について説明する。
抽出部133は、文章に含まれる単語について、要約中の文(対象文)に含まれる単語のうち最も類似する単語との間の距離である最小距離に基づいて、所定数の文を要約として抽出する。ここで、ある単語xについて、要約中の文に含まれる単語のうち最も類似する単語は、以下の式(1)により定義される。ここで、以下に示す式(1)〜(4)におおて、記号「D(以下「文章集合D」とする)」は文章の集合を示し、記号「C(以下「要約集合C」とする)」は要約の集合を示す。なお、文章集合Dや要約集合Cは多重集合であってもよい。また、以下に示す式(1)〜(4)において、記号「x」や記号「v」は単語に対応し、記号「s」は文に対応する。以下、記号「x」に対応する単語を単語xとし、記号「v」に対応する単語を単語vとし、記号「s」に対応する文を文sとする場合がある。また、以下に示す式(1)〜(4)において、記号「x」や記号「v」の上に「→」が付された記号は単語ベクトルに対応する。明細書中においては、記号「x」上に「→」が付された記号を「x→」と表記し、記号「v」上に「→」が付された記号を「v→」と表記する。また、「s∈C」は、要約集合Cに含まれる文sを示し、「v∈s」は、文sに含まれる単語vを示す。
Figure 2016207141
上記の式(1)の左辺中の「n(x,C)」は、ある単語xについて要約中の文に含まれる単語のうち最も類似する単語を示す。以下、「n(x,C)」に対応する単語を「最近接単語」と称する場合がある。上記の式(1)の右辺中の「d(x→,v→)」は、単語xと単語vとの距離を示し、以下の式(2)により定義される。
Figure 2016207141
例えば、図1中のユークリッド空間ES3に示す例においては、ある単語xが単語a1である場合、最近接単語n(x,C)は、単語d1となる。ここに、ある単語xとその最近接単語n(x,C)との距離は、以下の式(3)により定義される。なお、記号「n(x,C)」の上に「→」が付された記号は単語ベクトルに対応する。以下、明細書中においては、記号「n(x,C)」上に「→」が付された記号を「n(x,C)→」と表記する。つまり、「n(x,C)→」は、最近接単語n(x,C)の単語ベクトルに対応する。
Figure 2016207141
上記の式(3)により、各単語xの最近接単語n(x,C)との距離が算出される。つまり、上記の式(3)により算出される「N(x,C)」の値は、単語xの最小距離となる。以下、「N(x,C)」を、単語xの最小距離N(x,C)とする。例えば、図1中のユークリッド空間ES3に示す例においては、ある単語xが単語a1である場合、単語a1の最小距離N(a1,C)は、距離d201に対応する値となる。そして、上記の式(3)により文章集合D中の全単語における最小距離に基づく目的関数は、以下の式(4)により定義される。なお、以下の式(4)中において、「s∈D」は、文章集合Dに含まれる文sを示し、「x∈s」は、文sに含まれる単語xを示す。
Figure 2016207141
上記の式(4)の左辺中の目的関数「fNN(C)」の値は、文章集合D中の全単語における最小距離の総和である総和距離をマイナス倍(−1倍)した値(以下、「算出値EV」とする)となる。つまり、算出値EVは、総和距離が小さくなるほど大きくなる。なお、目的関数「fNN(C)」(算出値EV)は、上記に限らず、目的関数「fNN(C)」を最大化する最適化問題(最大化問題)に帰着できれば、種々の目的関数を適宜選択されてもよい。例えば、目的関数「fNN(C)」は、総和距離の逆数(1/総和距離)に対応する目的関数であってもよい。ここに、抽出部133は、上記の式(4)により算出される算出値EVが大きくなるように、要約に含める文を文章から抽出する。なお、目的関数「fNN(C)」は、劣モジュラー関数である。また、上記の式(4)においては、要約に含める文(対象文)として抽出された文中の単語も単語xの対象として含まれるが、対象文に含まれる単語から最小距離の単語は、その単語自身であり距離は「0」となる。そのため、抽出部133は、単語xの対象に、対象文として抽出された文中の単語を含めなくてもよい。
〔3.要約生成処理のフロー〕
次に、図5を用いて、実施形態に係る要約生成装置100による要約生成処理の手順について説明する。図5は、実施形態に係る要約生成処理手順を示すフローチャートである。
図5に示すように、要約生成装置100の取得部131は、文章情報を取得する(ステップS101)。例えば、取得部131は、文章DIを文章情報として取得する。その後、例えば、生成部132は、取得部131により取得された単語情報に基づいて分散表現の学習を行い、単語情報を生成する。なお、単語情報が外部の処理装置から取得される場合、生成部132は単語情報の生成を行わなくてもよい。
そして、抽出部133は、取得した文章DIを処理用文章DTにコピーする(ステップS102)。また、抽出部133は、要約Aを空に設定する(ステップS103)。その後、抽出部133は、処理用文章DTのうち、要約Aに含めた場合、上記の式(4)により算出される算出値EVが最も大きくなる文sを抽出する(ステップS104)。
その後、抽出部133は、抽出した文sを処理用文章DTから除外する(ステップS105)。そして、抽出部133は、抽出した文sを要約Aに追加する(ステップS106)。
その後、抽出部133は、抽出した文の数、すなわち要約Aに含まれる文の数が所定数未満の場合(ステップS107:Yes)、ステップS104に戻りステップS104〜S106の処理を繰り返す。また、抽出部133は、抽出した文の数、すなわち要約Aに含まれる文の数が所定数に達した場合(ステップS107:No)、処理を終了する。このように、抽出部133は、要約Aに含める文を文章DIから抽出する。これにより、要約生成装置100は、要約Aを生成する。なお、上記の処理は一例であり、要約生成装置100は、例えば、ステップS104において抽出した文sについて、文章DIに含まれる文sにフラグを付ける等の処理により要約Aに追加した文sを識別可能な場合、ステップS102等に示す処理用文章DTを用いることなく、文章DIと要約Aとにより要約生成処理を行ってもよい。この場合、抽出部133は、例えば、ステップS102を行わず、ステップS104において文章DIのうちフラグが付けられていない文を対象に文sを抽出する。そして、抽出部133は、例えば、ステップS105において文章DI中の文sにフラグを付ける。
〔4.変形例1〕
上述した実施形態に係る要約生成装置100は、上記実施形態以外にも種々の異なる形態にて実施されてもよい。そこで、以下では、要約生成装置100の他の実施形態について説明する。
〔4−1.要約生成処理〕
上述した実施形態において、要約生成装置100は、構成要素を単語として、各文に含まれる単語の類似度に基づいて算出された算出値EVに基づいて、要約に含める文を文章から抽出し、要約を生成する。しかしながら、変形例1に係る要約生成装置100Aは、構成要素を文として、文の類似度に基づいて算出された算出値EVに基づいて、要約に含める文を文章から抽出し、要約を生成する点において、実施形態に係る要約生成装置100と相違する。この点について、図6〜図10を用いて説明する。なお、実施形態と同様の内容については、説明を適宜省略する。
まず、図6を用いて、変形例1に係る要約生成処理の一例について説明する。図6は、変形例1に係る要約生成処理の一例を示す図である。図6では、12の文B1〜B12が含まれる文章DC11の要約を生成する場合を図示する。図6に示す例においては、要約に含む文数、すなわち抽出する文数は「2」である場合を示す。図6では、文章DC11から2つの文を抽出し、抽出した2つの文を要約とする例を示す。なお、図6に示す例においては、構成要素を文とした場合を示す。
まず、要約生成装置100Aは、文章DC11に含まれる文B1〜B12の各々のベクトル(以下、「文ベクトル」とする場合がある)を導出する。図6に示す例においては、文B1〜B12の各々の文ベクトルを対応する符号を「○」で囲んだ点として表現する。例えば、文B1の文ベクトルは、「B1」を「○」で囲んだ点として表現する。図6に示す例においては、要約生成装置100Aは、分散表現の学習により導出された文章DC11に含まれる単語の各々の単語ベクトルに基づいて、文B1〜B12の各々の文ベクトルを導出するが、詳細は後述する。なお、図6に示す例において、単語ベクトル及び文ベクトルは、m次元の実数値ベクトルである。また、図6に示す例においては、文章に含まれる単語のうち、品詞が名詞である単語を対象とする場合を示す。
図6に示す例において、ユークリッド空間ES11は、文B1〜B12の各々の文ベクトルが含まれるユークリッド空間を示す。なお、図6に示すユークリッド空間ES11,ES12は、各文ベクトル間の距離等の説明のための概念的な図である。例えば、ユークリッド空間ES11,ES12は、m次元の多次元空間となる。
本変形例1においては、ユークリッド空間ES11,ES12における各文ベクトル間の距離を対応する各文間の類似度とする。ここに、図6に示す例においては、ユークリッド空間ES11,ES12における各文ベクトル間の距離が小さい文同士の類似度が高く、ユークリッド空間ES11,ES12における各文ベクトル間の距離が大きい文同士の類似度が小さい。例えば、図6中のユークリッド空間ES11,ES12において、文B4の文ベクトルと文B9の文ベクトルとは近接しており、すなわち距離が小さいため、文B4と文B9とは類似度が大きいことを示す。また、ユークリッド空間ES11,ES12において、文B5の文ベクトルと文B12の文ベクトルとは近接しておらず、すなわち距離が大きいため、文B5と文B12とは類似度が小さいことを示す。
図6に示す例において、要約生成装置100Aは、抽出する文数「2」に基づいて、文B1〜B12から2つの文を要約として抽出する抽出処理を行う。要約生成装置100Aは、文章DC11に含まれる文(第1構成要素)と、文章DC11のうち要約AB11に含まれる文(対象文)のうち、文章DC11に含まれる文(第1構成要素)と所定の類似関係を有する文(第2構成要素)との類似度に基づいて、要約AB11に含まれる文を文章DC11から抽出する。また、以下では、文章から要約として抽出される対象となる対象文に含まれる文(第2構成要素)が、文章DC11に含まれる文(第1構成要素)と最も類似することを所定の類似関係として、要約に含める文を文章から抽出する例を示す。具体的には、要約生成装置100Aは、文章DC11に含まれる文について、要約AB11に含まれる文(対象文)のうち最も類似する文との間の距離(以下、「最小距離」とする場合がある)に基づいて、文B1〜B12のうち、2つの文を要約として抽出する。なお、対象文から最小距離の文は、その対象文自身であり距離は「0」となるため、図6に示す例においては図示を省略する。
具体的には、要約生成装置100Aは、文章DC11に含まれる文と、最も類似度が大きい、すなわち距離が小さい文との距離の総和が最も小さくなる一の文を、文章DC11から対象文として抽出して要約AB11に加える抽出処理を、要約の文数が2になるまで繰り返す。まず、要約生成装置100Aは、要約AB11の文数は0であるため、各文B1〜B12について文章DC11に含まれる文B1〜B12と、その文との距離の総和(以下、「総和距離」とする場合がある)が最も小さくなる一の文を抽出する。図6に示す例においては、文B8を対象文とした場合における総和距離は、他の文B1〜B7,B9〜B12を対象文とした場合の総和距離よりも小さい。すなわち、文B8を対象文として要約AB11に加えた場合、総和距離が最も小さくなる。したがって、図6に示す例においては、要約生成装置100Aは、文B8を抽出し、要約AB11に加える。
また、文B8が加えられた要約AB11の文数は1であり、抽出する文数は「2」であるため、要約生成装置100Aは、さらにもう1つの文を抽出する。すなわち、要約生成装置100Aは、文B8が含まれる要約AB11に加えた場合に総和距離が最も小さくなる文を対象文として抽出する。図6に示す例においては、文B6を対象文とした場合における総和距離は、他の文B1〜B5,B7,B9〜B12を対象文とした場合の総和距離よりも小さい。すなわち、文B6を対象文として要約AB11に加えた場合、総和距離が最も小さくなる。したがって、図6に示す例においては、要約生成装置100Aは、文B6を抽出し、要約AB11に加える。このように、図6に示す例においては、要約生成装置100Aは、距離d1〜d10の総和が小さくなるように2つの文を抽出する。ここに、要約生成装置100Aは、要約AB11に含める文B6,B8を文章DC11から抽出する。これにより、要約生成装置100Aは、2つの文B6,B8を含む要約AB11を生成する。
このように、変形例1に係る要約生成装置100Aは、設定される抽出する文数に応じて、総和距離ができるだけ小さくなるように文章から要約として用いる文を抽出する。そして、要約生成装置100Aは、抽出した文を要約とする。これにより、要約生成装置100Aは、文章から適切に要約を生成することができる。例えば、図6に示す例において、要約生成装置100Aが抽出した文B6,B8における距離d1〜d10の総和である総和距離は、他の文、例えば文B1及び文B2を対象文として抽出した場合の総和距離よりも小さい。すなわち、文B6,B8の組合せは、文B1,B2の組合せよりもより適切に文章DC11を要約している。このように、要約生成装置100Aは、総和距離ができるだけ小さくなるように文を抽出することにより、文章から要約として用いる文を適切に抽出することができる。したがって、要約生成装置100Aは、文章から適切に要約を生成することができる。また、要約生成装置100Aは、上述のように要約に含める文を文章から抽出することにより、要約における文(第2構成要素)の分布が文章における文(第1構成要素)の分布と類似するように、要約を生成することができる。例えば、要約生成装置100は、上述のように要約に含める文を文章から抽出することにより、要約における文の類似度に基づく分布が文章における文の類似度に基づく分布と類似するように、要約を生成することができる。これにより、要約生成装置100Aは、文章からより適切に要約を生成することができる。また、所定の類似関係は、上記に限らず、例えば第1構成要素と類似度が大きい複数の第2構成要素を第1構成要素と所定の類似関係を有するとしたり、目的に応じて種々の関係を適宜選択したり組み合わせたりしてもよい。例えば第1構成要素と類似度が大きい複数(例えば3つ等)の第2構成要素を第1構成要素と所定の類似関係を有するとしたり、目的に応じて種々の関係を適宜選択したり組み合わせたりしてもよい。この場合、例えば、第1構成要素と複数の第2構成要素との類似度の平均に基づいて、要約に含める文を文章から抽出してもよい。また、例えば、複数の第2構成要素のうち類似度が大きいほどより重みを大きくし、第1構成要素と複数の第2構成要素との類似度と重みとに基づいて、要約に含める文を文章から抽出してもよい。
〔4−2.要約生成装置の構成〕
次に、図7を用いて、変形例1に係る要約生成装置100Aの構成について説明する。図7は、変形例1に係る要約生成装置の構成例を示す図である。なお、要約生成装置100Aにおいて、実施形態に係る要約生成装置100と同様の構成は、同一の符号を付して説明を省略する。
図7に示すように、要約生成装置100は、通信部110と、記憶部120Aと、制御部130Aとを有する。図7に示すように、要約生成装置100Aは、記憶部120Aに文情報記憶部123を有する点において要約生成装置100と相違する。また、制御部130Aは、取得部131と、生成部132Aと、抽出部133Aとを有し、その他の点は制御部130と同様である。
(文章情報記憶部121A)
変形例1に係る文章情報記憶部121Aは、文章情報を記憶する。図8は、変形例1に係る文章情報記憶部の一例を示す図である。図8に示す例においては、文章情報記憶部121Aには、文章に関する情報が記憶される。図8に示すように、文章情報記憶部121Aは、文章情報として、「文章ID」、「文ID」、「単語1」〜「単語3」等の項目を有する。
「文章ID」は、文章を識別するための識別情報を示す。「文ID」は、文を識別するための識別情報を示す。また、「単語1」〜「単語3」・・・は、単語に関する情報を記憶する。図8に示す例においては、「単語1」〜「単語3」・・・の項目に単語が記憶される。すなわち、図8に示す例において、文ID「B1」により識別される文は、単語W1、単語W2、単語W3等を含むことを示す。また、文ID「B2」により識別される文は、単語W4、単語W5、単語W6等を含むことを示す。「単語1」〜「単語3」・・・は、各文の語順に対応してもよい。なお、「単語」の項目には、単語を識別する単語ID等が記憶されてもよい。
例えば、図8に示す例において、文章ID「DC11」により識別される文章(図6に示す文章DC11に対応)は、文ID「B1」により識別される文(図6に示す文B1に対応)、文ID「B2」により識別される文(図6に示す文B2に対応)、文ID「B3」により識別される文(図6に示す文B3に対応)、文ID「B4」により識別される文(図6に示す文B4に対応)等により構成されることを示す。具体的には、文章DC11は、文ID「B1」〜文ID「B12」により識別される12の文により構成される。
(単語情報記憶部122A)
変形例1に係る単語情報記憶部122Aは、単語情報を記憶する。図9は、変形例1に係る単語情報記憶部の一例を示す図である。図9に示すように、単語情報記憶部122Aは、各単語に関する情報を記憶する。具体的には、単語情報記憶部122Aは、分散表現により学習された各単語の素性の重みに関する情報を記憶する。図9に示すように、単語情報記憶部122Aは、単語情報として、「単語」、「素性1」〜「素性3」等の項目を有する。
例えば、図9に示す例において、単語W1は、素性1の重みが「1.5」、素性2の重みが「0」、素性3の重みが「0.8」等であることを示す。また、単語W2は、素性1の重みが「−1.4」、素性2の重みが「2.75」、素性3の重みが「0.05」等であることを示す。例えば、各単語がm次元のベクトルで表現される場合、素性数はm個になり、素性1〜素性mの重みが記憶される。
(文情報記憶部123)
変形例1に係る文情報記憶部123は、文情報を記憶する。図10は、変形例1に係る文情報記憶部の一例を示す図である。図8に示すように、文情報記憶部123は、各文に関する情報を記憶する。具体的には、文情報記憶部123は、分散表現により学習された学習結果に基づく、各文の素性の重みに関する情報を記憶する。図10に示すように、文情報記憶部123は、文情報として、「文ID」、「素性1」〜「素性3」等の項目を有する。
例えば、図10に示す例において、文ID「B1」により識別される文は、素性1の重みが「2.95」、素性2の重みが「1.46」、素性3の重みが「−4.2」等であることを示す。また、文ID「B2」により識別される文は、素性1の重みが「0.5」、素性2の重みが「−2.45」、素性3の重みが「3.2」等であることを示す。例えば、各文がm次元のベクトルで表現される場合、素性数はm個になり、素性1〜素性mの重みが記憶される。
(生成部132A)
生成部132Aは、単語や文の類似度に関する情報を生成する。具体的には、生成部132Aは、文章情報記憶部121Aに記憶された文章情報に基づいて、分散表現の学習を行い、各単語の素性の重みを単語情報として生成する。例えば、生成部132Aは、非特許文献1の「word2vec」に関する技術に基づいて、分散表現の学習を行ってもよい。生成部132Aは、各単語についてm次元の実数値ベクトルである単語ベクトルを導出する。例えば、各次元の実数値が、単語情報における各素性の重みに対応する。このように、生成部132Aは、分散表現の学習により単語情報を生成する。また、生成部132Aは、生成した単語情報を単語情報記憶部122Aに格納する。なお、生成部132Aは、上記に限らず目的に応じて種々の技術に基づいて単語情報を生成してもよい。また、単語情報が外部の情報処理装置から取得される場合、生成部132Aは、単語情報の生成を行わなくてもよい。
また、生成部132Aは、分散表現の学習結果に基づいて、文の類似度に関する情報を生成する。具体的には、生成部132Aは、単語情報記憶部122Aに記憶された単語情報に基づいて、文情報を生成する。例えば、生成部132Aは、文に含まれる単語の単語ベクトルに基づいて、各文の文ベクトルを生成してもよい。例えば、生成部132Aは、文に含まれる単語の単語ベクトルの総和を文ベクトルとしてもよい。この場合、図10に示す例において、文B1の文ベクトルは、単語W1の単語ベクトル、単語W2の単語ベクトル、単語3の単語ベクトル等の総和となる。つまり、生成部132Aは、各文についてm次元の実数値ベクトルである文ベクトルを導出する。例えば、各次元の実数値が、文情報における各素性の重みに対応する。このように、生成部132Aは、単語情報に基づいて文情報を生成する。例えば、図6に示すユークリッド空間ES11,ES12における文ベクトルは、各文を構成する単語の単語ベクトルの総和である。
なお、生成部132Aは、上記に限らず目的に応じて種々の情報に基づいて文情報を生成してもよい。例えば、生成部132Aは、単語の語順等に基づいて文情報を生成してもよい。また、生成部132Aは、文に含まれる各単語の単語ベクトルの平均に基づいて文情報を算出してもよい。また、生成部132Aは、文に含まれる各単語の単語ベクトルごとに重み値を算出し、単語ベクトルと重み値に基づいて文情報を算出してもよい。なお、要約生成装置100Aは、単語情報及び文情報が外部の情報処理装置から取得される場合、生成部132Aを有さなくてもよい。
(抽出部133A)
抽出部133Aは、生成部132Aにより生成された文情報に基づいて、文章から要約とする文を抽出する。具体的には、抽出部133Aは、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる文と、文章から要約として抽出される対象となる文である対象文のうち最も類似する文との類似度に基づいて、要約に含める文を文章から抽出する。
例えば、抽出部133Aは、文章に含まれる文と、対象文のうち最も類似する文との類似度から算出される算出値EVが最も高くなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。例えば、抽出部133Aは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。また、例えば、抽出部133Aは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。以下、要約に含まれる文の数が所定数(例えば、「4」等)に達することを所定の条件とした場合の抽出処理について説明する。
抽出部133Aは、文章に含まれる文について、要約中の文(対象文)のうち最も類似する文との間の距離である最小距離に基づいて、所定数の文を要約として抽出する。ここで、ある文xについて、要約中の文に含まれる文のうち最も類似する文は、以下の式(5)により定義される。ここで、以下に示す式(5)〜(8)において、記号「D(以下「文章集合D」とする)」は文章の集合を示し、記号「C(以下「要約集合C」とする)」は要約の集合を示す。なお、文章集合Dや要約集合Cは多重集合であってもよい。また、以下に示す式(5)〜(8)において、記号「x」や記号「s」は文に対応する。以下、記号「x」に対応する文を文xとし、記号「s」に対応する文を文sとする場合がある。また、以下に示す式(5)〜(8)において、記号「x」や記号「s」の上に「→」が付された記号は文ベクトルに対応する。以下、明細書中においては、記号「x」上に「→」が付された記号を「x→」と表記し、記号「s」上に「→」が付された記号を「s→」と表記する。また、「s∈C」は、要約集合Cに含まれる文sを示す。
Figure 2016207141
上記の式(5)の左辺中の「n’(x,C)」は、ある文xについて要約中に含まれる文のうち最も類似する文を示す。以下、「n’(x,C)」に対応する文を「最近接文」と称する場合がある。上記の式(5)の右辺中の「d’(x→,s→)」は、文xと文sとの距離を示し、以下の式(6)により定義される。
Figure 2016207141
例えば、図6中のユークリッド空間ES12に示す例においては、ある文xが文B1である場合、最近接文n’(B1,C)は、文B6となる。ここに、ある文xとその最近接文n’(x,C)との距離は、以下の式(7)により定義される。なお、記号「n’(x,C)」の上に「→」が付された記号は文ベクトルに対応する。以下、明細書中においては、記号「n’(x,C)」上に「→」が付された記号を「n’(x,C)→」と表記する。つまり、「n’(x,C)→」は、最近接文n’(x,C)の文ベクトルに対応する。
Figure 2016207141
上記の式(7)により、各文xの最近接文n’(x,C)との距離が算出される。つまり、上記の式(7)により算出される「N’(x,C)」の値は、文xの最小距離となる。以下、「N’(x,C)」を、文xの最小距離N’(x,C)とする。例えば、図6中のユークリッド空間ES12に示す例においては、ある文xが文B1である場合、文B1の最小距離N’(B1,C)は、距離d8に対応する値となる。そして、上記の式(7)により文章集合D中の全文における最小距離に基づく目的関数は、以下の式(8)により定義される。なお、以下の式(8)において、「s∈D」は、文章集合Dに含まれる文sを示す。
Figure 2016207141
上記の式(8)の左辺中の目的関数「fNN’(C)」の値は、文章集合D中の全文における最小距離の総和である総和距離をマイナス倍(−1倍)した値である算出値EVとなる。つまり、算出値EVは、総和距離が小さくなるほど大きくなる。ここに、抽出部133Aは、上記の式(8)により算出される算出値EVが大きくなるように、要約に含める文を文章から抽出する。なお、上記の式(8)においては、要約に含める文(対象文)として抽出された文中の文も文xの対象として含まれるが、対象文に含まれる文から最小距離の文は、その文自身であり距離は「0」となる。そのため、抽出部133Aは、文xの対象に、対象文として抽出された文を含めなくてもよい。
〔5.変形例2〕
上述した実施形態に係る要約生成装置100や変形例1に係る要約生成装置100Aは、文や単語の類似度に基づいて算出された算出値EVに基づいて、要約に含める文を文章から抽出し、要約を生成する。しかしながら、変形例2に係る要約生成装置100Bは、文章に対応するベクトル(以下、「文章ベクトル」とする場合がある)と要約に対応するベクトル(以下、「要約ベクトル」とする場合がある)とのコサイン類似度に基づいて、要約に含める文を文章から抽出し、要約を生成する点において、実施形態に係る要約生成装置100や変形例1に係る要約生成装置100Aと相違する。この点について、図11〜図13を用いて説明する。なお、実施形態や変形例1と同様の内容については、説明を適宜省略する。
〔5−1.要約生成処理〕
まず、図11を用いて、変形例2に係る要約生成処理の一例について説明する。図11は、変形例2に係る要約生成処理の一例を示す図である。図11では、図6に示す例と同様に12の文B1〜B12が含まれる文章DC11の要約を生成する場合を図示する。図11に示す例においては、要約に含む文数、すなわち抽出する文数は「2」である場合を示す。図11では、文章DC11から2つの文を抽出し、抽出した2つの文を要約とする例を示す。
まず、要約生成装置100Bは、文章DC11に含まれる文B1〜B12の各々のベクトルを導出する。図11に示す例においては、文B1〜B12の各々の文ベクトルを対応する符号を「○」で囲んだ点として表現する。例えば、文B1の文ベクトルは、「B1」を「○」で囲んだ点として表現する。図11に示す例においては、要約生成装置100Bは、分散表現の学習により導出された文章DC11に含まれる単語の各々の単語ベクトルに基づいて、文B1〜B12の各々の文ベクトルを導出する。なお、図11に示す例において、単語ベクトル及び文ベクトルは、m次元の実数値ベクトルである。
図11に示す例において、ユークリッド空間ES21は、文B1〜B12の各々の文ベクトルが含まれるユークリッド空間を示す。なお、図11に示すユークリッド空間ES21,ES22は、各文ベクトル間の距離等の説明のための概念的な図である。例えば、ユークリッド空間ES21,ES22は、m次元の多次元空間となる。
本変形例2においては、ユークリッド空間ES21,ES22における各文ベクトル間の距離を対応する各文間の類似度とする。ここに、図11に示す例においては、ユークリッド空間ES21,ES22における各文ベクトル間の距離が小さい文同士の類似度が高く、ユークリッド空間ES21,ES22における各文ベクトル間の距離が大きい文同士の類似度が小さい。例えば、図11中のユークリッド空間ES21,ES22において、文B4の文ベクトルと文B9の文ベクトルとは近接しており、すなわち距離が小さいため、文B4と文B9とは類似度が大きいことを示す。また、ユークリッド空間ES21,ES22において、文B5の文ベクトルと文B12の文ベクトルとは近接しておらず、すなわち距離が大きいため、文B5と文B12とは類似度が小さいことを示す。
図11に示す例において、要約生成装置100Bは、抽出する文数「2」に基づいて、文B1〜B12から2つの文を要約として抽出する抽出処理を行う。要約生成装置100Bは、文章DC11のうち要約AB21として抽出される対象となる文である対象文を含む要約AB21と、文章DC11との類似度に基づいて、要約AB21に含める文を文章DC11から抽出する。具体的には、要約生成装置100Bは、対象文を含む要約AB21に対応する要約ベクトルと、文章DC11に対応する文章ベクトルとにより算出されるコサイン類似度に基づいて、文章DC11から要約AB21に含める文を抽出する。すなわち、要約生成装置100Bは、要約AB21の要約ベクトルと、文章DC11の文章ベクトルとにより算出されるコサイン類似度に基づいて、文B1〜B12から2つの文を要約として抽出する。例えば、文章DC11の文章ベクトルは、文章DC11に含まれる文B1〜B12の文ベクトルの総和により算出される。また、要約AB21の要約ベクトルは、要約AB21に含まれる文の文ベクトルの総和により算出される。
具体的には、要約生成装置100Bは、要約AB21の要約ベクトルと文章DC11の文章ベクトルとに基づいて算出されるコサイン類似度が最も大きくなる一の文を、文章DC11から対象文として抽出して要約AB21に加える抽出処理を、要約の文数が2になるまで繰り返す。まず、要約生成装置100Bは、要約AB21の文数は0であるため、各文B1〜B12について文章DC11の文章ベクトルと、その文の文ベクトルとのコサイン類似度が最も大きい一の文を抽出する。図11に示す例においては、文B8を対象文とした場合における文章DC11の文章ベクトルとのコサイン類似度は、他の文B1〜B7,B9〜B12を対象文とした場合の文章DC11の文章ベクトルとのコサイン類似度よりも大きい。すなわち、文B8を対象文として要約AB21に加えた場合、文章DC11の文章ベクトルとのコサイン類似度が最も大きくなる。したがって、図11に示す例においては、要約生成装置100Bは、文B8を抽出し、要約AB21に加える。
また、文B8が加えられた要約AB21の文数は1であり、抽出する文数は「2」であるため、要約生成装置100Bは、さらにもう1つの文を抽出する。すなわち、要約生成装置100Bは、文B8が含まれる要約AB21に加えた場合に文章DC11の文章ベクトルとのコサイン類似度が最も大きくなる文を対象文として抽出する。図11に示す例においては、文B2を対象文とした場合における文章DC11の文章ベクトルとのコサイン類似度は、他の文B1,B3〜B7,B9〜B12を対象文とした場合の文章DC11の文章ベクトルとのコサイン類似度よりも大きい。すなわち、文B2を対象文として要約AB21に加えた場合、文章DC11の文章ベクトルとのコサイン類似度が最も大きくなる。したがって、図11に示す例においては、要約生成装置100Bは、文B2を抽出し、要約AB21に加える。このように、図11に示す例においては、要約生成装置100Bは、文章DC11の文章ベクトルとのコサイン類似度が大きくなるように2つの文を抽出する。ここに、要約生成装置100Bは、要約AB21に含める文B2,B8を文章DC11から抽出する。これにより、要約生成装置100Bは、2つの文B2,B8を含む要約AB21を生成する。
このように、変形例2に係る要約生成装置100Bは、設定される抽出する文数に応じて、文章DC11の文章ベクトルとのコサイン類似度ができるだけ大きくなるように文章から要約として用いる文を抽出する。そして、要約生成装置100Bは、抽出した文を要約とする。これにより、要約生成装置100Bは、文章から適切に要約を生成することができる。例えば、図11に示す例において、要約生成装置100Bが抽出した文B2,B8を含む要約AB21の要約ベクトルと文章DC11の文章ベクトルとのコサイン類似度は、他の文、例えば文B1及び文B2を対象文として抽出した場合の文章DC11の文章ベクトルとのコサイン類似度よりも大きい。すなわち、文B2,B8の組合せは、文B1,B2の組合せよりもより適切に文章DC11を要約している。このように、要約生成装置100Bは、文章DC11の文章ベクトルとのコサイン類似度ができるだけ大きくなるように文を抽出することにより、文章から要約として用いる文を適切に抽出することができる。したがって、要約生成装置100Bは、文章から適切に要約を生成することができる。
〔5−2.要約生成装置の構成〕
次に、図12を用いて、変形例2に係る要約生成装置100Bの構成について説明する。図12は、変形例2に係る要約生成装置の構成例を示す図である。なお、要約生成装置100Bにおいて、実施形態に係る要約生成装置100や変形例1に係る要約生成装置100Aと同様の構成は、同一の符号を付して説明を省略する。図12に示すように、要約生成装置100は、通信部110と、記憶部120Aと、制御部130Bとを有する。図7に示すように、要約生成装置100Aは、制御部130Bに抽出部133Aに代えて抽出部133Bを有する点において要約生成装置100Aと相違する。
(抽出部133B)
抽出部133Bは、生成部132Aにより生成された文情報に基づいて、文章から要約とする文を抽出する。具体的には、抽出部133Bは、文章に含まれる単語に関する分散表現の学習結果に基づく、対象文を含む要約と文章との類似度に応じて、要約に含める文を文章から抽出する。
例えば、抽出部133Bは、要約ベクトルと文章ベクトルとに基づいて算出されるコサイン類似度が最も大きくなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。例えば、抽出部133Bは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。また、例えば、抽出部133Bは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。以下、要約に含まれる文の数が所定数(例えば、「5」等)に達することを所定の条件とした場合の抽出処理について説明する。
ここで、文章の文章ベクトルは、以下の式(9)により定義される。
Figure 2016207141
上記の式(9)の左辺中のvは、文章の文章ベクトルを示す。ここに、文章ベクトルvは、文章中の文に含まれる単語xの単語ベクトルの総和により得られる。なお、抽出部133Bは、上記の式(9)に限らず、例えば、文章中の内容との関連が高い文を抽出し、抽出した文に含まれる単語の単語ベクトルに基づいて、文章ベクトルvを算出してもよい。また、例えば、抽出部133Bは、文章中の内容との関連が高い文を抽出し、抽出した文の文ベクトルに基づいて、文章ベクトルvを算出してもよい。また、例えば、抽出部133Bは、文章中からキーワードを抽出し、抽出したキーワードを含む文の文ベクトルや抽出したキーワードを含む文に含まれる単語の単語ベクトルに基づいて、文章ベクトルvを算出してもよい。また、例えば、抽出部133Bは、文章中の文や単語の各々に対して重み付けを行い、各文の重み値及び文ベクトルや各単語の重み値及び単語ベクトルに基づいて、文章ベクトルvを算出してもよい。また、要約の要約ベクトルは、以下の式(10)により定義される。
Figure 2016207141
上記の式(10)の左辺中のvは、要約の要約ベクトルを示す。ここに、要約ベクトルvは、要約中の対象文に含まれる単語xの単語ベクトルの総和により得られる。なお、抽出部133Bは、上記の式(10)に限らず、例えば、要約中の文や単語の各々に対して重み付けを行い、各文の重み値及び文ベクトルや各単語の重み値及び単語ベクトルに基づいて、要約ベクトルvを算出してもよい。また、上記の式(9)及び式(10)により、文章ベクトルvと要約ベクトルvとのコサイン類似度に基づく目的関数は、以下の式(11)により定義される。
Figure 2016207141
上記の式(11)の左辺中の目的関数fCos(C)の値は、文章ベクトルvと要約ベクトルvとのコサイン類似度CSを示す。また、上記の式(11)の右辺中の式の分子v・vは、文章ベクトルvと要約ベクトルvとの内積である。また、上記の式(11)の右辺中の式の分母は、文章ベクトルv及び要約ベクトルvの各々のノルムである。ここに、抽出部133Bは、上記の式(11)により定義されるコサイン類似度CSが大きくなるように、要約に含める文を文章から抽出する。
〔5−3.要約生成処理のフロー〕
次に、図13を用いて、変形例2に係る要約生成装置100Bによる要約生成処理の手順について説明する。図13は、変形例2に係る要約生成処理手順を示すフローチャートである。
図13に示すように、要約生成装置100Bの取得部131は、文章情報を取得する(ステップS201)。例えば、取得部131は、文章DIを文章情報として取得する。その後、例えば、生成部132Aは、取得部131により取得された単語情報に基づいて分散表現の学習を行い、単語情報を生成する。なお、単語情報が外部の処理装置から取得される場合、生成部132Aは単語情報の生成を行わなくてもよい。
そして、抽出部133Bは、取得した文章DIを処理用文章DTにコピーする(ステップS202)。また、抽出部133Bは、要約Aを空に設定する(ステップS203)。その後、抽出部133Bは、処理用文章DTのうち、要約Aに含めた場合、上記の式(11)により算出されるコサイン類似度CSが最も大きくなる文sを抽出する(ステップS204)。
その後、抽出部133Bは、抽出した文sを処理用文章DTから除外する(ステップS205)。そして、抽出部133Bは、抽出した文sを要約Aに追加する(ステップS206)。
その後、抽出部133Bは、抽出した文の数、すなわち要約Aに含まれる文の数が所定数未満の場合(ステップS207:Yes)、ステップS204に戻りステップS204〜S206の処理を繰り返す。また、抽出部133Bは、抽出した文の数、すなわち要約Aに含まれる文の数が所定数に達した場合(ステップS207:No)、処理を終了する。このように、抽出部133Bは、要約Aに含める文を文章DIから抽出する。これにより、要約生成装置100Bは、要約Aを生成する。なお、上記の処理は一例であり、要約生成装置100Bは、例えば、ステップS204において抽出した文sについて、文章DIに含まれる文sにフラグを付ける等の処理により要約Aに追加した文sを識別可能な場合、ステップS202等に示す処理用文章DTを用いることなく、文章DIと要約Aとにより要約生成処理を行ってもよい。この場合、抽出部133Bは、例えば、ステップS202を行わず、ステップS204において文章DIのうちフラグが付けられていない文を対象に文sを抽出する。そして、抽出部133Bは、例えば、ステップS205において文章DI中の文sにフラグを付ける。
〔6.実施形態及び変形例1,2の組合せ〕
なお、上記の実施形態、変形例1及び変形例2においては、単語の類似度に基づく算出値、文の類似度に基づく算出値、及び文章ベクトルと要約ベクトルとのコサイン類似度に応じて、文章から要約に含める文を抽出する場合を示した。しかしながら、要約生成装置は、実施形態に係る要約生成装置100、変形例1に係る要約生成装置100A、及び変形例2に係る要約生成装置100Bの機能を適宜組み合わせた要約生成装置であってもよい。要約生成装置は、要約生成装置100、要約生成装置100A、及び要約生成装置100Bの機能を適宜選択して要約生成処理を行ったり、要約生成装置100、要約生成装置100A、及び要約生成装置100Bの機能を適宜組み合わせて要約生成処理を行ったりしてもよい。例えば、要約生成装置100や要約生成装置100Aは、文章の文章ベクトルと要約の要約ベクトルとにより算出されるコサイン類似度に基づいて、文章から要約に含める文を抽出してもよい。また、例えば、要約生成装置100Bは、文章に含まれる構成要素(文や単語等)と、文章のうち要約として抽出される対象となる文である対象文に含まれる構成要素のうち最も類似する構成要素との類似度に基づいて、要約に含める文を文章から抽出してもよい。
例えば、要約生成装置は、文の文ベクトルと単語の単語ベクトルとの類似度に基づいて、文章から要約に含める文を抽出してもよい。例えば、実施形態に係る要約生成装置100は、文情報記憶部123を有し、文の文ベクトルと単語の単語ベクトルとの類似度に基づいて、文章から要約に含める文を抽出してもよい。また、例えば、要約生成装置は、単語や文の類似度に基づく算出値と、文章ベクトルと要約ベクトルとのコサイン類似度とに基づいて、文章から要約に含める文を抽出してもよい。
例えば、実施形態に係る抽出部133は、抽出部133Aや抽出部133Bの機能を有し、目的に応じて各機能を適宜選択しまたは組み合わせて抽出処理を行ってもよい。また、例えば、実施形態に係る生成部132は、生成部132Aの機能を有し、目的に応じて文情報の生成を行ってもよい。また、例えば、要約生成装置100、要約生成装置100A、及び要約生成装置100Bは、あるクエリの検索結果の要約とする場合、クエリ中の単語が含まれるときの距離をα乗(例えば、「d(x→,v→)^α」、上記の式(2)参照)すると、クエリに関係するトピックに絞り込んで要約することなどが可能となる。また、要約生成装置100、要約生成装置100A、及び要約生成装置100Bは、クエリ中の単語に類似する単語を単語ベクトルのコサイン類似度で抽出してから、その類似する単語集合が含まれるか否かの情報を使ってもいいし、それらの類似度に基づいて距離を変化させてもよい。
〔7.効果〕
上述してきたように、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、取得部131と、抽出部133,133Aとを有する。取得部131は、文が含まれる文章を取得する。抽出部133,133Aは、文章に含まれる構成要素である第1構成要素と、文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第2構成要素のうち、第1構成要素と所定の類似関係を有する第2構成要素との類似度に基づいて、要約に含める文を文章から抽出する。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、文章に含まれる構成要素(第1構成要素)と、文章から要約として抽出される対象となる文である対象文に含まれる構成要素(第2構成要素)のうち、第1構成要素と所定の類似関係を有する第2構成要素との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。例えば、要約生成装置100,100Aは、設定される抽出する文数に応じて、類似度(実施形態においては算出値EV)ができるだけ大きくなるように文章から要約として用いる文を抽出することにより、要約に含める文を文章から適切に抽出することができる。また、要約生成装置100及び要約生成装置100Aは、上述のように要約に含める文を文章から抽出することにより、要約における単語(第2構成要素)の分布が文章における単語(第1構成要素)の分布と類似するように、要約を生成することができる。これにより、要約生成装置100及び要約生成装置100Aは、文章からより適切に要約を生成することができる。
また、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aにおいて、抽出部133,133Aは、文章に含まれる単語に関する分散表現の学習結果に基づいて、文章に含まれる第1構成要素と、対象文に含まれる第2構成要素のうち、第1構成要素と所定の類似関係を有する第2構成要素との類似度に応じて、要約に含める文を文章から抽出する。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、分散表現の学習結果である各単語の単語ベクトルに基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。
また、実施形態に係る要約生成装置100において、抽出部133は、文章に含まれる単語を構成要素として、要約に含める文を文章から抽出する。
これにより、実施形態に係る要約生成装置100は、文章に含まれる単語の類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100は、文章から適切に要約を生成することができる。
また、変形例1に係る要約生成装置100Aにおいて、抽出部133Aは、文章に含まれる文を構成要素として、要約に含める文を文章から抽出する。
これにより、変形例1に係る要約生成装置100Aは、文章に含まれる文の類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100Aは、文章から適切に要約を生成することができる。
また、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aにおいて、抽出部133,133Aは、文章に含まれる第1構成要素と、対象文に含まれる第2構成要素のうち、第1構成要素と所定の類似関係を有する第2構成要素との類似度から算出される算出値が最も高くなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、文章に含まれる構成要素の類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。また、要約生成装置100,100Aは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。
また、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aにおいて、抽出部133,133Aは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、予め定められた要約に含める文の数に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。また、要約生成装置100,100Aは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。
また、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aにおいて、抽出部133,133Aは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。
また、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aにおいて、抽出部133,133Aは、第1構成要素と最も類似することを所定の類似関係として、要約に含める文を文章から抽出する。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、文章に含まれる構成要素(第1構成要素)と、文章から要約として抽出される対象となる文である対象文に含まれる構成要素(第2構成要素)のうち最も類似する構成要素との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。例えば、要約生成装置100,100Aは、設定される抽出する文数に応じて、類似度ができるだけ大きくなるように文章から要約として用いる文を抽出することにより、要約に含める文を文章から適切に抽出することができる。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、予め定められた要約に含める単語の数に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。また、要約生成装置100,100Aは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。
また、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aにおいて、抽出部133,133Aは、対象文を含む要約と文章との類似度に基づいて、要約に含める文を文章から抽出する。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、文章全体と要約との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。
また、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aにおいて、抽出部133,133Aは、対象文を含む要約に対応する要約ベクトルと、文章に対応する文章ベクトルとにより算出されるコサイン類似度に基づいて、要約に含める文を文章から抽出する。
これにより、実施形態に係る要約生成装置100及び変形例1に係る要約生成装置100Aは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100,100Aは、文章から適切に要約を生成することができる。
また、変形例2に係る要約生成装置100Bは、取得部131と、抽出部133Bとを有する。取得部131は、文が含まれる文章を取得する。抽出部133Bは、文章から要約として抽出される対象となる文である対象文を含む要約と、文章との類似度に基づいて、要約に含める文を文章から抽出する。
これにより、変形例2に係る要約生成装置100Bは、文章全体と要約との類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100Bは、文章から適切に要約を生成することができる。
また、変形例2に係る要約生成装置100Bにおいて、抽出部133Bは、文章に含まれる単語に関する分散表現の学習結果に基づく、対象文を含む要約と文章との類似度に応じて、要約に含める文を文章から抽出する。
これにより、変形例2に係る要約生成装置100Bは、分散表現の学習結果である各単語の単語ベクトルに基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100Bは、文章から適切に要約を生成することができる。
また、変形例2に係る要約生成装置100Bにおいて、抽出部133Bは、対象文を含む要約に対応する要約ベクトルと、文章に対応する文章ベクトルとにより算出されるコサイン類似度に基づいて、文章から要約に含める文を抽出する。
これにより、変形例2に係る要約生成装置100Bは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100Bは、文章から適切に要約を生成することができる。
また、変形例2に係る要約生成装置100Bにおいて、抽出部133Bは、要約ベクトルと文章ベクトルとに基づいて算出されるコサイン類似度が最も大きくなる一の文を、文章から対象文として抽出して要約に加える抽出処理を、所定の条件を満たすまで繰り返す。
これにより、変形例2に係る要約生成装置100Bは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100Bは、文章から適切に要約を生成することができる。また、要約生成装置100Bは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。
また、変形例2に係る要約生成装置100Bにおいて、抽出部133Bは、要約に含まれる文の数が所定数に達するまで、抽出処理を繰り返す。
これにより、変形例2に係る要約生成装置100Bは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100Bは、文章から適切に要約を生成することができる。また、要約生成装置100Bは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。
また、変形例2に係る要約生成装置100Bにおいて、抽出部133Bは、要約中の文に含まれる単語の数が所定数に達するまで、抽出処理を繰り返す。
これにより、変形例2に係る要約生成装置100Bは、文章の文章ベクトルと要約の要約ベクトルとのコサイン類似度に基づいて、要約に含める文を文章から適切に抽出することができる。したがって、要約生成装置100Bは、文章から適切に要約を生成することができる。また、要約生成装置100Bは、処理に要する時間を抑制しつつ、できる限り適切な要約を生成することができる。
〔8.ハードウェア構成〕
上述してきた実施形態に係る要約生成装置100、変形例1に係る要約生成装置100A、及び変形例2に係る要約生成装置100Bは、例えば図14に示すような構成のコンピュータ1000によって実現される。図14は、要約生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定のネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定のネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る要約生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定のネットワークを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔9.その他〕
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
100,100A,100B 要約生成装置
121,121A 文章情報記憶部
122,122A 単語情報記憶部
123 文情報記憶部
130 制御部
131 取得部
132,132A 生成部
133,133A,133B 抽出部

Claims (20)

  1. 文が含まれる文章を取得する取得部と、
    前記文章に含まれる構成要素である第1構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第2構成要素のうち、前記第1構成要素と所定の類似関係を有する前記第2構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出部と、
    を備えたことを特徴とする要約生成装置。
  2. 前記抽出部は、
    前記文章に含まれる単語に関する分散表現の学習結果に基づいて、前記文章に含まれる前記第1構成要素と、前記対象文に含まれる前記第2構成要素のうち、前記第1構成要素と前記所定の類似関係を有する前記第2構成要素との類似度に応じて、前記要約に含める文を前記文章から抽出する
    ことを特徴とする請求項1に記載の要約生成装置。
  3. 前記抽出部は、
    前記文章に含まれる単語を構成要素として、前記要約に含める文を前記文章から抽出する
    ことを特徴とする請求項1または請求項2に記載の要約生成装置。
  4. 前記抽出部は、
    前記文章に含まれる前記文を構成要素として、前記要約に含める文を前記文章から抽出する
    ことを特徴とする請求項1〜3のいずれか1項に記載の要約生成装置。
  5. 前記抽出部は、
    前記文章に含まれる前記第1構成要素と、前記対象文に含まれる前記第2構成要素のうち、前記第1構成要素と前記所定の類似関係を有する前記第2構成要素との類似度から算出される算出値が最も高くなる一の文を、前記文章から前記対象文として抽出して前記要約に加える抽出処理を、所定の条件を満たすまで繰り返す
    ことを特徴とする請求項1〜4のいずれか1項に記載の要約生成装置。
  6. 前記抽出部は、
    前記要約に含まれる文の数が所定数に達するまで、前記抽出処理を繰り返す
    ことを特徴とする請求項5に記載の要約生成装置。
  7. 前記抽出部は、
    前記要約中の文に含まれる単語の数が所定数に達するまで、前記抽出処理を繰り返す
    ことを特徴とする請求項5または請求項6に記載の要約生成装置。
  8. 前記抽出部は、
    前記第1構成要素と最も類似することを前記所定の類似関係として、前記要約に含める文を前記文章から抽出する
    ことを特徴とする請求項1〜7のいずれか1項に記載の要約生成装置。
  9. 前記抽出部は、
    前記対象文を含む前記要約と前記文章との類似度に基づいて、前記要約に含める文を前記文章から抽出する
    ことを特徴とする請求項1〜8のいずれか1項に記載の要約生成装置。
  10. 前記抽出部は、
    前記対象文を含む前記要約に対応する要約ベクトルと、前記文章に対応する文章ベクトルとにより算出されるコサイン類似度に基づいて、前記要約に含める文を前記文章から抽出する
    ことを特徴とする請求項9に記載の要約生成装置。
  11. 文が含まれる文章を取得する取得部と、
    前記文章から要約として抽出される対象となる文である対象文を含む前記要約と、前記文章との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出部と、
    を備えたことを特徴とする要約生成装置。
  12. 前記抽出部は、
    前記文章に含まれる単語に関する分散表現の学習結果に基づく、前記対象文を含む前記要約と前記文章との類似度に応じて、前記要約に含める文を前記文章から抽出する
    ことを特徴とする請求項11に記載の要約生成装置。
  13. 前記抽出部は、
    前記対象文を含む前記要約に対応する要約ベクトルと、前記文章に対応する文章ベクトルとより算出されるコサイン類似度に基づいて、前記文章から前記要約に含める前記文を抽出する
    ことを特徴とする請求項11または請求項12に記載の要約生成装置。
  14. 前記抽出部は、
    前記要約ベクトルと前記文章ベクトルとに基づいて算出される前記コサイン類似度が最も大きくなる一の文を、前記文章から前記対象文として抽出して前記要約に加える抽出処理を、所定の条件を満たすまで繰り返す
    ことを特徴とする請求項13に記載の要約生成装置。
  15. 前記抽出部は、
    前記要約に含まれる文の数が所定数に達するまで、前記抽出処理を繰り返す
    ことを特徴とする請求項14に記載の要約生成装置。
  16. 前記抽出部は、
    前記要約中の文に含まれる単語の数が所定数に達するまで、前記抽出処理を繰り返す
    ことを特徴とする請求項14または請求項15に記載の要約生成装置。
  17. コンピュータが実行する要約生成方法であって、
    文が含まれる文章を取得する取得工程と、
    前記文章に含まれる構成要素である第1構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第2構成要素のうち、前記第1構成要素と所定の類似関係を有する前記第2構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出工程と、
    を含むことを特徴とする要約生成方法。
  18. 文が含まれる文章を取得する取得手順と、
    前記文章に含まれる構成要素である第1構成要素と、前記文章から要約として抽出される対象となる文である対象文に含まれる構成要素である第2構成要素のうち、前記第1構成要素と所定の類似関係を有する前記第2構成要素との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出手順と、
    をコンピュータに実行させることを特徴とする要約生成プログラム。
  19. コンピュータが実行する要約生成方法であって、
    文が含まれる文章を取得する取得工程と、
    前記文章から要約として抽出される対象となる文である対象文を含む前記要約と、前記文章との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出工程と、
    を含むことを特徴とする要約生成方法。
  20. 文が含まれる文章を取得する取得手順と、
    前記文章から要約として抽出される対象となる文である対象文を含む前記要約と、前記文章との類似度に基づいて、前記要約に含める文を前記文章から抽出する抽出手順と、
    をコンピュータに実行させることを特徴とする要約生成プログラム。
JP2015091548A 2015-04-28 2015-04-28 要約生成装置、要約生成方法、及び要約生成プログラム Active JP6537340B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015091548A JP6537340B2 (ja) 2015-04-28 2015-04-28 要約生成装置、要約生成方法、及び要約生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015091548A JP6537340B2 (ja) 2015-04-28 2015-04-28 要約生成装置、要約生成方法、及び要約生成プログラム

Publications (2)

Publication Number Publication Date
JP2016207141A true JP2016207141A (ja) 2016-12-08
JP6537340B2 JP6537340B2 (ja) 2019-07-03

Family

ID=57490081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015091548A Active JP6537340B2 (ja) 2015-04-28 2015-04-28 要約生成装置、要約生成方法、及び要約生成プログラム

Country Status (1)

Country Link
JP (1) JP6537340B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6321845B1 (ja) * 2017-03-10 2018-05-09 ヤフー株式会社 付与装置、付与方法および付与プログラム
JP2019046048A (ja) * 2017-08-31 2019-03-22 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP2019061656A (ja) * 2017-09-27 2019-04-18 株式会社リコー 要約文自動生成方法、装置及び電子デバイス
JP2019204362A (ja) * 2018-05-24 2019-11-28 Zホールディングス株式会社 判定装置、判定方法、判定プログラムおよびプログラムパラメータ
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
JP2020064457A (ja) * 2018-10-17 2020-04-23 富士通株式会社 修正内容特定プログラムおよびレポート修正内容特定装置
CN111460135A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于生成文本摘要的方法和装置
JP2021033994A (ja) * 2019-08-20 2021-03-01 株式会社Nttドコモ テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
US11282104B2 (en) 2017-02-21 2022-03-22 Yahoo Japan Corporation Provision device, provision method and non-transitory computer readable storage medium
JP2022082746A (ja) * 2018-03-16 2022-06-02 株式会社日立製作所 文章処理装置および文章処理方法
WO2024013991A1 (ja) * 2022-07-15 2024-01-18 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP2003108571A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2008243024A (ja) * 2007-03-28 2008-10-09 Kyushu Institute Of Technology 情報取得装置、そのプログラム及び方法
JP2012104041A (ja) * 2010-11-12 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
JP2013168186A (ja) * 2005-09-30 2013-08-29 Google Inc レビュー処理方法およびシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP2003108571A (ja) * 2001-09-28 2003-04-11 Seiko Epson Corp 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2013168186A (ja) * 2005-09-30 2013-08-29 Google Inc レビュー処理方法およびシステム
JP2008243024A (ja) * 2007-03-28 2008-10-09 Kyushu Institute Of Technology 情報取得装置、そのプログラム及び方法
JP2012104041A (ja) * 2010-11-12 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
別所克人他: "単語ベクトルを用いた文書要約の検討", 情報処理学会 研究報告 セキュリティ心理学とトラスト(SPT) 2014−SPT−009, JPN6018006137, 8 May 2014 (2014-05-08), pages 1 - 6, ISSN: 0003744464 *
野口正樹他: "分散表現を用いたヤフー知恵袋の要約", 言語処理学会第21回年次大会 発表論文集, JPN6018006136, 9 March 2015 (2015-03-09), pages 1084 - 1087, ISSN: 0003890726 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11282104B2 (en) 2017-02-21 2022-03-22 Yahoo Japan Corporation Provision device, provision method and non-transitory computer readable storage medium
JP2018151800A (ja) * 2017-03-10 2018-09-27 ヤフー株式会社 付与装置、付与方法および付与プログラム
JP6321845B1 (ja) * 2017-03-10 2018-05-09 ヤフー株式会社 付与装置、付与方法および付与プログラム
JP2019046048A (ja) * 2017-08-31 2019-03-22 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP2019061656A (ja) * 2017-09-27 2019-04-18 株式会社リコー 要約文自動生成方法、装置及び電子デバイス
JP7268220B2 (ja) 2018-03-16 2023-05-02 株式会社日立製作所 文章処理装置および文章処理方法
JP2022082746A (ja) * 2018-03-16 2022-06-02 株式会社日立製作所 文章処理装置および文章処理方法
JP2019204362A (ja) * 2018-05-24 2019-11-28 Zホールディングス株式会社 判定装置、判定方法、判定プログラムおよびプログラムパラメータ
JP7058556B2 (ja) 2018-05-24 2022-04-22 ヤフー株式会社 判定装置、判定方法、および判定プログラム
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
JP7288293B2 (ja) 2018-08-31 2023-06-07 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
JP7159780B2 (ja) 2018-10-17 2022-10-25 富士通株式会社 修正内容特定プログラムおよびレポート修正内容特定装置
JP2020064457A (ja) * 2018-10-17 2020-04-23 富士通株式会社 修正内容特定プログラムおよびレポート修正内容特定装置
JP2021033994A (ja) * 2019-08-20 2021-03-01 株式会社Nttドコモ テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
JP7414357B2 (ja) 2019-08-20 2024-01-16 株式会社Nttドコモ テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
JP7139028B2 (ja) 2020-01-09 2022-09-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
CN111460135A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 用于生成文本摘要的方法和装置
CN111460135B (zh) * 2020-03-31 2023-11-07 北京百度网讯科技有限公司 用于生成文本摘要的方法和装置
WO2024013991A1 (ja) * 2022-07-15 2024-01-18 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Also Published As

Publication number Publication date
JP6537340B2 (ja) 2019-07-03

Similar Documents

Publication Publication Date Title
JP6537340B2 (ja) 要約生成装置、要約生成方法、及び要約生成プログラム
JP5387870B2 (ja) テキスト含意判定装置、テキスト含意判定方法、及びプログラム
CN109241243B (zh) 候选文档排序方法及装置
JP6678834B2 (ja) 単語意味関係推定装置および単語意味関係推定方法
JP2014533868A (ja) 画像検索
JP6920136B2 (ja) 情報処理システム
US9244910B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
US20240061875A1 (en) Identifying content items in response to a text-based request
JP6553776B1 (ja) テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム
WO2017183548A1 (ja) 情報処理システム、情報処理方法、及び、記録媒体
JP7032233B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP5518757B2 (ja) 文書分類学習制御装置、文書分類装置およびコンピュータプログラム
Ledeneva et al. Graph ranking on maximal frequent sequences for single extractive text summarization
JP6705763B2 (ja) 生成装置、生成方法および生成プログラム
Esuli ICS: Total freedom in manual text classification supported by unobtrusive machine learning
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
JP6719229B2 (ja) コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
JP7323669B1 (ja) オントロジー生成方法及び学習方法
Kaewpitakkun et al. Incorporation of target specific knowledge for sentiment analysis on microblogging
JP2020013395A (ja) 公開装置、公開方法および公開プログラム
Makruf et al. Public hospital review on map service with part of speech tagging and biterm topic modeling
JP2020004054A (ja) 出力装置、出力方法および出力プログラム
JP6942028B2 (ja) 比較装置、比較方法および比較プログラム
Chaudhary et al. Linguistic patterns and cross modality-based image retrieval for complex queries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190604

R150 Certificate of patent or registration of utility model

Ref document number: 6537340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350