JP5954825B2 - 文書要約装置、方法、及びプログラム - Google Patents

文書要約装置、方法、及びプログラム Download PDF

Info

Publication number
JP5954825B2
JP5954825B2 JP2012278412A JP2012278412A JP5954825B2 JP 5954825 B2 JP5954825 B2 JP 5954825B2 JP 2012278412 A JP2012278412 A JP 2012278412A JP 2012278412 A JP2012278412 A JP 2012278412A JP 5954825 B2 JP5954825 B2 JP 5954825B2
Authority
JP
Japan
Prior art keywords
document
programming problem
integer programming
input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012278412A
Other languages
English (en)
Other versions
JP2014123219A (ja
Inventor
宜仁 安田
宜仁 安田
正彬 西野
正彬 西野
平尾 努
努 平尾
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012278412A priority Critical patent/JP5954825B2/ja
Publication of JP2014123219A publication Critical patent/JP2014123219A/ja
Application granted granted Critical
Publication of JP5954825B2 publication Critical patent/JP5954825B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、文書要約装置、方法、プログラムに係り、特に、入力文書について要約を生成する文書要約装置、方法、プログラムに関する。
従来より、文書あるいは文書群から計算機により自動的に要約を生成する技術が知られている。
自動要約技術は大きく2種類に分けることができる。ひとつは、重要部抽出、あるいは重要文抽出と呼ばれる技術であり、文書中の重要と思われる部分を選択し、結合することで要約を生成する。
重要部抽出の先行研究の例として、文中の単語の頻度に基づく重みや、文の位置等を用いて文を特徴付け、文の重要度を判定し、重要な文を抽出することによる自動要約方法が提案されている(非特許文献1)。
重要部抽出は、事前に定められた単位であれば抽出する単位は本来任意であるが、従来一般的に用いられてきたものは文である。これは、文を単位とすることで、文が持つ言語的な連続性や構造を要約に含ませる事ができるためであると考えられる。
二つ目の種類の自動要約技術は文短縮と呼ばれる要約手法である。これは、文の構文木を作成する。構文木上の不要と思われる部分木を削除し、結果出来上がった木に対応する語を結合することによって要約を生成する(非特許文献2)。
上記2種類の解き方であったとしても、単にスコアが上位の文や短縮方法を貪欲的に順に選択したからといって結果的に品質が高い要約が得られるわけではない。各文の長さを考慮し、限られた長さの中でもっともスコアの高い要約を得るようにするために、従来より、組み合わせ最適化問題として解く方法が広く知られている。
平尾努, 磯崎秀樹, 前田英作, 松本裕治, \Support Vector Machine を用いた重要文抽出法", 情報処理学会論文誌, 44-8, pp. 2230-2243, 2003 Dan Gillick and Benoit Favre, \A Scalable Global Model for Summarization" Proceedings of the Workshop on Integer Linear Programming for Natural Langauge Processing, 2009.
しかしながら、文短縮による方法は、構文木を利用するので、構文木解析器を必要としてしまうという問題がある。
また、重要部抽出によれば、文を単位としたのでは、要約に利用できる文字数に対して文という単位は長すぎるという問題がある。特に高い要約率が求められる場合、言い換えれば、要約に利用できる文字数が少ないような場合には、ごく少数の文を選択しただけで要約に利用できる文字数が尽くされてしまう可能性がある。
また、文よりも短い単位を用いたとすれば、要約結果が断片ばかりになり、言語的な連続性や言語的な構造を失ってしまった要約となってしまうので、意味をなさないという課題があった。
本発明では、上記問題点を解決するために成されたものであり、入力文書について、断片が増加することを抑制して、要約を生成することができる文書要約装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の文書要約装置は、少なくとも1つの入力文書から複数の単語を選択して、前記入力文書に対応する要約を生成する文書要約装置であって、前記入力文書に含まれるn個の単語からなるnグラム各々の重要度に応じた重みを各々算出する重要度算出手段と、前記要約に含まれる前記nグラムの各々の前記重みの合計値を用い、かつ、前記要約に含まれる、前記要約及び前記入力文書で連続している単語列である断片の数をペナルティとして用いて表される目的関数と、前記要約に含まれる単語の数の最大値を表す制約式とを生成する整数計画問題生成手段と、前記整数計画問題生成手段により生成された前記制約式を満足し、かつ、前記生成された目的関数を最大とする、前記入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、前記整数計画問題の解において選択された各単語を、前記入力文書における出現順序に従って並び替えて、前記入力文書に対応する要約を生成する要約生成手段と、を含んで構成されている。
本発明の文書要約方法は、重要度算出手段と、整数計画問題生成手段と、要約生成手段とを含み、少なくとも1つの入力文書から複数の単語を選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、前記重要度算出手段は、前記入力文書に含まれるn個の単語からなるnグラム各々の重要度に応じた重みを各々算出し、前記整数計画問題生成手段は、前記要約に含まれる前記nグラムの各々の前記重みの合計値を用い、かつ、前記要約に含まれる、前記要約及び前記入力文書で連続している単語列である断片の数をペナルティとして用いて表される目的関数と、前記要約に含まれる単語の数の最大値を表す制約式とを生成し、要約生成手段は、前記整数計画問題生成手段により生成された前記制約式を満足し、かつ、前記生成された目的関数を最大とする、前記入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、前記整数計画問題の解において選択された各単語を、前記入力文書における出現順序に従って並び替えて、前記入力文書に対応する要約を生成する。
本発明の前記整数計画問題生成手段は、前記要約に含まれる前記断片の数の最大値を表す制約式を更に生成することができる。
本発明の文書要約装置は、前記入力文書の文書内の単語の区切りを決定する文書解析手段を更に含み、前記重要度算出手段は、前記文書解析手段による解析結果に基づいて、前記nグラム各々の重要度に応じた重みを各々算出し、前記整数計画問題生成手段は、前記文書解析手段による解析結果に基づいて、前記目的関数と、前記制約式を生成することができる。
本発明の文書要約方法は、前記入力文書の文書内の単語の区切りを決定する文書解析手段を更に含み、前記重要度算出手段は、前記文書解析手段による解析結果に基づいて、前記nグラム各々の重要度に応じた重みを各々算出し、前記整数計画問題生成手段は、前記文書解析手段による解析結果に基づいて、前記目的関数と、前記制約式を生成することができる。
本発明によれば、入力文書に含まれるN個の単語からなるnグラム各々の重要度に応じた重みを各々算出し、nグラムの各々の重みの合計値を用い、かつ、要約に含まれる、入力文書で連続している単語列である断片の数をペナルティとして用いて表される目的関数と、要約に含まれる単語の数の最大値を表す制約式とを生成する。
そして、生成された制約式を満足し、かつ、生成された目的関数を最大とする、入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、整数計画問題の解において選択された各単語を、入力文書における出現順序に従って並び替えて、要約を生成する。
このように、要約に含まれる単語の数の最大値を表す制約式を満足し、要約に含まれるnグラムの各々の重みの合計値を用い、かつ、断片の数をペナルティとして用いて表される目的関数を最大とする、入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、整数計画問題の解において選択された各単語を、入力文書における出現順序に従って並び替えて、要約を生成することにより、入力文書について、断片が増加することを抑制して、要約を生成することができる。
また、本発明のプログラムは、コンピュータを、請求項1〜請求項3の何れか1項記載の文書要約装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の文書要約装置、方法、及びプログラムによれば、要約に含まれる単語の数の最大値を表す制約式を満足し、要約に含まれるnグラムの各々の重みの合計値を用い、かつ、断片の数をペナルティとして用いて表される目的関数を最大とする、入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、整数計画問題の解において選択された各単語を、入力文書における出現順序に従って並び替えて、要約を生成することにより、入力文書について、断片が増加することを抑制して、要約を生成することができる。
本発明の実施の形態の文書要約装置の機能的構成を示すブロック図である。 nグラム(バイグラム)重みデータベースの例を示す図である。 本発明の実施の形態の文書要約装置における文書要約処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の文書要約装置における要約生成処理ルーチンの内容を示すフローチャートである。
<文書要約装置の構成>
本発明の実施の形態に係る文書要約装置について説明する。図1に示すように、本発明の実施の形態に係る文書要約装置100は、入力部10と、後述する文書要約処理ルーチンを実行する演算部20と、出力部50と、を備えている。
入力部10は、キーボードなどの入力装置から、全文書集合Uと、要約対象文書集合Dを示す情報と、要約結果の上限単語数Lと、最大断片数(単語列の番号が連続していない数、すなわち断片の区切りの数に1を加えた数)Fとを受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。なお、要約対象文書集合Dは全文書集合Uの部分集合である。
演算部20は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書要約処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、文書解析部30と、全文書集合記憶部31と、nグラム重み計算部32と、nグラム重みテーブル記憶部34と、整数計画問題生成部36と、要約生成部38とを含んだ構成で表すことができる。
文書解析部30は、全文書集合記憶部31に記憶されている全文書集合Uの各文書について、公知の形態素解析技術により各文書内の単語の区切りを決定する。なお、全文書集合記憶部31に記憶されている全文書集合Uが、事前に区切りが存在するような言語(英語等)で記載されているものである場合は、文書解析部30は不要である。
nグラム重み計算部32は、文書解析部30において得られた複数の区切り済み文書と、事前に入力された、nグラムを指定するための変数nの値と、入力部10において受け付けた要約対象文書集合Dを示す情報に基づいて、全文書集合記憶部31に記憶されている全文書集合Uより抽出された要約対象文書集合Dに含まれる複数の文書中の全種類のnグラムについて、重要度に応じた重みを各々計算し、nグラム重みテーブル記憶部34に各々記憶する。ここで、nとしては、1や2が想定される。1の場合は、各単語の重みであり、2の場合は2つの単語の連なり(バイグラム)の重みである。以下、本実施例においては変数nの値は2の値が指定されて入力されたものとして説明する。
各バイグラムの重要度に応じた重みを計算する方法としては、公知のIDF重みを用いることができる。例えば、全文書集合U中のバイグラムが出現する文書の数に基づいて、各バイグラムの重みを計算する。なお、ほかに、χ二乗値を用いた方法を用いることができる。
χ二乗値を用いた方法とは、全文書集合U中に含まれる文の数をNとし、各バイグラムbについて以下を計算する。
まず以下のa……aを計算する。
:bを含む要約対象文書集合D中の文の数
:bを含み、全文書集合Uから要約対象文書集合Dを除いた文書集合中の文の数
:bを含まない要約対象文章集合D中の文の数
:bを含まず、かつ、全文書集合Uから要約対象文書集合Dを除いた文書集合の文の数
これより、bのχ二乗値を、下記(1)式により求める。

そして、計算した各バイグラムについての重要度に応じた重みを、nグラム重みテーブル記憶部34に各々記憶する(図2)。なお、上記のバイグラムが出現する文書の数およびbを含む文の数がnグラムが出現する頻度の一例である。
nグラム重みテーブル記憶部34は、nグラム重み計算部32で計算された要約対象文書集合Dの各文書中の各バイグラムに対する重みを記憶している。
整数計画問題生成部36は、要約を生成するための整数計画問題の目的関数と制約式とを生成する。
具体的には、入力部10において受け付けた要約対象文書集合Dを示す情報に基づいて、文書解析部30による全文書集合Uに対する解析結果から、要約対象文書集合Dに対する解析結果を取得し、入力部10において受け付けた要約結果の上限単語数Lと、最大断片数Fとに基づいて、目的関数と各制約式をする。
まず、目的関数を生成するために、要約対象文書集合D中の各文書における各単語に対応する二値変数を、w(j,i)として表記する。これは、要約対象文書集合D中のj番目の文のi番目の単語に対応し、w(j,i)が1であれば、要約中にその単語を含み、0であれば要約中にその単語を含まないとする。また、要約対象文書集合D中の各バイグラムに対応する二値変数をbとして表記する。これは要約対象文書集合D中でk番目に出現したバイグラムが要約に含まれているか否かを示すものであり、bが1のときにk番目のバイグラムは要約に含まれていることを示し、bが0の時にk番目のバイグラムは要約に含まれていないことを示す。
また、k番目のバイグラムの重みをvによって表す。vはnグラム重み計算部32によって計算されnグラム重みテーブル記憶部34に記憶されている値を用いる。
さらに、Sを要約に含まれるべき単語を示すための集合とする。要約対象文書集合D中の文の総数を|D|とする。また、要約対象文書中のバイグラムの総数(種類数)を|D|とする。fを要約Sに含まれる断片数とすると、|D|の値と|D|の値を代入することによって、下記(2)式に示す目的関数を生成することができる。
ここで、αは利用者が設定する定数パラメータである。この目的関数は、要約中に含まれるバイグラムの種類を最大化することで、限られた長さの中でなるだけ多数の意味を含もうという前半の項(最大被覆問題)と、要約が過剰に断片化されてしまっては言語的に意味が通らなくなってしまうために、断片数をペナルティとして与えた後半の項とにより構成されている。なお、上記の(2)式によらずとも、定性的には、従来より知られた組み合わせ最適化による目的関数に、断片の数をペナルティとして入れることに意味がある。
次に、制約式を生成する。制約式を生成する際に利用する関数と変数について説明すると、l(j)は、要約対象文書集合D中のj番目の文の単語数を示す関数であり、σ(k,m)を、m番目にbが出現した要約対象文書集合D中での位置を示すための関数である。
また、s(j,i)とe(j,i)は、要約対象文書集合D中の各文の中から選ばれた部分文(文内の部分文字列)の開始位置と終了位置を示すための二値変数である。s(j,i)が1で、e(j,i´)が1であれば、要約対象文書集合D中におけるj番目の文sの、i番目からi´−1番目までの単語を要約に含むことになる。このとき、下記(3)式〜(11)式の制約式を各々生成することになる。
ここで、上記制約式(4)式と(5)式は、最大被覆問題の構成単位としたバイグラムと、要約の構成単位とした単語の関係を示したものである。なお、wσ(k,m)+1は、要約対象文書集合D中でwσ(k,m)の次に出現する隣接単語を表すものである。
また、上記制約式(6)式〜(9)式は、文内での開始位置を示す変数と終了位置を示す変数の関係、及び開始位置を示す変数と終了位置を示す変数と選択される語の関係を示したものである。上記(6)式〜(9)式の制約は、文内での連続した単語の選択を実現する。すなわち、w(j,i)が1であれば、終了位置を示す変数がない限り次の単語w(j,i+1)も1となる。
また、上記制約式(10)式は、各文からは最大でも1つだけの断片を許可するためのものであり、上記制約式(11)式は、入力パラメータとして与えられたFよりも要約に含まれる断片数が多くならないようにするためのものである。
要約生成部38は、入力部10において受け付けた要約対象文書集合Dを示す情報に基づいて、文書解析部30において解析された解析済み全文書集合Uから抽出された解析済み要約対象文書集合Dを取得し、整数計画問題生成部36において生成された整数計画問題を解くことにより、要約を生成し、出力部50により出力する。
具体的には、要約対象文書集合Dに含まれる各単語を選択して要約を生成するときに、公知のソルバを用いて整数計画問題生成部36において生成された上記複数の制約式を満足し、かつ、上記目的関数を最大とする、要約対象文書集合Dに含まれる各単語を選択するか否かを、整数計画問題を解くことにより決定する。ソルバの例としては、lp_solve(http://lpsolve.sourceforge.net/)などがある。
ソルバによって解かれた整数計画問題の解において、値が1となっているw(j,i)に対応する単語群を要約に含まれる単語として各々取得し、取得した単語の各々を、要約対象文書集合D中での出現順序に沿って並び替え、結合したものを要約として生成し、出力部50により出力する。
<文書要約装置の作用>
次に、本発明の実施の形態に係る文書要約装置100の作用について説明する。まず、事前にnグラムを指定するための変数nの値(本実施例では2とする)が入力されメモリ(図示省略)に記憶される。また、全文書集合Uが文書要約装置100に入力され全文書集合記憶部31に記憶される。そして、入力部10により、全文書集合Uから選択される要約対象文書集合Dを示す情報と、要約結果の上限単語数L及び最大断片数Fとが入力されると、文書要約装置100のROMに記憶されたプログラムを、CPUが実行することにより、図3に示す文書要約処理ルーチンが実行される。
まず、ステップS100において、要約対象文書集合Dを示す情報を受け付ける。
次に、ステップS102において、上限単語数L及び最大断片数Fを受け付ける。
次に、ステップS104において、全文書集合記憶部31に記憶されている全文書集合Uを読み込む。
次に、ステップS106において、ステップS104において取得した全文書集合Uに含まれる各文書について、公知の形態素解析技術を用いて、文書内の単語の区切りを決定する。
次に、ステップS108において、ステップS100において受け付けた要約対象文書集合Dを示す情報に基づいて、ステップS104において取得した全文書集合Uより抽出された要約対象文書集合Dと、ステップS106において取得した全文書集合Uに対する解析結果と、事前に入力されたnグラムを指定するための変数nの値(本実施例では2とする)に基づいて、要約対象文書集合Dに含まれる複数の文書の全種類のバイグラムについて、各バイグラムに対する重みを各々計算し、nグラム重みテーブル記憶部34に格納する。
次に、ステップS110において、ステップS100において受け付けた要約対象文書集合Dを示す情報に基づいて、ステップS106において取得した全文書集合Uに対する解析結果から、要約対象文書集合Dに対する解析結果を取得し、ステップS108において計算した各バイグラムに対する重みに基づいて、整数計画問題の目的関数を生成する。
次に、ステップS112において、ステップS100において受け付けた要約対象文書集合Dを示す情報に基づいて、ステップS106において取得した全文書集合Uに対する解析結果から、要約対象文書集合Dに対する解析結果を取得し、ステップS102において取得した上限単語数Lと、最大断片数Fとに基づいて、整数計画問題の制約式を生成する。
次に、ステップS114において、ステップS110において取得した目的関数及びステップS112において取得した制約式に基づいて、整数計画問題を解くことにより、要約を生成する。
次に、ステップS116において、ステップS114において生成した要約を、出力部50より出力して、処理を終了する。
上記ステップS114は、図4に示す要約生成処理ルーチンによって実現される。
まず、ステップS200において、ソルバを用いてステップS112において取得した整数計画問題の制約式を満たしながら、ステップS110において取得した整数計画問題の目的関数を最大化する解(要約に含める単語として要約対象文書集合D中の各単語を選択するか否かを示すw(j,i))を求める。
次に、ステップS202において、ステップS200において取得した整数計画問題の解に基づいて、解の値が1となっているw(j,i)に対応する単語群を取得する。
次に、ステップS204において、ステップS202において取得した単語群を、要約対象文書集合Dの出現順序に並び替えて、要約を生成し、処理を終了する。
以上、説明したように、本発明の実施の形態に係る文書要約装置によれば、要約に含まれる単語の数の最大値を表す制約式を満足し、要約に含まれるnグラムの各々の重みの合計値を用い、かつ、断片の数をペナルティとして用いて表される目的関数を最大とする、入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、整数計画問題の解において選択された各単語を、入力文書における出現順序に従って並び替えて、要約を生成することにより、入力文書について、断片が増加することを抑制して、要約を生成することができる。
また、本実施の形態によれば、構文解析器を必要とすることなく、文よりも短い単位での要約を生成することができる。この際、過剰に断片が増えてしまうことを防ぐことができるため、従来の要約技術が対象としていた要約率(圧縮率)よりも、より高い要約率の要約を、言語的に破綻しないように、かつ原文の意味をより反映した形で生成することが可能になる。
また、従来技術では、文を単位とする抽出であったものを、本実施の形態では、言語的な可読性や構造を保ちつつ単語単位の抽出とした。また、「連続した単語を優先する」「1文からは高々1つの断片のみを取り出す」ことを整数計画問題として定式化したことにより、目的関数に対して厳密解を得られる。
また、本実施の形態の要約手法では、文の中からの高々1つの可変長部分文字列を取り出し、これを結合することを特徴としている。
また、本実施の形態に係る文書要約装置は、要約を限られた文字数の中で、できるだけ重要なnグラムを多数含むようにするというスコアと、できあがった要約に含まれる断片の個数ができるだけ少ないようにするというスコアの組み合わせを、整数計画問題の目的関数として定式化することにより、整数計画問題を解き、要約を生成する。
なお、本発明は、上記の実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の文書要約装置100は内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)を含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の文書要約装置100の各部をハードウエアにより構成してもよい。また、変換規則が記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、文書要約装置100内部にデータベースを設けてもよいし、外部装置に設けてもよい。
10 入力部
20 演算部
30 文書解析部
31 全文書集合記憶部
32 nグラム重み計算部
34 nグラム重みテーブル記憶部
36 整数計画問題生成部
38 要約生成部
50 出力部
100 文書要約装置

Claims (7)

  1. 少なくとも1つの入力文書から複数の単語を選択して、前記入力文書に対応する要約を生成する文書要約装置であって、
    前記入力文書に含まれるn個の単語からなるnグラム各々の重要度に応じた重みを各々算出する重要度算出手段と、
    前記要約に含まれる前記nグラムの各々の前記重みの合計値を用い、かつ、前記要約に含まれる、前記要約及び前記入力文書で連続している単語列である断片の数をペナルティとして用いて表される目的関数と、前記要約に含まれる単語の数の最大値を表す制約式とを生成する整数計画問題生成手段と、
    前記整数計画問題生成手段により生成された前記制約式を満足し、かつ、前記生成された目的関数を最大とする、前記入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、前記整数計画問題の解において選択された各単語を、前記入力文書における出現順序に従って並び替えて、前記入力文書に対応する要約を生成する要約生成手段と、
    を含む文書要約装置。
  2. 前記整数計画問題生成手段は、前記要約に含まれる前記断片の数の最大値を表す制約式を更に生成する請求項1記載の文書要約装置。
  3. 前記入力文書の文書内の単語の区切りを決定する文書解析手段を更に含み、
    前記重要度算出手段は、前記文書解析手段による解析結果に基づいて、前記nグラム各々の重要度に応じた重みを各々算出し、
    前記整数計画問題生成手段は、前記文書解析手段による解析結果に基づいて、前記目的関数と、前記制約式を生成する請求項1又は請求項2記載の文書要約装置。
  4. 重要度算出手段と、整数計画問題生成手段と、要約生成手段とを含み、少なくとも1つの入力文書から複数の単語を選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、
    前記重要度算出手段は、前記入力文書に含まれるn個の単語からなるnグラム各々の重要度に応じた重みを各々算出し、
    前記整数計画問題生成手段は、前記要約に含まれる前記nグラムの各々の前記重みの合計値を用い、かつ、前記要約に含まれる、前記要約及び前記入力文書で連続している単語列である断片の数をペナルティとして用いて表される目的関数と、前記要約に含まれる単語の数の最大値を表す制約式とを生成し、
    要約生成手段は、前記整数計画問題生成手段により生成された前記制約式を満足し、かつ、前記生成された目的関数を最大とする、前記入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、前記整数計画問題の解において選択された各単語を、前記入力文書における出現順序に従って並び替えて、前記入力文書に対応する要約を生成する
    文書要約方法。
  5. 前記整数計画問題生成手段は、前記要約に含まれる前記断片の数の最大値を表す制約式を更に生成する請求項4記載の文書要約方法。
  6. 前記入力文書の文書内の単語の区切りを決定する文書解析手段を更に含み、
    前記重要度算出手段は、前記文書解析手段による解析結果に基づいて、前記nグラム各々の重要度に応じた重みを各々算出し、
    前記整数計画問題生成手段は、前記文書解析手段による解析結果に基づいて、前記目的関数と、前記制約式を生成する請求項4又は請求項5記載の文書要約方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の文書要約装置を構成する各手段として機能させるためのプログラム。
JP2012278412A 2012-12-20 2012-12-20 文書要約装置、方法、及びプログラム Active JP5954825B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012278412A JP5954825B2 (ja) 2012-12-20 2012-12-20 文書要約装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012278412A JP5954825B2 (ja) 2012-12-20 2012-12-20 文書要約装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014123219A JP2014123219A (ja) 2014-07-03
JP5954825B2 true JP5954825B2 (ja) 2016-07-20

Family

ID=51403656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012278412A Active JP5954825B2 (ja) 2012-12-20 2012-12-20 文書要約装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5954825B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3790187B2 (ja) * 2002-05-22 2006-06-28 日本電信電話株式会社 テキスト要約方法、装置、およびテキスト要約プログラム
US7624093B2 (en) * 2006-01-25 2009-11-24 Fameball, Inc. Method and system for automatic summarization and digest of celebrity news

Also Published As

Publication number Publication date
JP2014123219A (ja) 2014-07-03

Similar Documents

Publication Publication Date Title
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
KR101479040B1 (ko) 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
US9128907B2 (en) Language model generating device, method thereof, and recording medium storing program thereof
JP6529761B2 (ja) 話題提供システム、及び会話制御端末装置
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP5373998B1 (ja) 辞書生成装置、方法、及びプログラム
US20110131214A1 (en) Information retrieval method, computer readable medium and information retrieval apparatus
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
JP2010152862A (ja) 文章体特定装置およびコンピュータに文章体を特定させるためのプログラム
JP5954825B2 (ja) 文書要約装置、方法、及びプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP5184195B2 (ja) 言語処理装置およびプログラム
CN101371252A (zh) 字符处理装置、方法、程序以及存储介质
JP5604465B2 (ja) テキスト要約装置、方法、及びプログラム
JP6634001B2 (ja) テキスト要約装置、方法、及びプログラム
JP4959032B1 (ja) ウェブページ解析装置およびウェブページ解析用プログラム
JP5942981B2 (ja) 要約作成装置、要約作成方法、およびプログラム
JP5575075B2 (ja) 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Benko Language Code Switching in Web Corpora.
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
JP5472929B2 (ja) 文書検索装置、文書検索方法及び文書検索プログラム
JP5438627B2 (ja) テキスト要約装置とその方法とプログラム
US20220138434A1 (en) Generation apparatus, generation method and program
JP2009175896A (ja) 情報検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160609

R150 Certificate of patent or registration of utility model

Ref document number: 5954825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150