JP5954825B2 - 文書要約装置、方法、及びプログラム - Google Patents
文書要約装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5954825B2 JP5954825B2 JP2012278412A JP2012278412A JP5954825B2 JP 5954825 B2 JP5954825 B2 JP 5954825B2 JP 2012278412 A JP2012278412 A JP 2012278412A JP 2012278412 A JP2012278412 A JP 2012278412A JP 5954825 B2 JP5954825 B2 JP 5954825B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- programming problem
- integer programming
- input
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
本発明の実施の形態に係る文書要約装置について説明する。図1に示すように、本発明の実施の形態に係る文書要約装置100は、入力部10と、後述する文書要約処理ルーチンを実行する演算部20と、出力部50と、を備えている。
a1:bkを含む要約対象文書集合D中の文の数
a2:bkを含み、全文書集合Uから要約対象文書集合Dを除いた文書集合中の文の数
a3:bkを含まない要約対象文章集合D中の文の数
a4:bkを含まず、かつ、全文書集合Uから要約対象文書集合Dを除いた文書集合の文の数
これより、bkのχ二乗値を、下記(1)式により求める。
次に、本発明の実施の形態に係る文書要約装置100の作用について説明する。まず、事前にnグラムを指定するための変数nの値(本実施例では2とする)が入力されメモリ(図示省略)に記憶される。また、全文書集合Uが文書要約装置100に入力され全文書集合記憶部31に記憶される。そして、入力部10により、全文書集合Uから選択される要約対象文書集合Dを示す情報と、要約結果の上限単語数L及び最大断片数Fとが入力されると、文書要約装置100のROMに記憶されたプログラムを、CPUが実行することにより、図3に示す文書要約処理ルーチンが実行される。
20 演算部
30 文書解析部
31 全文書集合記憶部
32 nグラム重み計算部
34 nグラム重みテーブル記憶部
36 整数計画問題生成部
38 要約生成部
50 出力部
100 文書要約装置
Claims (7)
- 少なくとも1つの入力文書から複数の単語を選択して、前記入力文書に対応する要約を生成する文書要約装置であって、
前記入力文書に含まれるn個の単語からなるnグラム各々の重要度に応じた重みを各々算出する重要度算出手段と、
前記要約に含まれる前記nグラムの各々の前記重みの合計値を用い、かつ、前記要約に含まれる、前記要約及び前記入力文書で連続している単語列である断片の数をペナルティとして用いて表される目的関数と、前記要約に含まれる単語の数の最大値を表す制約式とを生成する整数計画問題生成手段と、
前記整数計画問題生成手段により生成された前記制約式を満足し、かつ、前記生成された目的関数を最大とする、前記入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、前記整数計画問題の解において選択された各単語を、前記入力文書における出現順序に従って並び替えて、前記入力文書に対応する要約を生成する要約生成手段と、
を含む文書要約装置。 - 前記整数計画問題生成手段は、前記要約に含まれる前記断片の数の最大値を表す制約式を更に生成する請求項1記載の文書要約装置。
- 前記入力文書の文書内の単語の区切りを決定する文書解析手段を更に含み、
前記重要度算出手段は、前記文書解析手段による解析結果に基づいて、前記nグラム各々の重要度に応じた重みを各々算出し、
前記整数計画問題生成手段は、前記文書解析手段による解析結果に基づいて、前記目的関数と、前記制約式を生成する請求項1又は請求項2記載の文書要約装置。 - 重要度算出手段と、整数計画問題生成手段と、要約生成手段とを含み、少なくとも1つの入力文書から複数の単語を選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、
前記重要度算出手段は、前記入力文書に含まれるn個の単語からなるnグラム各々の重要度に応じた重みを各々算出し、
前記整数計画問題生成手段は、前記要約に含まれる前記nグラムの各々の前記重みの合計値を用い、かつ、前記要約に含まれる、前記要約及び前記入力文書で連続している単語列である断片の数をペナルティとして用いて表される目的関数と、前記要約に含まれる単語の数の最大値を表す制約式とを生成し、
要約生成手段は、前記整数計画問題生成手段により生成された前記制約式を満足し、かつ、前記生成された目的関数を最大とする、前記入力文書に含まれる各単語を選択するか否かを、整数計画問題を解くことにより求め、前記整数計画問題の解において選択された各単語を、前記入力文書における出現順序に従って並び替えて、前記入力文書に対応する要約を生成する
文書要約方法。 - 前記整数計画問題生成手段は、前記要約に含まれる前記断片の数の最大値を表す制約式を更に生成する請求項4記載の文書要約方法。
- 前記入力文書の文書内の単語の区切りを決定する文書解析手段を更に含み、
前記重要度算出手段は、前記文書解析手段による解析結果に基づいて、前記nグラム各々の重要度に応じた重みを各々算出し、
前記整数計画問題生成手段は、前記文書解析手段による解析結果に基づいて、前記目的関数と、前記制約式を生成する請求項4又は請求項5記載の文書要約方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載の文書要約装置を構成する各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012278412A JP5954825B2 (ja) | 2012-12-20 | 2012-12-20 | 文書要約装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012278412A JP5954825B2 (ja) | 2012-12-20 | 2012-12-20 | 文書要約装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014123219A JP2014123219A (ja) | 2014-07-03 |
JP5954825B2 true JP5954825B2 (ja) | 2016-07-20 |
Family
ID=51403656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012278412A Active JP5954825B2 (ja) | 2012-12-20 | 2012-12-20 | 文書要約装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5954825B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3790187B2 (ja) * | 2002-05-22 | 2006-06-28 | 日本電信電話株式会社 | テキスト要約方法、装置、およびテキスト要約プログラム |
US7624093B2 (en) * | 2006-01-25 | 2009-11-24 | Fameball, Inc. | Method and system for automatic summarization and digest of celebrity news |
-
2012
- 2012-12-20 JP JP2012278412A patent/JP5954825B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014123219A (ja) | 2014-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2798540B1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
KR101479040B1 (ko) | 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체 | |
US9128907B2 (en) | Language model generating device, method thereof, and recording medium storing program thereof | |
JP6529761B2 (ja) | 話題提供システム、及び会話制御端末装置 | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP5373998B1 (ja) | 辞書生成装置、方法、及びプログラム | |
US20110131214A1 (en) | Information retrieval method, computer readable medium and information retrieval apparatus | |
JP7434125B2 (ja) | 文書検索装置、文書検索方法、及びプログラム | |
JP2010152862A (ja) | 文章体特定装置およびコンピュータに文章体を特定させるためのプログラム | |
JP5954825B2 (ja) | 文書要約装置、方法、及びプログラム | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP5184195B2 (ja) | 言語処理装置およびプログラム | |
CN101371252A (zh) | 字符处理装置、方法、程序以及存储介质 | |
JP5604465B2 (ja) | テキスト要約装置、方法、及びプログラム | |
JP6634001B2 (ja) | テキスト要約装置、方法、及びプログラム | |
JP4959032B1 (ja) | ウェブページ解析装置およびウェブページ解析用プログラム | |
JP5942981B2 (ja) | 要約作成装置、要約作成方法、およびプログラム | |
JP5575075B2 (ja) | 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
Benko | Language Code Switching in Web Corpora. | |
JP5761033B2 (ja) | 文書分析装置、文書分析方法、およびプログラム | |
JP5472929B2 (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
JP5438627B2 (ja) | テキスト要約装置とその方法とプログラム | |
US20220138434A1 (en) | Generation apparatus, generation method and program | |
JP2009175896A (ja) | 情報検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160609 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5954825 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |