JP5530393B2 - 文書要約装置、文書要約方法、及びプログラム - Google Patents
文書要約装置、文書要約方法、及びプログラム Download PDFInfo
- Publication number
- JP5530393B2 JP5530393B2 JP2011087411A JP2011087411A JP5530393B2 JP 5530393 B2 JP5530393 B2 JP 5530393B2 JP 2011087411 A JP2011087411 A JP 2011087411A JP 2011087411 A JP2011087411 A JP 2011087411A JP 5530393 B2 JP5530393 B2 JP 5530393B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- input
- candidate
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施の第1の形態に係る文書要約装置は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書要約処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。文書要約装置は、図1に示すように、文書入力部1と、検索語入力部2と、着眼点入力部3と、要約候補について忠実性スコアを計算する忠実性計算部4と、要約候補について関連性スコアを計算する関連性計算部5と、要約候補について選好性スコアを計算する選好性計算部6と、単語間の類似性を判定するための単語間類似性判定データベース7と、入力文書に対応する要約を生成する要約生成部8と、生成された要約を出力する出力部9とを備えている。
次に、本実施の形態に係る文書要約装置の作用について説明する。
以下に、実施例を示す。あるユーザは京都の観光に関する情報を求めており、中でも家族連れや親子連れにも適しているかどうかを重要視しているとする。クエリは「京都」「観光」の2つとし、着眼点を「家族」「親子」の2つとして、下記の本文から本発明を用いて70文字以上100文字以内の要約を生成する。
SFR =1.40651480341214e-17, SFRP=9.5860899924287e-19
SFR =4.33178952238888e-17, SFRP=3.39310531702552e-19
SFR =0.0, SFRP =0.0
SFR =5.48736122608985e-14, SFRP=3.73990649843503e-15
SFR =7.51187555599609e-14, SFRP=6.45534099560759e-16
SFR =4.68144720070608e-18, SFRP=3.19063646197701e-19
SFR =1.61773621052177e-17, SFRP=4.36685490218934e-20
SFR =2.4723893028729e-17, SFRP=1.68505488148161e-18
SFR =7.27981294734797e-17, SFRP=5.70230199111234e-19
2 検索語入力部
3 着眼点入力部
4 忠実性計算部
5 関連性計算部
6 選好性計算部
7 単語間類似性判定データベース
8 要約生成部
9 出力部
81 要約候補単語列生成部
82 要約候補選択部
Claims (5)
- 複数の文で構成される入力文書から少なくとも1文を選択して当該入力文書に対応する要約を生成する文書要約装置であって、
ユーザにより入力された検索語を受け付ける検索語入力手段と、
ユーザにより入力された着眼点を示す単語を受け付ける着眼点入力手段と、
形態素解析済みの入力文書を受け付ける文書入力手段と、
前記入力文書から、要約候補としての単語列を複数生成する要約候補単語列生成手段と、
前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算する忠実度計算手段と、
前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算する関連度計算手段と、
前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算する選好度計算手段と、
前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する要約生成手段と、
を含む文書要約装置。 - 前記選好度計算手段は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算する請求項1記載の文書要約装置。
- 複数の文で構成される入力文書から少なくとも1文を選択して当該入力文書に対応する要約を生成する文書要約方法であって、
ユーザにより入力された検索語を受け付け、
ユーザにより入力された着眼点を示す単語を受け付け、
形態素解析済みの入力文書を受け付け、
前記入力文書から、要約候補としての単語列を複数生成し、
前記要約候補の各々について、前記入力文書に対する前記要約候補の単語列の忠実度を計算し、
前記要約候補の各々について、前記検索語と前記要約候補の単語列との関連度を計算し、
前記要約候補の各々について、前記着眼点を示す単語と前記要約候補の単語列の各単語との類似度に基づいて、前記要約候補の単語列が前記着眼点をどれだけ表現しているかを示す選好度を計算し、
前記要約候補の各々について計算された前記忠実度、前記関連度、及び前記選好度に基づいて、前記要約候補を選択して、前記入力文書に対応する要約を生成する
ことを特徴とする文書要約方法。 - 前記選好度の計算は、前記要約候補の各々について、前記着眼点を示す単語の概念ベクトルと、前記要約候補の単語列に含まれる各名詞の概念ベクトルとの距離を、前記類似度として、前記選好度を計算する請求項3記載の文書要約方法。
- コンピュータを、請求項1又は2記載の文書要約装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011087411A JP5530393B2 (ja) | 2011-04-11 | 2011-04-11 | 文書要約装置、文書要約方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011087411A JP5530393B2 (ja) | 2011-04-11 | 2011-04-11 | 文書要約装置、文書要約方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012221293A JP2012221293A (ja) | 2012-11-12 |
JP5530393B2 true JP5530393B2 (ja) | 2014-06-25 |
Family
ID=47272703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011087411A Active JP5530393B2 (ja) | 2011-04-11 | 2011-04-11 | 文書要約装置、文書要約方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5530393B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632976A (zh) * | 2019-09-20 | 2021-04-09 | 株式会社Ntt都科摩 | 文本处理装置、方法、设备以及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4021525B2 (ja) * | 1997-07-28 | 2007-12-12 | 株式会社ジャストシステム | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
JP3707044B2 (ja) * | 1999-04-14 | 2005-10-19 | 沖電気工業株式会社 | 情報抽出装置 |
JP2005189955A (ja) * | 2003-12-24 | 2005-07-14 | Canon Inc | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 |
JP2005301584A (ja) * | 2004-04-09 | 2005-10-27 | Mitsubishi Electric Corp | 要約記事配信サーバ及び要約記事配信方法及び要約記事配信プログラム |
US7702611B2 (en) * | 2005-01-07 | 2010-04-20 | Xerox Corporation | Method for automatically performing conceptual highlighting in electronic text |
JP4942727B2 (ja) * | 2008-11-26 | 2012-05-30 | 日本電信電話株式会社 | テキスト要約装置、その方法およびプログラム |
-
2011
- 2011-04-11 JP JP2011087411A patent/JP5530393B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012221293A (ja) | 2012-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9836511B2 (en) | Computer-generated sentiment-based knowledge base | |
US20170161259A1 (en) | Method and Electronic Device for Generating a Summary | |
EP3398082A1 (en) | Systems and methods for suggesting emoji | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
Hamilton et al. | Fast and automated sensory analysis: Using natural language processing for descriptive lexicon development | |
JP6260294B2 (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
Di Fabbrizio et al. | Summarizing online reviews using aspect rating distributions and language modeling | |
Homoceanu et al. | Will I like it? Providing product overviews based on opinion excerpts | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
CN107122404A (zh) | 一种用户意图数据提取方法和装置 | |
CN112749272A (zh) | 面向非结构化数据的新能源规划性文本智能推荐方法 | |
CN110889292B (zh) | 一种基于句义结构模型的文本数据生成观点摘要的方法及系统 | |
JP6340351B2 (ja) | 情報検索装置、辞書作成装置、方法、及びプログラム | |
KR101928074B1 (ko) | 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 | |
JP5234992B2 (ja) | 回答文書分類装置、回答文書分類方法及びプログラム | |
Stadsnes | Evaluating semantic vectors for norwegian | |
JP5530393B2 (ja) | 文書要約装置、文書要約方法、及びプログラム | |
JP5284761B2 (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
JP2008152641A (ja) | 類似例文検索装置 | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
JP2017134675A (ja) | 情報検索装置及びプログラム | |
JP5214523B2 (ja) | 関連キーワード提示装置及びプログラム | |
JP2009223781A (ja) | 情報推薦装置、情報推薦システム、情報推薦方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5530393 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |