JP4942727B2 - テキスト要約装置、その方法およびプログラム - Google Patents
テキスト要約装置、その方法およびプログラム Download PDFInfo
- Publication number
- JP4942727B2 JP4942727B2 JP2008301058A JP2008301058A JP4942727B2 JP 4942727 B2 JP4942727 B2 JP 4942727B2 JP 2008301058 A JP2008301058 A JP 2008301058A JP 2008301058 A JP2008301058 A JP 2008301058A JP 4942727 B2 JP4942727 B2 JP 4942727B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- document
- input document
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Anastasios Tombros et al., "Advantage of Query Biased Summaries in Information Retrieval", Research and Development in Information Retrieval, 1998, pp.2-10 森 辰則、「検索結果表示向け文書要約における情報利得比に基づく語の重要度計算」、自然言語処理、Vol.9、No.4、2002、pp.3−32
Claims (5)
- コーパスにおける任意の単語の文書頻度および2個以上の任意の単語の共起頻度を格納する単語頻度テーブルと、
ユーザより入力された検索語を受け付ける検索語入力部と、
複数の文で構成される入力文書を受け付ける文書入力部と、
前記単語頻度テーブルから、前記検索語に対応する文書頻度、前記入力文書に含まれる単語に対応する文書頻度、並びに前記検索語および入力文書に含まれる単語に対応する共起頻度を取得し、これらに基づいて前記検索語と入力文書に含まれる単語との関連度を計算する関連度計算部と、
前記入力文書を構成する全ての文に対し、前記関連度計算部で計算される当該文に含まれる各単語と前記検索語との関連度に基づいて文重要度を計算する重要文選択部と、
前述した各部を制御し、予め指定された制限文字数または要約率の範囲内で前記入力文書を構成する文を前記文重要度の高い順に選択し、前記入力文書での出現順に出力する制御部とを備え、
さらに前記関連度計算部は、
前記検索語が複数であり、前記複数の検索語の文書頻度が所定の閾値よりも小さい場合、または前記複数の検索語と前記入力文書に含まれる単語との共起頻度が所定の閾値よりも小さい場合には、
前記複数の検索語の各検索語ごとに、当該検索語と前記入力文書に含まれる単語との関連度を求め、
前記各検索語ごとに求めた関連度の平均値を、前記複数の検索語と前記入力文書に含まれる単語との関連度とする機能を有する
ことを特徴とするテキスト要約装置。 - 前記入力文書に含まれる全ての文に対し、前記関連度計算部で計算される当該文に含まれる各単語と前記検索語との関連度に基づいて文重要度を計算するとともに、文同士の類似度を計算し、当該文重要度が高くかつ文同士の類似度が小さいほど高くなるスコアを求める重要文選択部と、
前述した各部を制御し、予め指定された制限文字数または要約率の範囲内で前記入力文書を構成する文を前記スコアの高い順に選択し、前記入力文書での出現順に出力する制御部とを備えた
ことを特徴とする請求項1に記載のテキスト要約装置。 - 検索語入力部が、ユーザより入力された検索語を受け付けるステップと、
文書入力部が、複数の文で構成される入力文書を受け付けるステップと、
関連度計算部が、コーパスにおける任意の単語の文書頻度および2個以上の任意の単語の共起頻度を格納する単語頻度テーブルから、前記検索語に対応する文書頻度、前記入力文書に含まれる単語に対応する文書頻度、並びに前記検索語および入力文書に含まれる単語に対応する共起頻度を取得し、これらに基づいて前記検索語と入力文書に含まれる単語との関連度を計算するステップと、
重要文選択部が、前記入力文書を構成する全ての文に対し、前記関連度計算ステップで計算される当該文に含まれる各単語と前記検索語との関連度に基づいて文重要度を計算するステップと、
制御部が、予め指定された制限文字数または要約率の範囲内で前記入力文書を構成する文を前記文重要度の高い順に選択し、前記入力文書での出現順に出力するステップとを含み、
さらに前記関連度計算ステップは、
前記検索語が複数であり、前記複数の検索語の文書頻度が所定の閾値よりも小さい場合、または前記複数の検索語と前記入力文書に含まれる単語との共起頻度が所定の閾値よりも小さい場合には、
前記複数の検索語の各検索語ごとに、当該検索語と前記入力文書に含まれる単語との関連度を求め、
前記各検索語ごとに求めた関連度の平均値を、前記複数の検索語と前記入力文書に含まれる単語との関連度とする工程を有する
ことを特徴とするテキスト要約方法。 - 重要文選択部が、前記入力文書に含まれる全ての文に対し、前記関連度計算ステップで計算される当該文に含まれる各単語と前記検索語との関連度に基づいて文重要度を計算するとともに、文同士の類似度を計算し、当該文重要度が高くかつ文同士の類似度が小さいほど高くなるスコアを求めるステップと、
制御部が、予め指定された制限文字数または要約率の範囲内で前記入力文書を構成する文を前記スコアの高い順に選択し、前記入力文書での出現順に出力するステップとを含む
ことを特徴とする請求項3に記載のテキスト要約方法。 - コンピュータを、請求項1または2に記載のテキスト要約装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008301058A JP4942727B2 (ja) | 2008-11-26 | 2008-11-26 | テキスト要約装置、その方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008301058A JP4942727B2 (ja) | 2008-11-26 | 2008-11-26 | テキスト要約装置、その方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010128677A JP2010128677A (ja) | 2010-06-10 |
JP4942727B2 true JP4942727B2 (ja) | 2012-05-30 |
Family
ID=42329039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008301058A Active JP4942727B2 (ja) | 2008-11-26 | 2008-11-26 | テキスト要約装置、その方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4942727B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025216A (zh) * | 2015-09-09 | 2017-08-08 | Uberple有限公司 | 句子提取方法及系统 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5530393B2 (ja) * | 2011-04-11 | 2014-06-25 | 日本電信電話株式会社 | 文書要約装置、文書要約方法、及びプログラム |
JP5670939B2 (ja) * | 2012-03-07 | 2015-02-18 | 日本電信電話株式会社 | 文書要約装置及び方法及びプログラム |
JP6230190B2 (ja) * | 2014-01-09 | 2017-11-15 | 日本放送協会 | 重要語抽出装置、及びプログラム |
WO2016043609A1 (en) | 2014-09-18 | 2016-03-24 | Empire Technology Development Llc | Three-dimensional latent semantic analysis |
US9767193B2 (en) | 2015-03-27 | 2017-09-19 | Fujitsu Limited | Generation apparatus and method |
JP6524008B2 (ja) * | 2016-03-23 | 2019-06-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
KR102034302B1 (ko) * | 2018-03-20 | 2019-10-18 | 주식회사 딥서치 | 문장 추출 방법 및 시스템 |
JP6621514B1 (ja) * | 2018-10-26 | 2019-12-18 | 楽天株式会社 | 要約作成装置、要約作成方法、及びプログラム |
WO2021009885A1 (ja) * | 2019-07-17 | 2021-01-21 | 日本電信電話株式会社 | 教師データ生成装置、教師データ生成方法および教師データ生成プログラム |
JP7152437B2 (ja) * | 2020-02-20 | 2022-10-12 | ソフトバンク株式会社 | 要約生成プログラム、要約生成装置および要約生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11184865A (ja) * | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
-
2008
- 2008-11-26 JP JP2008301058A patent/JP4942727B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025216A (zh) * | 2015-09-09 | 2017-08-08 | Uberple有限公司 | 句子提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2010128677A (ja) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4942727B2 (ja) | テキスト要約装置、その方法およびプログラム | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
US7895205B2 (en) | Using core words to extract key phrases from documents | |
Culpepper et al. | Dynamic cutoff prediction in multi-stage retrieval systems | |
CN110287309B (zh) | 快速提取文本摘要的方法 | |
US20120278341A1 (en) | Document analysis and association system and method | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
Song et al. | A novel term weighting scheme based on discrimination power obtained from past retrieval results | |
Luk et al. | A comparison of Chinese document indexing strategies and retrieval models | |
Kim et al. | Does selective search benefit from WAND optimization? | |
JP5565568B2 (ja) | 情報推薦装置、情報推薦方法およびプログラム | |
JP6340351B2 (ja) | 情報検索装置、辞書作成装置、方法、及びプログラム | |
JP5251099B2 (ja) | 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム | |
Yusuf et al. | Arabic text stemming using query expansion method | |
Bae et al. | Efficient question classification and retrieval using category information and word embedding on cQA services | |
JP2009086903A (ja) | 検索サービス装置 | |
JP2004192546A (ja) | 情報検索方法、装置、プログラム、および記録媒体 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
Lavrenko et al. | Real-time query expansion in relevance models | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
Albathan et al. | Enhanced n-gram extraction using relevance feature discovery | |
JP4452527B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2004525442A (ja) | 有損失インデックス圧縮装置 | |
Ojokoh et al. | Online question answering system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110530 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4942727 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |