JP4931958B2 - テキスト要約方法、その装置およびプログラム - Google Patents
テキスト要約方法、その装置およびプログラム Download PDFInfo
- Publication number
- JP4931958B2 JP4931958B2 JP2009113462A JP2009113462A JP4931958B2 JP 4931958 B2 JP4931958 B2 JP 4931958B2 JP 2009113462 A JP2009113462 A JP 2009113462A JP 2009113462 A JP2009113462 A JP 2009113462A JP 4931958 B2 JP4931958 B2 JP 4931958B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- shortened
- length
- unit
- shortening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文短縮部6における処理としては、例えば非特許文献1、2に示されるような公知の手法により、文選択部4で選択された文から、その長さが文短縮長決定部5で決定された文短縮長以下となるような文を生成するものでも良い。
Claims (9)
- 複数の文から構成される入力文書の要約を生成するテキスト要約装置であって、
生成すべき要約の制限長を受け付ける入力部と、
前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルと、
前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブルと、
前記重要文テーブルに格納された入力文書中の文を重要順位が高い順に選択する文選択部と、
前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部と、
前記決定された文短縮長に従って前記選択された文を短縮する文短縮部と、
前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納する短縮文格納部と、
前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択部における文の選択から前記短縮文格納部における短縮文及び出現順序の格納までを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力する出力部とを備えた
ことを特徴とするテキスト要約装置。 - 前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さと、前記選択された文の出現順序と前記短縮文書テーブルに格納されている短縮文の出現順序とが連続しないときに文と文との間に挿入する文の脱落を表す記号の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部を備えた
ことを特徴とする請求項1に記載のテキスト要約装置。 - 前記文短縮部は、
コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルと、
コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルと、
前記単語重要度テーブルより得られる、文を構成する文節に含まれる単語についての重要度に基づいて当該文節の重要度を計算するとともに、当該文節の長さを計算する文節情報取得部と、
前記文節連接テーブルより得られる、文を構成する文節のそれぞれが隣り合う連接確率と、前記文節情報取得部より得られる前記文を構成する文節の重要度とに基づいて当該文が生成される生成確率を計算する文情報計算部と、
前記文選択部で選択された文は形態素解析および係り受け解析済みの文(入力文)であり、当該入力文の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成するとともに、前記各要約文の候補の長さを前記文節情報取得部を用いて求め、さらに前記各要約文の候補の生成確率を前記文節情報取得部および前記文情報計算部を用いて求める文侯補生成部と、
前記文侯補生成部で生成された要約文の候補をその生成確率および長さとともに格納する文候補テーブルと、
前述した各部を制御し、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を前記入力文の短縮文として出力する制御部とからなる
ことを特徴とする請求項1または2に記載のテキスト要約装置。 - 前記文候補テーブルには、要約文の候補の初期値として文節数0の文が格納され、
前記文侯補生成部は、
(a)前記入力文の文末の文節にポインタをセットし、
(b)前記文侯補テーブルから処理する侯補文を取り出し、前記処理する侯補文(文節の系列)の先頭に前記ポインタがセットされた文節をつなげて新たな候補文を生成し、
(c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつ前記ポインタがセットされた文節が依存構造のルートか、あるいは前記ポインタがセットされた文節が前記処理する侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)前記文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより前記要約文の候補を生成する
ことを特徴とする請求項3に記載のテキスト要約装置。 - 複数の文から構成される入力文書の要約を生成するテキスト要約方法であって、
入力部が、生成すべき要約の制限長を受け付けるステップと、
文選択部が、前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルから、入力文書中の未選択文のうちで最も重要順位が高い文を選択するステップと、
文短縮長決定部が、前記受け付けた制限長と、前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブル中の短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定するステップと、
文短縮部が、前記決定された文短縮長に従って前記選択された文を短縮するステップと、
短縮文格納部が、前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納するステップと、
出力部が、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択ステップから前記短縮文格納ステップまでを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力するステップとを含む
ことを特徴とするテキスト要約方法。 - 文短縮長決定部が、前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さと、前記選択された文の出現順序と前記短縮文書テーブルに格納されている短縮文の出現順序とが連続しないときに文と文との間に挿入する文の脱落を表す記号の長さとから、前記選択された文に対する文短縮長を動的に決定するステップを含む
ことを特徴とする請求項5に記載のテキスト要約方法。 - 文短縮ステップは、
文侯補生成部が、前記文選択部で選択された形態素解析および係り受け解析済みの文(入力文)の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成し、文節情報取得部および文情報計算部へ出力するステップと、
前記文節情報取得部が、コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルより得られる、前記要約文の候補を構成する文節に含まれる単語についての重要度に基づいて当該要約文の候補を構成する文節の重要度を計算するとともに当該文節の長さを計算し、当該文節の重要度を前記文情報計算部へ出力するとともに当該文節の長さを前記文侯補生成部へ出力するステップと、
前記文情報計算部が、コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルより得られる、前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、前記文節情報取得部より得られる前記要約文の候補を構成する文節の重要度とに基づいて当該要約文の候補が生成される生成確率を計算し、前記文侯補生成部へ出力するステップと、
前記文侯補生成部が、前記文節情報取得部より得られる前記要約文の候補を構成する文節の長さから当該要約文の候補の長さを求め、前記文情報計算部より得られる前記要約文の候補の生成確率とともに文候補テーブルに格納するステップと、
制御部が、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を前記入力文の短縮文として出力するステップとを含む
ことを特徴とする請求項5または6に記載のテキスト要約方法。 - 前記文候補テーブルには、要約文の候補の初期値として文節数0の文が格納され、
前記文侯補生成ステップは、
(a)前記入力文の文末の文節にポインタをセットし、
(b)前記文侯補テーブルから処理する侯補文を取り出し、前記処理する侯補文(文節の系列)の先頭に前記ポインタがセットされた文節をつなげて新たな候補文を生成し、
(c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつ前記ポインタがセットされた文節が依存構造のルートか、あるいは前記ポインタがセットされた文節が前記処理する侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)前記文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより前記要約文の候補を生成する
ことを特徴とする請求項7に記載のテキスト要約方法。 - コンピュータを、請求項1乃至4のいずれかに記載のテキスト要約装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009113462A JP4931958B2 (ja) | 2009-05-08 | 2009-05-08 | テキスト要約方法、その装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009113462A JP4931958B2 (ja) | 2009-05-08 | 2009-05-08 | テキスト要約方法、その装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010262511A JP2010262511A (ja) | 2010-11-18 |
JP4931958B2 true JP4931958B2 (ja) | 2012-05-16 |
Family
ID=43360514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009113462A Active JP4931958B2 (ja) | 2009-05-08 | 2009-05-08 | テキスト要約方法、その装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4931958B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5810053B2 (ja) * | 2012-08-27 | 2015-11-11 | 日本電信電話株式会社 | 要約生成装置及び方法及びプログラム |
JP5810052B2 (ja) * | 2012-08-27 | 2015-11-11 | 日本電信電話株式会社 | 要約生成装置及び方法及びプログラム |
JP5921457B2 (ja) * | 2013-02-05 | 2016-05-24 | 日本電信電話株式会社 | 文書要約方法、装置、及びプログラム |
CN104216934B (zh) * | 2013-09-29 | 2018-02-13 | 北大方正集团有限公司 | 一种知识抽取方法及系统 |
JP6021079B2 (ja) * | 2014-03-07 | 2016-11-02 | 日本電信電話株式会社 | 文書要約装置、方法、及びプログラム |
JP2017151863A (ja) * | 2016-02-26 | 2017-08-31 | 国立大学法人東京工業大学 | 文書要約装置 |
JP6205466B1 (ja) * | 2016-07-19 | 2017-09-27 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP6870508B2 (ja) * | 2017-07-07 | 2021-05-12 | 富士通株式会社 | 学習プログラム、学習方法及び学習装置 |
JP7142435B2 (ja) * | 2017-12-29 | 2022-09-27 | Airev株式会社 | 要約装置、要約方法、及び要約プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11184865A (ja) * | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
JP3832613B2 (ja) * | 1998-09-24 | 2006-10-11 | 日本放送協会 | 自動要約装置および自動要約プログラムを記録した記録媒体 |
JP2001265792A (ja) * | 2000-03-15 | 2001-09-28 | Rikogaku Shinkokai | 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体 |
JP3790187B2 (ja) * | 2002-05-22 | 2006-06-28 | 日本電信電話株式会社 | テキスト要約方法、装置、およびテキスト要約プログラム |
JP4856573B2 (ja) * | 2007-03-16 | 2012-01-18 | 日本放送協会 | 要約文生成装置及び要約文生成プログラム |
-
2009
- 2009-05-08 JP JP2009113462A patent/JP4931958B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010262511A (ja) | 2010-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4931958B2 (ja) | テキスト要約方法、その装置およびプログラム | |
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
US9767193B2 (en) | Generation apparatus and method | |
CN111247581A (zh) | 一种多语言文本合成语音方法、装置、设备及存储介质 | |
EP2418589A1 (en) | Retrieval device | |
US20100281091A1 (en) | Similar Text Search Method, Similar Text Search System, and Similar Text Search Program | |
US20170277679A1 (en) | Information processing device, information processing method, and computer program product | |
Al-Gaphari et al. | A method to convert Sana’ani accent to Modern Standard Arabic | |
JP6389795B2 (ja) | 音声認識結果整形装置、方法及びプログラム | |
Yuret | Fastsubs: An efficient and exact procedure for finding the most likely lexical substitutes based on an n-gram language model | |
US7328157B1 (en) | Domain adaptation for TTS systems | |
KR20140132114A (ko) | 수식 콘텐츠의 한글 독음 변환 시스템 및 방법 | |
JP5058221B2 (ja) | 文短縮装置、その方法およびプログラム | |
JP5111300B2 (ja) | 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体 | |
Sunitha et al. | A phoneme based model for english to malayalam transliteration | |
JP6300601B2 (ja) | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム | |
JP6126965B2 (ja) | 発話生成装置、方法、及びプログラム | |
CN112560466B (zh) | 链接实体关联方法、装置、电子设备和存储介质 | |
JP6619932B2 (ja) | 形態素解析装置およびプログラム | |
JP2014225158A (ja) | 文書要約装置、方法、及びプログラム | |
CN101371252A (zh) | 字符处理装置、方法、程序以及存储介质 | |
JP6300596B2 (ja) | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム | |
KR101543024B1 (ko) | 발음 기반의 번역 방법 및 그 장치 | |
KR101604553B1 (ko) | 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4931958 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |