JPH10301956A - キーセンテンス抽出方式及び抄録方式及び文書表示方式 - Google Patents
キーセンテンス抽出方式及び抄録方式及び文書表示方式Info
- Publication number
- JPH10301956A JPH10301956A JP9112567A JP11256797A JPH10301956A JP H10301956 A JPH10301956 A JP H10301956A JP 9112567 A JP9112567 A JP 9112567A JP 11256797 A JP11256797 A JP 11256797A JP H10301956 A JPH10301956 A JP H10301956A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- paragraph
- importance
- key
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
おいて、文の重要度だけでなく、文の属する段落の重要
度を考慮し、重要な段落から優先して重要な文を抽出す
ることにより、キーセンテンスの抽出の精度を高める。 【解決手段】 電子化された文書から段落及び文を切り
出す段落/文切り出し手段2と、段落の重要度を評価す
る段落重要度評価手段3と、文の重要度を評価する文重
要度評価手段4と、段落の重要度と、文の重要度に応じ
て、キーセンテンスを抽出するキーセンテンス抽出手段
5を有する。文書内のキーセンテンスの抽出において、
文の重要度だけでなく、文の属する段落の重要度を考慮
し、重要な段落から優先して重要な文を抽出することに
より、キーセンテンスの抽出の精度を高める。また、キ
ーセンテンス性の高い文の抄録や、キーセンテンス性に
応じた強調により効果的な文書表示が可能になる。
Description
(キーセンテンス)を抽出する技術に関し、例えば、文
書抄録装置、文書閲覧装置、文書検索装置、文書管理装
置等に応用可能なものである。
で重要であり、自動要約装置が期待される。しかし、人
間によっても難しい要約の作成を自動化するのは、さら
に難しい。そこで、要約に代わるものとして、文書中の
キーセンテンス(重要文)や、それらの文をついで作成
した抄録の自動化が実現性が高い。キーセンテンスの抽
出は、高い頻度の単語「1:特開昭61−117658
号公報(文章抄録装置)」やキーワードの重要度「2:
特開平3−278270号公報(抄録文作成装置)」や
キー構文との照合「3:特開昭61−100861号公
報(文書編集装置)」,重要語と原文の論理的な構造
「4:特開平2−181261号公報(自動抄録生成装
置)」,重要部分を認識する知識「5:特開平4−74
259号公報(文書要約装置)」,文中のキーワード候
補単語群同士の共有度による文間関連度「6:特開平6
−259424号公報(文書表示装置及び文書要約装置
並びにディジタル複写装置)」等に基づくさまざまな方
法がある。
は、外部からの情報「2,3,4,5」や、構文解析
「3,4,5」を必要としたり1文ごとの独立した評価
を行なっている。「6」では、文書内の文の関連性に着
目した文脈的な観点を入れているが、なお、文を単位と
した処理方法といえる。[1]では、文の上位構造であ
るパラグラフ(段落)に着目しているが、各パラグラフ
の最重要文を選択している。
れたもので、文書内のキーセンテンス(重要文)の抽出
において、文の重要度だけでなく、文の属する段落の重
要度を考慮し、重要な段落から優先して重要な文を抽出
することにより、キーセンテンスの抽出の精度を高める
ことを目的としてなされたものである。
化された文書から段落及び文を切り出す段落/文切り出
し手段と、段落の重要度を評価する段落重要度評価手段
と、文の重要度を評価する文重要度評価手段とを有し、
段落の重要度と文の重要度に応じてキーセンテンスを抽
出するキーセンテンス抽出手段を有することを特徴とし
たものである。
て、段落の重要度が高い程抽出するキーセンテンス数を
多くすることを特徴としたものである。
て、段落の重要度に応じて順位付けした段落の順位と、
文の重要度に応じて順位付けした同一段落内の文の順位
とに応じて評価したキーセンテンスのレベルに応じて、
キーセンテンスを抽出することを特徴としたものであ
る。
発明において、キーセンテンスのレベルを、前記同一段
落内の文の順位値とその文の属する段落の順位値の和に
応じて決めることを特徴としたものである。
発明において、キーセンテンスのレベルを、文書全体で
の文の順位あるいは重要度の要素に応じて加減すること
を特徴としたものである。
れかに記載の発明において、見出し文に本文とは独立に
キーセンテンスのレベルを付けることを特徴としたもの
である。
れかの発明において、レベルの高いキーセンテンスを抽
出し、文書内の順番に並べることを特徴としたものであ
る。
れかの発明において、レベルの高いキーセンテンスを強
調表示することを特徴としたものである。
ーセンテンスのレベルに応じて、強調方法を変えること
を特徴としたものである。
で、図中、1は電子化文書、2は段落/文切り出し手
段、3は段落重要度評価手段、4は文重要度評価手段、
5はキーセンテンス抽出手段、6はキーセンテンスで、
「段落/文切り出し手段」2は、電子化文書1から段落
を、さらに、文を切り出す。段落については、ここで
は、簡単のために、段落は、電子化文書中の改行コード
で区切られた形式段落とする。即ち、段落は、改行コー
ドにより切り出すことができる。文は、通常、句
点「。」で1文づつ区切られているか、見出しのように
句点なしに1行が1文をなしたりする。従って、段落か
ら文を切り出すことも容易に実現できる。
し、「段落/文切り出し手段」2によって切り出された
段落及び文を図3、図4に示す(図3の先頭の“{}”
内の番号が段落番号であり、図4の先頭の“[]”内の
数字は文書内の文番号、それに続く“{}”内の2組の
数字は段落番号と段落内の文番号である)。
評価手段」4としては、各種方式が考えられるが、ここ
では従来技術「7:擬似キーワード相関法による重要キ
ーワードと重要文の抽出;言語処理学会、第2回年次大
会、P.P.9,97−100,1996」の文の重要
度の評価方法を敷延して利用する。この方法は、文ごと
にその中のキーワード候補単語群を対応させ、その単語
群同士の文字列の重複文字数を基に文間関連度を求め、
その平均値等により文の重要度とする方法である。
が挙げられる。図5(B)に、各文からキーワードにな
りにくい日付け等の数名詞や1字漢字の名詞を除く名詞
を抽出した結果を示す。名詞の抽出は、従来の日本語文
の形態素解析技術に依ることができる。あるいは漢字、
カタカナやアルファベットの文字列を切り出すだけで
も、ほぼ同等の結果を得ることができる。
群同士の重複文字列数のマトリクスと各文のキーワード
候補単語群の文字列数の総和を示す(“/”の後ろの
値)。なお、文字列数はカタカナ等の字種は1文字を
0.5で計数している。また、図中の値は2倍値で示し
てある(第4行−第5列及び第5行−第4列の“10”
は、第4文と第5文の重複文字数が10/2であること
を示す)。
に定義する。即ち、文iと文jのキーワード候補単語群同
士の重複文字列数をC(i,j)[マトリクスの要素]、文i
のキーワード候補単語群の文字列数をL(i)とした時、
文iと文jとの文間関連度を、 ・文iから見た場合に、C(i,j)/L(i)、 ・文jから見た場合に、C(i,j)/L(j) として求める。こうして得た文間関連度要素をマトリク
ス化すると、図7(B)の左部のようになる(ただし、
図7(B)では、10倍値を1桁で表示してある)。
の重み係数として、文iの重要度l(i)を次のように与え
る。
連度の平均値、第2項は他文から見た文iとの文間関連
度の平均値である。また、第3項は、文i中にある重要
性に関わる構文あるいは表層的な手がかりによる付加的
な寄与である(主節に「が」の文節を含むとか、「要す
るに」といった表現によるが、ここでは詳細には述べな
い)。図7(B)には、各文ごとの第1,2,3項とそ
の総和として得られた重要度を示す。
価手段」4と同様に扱うことにする。即ち、図5(A)
のように、段落ごとにその中のキーワード候補単語群を
対応させ、段落内のキーワード候補単語群同士の重複文
字列総和(図6(A))、段落間関連度マトリクスと段
落の重要度(図7(A);段落の重要度では、第3項は
無視している)を得ることができる。
だけでキーセンテンスを抽出するのではなく、段落の重
要度も考慮に入れることに主眼がある。なお、以降の例
では、請求項6にあるように、見出し(本例では最初の
3段落/3文)は別に扱うことにし、まず、見出し以外
を考える。4,5,6段落は、図7(A)の段落の重要
度に基づくと、段落順位は各々第1,2,3位となる。
即ち抽出するキーセンテンスの数を第1,2,3位の第
4,5,6段落の順に多くする。たとえば、第4,5,
6段落から、各段落内の上位2文、1文、0文のように
選択する。
である。段落重要度による順位と文の重要度に応じた段
落内の文の順位により、キーセンテンスのレベルを与え
る。ここで、キーセンテンスのレベルとは、レベル値が
0の場合がキーセンテンス性が最高で、以下レベル値が
増えるに従って、キーセンテンス性が減るものとする。
請求項3の具体例である請求項4の1例として、たとえ
ば、[{その文の属する段落の順位値}−1]と[{段
落内での文の順位値}−1]を各々順位点として、その
和がNの文をレベルNとする。
る。 レベル0の文:第1位段落中の第1位文 レベル1の文:第1位段落中の第2位文,第2位段落中
の第1位文 レベル2の文:第1位段落中の第3位文,第2位段落中
の第2位文,第3位段落中の第1位文
書例では、1段落1文であるので、次のようになる。 レベル0:[2] レベル1:[3] レベル2:[1]
のようになる。 レベル0(=最重要レベル)とレベル1(=準重要レベ
ル)を選ぶとすると、見出しから第1,2文、第4段落
から第4,6文、第5段落から第7文が該当する。
を従来の文書全体での順位や重要度の要素に応じて、レ
ベル値を加減する。たとえば、図7(B)によると、第
6文は、重要度の第1項の値では第1位であり、一方、
第5文は、重要度の第2項の値では第1位である。こう
した重要性を考慮し、この2文のレベル値を1減じ、キ
ーセンテンス性を高める。これにより、次のようなレベ
ルとなる。 [5] :英米などの主要先進七力 2→1 [6] :G7は既に対象となる品 1→0
文が追加されることになる。なお、本例には適切な例が
ないが、重要度が十分低いにも関わらず、高いレベルに
なった文に対しては、レベル値を増やすような処理も考
えられる。
(A))、レベル1までの文(図8(B))を文の順番
に並べることにより抄録を生成できる(請求項7)。あ
るいは、図9のように強調表示したり(請求項8)、図
10のようにレベルに応じて強調方法を変える(請求項
9)ことで、効果的な文書表示とすることができる。
て、文の重要度だけでなく、文の属する段落の重要度を
考慮し、重要な段落から優先して重要な文を抽出するこ
とにより、キーセンテンスの抽出の精度を高めることが
できる。また、キーセンテンス性の高い文の抄録や、キ
ーセンテンス性に応じた強調により効果的な文書表示が
可能になる。
る。
を示す図である。
示す図である。
(B))のキーワード候補単語の例を示す図である。
(B))の重複文字列数総和のマトリクス例を示す図で
ある。
重要度を示す図である。
で(図8(B))の文による抄録例を示す図である。
す図である。
重要度評価手段、4…文重要度評価手段、5…キーセン
テンス抽出手段、6…キーセンテンス。
Claims (9)
- 【請求項1】 電子化された文書から段落及び文を切り
出す段落/文切り出し手段と、段落の重要度を評価する
段落重要度評価手段と、文の重要度を評価する文重要度
評価手段とを有し、段落の重要度と、文の重要度に応じ
て、キーセンテンスを抽出するキーセンテンス抽出手段
を有することを特徴とするキーセンテンス抽出方式。 - 【請求項2】 前記キーセンテンス抽出手段は、段落の
重要度が高い程、抽出するキーセンテンス数を多くする
ことを特徴とする請求項1記載のキーセンテンス抽出方
式。 - 【請求項3】 前記キーセンテンス抽出手段は、段落の
重要度に応じて順位付けした段落の順位と、文の重要度
に応じて順位付けした同一段落内の文の順位とに応じ
て、評価したキーセンテンスのレベルに応じてキーセン
テンスを抽出することを特徴とする請求項1記載のキー
センテンス抽出方式。 - 【請求項4】 前記キーセンテンスのレベルを、前記同
一段落内の文の順位値とその文の属する段落の順位値の
和に応じて決めることを特徴とする請求項2あるいは3
記載のキーセンテンス抽出方式。 - 【請求項5】 前記キーセンテンスのレベルを、文書全
体での文の順位あるいは重要度の要素に応じて加減する
ことを特徴とする請求項3あるいは4記載のキーセンテ
ンス抽出方式。 - 【請求項6】 本文とは独立に、見出し文にキーセンテ
ンスのレベルを付けることを特徴とする請求項1乃至5
のいずれかに記載のキーセンテンス抽出方式。 - 【請求項7】 請求項1乃至6のいずれかのキーセンテ
ンス抽出方式を用いて、レベルの高いキーセンテンスを
抽出し、文書内の文の順番に並べることを特徴とする抄
録方式。 - 【請求項8】 請求項1乃至6のいずれかのキーセンテ
ンス抽出方式を用いて、レベルの高いキーセンテンスを
強調表示することを特徴とする文書表示方式。 - 【請求項9】 キーセンテンスのレベルに応じて、強調
方法を変えることを特徴とする請求項8記載の文書表示
方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9112567A JPH10301956A (ja) | 1997-04-30 | 1997-04-30 | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9112567A JPH10301956A (ja) | 1997-04-30 | 1997-04-30 | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10301956A true JPH10301956A (ja) | 1998-11-13 |
Family
ID=14589940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9112567A Pending JPH10301956A (ja) | 1997-04-30 | 1997-04-30 | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10301956A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242656A (ja) * | 1999-02-19 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体 |
JP2003281165A (ja) * | 2001-11-13 | 2003-10-03 | Posco | 文書要約方法及びシステム |
CN100430918C (zh) * | 2002-01-31 | 2008-11-05 | 独立行政法人情报通信研究机构 | 摘要评估装置和方法 |
JP2012123455A (ja) * | 2010-12-06 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 要約装置、要約作成方法及びプログラム |
JP2013120514A (ja) * | 2011-12-08 | 2013-06-17 | Nomura Research Institute Ltd | 対話要約システムおよび対話要約プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06215049A (ja) * | 1993-01-20 | 1994-08-05 | Sharp Corp | 文書要約装置 |
JPH0934905A (ja) * | 1995-07-19 | 1997-02-07 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文検索方式 |
-
1997
- 1997-04-30 JP JP9112567A patent/JPH10301956A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06215049A (ja) * | 1993-01-20 | 1994-08-05 | Sharp Corp | 文書要約装置 |
JPH0934905A (ja) * | 1995-07-19 | 1997-02-07 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文検索方式 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242656A (ja) * | 1999-02-19 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体 |
JP2003281165A (ja) * | 2001-11-13 | 2003-10-03 | Posco | 文書要約方法及びシステム |
CN100430918C (zh) * | 2002-01-31 | 2008-11-05 | 独立行政法人情报通信研究机构 | 摘要评估装置和方法 |
JP2012123455A (ja) * | 2010-12-06 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 要約装置、要約作成方法及びプログラム |
JP2013120514A (ja) * | 2011-12-08 | 2013-06-17 | Nomura Research Institute Ltd | 対話要約システムおよび対話要約プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Medelyan et al. | Thesaurus based automatic keyphrase indexing | |
US7017114B2 (en) | Automatic correlation method for generating summaries for text documents | |
US8660834B2 (en) | User input classification | |
Vossen | Extending, trimming and fusing WordNet for technical documents | |
EP0597630A1 (en) | Method for resolution of natural-language queries against full-text databases | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
JP3594701B2 (ja) | キーセンテンス抽出装置 | |
US20070239735A1 (en) | Systems and methods for predicting if a query is a name | |
Geyken et al. | On-the-fly Generation of Dictionary Articles for the DWDS Website | |
Govilkar et al. | Extraction of root words using morphological analyzer for devanagari script | |
JPH10301956A (ja) | キーセンテンス抽出方式及び抄録方式及び文書表示方式 | |
Chandrasekar et al. | Gleaning information from the web: Using syntax to filter out irrelevant information | |
Jones et al. | Experiments in Japanese text retrieval and routing using the NEAT system | |
JP2529418B2 (ja) | 文書検索装置 | |
Kimº et al. | FromTo-CLIR94*: web-based natural language interface for cross-language information retrieval | |
Milić-Frayling | Text processing and information retrieval | |
JP3578618B2 (ja) | 文書分割装置 | |
JP2004280316A (ja) | 分野判定装置及び言語処理装置 | |
Bhaskar et al. | Cross lingual query dependent snippet generation | |
JPH10177575A (ja) | 語句抽出装置および方法、情報記憶媒体 | |
Shojaie et al. | External Plagiarism Detection based on Human Behaviors in Producing Paraphrases of Sentences in English and Persian Languages | |
JP2001357065A (ja) | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 | |
Piotrowski et al. | Harvesting indices to grow a controlled vocabulary: towards improved access to historical legal texts | |
JP3139624B2 (ja) | 形態素解析装置 | |
Saetia et al. | Enhancing Thai Keyphrase Extraction Using Syntactic Relations: An Adoption of Universal Dependencies Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040727 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040927 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041026 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041215 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050113 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050311 |