JPH10301956A - キーセンテンス抽出方式及び抄録方式及び文書表示方式 - Google Patents

キーセンテンス抽出方式及び抄録方式及び文書表示方式

Info

Publication number
JPH10301956A
JPH10301956A JP9112567A JP11256797A JPH10301956A JP H10301956 A JPH10301956 A JP H10301956A JP 9112567 A JP9112567 A JP 9112567A JP 11256797 A JP11256797 A JP 11256797A JP H10301956 A JPH10301956 A JP H10301956A
Authority
JP
Japan
Prior art keywords
sentence
paragraph
importance
key
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9112567A
Other languages
English (en)
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9112567A priority Critical patent/JPH10301956A/ja
Publication of JPH10301956A publication Critical patent/JPH10301956A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書内のキーセンテンス(重要文)の抽出に
おいて、文の重要度だけでなく、文の属する段落の重要
度を考慮し、重要な段落から優先して重要な文を抽出す
ることにより、キーセンテンスの抽出の精度を高める。 【解決手段】 電子化された文書から段落及び文を切り
出す段落/文切り出し手段2と、段落の重要度を評価す
る段落重要度評価手段3と、文の重要度を評価する文重
要度評価手段4と、段落の重要度と、文の重要度に応じ
て、キーセンテンスを抽出するキーセンテンス抽出手段
5を有する。文書内のキーセンテンスの抽出において、
文の重要度だけでなく、文の属する段落の重要度を考慮
し、重要な段落から優先して重要な文を抽出することに
より、キーセンテンスの抽出の精度を高める。また、キ
ーセンテンス性の高い文の抄録や、キーセンテンス性に
応じた強調により効果的な文書表示が可能になる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書から重要文
(キーセンテンス)を抽出する技術に関し、例えば、文
書抄録装置、文書閲覧装置、文書検索装置、文書管理装
置等に応用可能なものである。
【0002】
【従来の技術】文書の要約は、文書の概要を把握する上
で重要であり、自動要約装置が期待される。しかし、人
間によっても難しい要約の作成を自動化するのは、さら
に難しい。そこで、要約に代わるものとして、文書中の
キーセンテンス(重要文)や、それらの文をついで作成
した抄録の自動化が実現性が高い。キーセンテンスの抽
出は、高い頻度の単語「1:特開昭61−117658
号公報(文章抄録装置)」やキーワードの重要度「2:
特開平3−278270号公報(抄録文作成装置)」や
キー構文との照合「3:特開昭61−100861号公
報(文書編集装置)」,重要語と原文の論理的な構造
「4:特開平2−181261号公報(自動抄録生成装
置)」,重要部分を認識する知識「5:特開平4−74
259号公報(文書要約装置)」,文中のキーワード候
補単語群同士の共有度による文間関連度「6:特開平6
−259424号公報(文書表示装置及び文書要約装置
並びにディジタル複写装置)」等に基づくさまざまな方
法がある。
【0003】
【発明が解決しようとする課題】しかし、これらの方法
は、外部からの情報「2,3,4,5」や、構文解析
「3,4,5」を必要としたり1文ごとの独立した評価
を行なっている。「6」では、文書内の文の関連性に着
目した文脈的な観点を入れているが、なお、文を単位と
した処理方法といえる。[1]では、文の上位構造であ
るパラグラフ(段落)に着目しているが、各パラグラフ
の最重要文を選択している。
【0004】本発明は、上述のごとき実情に鑑みてなさ
れたもので、文書内のキーセンテンス(重要文)の抽出
において、文の重要度だけでなく、文の属する段落の重
要度を考慮し、重要な段落から優先して重要な文を抽出
することにより、キーセンテンスの抽出の精度を高める
ことを目的としてなされたものである。
【0005】
【課題を解決するための手段】請求項1の発明は、電子
化された文書から段落及び文を切り出す段落/文切り出
し手段と、段落の重要度を評価する段落重要度評価手段
と、文の重要度を評価する文重要度評価手段とを有し、
段落の重要度と文の重要度に応じてキーセンテンスを抽
出するキーセンテンス抽出手段を有することを特徴とし
たものである。
【0006】請求項2の発明は、請求項1の発明におい
て、段落の重要度が高い程抽出するキーセンテンス数を
多くすることを特徴としたものである。
【0007】請求項3の発明は、請求項1の発明におい
て、段落の重要度に応じて順位付けした段落の順位と、
文の重要度に応じて順位付けした同一段落内の文の順位
とに応じて評価したキーセンテンスのレベルに応じて、
キーセンテンスを抽出することを特徴としたものであ
る。
【0008】請求項4の発明は、請求項2あるいは3の
発明において、キーセンテンスのレベルを、前記同一段
落内の文の順位値とその文の属する段落の順位値の和に
応じて決めることを特徴としたものである。
【0009】請求項5の発明は、請求項3あるいは4の
発明において、キーセンテンスのレベルを、文書全体で
の文の順位あるいは重要度の要素に応じて加減すること
を特徴としたものである。
【0010】請求項6の発明は、請求項1乃至5のいず
れかに記載の発明において、見出し文に本文とは独立に
キーセンテンスのレベルを付けることを特徴としたもの
である。
【0011】請求項7の発明は、請求項1乃至6のいず
れかの発明において、レベルの高いキーセンテンスを抽
出し、文書内の順番に並べることを特徴としたものであ
る。
【0012】請求項8の発明は、請求項1乃至6のいず
れかの発明において、レベルの高いキーセンテンスを強
調表示することを特徴としたものである。
【0013】請求項9の発明は、請求項8において、キ
ーセンテンスのレベルに応じて、強調方法を変えること
を特徴としたものである。
【0014】
【発明の実施の形態】図1は、本発明の構成例を示す図
で、図中、1は電子化文書、2は段落/文切り出し手
段、3は段落重要度評価手段、4は文重要度評価手段、
5はキーセンテンス抽出手段、6はキーセンテンスで、
「段落/文切り出し手段」2は、電子化文書1から段落
を、さらに、文を切り出す。段落については、ここで
は、簡単のために、段落は、電子化文書中の改行コード
で区切られた形式段落とする。即ち、段落は、改行コー
ドにより切り出すことができる。文は、通常、句
点「。」で1文づつ区切られているか、見出しのように
句点なしに1行が1文をなしたりする。従って、段落か
ら文を切り出すことも容易に実現できる。
【0015】図2に、以下の説明に用いる文書例を示
し、「段落/文切り出し手段」2によって切り出された
段落及び文を図3、図4に示す(図3の先頭の“{}”
内の番号が段落番号であり、図4の先頭の“[]”内の
数字は文書内の文番号、それに続く“{}”内の2組の
数字は段落番号と段落内の文番号である)。
【0016】「段落重要度評価手段」3及び「文重要度
評価手段」4としては、各種方式が考えられるが、ここ
では従来技術「7:擬似キーワード相関法による重要キ
ーワードと重要文の抽出;言語処理学会、第2回年次大
会、P.P.9,97−100,1996」の文の重要
度の評価方法を敷延して利用する。この方法は、文ごと
にその中のキーワード候補単語群を対応させ、その単語
群同士の文字列の重複文字数を基に文間関連度を求め、
その平均値等により文の重要度とする方法である。
【0017】キーワード候補単語としては、一般に名詞
が挙げられる。図5(B)に、各文からキーワードにな
りにくい日付け等の数名詞や1字漢字の名詞を除く名詞
を抽出した結果を示す。名詞の抽出は、従来の日本語文
の形態素解析技術に依ることができる。あるいは漢字、
カタカナやアルファベットの文字列を切り出すだけで
も、ほぼ同等の結果を得ることができる。
【0018】図6(B)に、各文のキーワード候補単語
群同士の重複文字列数のマトリクスと各文のキーワード
候補単語群の文字列数の総和を示す(“/”の後ろの
値)。なお、文字列数はカタカナ等の字種は1文字を
0.5で計数している。また、図中の値は2倍値で示し
てある(第4行−第5列及び第5行−第4列の“10”
は、第4文と第5文の重複文字数が10/2であること
を示す)。
【0019】ここで、文iと文jの文間関連度を次のよう
に定義する。即ち、文iと文jのキーワード候補単語群同
士の重複文字列数をC(i,j)[マトリクスの要素]、文i
のキーワード候補単語群の文字列数をL(i)とした時、
文iと文jとの文間関連度を、 ・文iから見た場合に、C(i,j)/L(i)、 ・文jから見た場合に、C(i,j)/L(j) として求める。こうして得た文間関連度要素をマトリク
ス化すると、図7(B)の左部のようになる(ただし、
図7(B)では、10倍値を1桁で表示してある)。
【0020】さらに、総文数をn,k1,k2,k3を線形和
の重み係数として、文iの重要度l(i)を次のように与え
る。
【0021】
【数1】
【0022】この第1項は文iから見た他文との文間関
連度の平均値、第2項は他文から見た文iとの文間関連
度の平均値である。また、第3項は、文i中にある重要
性に関わる構文あるいは表層的な手がかりによる付加的
な寄与である(主節に「が」の文節を含むとか、「要す
るに」といった表現によるが、ここでは詳細には述べな
い)。図7(B)には、各文ごとの第1,2,3項とそ
の総和として得られた重要度を示す。
【0023】「段落重要度評価手段」は、「文重要度評
価手段」4と同様に扱うことにする。即ち、図5(A)
のように、段落ごとにその中のキーワード候補単語群を
対応させ、段落内のキーワード候補単語群同士の重複文
字列総和(図6(A))、段落間関連度マトリクスと段
落の重要度(図7(A);段落の重要度では、第3項は
無視している)を得ることができる。
【0024】本発明は、従来技術のごとく、文の重要度
だけでキーセンテンスを抽出するのではなく、段落の重
要度も考慮に入れることに主眼がある。なお、以降の例
では、請求項6にあるように、見出し(本例では最初の
3段落/3文)は別に扱うことにし、まず、見出し以外
を考える。4,5,6段落は、図7(A)の段落の重要
度に基づくと、段落順位は各々第1,2,3位となる。
即ち抽出するキーセンテンスの数を第1,2,3位の第
4,5,6段落の順に多くする。たとえば、第4,5,
6段落から、各段落内の上位2文、1文、0文のように
選択する。
【0025】さらに、その具体的な例が請求項3の方法
である。段落重要度による順位と文の重要度に応じた段
落内の文の順位により、キーセンテンスのレベルを与え
る。ここで、キーセンテンスのレベルとは、レベル値が
0の場合がキーセンテンス性が最高で、以下レベル値が
増えるに従って、キーセンテンス性が減るものとする。
請求項3の具体例である請求項4の1例として、たとえ
ば、[{その文の属する段落の順位値}−1]と[{段
落内での文の順位値}−1]を各々順位点として、その
和がNの文をレベルNとする。
【0026】この場合、各レベルの文は、次のようにな
る。 レベル0の文:第1位段落中の第1位文 レベル1の文:第1位段落中の第2位文,第2位段落中
の第1位文 レベル2の文:第1位段落中の第3位文,第2位段落中
の第2位文,第3位段落中の第1位文
【0027】図4の文番号で示せば、次のようになる。 レベル0:[4] レベル1:[6],[7] レベル2:[5],[10],[11] レベル3:[8],[12]
【0028】見出しについても独立に同様に扱うが、文
書例では、1段落1文であるので、次のようになる。 レベル0:[2] レベル1:[3] レベル2:[1]
【0029】以上をまとめると、各文のレベル値は、次
のようになる。 レベル0(=最重要レベル)とレベル1(=準重要レベ
ル)を選ぶとすると、見出しから第1,2文、第4段落
から第4,6文、第5段落から第7文が該当する。
【0030】請求項5では、上記のように得たレベル値
を従来の文書全体での順位や重要度の要素に応じて、レ
ベル値を加減する。たとえば、図7(B)によると、第
6文は、重要度の第1項の値では第1位であり、一方、
第5文は、重要度の第2項の値では第1位である。こう
した重要性を考慮し、この2文のレベル値を1減じ、キ
ーセンテンス性を高める。これにより、次のようなレベ
ルとなる。 [5] :英米などの主要先進七力 2→1 [6] :G7は既に対象となる品 1→0
【0031】本例では、レベル1までの選択では、第5
文が追加されることになる。なお、本例には適切な例が
ないが、重要度が十分低いにも関わらず、高いレベルに
なった文に対しては、レベル値を増やすような処理も考
えられる。
【0032】さらに、レベル0までの文(図8
(A))、レベル1までの文(図8(B))を文の順番
に並べることにより抄録を生成できる(請求項7)。あ
るいは、図9のように強調表示したり(請求項8)、図
10のようにレベルに応じて強調方法を変える(請求項
9)ことで、効果的な文書表示とすることができる。
【0033】
【発明の効果】文書内のキーセンテンスの抽出におい
て、文の重要度だけでなく、文の属する段落の重要度を
考慮し、重要な段落から優先して重要な文を抽出するこ
とにより、キーセンテンスの抽出の精度を高めることが
できる。また、キーセンテンス性の高い文の抄録や、キ
ーセンテンス性に応じた強調により効果的な文書表示が
可能になる。
【図面の簡単な説明】
【図1】 本発明の構成例を示す図である。
【図2】 本発明が適用される文書の一例を示す図であ
る。
【図3】 図2に示した文書の段落切り出し結果の一例
を示す図である。
【図4】 図2に示した文書の文切り出し結果の一例を
示す図である。
【図5】 段落ごと(図5(A))及び文ごと(図5
(B))のキーワード候補単語の例を示す図である。
【図6】 段落間(図6(A))及び文間(図6
(B))の重複文字列数総和のマトリクス例を示す図で
ある。
【図7】 段落(図7(A))及び文(図7(B))の
重要度を示す図である。
【図8】 レベル0まで(図8(A))及びレベル1ま
で(図8(B))の文による抄録例を示す図である。
【図9】 レベル0の文の強調表示例を示す図である。
【図10】 レベル0,1の文の2段階強調表示例を示
す図である。
【符号の説明】
1…電子化文書、2…段落/文切り出し手段、3…段落
重要度評価手段、4…文重要度評価手段、5…キーセン
テンス抽出手段、6…キーセンテンス。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文書から段落及び文を切り
    出す段落/文切り出し手段と、段落の重要度を評価する
    段落重要度評価手段と、文の重要度を評価する文重要度
    評価手段とを有し、段落の重要度と、文の重要度に応じ
    て、キーセンテンスを抽出するキーセンテンス抽出手段
    を有することを特徴とするキーセンテンス抽出方式。
  2. 【請求項2】 前記キーセンテンス抽出手段は、段落の
    重要度が高い程、抽出するキーセンテンス数を多くする
    ことを特徴とする請求項1記載のキーセンテンス抽出方
    式。
  3. 【請求項3】 前記キーセンテンス抽出手段は、段落の
    重要度に応じて順位付けした段落の順位と、文の重要度
    に応じて順位付けした同一段落内の文の順位とに応じ
    て、評価したキーセンテンスのレベルに応じてキーセン
    テンスを抽出することを特徴とする請求項1記載のキー
    センテンス抽出方式。
  4. 【請求項4】 前記キーセンテンスのレベルを、前記同
    一段落内の文の順位値とその文の属する段落の順位値の
    和に応じて決めることを特徴とする請求項2あるいは3
    記載のキーセンテンス抽出方式。
  5. 【請求項5】 前記キーセンテンスのレベルを、文書全
    体での文の順位あるいは重要度の要素に応じて加減する
    ことを特徴とする請求項3あるいは4記載のキーセンテ
    ンス抽出方式。
  6. 【請求項6】 本文とは独立に、見出し文にキーセンテ
    ンスのレベルを付けることを特徴とする請求項1乃至5
    のいずれかに記載のキーセンテンス抽出方式。
  7. 【請求項7】 請求項1乃至6のいずれかのキーセンテ
    ンス抽出方式を用いて、レベルの高いキーセンテンスを
    抽出し、文書内の文の順番に並べることを特徴とする抄
    録方式。
  8. 【請求項8】 請求項1乃至6のいずれかのキーセンテ
    ンス抽出方式を用いて、レベルの高いキーセンテンスを
    強調表示することを特徴とする文書表示方式。
  9. 【請求項9】 キーセンテンスのレベルに応じて、強調
    方法を変えることを特徴とする請求項8記載の文書表示
    方式。
JP9112567A 1997-04-30 1997-04-30 キーセンテンス抽出方式及び抄録方式及び文書表示方式 Pending JPH10301956A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9112567A JPH10301956A (ja) 1997-04-30 1997-04-30 キーセンテンス抽出方式及び抄録方式及び文書表示方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9112567A JPH10301956A (ja) 1997-04-30 1997-04-30 キーセンテンス抽出方式及び抄録方式及び文書表示方式

Publications (1)

Publication Number Publication Date
JPH10301956A true JPH10301956A (ja) 1998-11-13

Family

ID=14589940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9112567A Pending JPH10301956A (ja) 1997-04-30 1997-04-30 キーセンテンス抽出方式及び抄録方式及び文書表示方式

Country Status (1)

Country Link
JP (1) JPH10301956A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242656A (ja) * 1999-02-19 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
CN100430918C (zh) * 2002-01-31 2008-11-05 独立行政法人情报通信研究机构 摘要评估装置和方法
JP2012123455A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 要約装置、要約作成方法及びプログラム
JP2013120514A (ja) * 2011-12-08 2013-06-17 Nomura Research Institute Ltd 対話要約システムおよび対話要約プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242656A (ja) * 1999-02-19 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 話題抽出方法、装置、および話題抽出プログラムを記録した記録媒体
JP2003281165A (ja) * 2001-11-13 2003-10-03 Posco 文書要約方法及びシステム
CN100430918C (zh) * 2002-01-31 2008-11-05 独立行政法人情报通信研究机构 摘要评估装置和方法
JP2012123455A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 要約装置、要約作成方法及びプログラム
JP2013120514A (ja) * 2011-12-08 2013-06-17 Nomura Research Institute Ltd 対話要約システムおよび対話要約プログラム

Similar Documents

Publication Publication Date Title
Medelyan et al. Thesaurus based automatic keyphrase indexing
US7017114B2 (en) Automatic correlation method for generating summaries for text documents
US8660834B2 (en) User input classification
Vossen Extending, trimming and fusing WordNet for technical documents
EP0597630A1 (en) Method for resolution of natural-language queries against full-text databases
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JP3594701B2 (ja) キーセンテンス抽出装置
US20070239735A1 (en) Systems and methods for predicting if a query is a name
Geyken et al. On-the-fly Generation of Dictionary Articles for the DWDS Website
Govilkar et al. Extraction of root words using morphological analyzer for devanagari script
JPH10301956A (ja) キーセンテンス抽出方式及び抄録方式及び文書表示方式
Chandrasekar et al. Gleaning information from the web: Using syntax to filter out irrelevant information
Jones et al. Experiments in Japanese text retrieval and routing using the NEAT system
JP2529418B2 (ja) 文書検索装置
Kimº et al. FromTo-CLIR94*: web-based natural language interface for cross-language information retrieval
Milić-Frayling Text processing and information retrieval
JP3578618B2 (ja) 文書分割装置
JP2004280316A (ja) 分野判定装置及び言語処理装置
Bhaskar et al. Cross lingual query dependent snippet generation
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
Shojaie et al. External Plagiarism Detection based on Human Behaviors in Producing Paraphrases of Sentences in English and Persian Languages
JP2001357065A (ja) 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
Piotrowski et al. Harvesting indices to grow a controlled vocabulary: towards improved access to historical legal texts
JP3139624B2 (ja) 形態素解析装置
Saetia et al. Enhancing Thai Keyphrase Extraction Using Syntactic Relations: An Adoption of Universal Dependencies Framework

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040727

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040927

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041215

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050113

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050311