JP3594701B2 - キーセンテンス抽出装置 - Google Patents
キーセンテンス抽出装置 Download PDFInfo
- Publication number
- JP3594701B2 JP3594701B2 JP18289095A JP18289095A JP3594701B2 JP 3594701 B2 JP3594701 B2 JP 3594701B2 JP 18289095 A JP18289095 A JP 18289095A JP 18289095 A JP18289095 A JP 18289095A JP 3594701 B2 JP3594701 B2 JP 3594701B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- relevance
- key
- importance
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書から重要文(キーセンテンス)を抽出するキーセンテンス抽出装置に関し、該キーセンテテンス抽出装置を用いた抄録作成や文検索に用いて好適である。
【0002】
【従来の技術】
文書の要約は、文書の概要を把握する上で重要であり、自動要約装置が期待されている。しかし、人間によっても難しい要約の作成を自動化するのは、さらに難しい。そこで、要約に代わるものとして、文書中のキーセンテンス(重要文)の抽出や、それらの重要文をつないで作成する抄録の自動化の方が実現性が高い。
キーセンテンスの抽出には、高い頻度の単語[1:特開昭61−117658号公報(文章抄録装置)]やキーワードの重要度[2:特開平3−278270号公報(抄録文作成装置)]やキー構文との照合[3:特開昭61−100861号公報(文書編集装置)]、重要語と原文の論理的な構造[4:特開平2−181261号公報(自動抄録生成装置)]、重要部分を認識する知識[5:特開平4−74259号公報(文書要約装置)]等に基づく方法等、さまざまな方法がある。
【0003】
なお、前記特開昭61−117658号公報[1]に記載の発明は、文章をパラグラフ毎等の形に順次分割し、該分割した各パラグラフ等中に存在する文単位に用語を夫々分担して当該用語の使用頻度等に基づいて文の重要度を夫々判別し、各パラグラフ毎に最重要度の文を順次つなぐ形で抄録を編集することにより、文章の抄録を自動的に編集するようにしたものである。
【0004】
また、前記特開平3−278270号公報[2]に記載の発明は、キーワード抽出評価手段が入力された文書中からキーワード候補を抽出すると共にキーワード候補の重要度を予め設定された所定条件に基づいて算定し、この算定されたキーワードの重要度と入力された文書とから文章評価手段が各文章毎に文書の内容表現に対する適切さを文章評価値として各々算出すると共に文章評価値を予め設定された閾値と比較して所定の文章を選出し、この選出された文章を並べて抄録文を作成するようにしたものである。
【0005】
また、前記特開昭61−100861号公報[3]に記載の発明は、入力された文章中の各文を構文的または意味的に解析し、この構文的または意味的に解析された文構造の全体またはその一部分と辞書に予め登録された部分文構造(文のキー構造)とを照合して、上記辞書に登録された部分文構造を含む文を前記入力文章中から抽出し、これらの抽出された文を用いて文章を再構成するようにしたもので、例えば、辞書に登録された部分文構造中の削除規則に該当する文要素を、前記入力文章中から抽出された文中から削除して文を再構成するようにしたものである。
【0006】
また、前記特開平2−181261号公報[4]に記載の発明は、日本語辞書を用いて機能語を完全に除去し、一般名詞と固有名詞を対象として、これらの頻度情報および位置情報から、文章の主題や記述の核となる重要語を高精度に抽出するとともに、原文の文章の論理的な構造の解析を行い、文章の構造の情報から著者が重要と思っている内容や強調したい内容に関する記述を抄録の中に含ませるようにしたものである。
【0007】
更に、前記特開平4−74259号公報[5]に記載の発明は、要約対象とする文書を構成している文をそれぞれ解析し、この解析結果と知識記憶手段に格納されている文書中の重要な部分を認識するための知識、例えば、文字修飾情報とを用いて前記文書中の重要な文を認識判定し、この判定結果に従って前記文書中から重要な文を抽出して要約文を作成するようにしたものである。
【0008】
【発明が解決しようとする課題】
しかし、上記従来の方法は、外部からの情報[前記公報2,3,4,5]や、構文解析[前記公報3,4,5]を必要としたり、1文ごとの独立した評価を行っており、文書内の文の関連性に重きが置かれていない。なお、特開平6−259424号公報(文書表示装置及び文書要約装置並びにディジタル複写装置)は、文書内の見出しに限っているが、キーワードの可能性の高い文書内の見出しとの関連性の高い文を見出し内の単語との照合により抽出しており、文脈的な選択となっている。
【0009】
本発明は、上述のごとき実情に鑑みてなされたもので、特に、文書内のキーセンテンスを抽出するための文の重要度の評価において、文書内の他の文との関連度に基づくことにより、文脈に基づいたより適切な重要度を与え、キーセンテンスの抽出の精度を高めること、また、文の重要度の評価として、外部知識や構文解析等の大きな負担のない簡単な方法を適用可能にすることを目的としてなされたものである。
【0010】
【課題を解決するための手段】
請求項1の発明は、電子化された文書から文を切り出す「文切り出し手段」と、前記「文切り出し手段」で切り出された各文について、他のそれぞれの文との間の関連度を評価する「文間関連度評価手段」と、前記「文間関連度評価手段」で評価した関連度に基づいて、ある文の重要度を、該文以外の他の文との間の関連度から求める「文重要度評価手段」と、前記「文重要度評価手段」で評価した文の重要度に基づいて、キーセンテンスを抽出する「キーセンテンス抽出手段」とを有すること、
請求項2の発明は、請求項1の発明において、前記「文間関連度評価手段」は、前記文切り出し手段で切り出された各文からキーワード候補単語群を抽出し、文相互間の関連度を、該文に含まれるキーワード候補単語群間の類似度とすること、
請求項3の発明は、請求項2の発明において、前記キーワード候補単語群間の類似度は、文ごとに、キーワード候補単語群の一致した単語数の割合を用いること、
請求項4の発明は、請求項1乃至3の発明において、前記「文重要度評価手段」は、ある文に対して、他の文群との関連度の強さとカバレージ度の一方あるいは双方とによって文の重要度を評価すること、
請求項5の発明は、請求項4の発明において、前記他の文群との関連度の強さとして、他の文との関連度の平均値、前記カバレージ度として、他の文との関連度の有無の平均値を用いること、
請求項6の発明は、請求項4または5の発明において、前記文の重要度として、他の文群との関連度の強さとカバレージ度との積を用いること、
を特徴としたものであり、これら請求項1乃至請求項6の発明により、文書内の文間の関連度に基づいた文の重要度によるキーセンテンスの抽出を可能とし、特に、請求項2乃至請求項6で提供する文間の関連度と文の重要度を評価する方式は、外部知識や構文解析等を用いず、名詞判定程度の解析処理と文字列照合の処理によって簡単に得られる効果的な方法である。
【0013】
【発明の実施の形態】
図1は、本発明によるキーセンテンス抽出装置を説明するための構成図で、図中、1は電子化文書、2は文切り出し手段、3は文間関連度評価手段、4は文重要度評価手段、5はキーセンテンス抽出手段で、「文切り出し手段」2は、電子化文書1から文を1文づつ切り出す。通常、文書内の文は、句点「。」で1文づつ区切られているか、見出しのように句点なしに1行が1文をなしたりする。一般に、電子化された文書ファイルから文を1文づつ切り出す技術は、機械翻訳システム等で既に実現されている技術であり、ここでは詳細を述べない。図2に、以下の説明に用いる文書の内容を示し、図3には、「文切り出し手段」によって切り出された文を示す(各文の先頭に付加されているのは文番号である。なお、図2に示した原文では、最初の3文が見出しとなっている)。
【0014】
文間関連度評価手段3では、切り出された各文と他の各文との関連がどの程度あるかを評価し、関連度として求める。文間の関連度を求める方法は、さまざま考えられるが、各文からキーワード候補単語群を抽出し、各々の文に含まれるキーワード候補単語間の類似度に基づき関連度を評価するようにしている。
【0015】
キーワード候補単語としては、一般には名詞が挙げられる。図4に、各文からキーワードになりにくい日付け等の数名詞や1字漢字の名詞を除く名詞を抽出した結果を示す。名詞の抽出は、従来の日本語文の形態素解析技術に依ることができる。あるいは、漢字、カタカナやアルファベットの文字列を切り出すだけでも、ほぼ同等の結果を得ることができる。
【0016】
キーワード候補単語の類似に基づき文間の関連度を得る方法もさまざまありえるが、キーワード候補単語間の類似度として、キーワード候補単語の文字列間の文字の重複度を用いる。ここでは、文iの文jに対する関連度R(i,j)を、文iのキーワード候補単語文字の総数に対する文iのキーワード候補単語文字のうち、一方の文jのキーワード候補単語の文字と重複する文字の総数の比とする。
【0017】
たとえば、第5文と第6文のキーワード候補単語は、次のようになっているが、
[5]英米 主要先進 G7 合意 規制 イラク 対象 対共産圏輸出統制委員会 ココム リスト
[6]G7 対象 品目 話し合い 冷戦終結 輸出規制
両文のキーワード候補単語間の組合せでの部分文字列照合により、容易に重複する文字は「G7」、「規制」、「対象」、「輸出」であることがわかる。重複する文字の数は8であり、一方、各文のキーワード候補単語の文字の総数は、各々34と18であるので、その比は、各文について、
R(5,6):8/34=0.235
R(6,5):8/18=0.444
となる。
【0018】
図5に第5文の他の文との関連度を示し、図6に文間の関連度をマトリクスで示す(なお、図中、関連度は上記の値を100倍[パーセント化]し、整数化して示してある)。
上記の方法は、単語文字列の部分一致に基づいているが、キーワード候補単語が一致する単語数の割合をとれば、上記の場合は、「G7」、「規制」、「対象」の3単語が一致し、一方、各々の単語数は10と6であるので、次のようになる。
R(5,6):3/10=0.30
R(6,5):3/6 =0.50
【0019】
また、より一般的な関連度としては、たとえば、文jに対する文iの関連度R(i,j)を、文i内の単語の文j内の各単語との類似度の和の平均とする等が考えられる。これは、文i内のキーワード候補単語の集合をW(i)、単語xと単語yの類似度をr(x,y)[0〜1]、文i内のキーワード候補単語数をN(i)とすると、次の式(1)で表わすことができる。
【0020】
【数1】
【0021】
単語間の類似度を厳密に考えると、単語間の上位・下位関係が与えられたシソーラス体系を利用する方法等も考えられる。
【0022】
文重要度評価手段4では、各文について得られた他の文との関連度に基づいて、文の重要度を評価する。
文の重要度は他の文群との関連度の強さ及び他の文群との関連のカバレージによって評価する。前者は、他の文とどれだけ強く関連しているかを示し、後者は、どれだけ広く他の文と関連しているかを示す。
具体的な算出方法としては、他の文群との関連度の強さは、他の文との関連度の平均値、他の文群との関連のカバレージ度は、他の文との関連度の有無の平均値を用いる。
第5文について見れば、表1のようになる。
【0023】
【表1】
【0024】
図7に、図6の関連度に基づいた各文の関連度の強さとカバレージとその積の値を示す(いずれも100倍し、整数化してある。積は‘=>’の右に示す)。関連度の強さに着目すると、第2文、第3文が.33,.27と高く、第4,6,7,10文が.15〜.17の範囲の第2グループをなしている。
関連のカバレージに着目すると、第5文、第7文が.91と高く、第4,6文が.73で続く。
【0025】
関連度の強さが高い文群は、見出しが高くなっているように、文書のテーマに強く関わっている文であることが想定される。また、関連のカバレージが高い文は、新聞記事等で要約的な内容をもつといわれる第1段落の文を含んでおり、全体の内容を含んでいる可能性が高いことが想定される。逆に、この値が低い文は、非常に個別的な話題を述べている文であると考えられる。このように、いずれの値もキーセンテンスを抽出するための文の重要度として意味のあるものになっている。
【0026】
さらに、この両者の積によって、双方の効果を加味した文の重要度を与える。この重要度に基づくと、.10以上では、第2文、第7文、第6文、第4文、第10文、第5文の順となり、見出し第2文、第1段落の3文(第4,5,6文)、第2段落の第1文(第7文)と最終文(第10文)がキーセンテンスとして抽出される。
【0027】
抄録作成は、抽出されたキーセンテンスを順に示して、抄録となすもので、上記の重要度に基づけば、抄録として、図8(上位2文:第2文、第7文)や図9(上位6文:第2文、第4文、第5文、第6文、第7文、第10文)が得られる。
【0028】
文検索には、検索要求として与えた文やキーワード群に対して関連する文を本発明の文の関連度により検索するものである。たとえば、見出し文が重要なキーワードを含んでいると考えられることから、見出し文の第1文「通常兵器関連の工業製品」を検索文とすれば、第4文「通常兵器の部品や加工機械に転用できる工業製品の輸出規制が二十日、…」が検索され(図10)、見出し文の第2文によれば、第1段落の3文と最終段落の第1文が関連度が高い文として検索される(図11)。
【0029】
【発明の効果】
本発明により、外部知識や構文解析等を用いず、名詞判定程度の解析処理と文字列照合の処理によって簡単に得られる文書内の文間の関連度に基づいた文の重要度によるキーセンテンスの抽出が可能である。
【0030】
また、文の重要度の高いキーセンテンスを抽出し、文書内の文の順番に並べることにより、抄録作成を行える。
【0031】
また、文間の関連度を利用して、文書内から選択した特定の文、外部から与えた検索文やキーワード群と関連の大きい文を検索できる。
【図面の簡単な説明】
【図1】本発明によるキーセンテンス抽出方式、抄録方式、及び、文検索方式を説明するための構成図である。
【図2】本発明の一実施例を説明するための電子化文書の一例(原文)を示す図である。
【図3】図2に示した原文の文切り出し結果を示す図である。
【図4】文ごとのキーワード候補単語を示す図である。
【図5】第5文の他の文との関連度を示す図である。
【図6】文間の関連度マトリクスを示す図である。
【図7】関連度の強さ、関連のカバレージ、及びその積を示す図である。
【図8】抄録の一例(抄録1)を示す図である。
【図9】抄録の他の例(抄録2)を示す図である。
【図10】見出し第1文による関連文の検索結果を示す図である。
【図11】見出し第2文による関連文の検索結果を示す図である。
【符号の説明】
1…電子化文書、2…文切り出し手段、3…文間関連度評価手段、4…文重要度評価手段、5…キーセンテンス抽出手段。
Claims (6)
- 電子化された文書から文を切り出す文切り出し手段と、前記文切り出し手段で切り出された各文について、他のそれぞれの文との間の関連度を評価する文間関連度評価手段と、前記文間関連度評価手段で評価した関連度に基づいて、ある文の重要度を、該文以外の他の文との間の関連度から求める文重要度評価手段と、前記文重要度評価手段で評価した文の重要度に基づいて、キーセンテンスを抽出するキーセンテンス抽出手段とを有することを特徴とするキーセンテンス抽出装置。
- 前記文間関連度評価手段は、前記文切り出し手段で切り出された各文からキーワード候補単語群を抽出し、文相互間の関連度を、該文に含まれるキーワード候補単語群間の類似度とすることを特徴とする請求項1に記載のキーセンテンス抽出装置。
- 前記キーワード候補単語群間の類似度は、文ごとに、キーワード候補単語群の一致した単語数の割合を用いることを特徴とする請求項2に記載のキーセンテンス抽出装置。
- 前記文重要度評価手段は、ある文に対して、他の文群との関連度の強さとカバレージ度の一方あるいは双方とによって文の重要度を評価することを特徴とする請求項1乃至3のいずれかに記載のキーセンテンス抽出装置。
- 前記他の文群との関連度の強さとして、他の文との関連度の平均値、前記カバレージ度として、他の文との関連度の有無の平均値を用いることを特徴とする請求項4に記載のキーセンテンス抽出装置。
- 前記文の重要度として、他の文群との関連度の強さとカバレージ度との積を用いることを特徴とする請求項4または5に記載のキーセンテンス抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18289095A JP3594701B2 (ja) | 1995-07-19 | 1995-07-19 | キーセンテンス抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18289095A JP3594701B2 (ja) | 1995-07-19 | 1995-07-19 | キーセンテンス抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0934905A JPH0934905A (ja) | 1997-02-07 |
JP3594701B2 true JP3594701B2 (ja) | 2004-12-02 |
Family
ID=16126196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18289095A Expired - Fee Related JP3594701B2 (ja) | 1995-07-19 | 1995-07-19 | キーセンテンス抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3594701B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
JPH10301956A (ja) * | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
KR100434526B1 (ko) * | 1997-06-12 | 2004-09-04 | 삼성전자주식회사 | 문맥정보및지역적문서형태를이용한문장추출방법 |
US6424429B1 (en) | 1997-11-14 | 2002-07-23 | Ricoh Company, Ltd. | File system and a recording medium with a program used in the system stored therein |
JPH11238064A (ja) * | 1998-02-20 | 1999-08-31 | Toshiba Corp | データベース作成方法および情報記憶検索装置および記録媒体 |
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
JP2001034638A (ja) * | 1999-07-27 | 2001-02-09 | Fujitsu Ltd | 索引生成装置及び方法及び記録媒体 |
JP4873738B2 (ja) * | 2007-07-09 | 2012-02-08 | 日本電信電話株式会社 | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
CN104216934B (zh) * | 2013-09-29 | 2018-02-13 | 北大方正集团有限公司 | 一种知识抽取方法及系统 |
JP6230190B2 (ja) * | 2014-01-09 | 2017-11-15 | 日本放送協会 | 重要語抽出装置、及びプログラム |
CN111291214B (zh) * | 2020-01-15 | 2023-09-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种检索文本的识别方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2944346B2 (ja) * | 1993-01-20 | 1999-09-06 | シャープ株式会社 | 文書要約装置 |
JPH06259424A (ja) * | 1993-03-02 | 1994-09-16 | Ricoh Co Ltd | 文書表示装置及び文書要約装置並びにディジタル複写装置 |
-
1995
- 1995-07-19 JP JP18289095A patent/JP3594701B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0934905A (ja) | 1997-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
Al-Hashemi | Text Summarization Extraction System (TSES) Using Extracted Keywords. | |
US20020046018A1 (en) | Discourse parsing and summarization | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
KR940022316A (ko) | 일문 문서용 키 워드 추출장치 | |
JP3173411B2 (ja) | 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 | |
JP3594701B2 (ja) | キーセンテンス抽出装置 | |
JP2011118689A (ja) | 検索方法及びシステム | |
Kallimani et al. | Summarizing news paper articles: experiments with ontology-based, customized, extractive text summary and word scoring | |
Litvak et al. | Degext: a language-independent keyphrase extractor | |
JP2572314B2 (ja) | キーワード抽出装置 | |
Ramirez et al. | ACE: improving search engines via Automatic Concept Extraction | |
JP4401269B2 (ja) | 対訳判断装置及びプログラム | |
Sunitha et al. | Automatic summarization of Malayalam documents using clause identification method | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
Gillard et al. | The LIA at QA@ CLEF-2006. | |
Halabi et al. | Graph-based arabic key-phrases extraction | |
Baisa et al. | Turkic language support in Sketch Engine | |
JPH10301956A (ja) | キーセンテンス抽出方式及び抄録方式及び文書表示方式 | |
JP3578618B2 (ja) | 文書分割装置 | |
Kiyota et al. | Automatic summarization of Japanese sentences and its application to a WWW KWIC index | |
Rosner et al. | Multisum: query-based multi-document summarization | |
JP2006053907A (ja) | 情報抽出方法、情報抽出装置、情報抽出プログラム及び情報抽出プログラムが記載された記録媒体 | |
Chanod | Natural language processing and digital libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040901 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120910 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |