JP2001249948A - 重要文抽出装置および記憶媒体 - Google Patents
重要文抽出装置および記憶媒体Info
- Publication number
- JP2001249948A JP2001249948A JP2000059503A JP2000059503A JP2001249948A JP 2001249948 A JP2001249948 A JP 2001249948A JP 2000059503 A JP2000059503 A JP 2000059503A JP 2000059503 A JP2000059503 A JP 2000059503A JP 2001249948 A JP2001249948 A JP 2001249948A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- importance
- word
- sentences
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
が出来る重要文抽出装置を提供する。 【解決手段】 文章の中からリード文をリード文検出装
置2により検出すると、文重要度計算装置3は文章中の
各文の重要度を計算する。重要度はリード文の中に含ま
れる単語と同じ単語あるいは機能が同じ単語が他の各文
中に含まれるほどその文の重要度が低くなるように定め
られる。リード文を先頭にして重要度の高い方の文から
順に要約率を達成するまで、重要文が選択、抽出され
る。
Description
抽出する重要文抽出装置および記録装置に関する。
り、文章中の各文の重要度を計算し、与えられた要約率
に達成するまで重要度が低い文を捨てることにより重要
文抽出を実現している。各文の重要度は、従来、 ・文章中での高出現頻度の単語 ・その文の文章全体での出現位置 ・手がかり語 等を利用して計算していた。この中でも「文章中での高
出現頻度の単語」は実現の容易さからよく利用されてい
る。「文章中での高出現頻度の単語」による重要文抽出
方法でははじめに文章中に出現する各単語の頻度をカウ
ントする。次に頻度の高い単語を含む文を重要度が高い
文として文章中から抽出する(たとえば、Luhn,
H.P."The automatic creati
on ofliterature abstract
s.",In IBM Journal for Re
seach and Development,2
(2),pp.59−165,1958.)。
用されるという直感に基づく。
ースのように文章がそれほど長くない場合には同じ単語
がせいぜい2〜3回しか出現せず、それぞれの文の重要
度の差が単語の出現頻度では顕著に表れない場合が多
い。
を多く含んでいても重要でない文も少なくない。たとえ
ば、「文章中での高出現頻度の単語」による文の重要度
を用いて、次の放送ニュースから重要文を抽出すること
を考える。
産などによって解雇された身体に障害のある人は、30
93人と、前の年に比べて2倍近くに増加し、労働省で
は、規模の大きい企業では障害者の人たちをもっと雇用
してもらうことが出来ないかどうか検討を進めていま
す。
にリストラや倒産によって、解雇された身体に障害のあ
る人は,全国で3093人と3000人を超え、およそ
1600人だった前の年に比べて2倍近くに増えまし
た。
ている求職者も去年の3月に初めて10万人を超えてそ
の後も増加を続け、現在は11万人にのぼっているもの
と見られます。
人を解雇した企業は規模の小さいところが多く、不況の
影響で、リストラに踏み切り、その際解雇するケースが
目立つということです。
体力のある規模の大きな企業に、障害者の人をもっと雇
用してもらうことが出来ないかどうかを検討していて、
具体策について日経連と協議を進めています。
「倒産」が複数回出現するので、これらの単語が多く含
まれる文1や文2の文などが重要度が高い文となる。要
約率を50%とした場合、この2つの文が重要文として
次のように抽出される。
などによって解雇された身体に障害のある人は、309
3人と、前の年に比べて2倍近くに増加し、労働省で
は、規模の大きい企業では障害者の人たちをもっと雇用
してもらうことが出来ないかどうか検討を進めていま
す。
リストラや倒産によって、解雇された身体に障害のある
人は,全国で3093人と3000人を超え、およそ1
600人だった前の年に比べて2倍近くに増えました。
に企業のリストや....解雇された身体に障害のある
人は」という部分が重複しており、意味的に同じことを
表現している。したがって、元の文章の情報量が落ちる
割合が大きいという欠点が従来の重要文抽出方法にはあ
り、抽出した重要文を要約として使用することは不適切
である。
ースの第1文(文章の中の先頭の文)はリード文と呼ば
れ、文章全体の要約となっていることが多く、リード文
中の単語が他の文にも出現する傾向があるからに他なら
ない。むしろ情報が重複していない次の2文を重要文と
して抽出する方が情報が多く、重要文として優れてい
る。
などによって解雇された身体に障害のある人は、309
3人と、前の年に比べて2倍近くに増加し、労働省で
は、規模の大きい企業では障害者の人たちをもっと雇用
してもらうことが出来ないかどうか検討を進めていま
す。
いる求職者も去年の3月に初めて10万人を超えてその
後も増加を続け、現在は11万人にのぼっているものと
見られます。
全体の情報量を多くすることが出来る重要文抽出装置お
よび記録媒体を提供することにある。
るために、請求項1の発明は、複数の文からなる文章か
ら重要文を抽出する重要文抽出装置において、文章の先
頭のリード文の中に含まれる単語と同義の単語の個数を
前記文章中の各文についてカウントするカウント手段
と、前記リード文の単語と同義の単語が少ないほど重要
度が高くなる重要度計算式が予め定められており、該重
要度計算式と前記カウント手段のカウント結果を使用し
て前記文章中の各文の重要度を計算する重要度計算手段
と、該重要度計算手段の計算結果に基づき、重要度の高
い所定数の文を前記文章中から抽出する文抽出手段とを
具えたことを特徴とする。
文抽出装置において、前記文抽出手段は外部から要約率
の形態で抽出すべき文の数の指定を受けることを特徴と
する。
から重要文を抽出する重要文抽出装置で実行するプログ
ラムを記録した記録媒体において、前記プログラムは、
文章の先頭のリード文の中に含まれる単語と同義の単語
の個数を前記文章中の各文についてカウントするカウン
トステップと、前記リード文の単語と同義の単語が少な
いほど重要度が高くなる重要度計算式が予め定められて
おり、該重要度計算式と前記カウント手段のカウント結
果を使用して前記文章中の各文の重要度を計算する重要
度計算ステップと、該重要度計算手段の計算結果に基づ
き、重要度の高い所定数の文を前記文章中から抽出する
文抽出ステップとを具えたことを特徴とする。
媒体において、前記文抽出ステップでは外部から要約率
の形態で抽出すべき文の数の指定を受けることを特徴と
する
施の形態を詳細に説明する。
す。図1において、i1は重要文を抽出する文書を入力
する端子である。i2は要約率を入力する端子である。
o1は抽出された重要文を出力する端子である。
文を単語に分割する。リード文単語検出装置2はリード
文に出現する単語がその文章の他の文中で出現する場所
を検出する。
検出された単語および予め用意された計算式に基づいて
リード文以外の文の重要度を計算する。重要度を計算す
る計算式については後述するが、この計算式は、リード
文に含まれる単語と同一の単語あるいは機能的に同一の
単語が多く含まれるほど、他の分の重要度が低くなるよ
うに定められていることに留意されたい。
より計算された重要度の高い所定数の文を要約率で指定
される文の個数だけ、リード文以外の他の文中から選択
する。
図2にしたがって、以下、重要文抽出による自動要約の
手順を説明する。
分の形態素解析を形態素解析装置1において行なう。こ
れにより入力された文章の各文は単語に分割される。
行される処理を示し、S3〜S6は文重要度計算装置に
おいて実行される処理を示す。S2〜S5で、リード文
中の単語と他の文中の単語との間の最適な単語対応を求
める(後述)。このステップでは分割された単語には先
頭から順に単語番号、節番号、文番号が付される。S3
では、リード文中の単語と同じ単語(同一機能の単語を
含む)が他の文にあるかが調べられ、同じ単語が存在す
る場合には、その単語の単語番号、節番号、文番号が付
され、リード文中の単語と対応する単語の候補に設定さ
れる。
それより前に位置する単語との単語位置間の距離を計算
する。S5ではS4で求められた、単語位置間の距離が
付された経路をリードの文頭から文末にかけてたどり、
その単語位置間の距離の和が最小となる最適経路を求め
る。
き、各文の重要度を計算する。S7〜S9処理を繰り返
し実行して要約率以下になるまで、重要度が最も低いも
のから、リード文以外の他の文を捨てる。これにより、
要約率を満足する所定個数の複数の文を入力の文章から
抽出したことになる。
た文1〜文5を例にして具体的な処理例を説明する。
産などによって解雇された身体に障害のある人は、30
93人と、前の年に比べて2倍近くに増加し、労働省で
は、規模の大きい企業では障害者の人たちをもっと雇用
してもらうことが出来ないかどうか検討を進めていま
す。
にリストラや倒産によって、解雇された身体に障害のあ
る人は,全国で3093人と3000人を超え、およそ
1600人だった前の年に比べて2倍近くに増えまし
た。
ている求職者も去年の3月に初めて10万人を超えてそ
の後も増加を続け、現在は11万人にのぼっているもの
と見られます。
人を解雇した企業は規模の小さいところが多く、不況の
影響で、リストラに踏み切り、その際解雇するケースが
目立つということです。
体力のある規模の大きな企業に、障害者の人をもっと雇
用してもらうことが出来ないかどうかを検討していて、
具体策について日経連と協議を進めています。
が端子i2に入力されたものとする。S1の形態素解析
により、文章の先頭から下記のように単語単位に入力文
章が分割される。なお、空白部分が単語の区切れを示
す。 去年 1 年間 に 企業 の リストラ や 倒産.... S2〜S5でリード文中の各単語と、他の文中の単語の
間の最適な単語対応が求められる。
文章の先頭から順に単語番号、節番号、文番号が以下の
ように付される。ここで「節」とはたとえば、「、」な
どで囲まれた単語列の範囲とする。節番号は先頭の節の
順番に付される。文番号は先頭の文、すなわち、リード
文から順番に付される。 単語: 去年 1 年間 に 企業 の リストラ や 倒産.... 単語番号:1 2 3 4 5 6 7 8 9 節番号: 1 1 1 1 1 1 1 1 1 文番号: 1 1 1 1 1 1 1 1 1 S3ではリード文中の各単語について同一の単語が他の
文中で検索される。検索により見つかった単語の単語番
号、節番号、文番号が求められる。検索された単語がリ
ード文中の単語対応の候補となる。本実施形態では下記
のように求められる。
番号,文番号)を表している。たとえば、「去年」に対
応する(77,2,2)は「2番目の文の、2番目の節
に存在する,77番目の単語も「去年」であることを表
している。S4ではS3で求められた各単語候補に対し
て、それより前に位置する単語との単語位置間の距離を
計算する。この際に1つ前の単語に単語対応候補がなけ
れば、さらに1つ前の単語との距離を計算する。上述の
単語候補例では以下の線で結ばれた単語同士について単
語位置間距離を計算する。
号jである単語wjとの単語位置間はたとえば、次の式
distPost(wi,wj)で定義され、単語位置間の距離は付け
られた番号とその単語が含まれる節や文の番号に基づい
て計算される。
wの文番号、PhraseNo(w)は単語wの節番号、PhraseNoMax
(w)は単語wが位置している文の中で最大となる節番号を
表す。
離が付された経路をリード文の先頭から文末にかけてた
どり単語位置間の距離の和が最小となる経路を求める。
上述の例では以下の経路が求まる。 (77、2、2)→(78,2,2)→(79,2,
2)→(80,2,2)→(189,2,4)→...
→(273,6,5)→(274,6,5)→(27
5,6,5) この経路探索には動的計画法を使用すると計算が高速と
なる。
容語の個数およびリード文中の単語と同義(同一および
同一機能)の各文中の単語数がカウントされる。得られ
た内容語の個数や同義の単語数を使用して入力文章中の
各文の重要度をたとえば、以下の計算式で求める。
文の中のどの単語も含まない場合には、scoreWordCont
(Sent)およびscoreWordFunc(Sent)の値は0(ゼロ)と
なるので、重要度ScoreSent(Sent)の値は100とな
り、重要度は最高となる。逆に他のある文Sentがリード
文の中と同一の単語を多数含む場合には、scoreWordCon
t(Sent)およびscoreWordFunc(Sent)の値が高くなるの
で、重要度ScoreSent(Sent)の値は小さくなる。
ると以下の結果が得られた。 文2:34.4 文3:95.7 文4:82.5 文5:59.0
要度を計算すると、重要度の最も低い文2を入力の文章
から除き、要約率を計算する(S7)。要約率はたとえ
ば、残った分の総単語数/入力文章の単語数で計算でき
る。
率5%よりも大きい場合には(S8がNO判定)、次に
重要度が低い文5を上記残った文から削除する。このよ
うにしてS7およびS8の処理を繰り返して、指定され
た要約率以下となるまで、重要度の低い文を排除する。
として残る。
などによって解雇された身体に障害のある人は、309
3人と、前の年に比べて2倍近くに増加し、労働省で
は、規模の大きい企業では障害者の人たちをもっと雇用
してもらうことが出来ないかどうか検討を進めていま
す。
いる求職者も去年の3月に初めて10万人を超えてその
後も増加を続け、現在は11万人にのぼっているものと
見られます。
図3に示す。重要文抽出装置は市販のパソコンなどを使
用することができるので、説明は簡単にとどめる。図3
において100は重要文抽出用プログラムを実行するC
PUである。101はCPU100に対して入出力する
データを記憶するシステムメモリである。102は重要
文抽出用プログラムを保存(インストール)しておくた
めのハードディスク(HDD)である。103は入出力
インターフェース(I/O)であり、LANやインター
ネットなどの通信回線を介して情報を入出力する。
行なうキーボードである。105は表示画面上の位置指
定を行なうことによりCPU100に対して情報入力を
行なうマウスである。106は、上記回路から入力され
た情報やCPU100の情報処理結果を表示するディス
プレイである。
理を実行できるようプログラム言語で規定される。この
プログラムはCDROM等の携帯用記録媒体からHDD
102にインストールされる。キーボード104または
マウス105による起動の指示で、重要文抽出用プログ
ラムはHDD102からシステムメモリ101にロード
され、CPU100により実行される。処理対象の文章
はキーボード104やI/O103あるいは不図示のフ
ロッピー(登録商標)ディスクを介して入力され、シス
テムメモリ101に記憶される。CPU100は重要文
抽出用プログラムにしたがって、図2の処理を実行し、
得られる重要文をディスプレイ106に出力する。
る。 1)上述の実施形態では、放送ニュースのように文章と
してはデータ量がそれほど多くない場合に好適な事例で
あるが、文章量が多い場合には、リード文に関連のない
文も増え、リード文に含まれる単語をまったく含まない
文も多数ととなることが考えられる。このような場合に
は、リード文に含まれる単語の少なくとも1つを含む文
を文章中から探し出し、探し出した文の集合の中から、
本発明による重要文抽出処理を施すとよい。
ド文に含まれる単語と同じ単語は文の重要度が低くなる
ので、重複内容を持つ文は文章の中から抽出されず、も
って、抽出した重要文の情報量が従来よりも増加する。
る。
トである。
ック図である。
Claims (4)
- 【請求項1】 複数の文からなる文章から重要文を抽出
する重要文抽出装置において、 文章の先頭のリード文の中に含まれる単語と同義の単語
の個数を前記文章中の各文についてカウントするカウン
ト手段と、 前記リード文の単語と同義の単語が少ないほど重要度が
高くなる重要度計算式が予め定められており、該重要度
計算式と前記カウント手段のカウント結果を使用して前
記文章中の各文の重要度を計算する重要度計算手段と、 該重要度計算手段の計算結果に基づき、重要度の高い所
定数の文を前記文章中から抽出する文抽出手段とを具え
たことを特徴とする重要文抽出装置。 - 【請求項2】 請求項1に記載の重要文抽出装置におい
て、前記文抽出手段は外部から要約率の形態で抽出すべ
き文の数の指定を受けることを特徴とする重要文抽出装
置。 - 【請求項3】 複数の文からなる文章から重要文を抽出
する重要文抽出装置で実行するプログラムを記録した記
録媒体において、前記プログラムは、 文章の先頭のリード文の中に含まれる単語と同義の単語
の個数を前記文章中の各文についてカウントするカウン
トステップと、 前記リード文の単語と同義の単語が少ないほど重要度が
高くなる重要度計算式が予め定められており、該重要度
計算式と前記カウント手段のカウント結果を使用して前
記文章中の各文の重要度を計算する重要度計算ステップ
と、 該重要度計算手段の計算結果に基づき、重要度の高い所
定数の文を前記文章中から抽出する文抽出ステップとを
具えたことを特徴とする記録媒体。 - 【請求項4】 請求項1に記載の記録媒体において、前
記文抽出ステップでは外部から要約率の形態で抽出すべ
き文の数の指定を受けることを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000059503A JP4040233B2 (ja) | 2000-03-03 | 2000-03-03 | 重要文抽出装置および記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000059503A JP4040233B2 (ja) | 2000-03-03 | 2000-03-03 | 重要文抽出装置および記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001249948A true JP2001249948A (ja) | 2001-09-14 |
JP4040233B2 JP4040233B2 (ja) | 2008-01-30 |
Family
ID=18579944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000059503A Expired - Fee Related JP4040233B2 (ja) | 2000-03-03 | 2000-03-03 | 重要文抽出装置および記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4040233B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234049A (ja) * | 2007-03-16 | 2008-10-02 | Nippon Hoso Kyokai <Nhk> | 要約文生成装置及び要約文生成プログラム |
-
2000
- 2000-03-03 JP JP2000059503A patent/JP4040233B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234049A (ja) * | 2007-03-16 | 2008-10-02 | Nippon Hoso Kyokai <Nhk> | 要約文生成装置及び要約文生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4040233B2 (ja) | 2008-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232112B (zh) | 文章中关键词提取方法及装置 | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
WO2009123260A1 (ja) | 共起辞書作成システムおよびスコアリングシステム | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
CN108153728B (zh) | 一种关键词确定方法及装置 | |
EP1575172A2 (en) | Compression of logs of language data | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JPH10340270A (ja) | 情報フィルタリング方法、情報フィルタリング装置、及び記録媒体 | |
JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
JP2000259653A (ja) | 音声認識装置及び音声認識方法 | |
JPH1139313A (ja) | 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体 | |
JP2001249948A (ja) | 重要文抽出装置および記憶媒体 | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
JP2001147923A (ja) | 類似文書検索装置、類似文書検索方法及び記録媒体 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP3558854B2 (ja) | データ検索装置及びコンピュータ読み取り可能な記録媒体 | |
JP2002073644A (ja) | 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP2007058415A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JPH10177575A (ja) | 語句抽出装置および方法、情報記憶媒体 | |
JP5409321B2 (ja) | 情報評価装置、情報評価方法、及び情報評価プログラム | |
JP2001142897A (ja) | 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN108052508B (zh) | 一种信息抽取方法及装置 | |
JP2000090110A (ja) | 全文検索方法、装置、および全文検索プログラムを記録した記録媒体 | |
JP2006039811A (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070803 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071107 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |