JP4040233B2 - 重要文抽出装置および記憶媒体 - Google Patents
重要文抽出装置および記憶媒体 Download PDFInfo
- Publication number
- JP4040233B2 JP4040233B2 JP2000059503A JP2000059503A JP4040233B2 JP 4040233 B2 JP4040233 B2 JP 4040233B2 JP 2000059503 A JP2000059503 A JP 2000059503A JP 2000059503 A JP2000059503 A JP 2000059503A JP 4040233 B2 JP4040233 B2 JP 4040233B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- sentences
- importance
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明は、重要文を文章から抽出する重要文抽出装置および記録装置に関する。
【0002】
【従来の技術】
重要文抽出は自動要約の1つの手法であり、文章中の各文の重要度を計算し、与えられた要約率に達成するまで重要度が低い文を捨てることにより重要文抽出を実現している。各文の重要度は、従来、
・文章中での高出現頻度の単語
・その文の文章全体での出現位置
・手がかり語
等を利用して計算していた。この中でも「文章中での高出現頻度の単語」は実現の容易さからよく利用されている。「文章中での高出現頻度の単語」による重要文抽出方法でははじめに文章中に出現する各単語の頻度をカウントする。次に頻度の高い単語を含む文を重要度が高い文として文章中から抽出する(たとえば、Luhn,H.P."The automatic creation ofliterature abstracts.",In IBM Journal for Reseach and Development,2(2),pp.59−165,1958.)。
【0003】
この方法は重要な単語は文章中で何度も使用されるという直感に基づく。
【0004】
【発明が解決しようとする課題】
しかしながら放送ニュースのように文章がそれほど長くない場合には同じ単語がせいぜい2〜3回しか出現せず、それぞれの文の重要度の差が単語の出現頻度では顕著に表れない場合が多い。
【0005】
また、放送ニュースでは高出現頻度の単語を多く含んでいても重要でない文も少なくない。たとえば、「文章中での高出現頻度の単語」による文の重要度を用いて、次の放送ニュースから重要文を抽出することを考える。
【0006】
(文1)
去年1年間に企業のリストラや倒産などによって解雇された身体に障害のある人は、3093人と、前の年に比べて2倍近くに増加し、労働省では、規模の大きい企業では障害者の人たちをもっと雇用してもらうことが出来ないかどうか検討を進めています。
【0007】
(文2)
労働省によりますと、去年1年間にリストラや倒産によって、解雇された身体に障害のある人は,全国で3093人と3000人を超え、およそ1600人だった前の年に比べて2倍近くに増えました。
【0008】
(文3)
また、障害のある人で仕事を探している求職者も去年の3月に初めて10万人を超えてその後も増加を続け、現在は11万人にのぼっているものと見られます。
【0009】
(文4)
労働省によりますと、障害のある人を解雇した企業は規模の小さいところが多く、不況の影響で、リストラに踏み切り、その際解雇するケースが目立つということです。
【0010】
(文5)
このため、労働省では、経営的に体力のある規模の大きな企業に、障害者の人をもっと雇用してもらうことが出来ないかどうかを検討していて、具体策について日経連と協議を進めています。
【0011】
この例では文章中に「障害」、「解雇」、「倒産」が複数回出現するので、これらの単語が多く含まれる文1や文2の文などが重要度が高い文となる。要約率を50%とした場合、この2つの文が重要文として次のように抽出される。
【0012】
[文1]
去年1年間に企業のリストラや倒産などによって解雇された身体に障害のある人は、3093人と、前の年に比べて2倍近くに増加し、労働省では、規模の大きい企業では障害者の人たちをもっと雇用してもらうことが出来ないかどうか検討を進めています。
【0013】
[文2]
労働省によりますと、去年1年間にリストラや倒産によって、解雇された身体に障害のある人は,全国で3093人と3000人を超え、およそ1600人だった前の年に比べて2倍近くに増えました。
【0014】
しかし、これら2つの文では「去年1年間に企業のリストや....解雇された身体に障害のある人は」という部分が重複しており、意味的に同じことを表現している。したがって、元の文章の情報量が落ちる割合が大きいという欠点が従来の重要文抽出方法にはあり、抽出した重要文を要約として使用することは不適切である。
【0015】
このようなことが生じる原因は、放送ニュースの第1文(文章の中の先頭の文)はリード文と呼ばれ、文章全体の要約となっていることが多く、リード文中の単語が他の文にも出現する傾向があるからに他ならない。むしろ情報が重複していない次の2文を重要文として抽出する方が情報が多く、重要文として優れている。
【0016】
<文1>
去年1年間に企業のリストラや倒産などによって解雇された身体に障害のある人は、3093人と、前の年に比べて2倍近くに増加し、労働省では、規模の大きい企業では障害者の人たちをもっと雇用してもらうことが出来ないかどうか検討を進めています。
【0017】
<文3>
また、障害のある人で仕事を探している求職者も去年の3月に初めて10万人を超えてその後も増加を続け、現在は11万人にのぼっているものと見られます。
【0018】
そこで、本発明の目的は、抽出した重要文全体の情報量を多くすることが出来る重要文抽出装置および記録媒体を提供することにある。
【0019】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、複数の文からなる文章から重要文を抽出する重要文抽出装置において、前記文章の先頭のリード文に含まれる単語の少なくとも1つを含む文を前記文章中から抽出して候補となる一連の文とする候補文抽出手段と、前記先頭のリード文の中に含まれる単語と同義の単語の個数を前記抽出された一連の文の各文についてカウントするカウント手段と、前記リード文の単語と同義の単語が少ないほど重要度が高くなる重要度計算式が予め定められており、該重要度計算式と前記カウント手段のカウント結果を使用して前記一連の文の各文の重要度を計算する重要度計算手段とを具えたことを特徴とする。
【0020】
請求項2の発明は、請求項1に記載の重要文抽出装置において、前記文抽出手段は外部から要約率の形態で抽出すべき文の数の指定を受けることを特徴とする。
【0023】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0024】
本発明実施形態のシステム構成を図1に示す。図1において、i1は重要文を抽出する文書を入力する端子である。i2は要約率を入力する端子である。o1は抽出された重要文を出力する端子である。
【0025】
形態素解析装置1は入力された文章の中の文を単語に分割する。リード文単語検出装置2はリード文に出現する単語がその文章の他の文中で出現する場所を検出する。
【0026】
文重要度計算装置3はリード文検出装置で検出された単語および予め用意された計算式に基づいてリード文以外の文の重要度を計算する。重要度を計算する計算式については後述するが、この計算式は、リード文に含まれる単語と同一の単語あるいは機能的に同一の単語が多く含まれるほど、他の文の重要度が低くなるように定められていることに留意されたい。
【0027】
重要文検出装置4は文重要度計算装置3により計算された重要度の高い所定数の文を要約率で指定される文の個数だけ、リード文以外の他の文中から選択する。
【0028】
図1のシステムの処理内容を図2に示す。図2にしたがって、以下、重要文抽出による自動要約の手順を説明する。
【0029】
S1では端子i1から入力された文章の各分の形態素解析を形態素解析装置1において行なう。これにより入力された文章の各文は単語に分割される。
【0030】
S2はリード文単語検出装置2において実行される処理を示し、S3〜S6は文重要度計算装置において実行される処理を示す。S2〜S5で、リード文中の単語と他の文中の単語との間の最適な単語対応を求める(後述)。このステップでは分割された単語には先頭から順に単語番号、節番号、文番号が付される。S3では、リード文中の単語と同じ単語(同一機能の単語を含む)が他の文にあるかが調べられ、同じ単語が存在する場合には、その単語の単語番号、節番号、文番号が付され、リード文中の単語と対応する単語の候補に設定される。
【0031】
S4ではS3で求められた各単語に対してそれより前に位置する単語との単語位置間の距離を計算する。S5ではS4で求められた、単語位置間の距離が付された経路をリードの文頭から文末にかけてたどり、その単語位置間の距離の和が最小となる最適経路を求める。
【0032】
S6ではS5で求められた単語対応に基づき、各文の重要度を計算する。S7〜S9処理を繰り返し実行して要約率以下になるまで、重要度が最も低いものから、リード文以外の他の文を捨てる。これにより、要約率を満足する所定個数の複数の文を入力の文章から抽出したことになる。
【0033】
発明が解決しようとする課題の欄で説明した文1〜文5を例にして具体的な処理例を説明する。
【0034】
(文1)
去年1年間に企業のリストラや倒産などによって解雇された身体に障害のある人は、3093人と、前の年に比べて2倍近くに増加し、労働省では、規模の大きい企業では障害者の人たちをもっと雇用してもらうことが出来ないかどうか検討を進めています。
【0035】
(文2)
労働省によりますと、去年1年間にリストラや倒産によって、解雇された身体に障害のある人は,全国で3093人と3000人を超え、およそ1600人だった前の年に比べて2倍近くに増えました。
【0036】
(文3)
また、障害のある人で仕事を探している求職者も去年の3月に初めて10万人を超えてその後も増加を続け、現在は11万人にのぼっているものと見られます。
【0037】
(文4)
労働省によりますと、障害のある人を解雇した企業は規模の小さいところが多く、不況の影響で、リストラに踏み切り、その際解雇するケースが目立つということです。
【0038】
(文5)
このため、労働省では、経営的に体力のある規模の大きな企業に、障害者の人をもっと雇用してもらうことが出来ないかどうかを検討していて、具体策について日経連と協議を進めています。
【0039】
文章が端子i1に入力され、要約率50%が端子i2に入力されたものとする。S1の形態素解析により、文章の先頭から下記のように単語単位に入力文章が分割される。なお、空白部分が単語の区切れを示す。
去年 1 年間 に 企業 の リストラ や 倒産....
S2〜S5でリード文中の各単語と、他の文中の単語の間の最適な単語対応が求められる。
【0040】
S2ではS1で分割された各単語に対して文章の先頭から順に単語番号、節番号、文番号が以下のように付される。ここで「節」とはたとえば、「、」などで囲まれた単語列の範囲とする。節番号は先頭の節の順番に付される。文番号は先頭の文、すなわち、リード文から順番に付される。
S3ではリード文中の各単語について同一の単語が他の文中で検索される。検索により見つかった単語の単語番号、節番号、文番号が求められる。検索された単語がリード文中の単語対応の候補となる。本実施形態では下記のように求められる。
【0041】
【表1】
【0042】
ここで、()の中の数字は(単語番号,節番号,文番号)を表している。たとえば、「去年」に対応する(77,2,2)は「2番目の文の、2番目の節に存在する,77番目の単語も「去年」であることを表している。
S4ではS3で求められた各単語候補に対して、それより前に位置する単語との単語位置間の距離を計算する。この際に1つ前の単語に単語対応候補がなければ、さらに1つ前の単語との距離を計算する。上述の単語候補例では以下の線で結ばれた単語同士について単語位置間距離を計算する。
【0043】
【表2】
【0044】
また、単語番号iである単語wiと単語番号jである単語wjとの単語位置間はたとえば、次の式distPost(wi,wj)で定義され、単語位置間の距離は付けられた番号とその単語が含まれる節や文の番号に基づいて計算される。
【0045】
【数1】
【0046】
ここで、penaltyは定数、SentNo(w)は単語wの文番号、PhraseNo(w)は単語wの節番号、PhraseNoMax(w)は単語wが位置している文の中で最大となる節番号を表す。
【0047】
S5ではS4で求められた単語位置間の距離が付された経路をリード文の先頭から文末にかけてたどり単語位置間の距離の和が最小となる経路を求める。上述の例では以下の経路が求まる。
(77、2、2)→(78,2,2)→(79,2,2)→(80,2,2)→(189,2,4)→...→(273,6,5)→(274,6,5)→(275,6,5)
この経路探索には動的計画法を使用すると計算が高速となる。
【0048】
S6ではS5で求める単語対応の過程で内容語の個数およびリード文中の単語と同義(同一および同一機能)の各文中の単語数がカウントされる。得られた内容語の個数や同義の単語数を使用して入力文章中の各文の重要度をたとえば、以下の計算式で求める。
【0049】
【数2】
【0050】
【数3】
【0051】
【数4】
【0052】
上記式において、他のある文Sentがリード文の中のどの単語も含まない場合には、scoreWordCont(Sent)およびscoreWordFunc(Sent)の値は0(ゼロ)となるので、重要度ScoreSent(Sent)の値は100となり、重要度は最高となる。逆に他のある文Sentがリード文の中と同一の単語を多数含む場合には、scoreWordCont(Sent)およびscoreWordFunc(Sent)の値が高くなるので、重要度ScoreSent(Sent)の値は小さくなる。
【0053】
上述の文2〜文5に対して重要度を計算すると以下の結果が得られた。
文2:34.4
文3:95.7
文4:82.5
文5:59.0
【0054】
【外1】
【0055】
このようにしてリード文を除いた各文の重要度を計算すると、重要度の最も低い文2を入力の文章から除き、要約率を計算する(S7)。要約率はたとえば、残った分の総単語数/入力文章の単語数で計算できる。
【0056】
計算した要約率が外部から入力された要約率5%よりも大きい場合には(S8がNO判定)、次に重要度が低い文5を上記残った文から削除する。このようにしてS7およびS8の処理を繰り返して、指定された要約率以下となるまで、重要度の低い文を排除する。
【0057】
以上の処理を実行すると、下記の文が要約として残る。
【0058】
<文1>
去年1年間に企業のリストラや倒産などによって解雇された身体に障害のある人は、3093人と、前の年に比べて2倍近くに増加し、労働省では、規模の大きい企業では障害者の人たちをもっと雇用してもらうことが出来ないかどうか検討を進めています。
【0059】
<文3>
また、障害のある人で仕事を探している求職者も去年の3月に初めて10万人を超えてその後も増加を続け、現在は11万人にのぼっているものと見られます。
【0060】
具体的な重要文抽出装置のシステム構成を図3に示す。重要文抽出装置は市販のパソコンなどを使用することができるので、説明は簡単にとどめる。図3において100は重要文抽出用プログラムを実行するCPUである。101はCPU100に対して入出力するデータを記憶するシステムメモリである。102は重要文抽出用プログラムを保存(インストール)しておくためのハードディスク(HDD)である。103は入出力インターフェース(I/O)であり、LANやインターネットなどの通信回線を介して情報を入出力する。
【0061】
104はCPU100に対して情報入力を行なうキーボードである。105は表示画面上の位置指定を行なうことによりCPU100に対して情報入力を行なうマウスである。106は、上記回路から入力された情報やCPU100の情報処理結果を表示するディスプレイである。
【0062】
重要文抽出用プログラムは、図2に示す処理を実行できるようプログラム言語で規定される。このプログラムはCDROM等の携帯用記録媒体からHDD102にインストールされる。キーボード104またはマウス105による起動の指示で、重要文抽出用プログラムはHDD102からシステムメモリ101にロードされ、CPU100により実行される。処理対象の文章はキーボード104やI/O103あるいは不図示のフロッピーディスクを介して入力され、システムメモリ101に記憶される。CPU100は重要文抽出用プログラムにしたがって、図2の処理を実行し、得られる重要文をディスプレイ106に出力する。
【0063】
上述の実施形態の他に次の形態を実施できる。
1)上述の実施形態では、放送ニュースのように文章としてはデータ量がそれほど多くない場合に好適な事例であるが、文章量が多い場合には、リード文に関連のない文も増え、リード文に含まれる単語をまったく含まない文も多数ととなることが考えられる。このような場合には、リード文に含まれる単語の少なくとも1つを含む文を文章中から探し出し、探し出した文の集合の中から、本発明による重要文抽出処理を施すとよい。
【0064】
【発明の効果】
以上,説明したように本発明では、リード文に含まれる単語と同じ単語は文の重要度が低くなるので、重複内容を持つ文は文章の中から抽出されず、もって、抽出した重要文の情報量が従来よりも増加する。
【図面の簡単な説明】
【図1】本発明実施形態の構成を示すブロック図である。
【図2】本発明実施形態の処理手順を示すフローチャートである。
【図3】本発明実施例の具体的なシステム例を示すブロック図である。
【符号の説明】
1 形態素解析装置
2 リード文単語検出装置
3 文重要度計算装置
4 重要文検出装置
Claims (2)
- 複数の文からなる文章から重要文を抽出する重要文抽出装置において、
前記文章の先頭のリード文に含まれる単語の少なくとも1つを含む文を前記文章中から抽出して候補となる一連の文とする候補文抽出手段と、
前記先頭のリード文の中に含まれる単語と同義の単語の個数を前記抽出された一連の文の各文についてカウントするカウント手段と、
前記リード文の単語と同義の単語が少ないほど重要度が高くなる重要度計算式が予め定められており、該重要度計算式と前記カウント手段のカウント結果を使用して前記一連の文の各文の重要度を計算する重要度計算手段と、
該重要度計算手段の計算結果に基づき、重要度の高い所定数の文を前記文章中から抽出する文抽出手段と
を具えたことを特徴とする重要文抽出装置。 - 請求項1に記載の重要文抽出装置において、前記文抽出手段は外部から要約率の形態で抽出すべき文の数の指定を受けることを特徴とする重要文抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000059503A JP4040233B2 (ja) | 2000-03-03 | 2000-03-03 | 重要文抽出装置および記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000059503A JP4040233B2 (ja) | 2000-03-03 | 2000-03-03 | 重要文抽出装置および記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001249948A JP2001249948A (ja) | 2001-09-14 |
JP4040233B2 true JP4040233B2 (ja) | 2008-01-30 |
Family
ID=18579944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000059503A Expired - Fee Related JP4040233B2 (ja) | 2000-03-03 | 2000-03-03 | 重要文抽出装置および記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4040233B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4856573B2 (ja) * | 2007-03-16 | 2012-01-18 | 日本放送協会 | 要約文生成装置及び要約文生成プログラム |
-
2000
- 2000-03-03 JP JP2000059503A patent/JP4040233B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001249948A (ja) | 2001-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3598211B2 (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
US20050033566A1 (en) | Natural language processing method | |
JP4040233B2 (ja) | 重要文抽出装置および記憶媒体 | |
JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
JP2000207404A (ja) | 文書検索方法及び装置並びに記録媒体 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP3558854B2 (ja) | データ検索装置及びコンピュータ読み取り可能な記録媒体 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
JP2009140411A (ja) | 文章要約装置および文章要約方法 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JP3500698B2 (ja) | キーワード抽出装置及びキーワード抽出方法 | |
JP5262190B2 (ja) | 入力補完装置、及び入力補完プログラム | |
JP4119979B2 (ja) | 個人環境言語変換装置及び個人環境差分強調装置及びプログラム | |
JP2006039811A (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 | |
JP3725373B2 (ja) | 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002157273A (ja) | 確率を用いた特徴単語の選択方法 | |
JP2002259426A (ja) | 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070803 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071107 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |