JP3832613B2 - 自動要約装置および自動要約プログラムを記録した記録媒体 - Google Patents

自動要約装置および自動要約プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3832613B2
JP3832613B2 JP27014798A JP27014798A JP3832613B2 JP 3832613 B2 JP3832613 B2 JP 3832613B2 JP 27014798 A JP27014798 A JP 27014798A JP 27014798 A JP27014798 A JP 27014798A JP 3832613 B2 JP3832613 B2 JP 3832613B2
Authority
JP
Japan
Prior art keywords
sentence
path
replacement
node
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27014798A
Other languages
English (en)
Other versions
JP2000099536A (ja
Inventor
直人 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP27014798A priority Critical patent/JP3832613B2/ja
Publication of JP2000099536A publication Critical patent/JP2000099536A/ja
Application granted granted Critical
Publication of JP3832613B2 publication Critical patent/JP3832613B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、原文に対して所望の要約率が与えられたときに、その所望の要約率の中で最適な要約文を自動的に求める自動要約を行う自動要約装置および自動要約プログラムを記録した記録媒体に関する。
【0002】
本発明は、TVニュース等の文章を自動的に要約するのに好適であり、また字幕作成への応用なども考えられる。
【0003】
【従来の技術】
自動要約とは、原文の単語列を短い単語列に置換することにより、原文を自動的に縮約することである。自動要約を実現するためには、原文のどの単語列をどのような単語列に置換するのかという置換知識が必要となる。例えば、次が置換知識の一例である。
【0004】
[置換知識1] (原文単語列→要約文単語列)
[置換知識la] 明らかにしました→表明,置換コスト=0.6
[置換知識Ib] 明らかに→表明,置換コスト=0.3
[置換知識1c] まし→φ(φは空、省略を表す記号),置換コスト=0.2
ここで、置換知識に付属している「 置換コスト」 は、その置換知識を使う際のペナルティーを表しており、置換コストが0に近いほどその置換知識は使いやすいとしている。
【0005】
上述の置換知識1の例を使って、下記の原文1を次の要約率で要約することを考えてみよう。なお、要約率=要約文の文字数/原文の文字数×100とする。
[原文1] 「明らかにしました」 (8文字)
[要約率1] 要約率60%以下。
【0006】
要約率を60%以下にするということは、削除する文字数でいうと次のようになる。
【0007】
8文字×(100−60)%=3.2文字
すなわち、原文中の3.2文字以上の文字数を削減しなければならない。
【0008】
従来の自動要約では、置換知識を出現順に順次適用することにより要約文を得ていた。また、そこで使われる置換知識は人手で収集し作成していたために、その数は非常に少なかった。(例えば、文献1:『山本ほか:「文章内構造を複合的に利用した論説文要約システムGREEN」自然言語処理、Vo1.2,No.2,pp.39‐55,I994』は、人手で作成した置換知識をはじめとする要約知識を順次適用することにより自動要約している。)。
【0009】
要約率60%以下の例では、上記文献1と同様に、削減文字数3.2文字以上を置換知識1の出現順に順次適用すると、置換知識1aが適用され、下記の要約文1aが得られる。
【0010】
[要約文la] 「表明」 (削減文字数=6文字、置換コストの和=0.6)
【0011】
【発明が解決しようとする課題】
しかし、最近、置換知識を自動的に作成する手法が開発され、大量の置換知識を簡単に得ることができるようになった。(例えば、文献2:『加藤直人:「ニュース文要約のための局所的要約知識獲得とその評価」電子情報通信学会言語理解とコミュニケーション研究会,NLC98−16,pp.7−14,1998』)。
【0012】
このようにして置換知識が大幅に増えると、今度は1つの原文の単語列に対して複数の置換知識を適用できる場合があり、そのため自動要約の際に、適用する置換知識間で競合が生じるようになって、最適な要約文が求められないという場合があった。
【0013】
上述の例でも、置換知識1aを適用して得られる要約文1aの場合と、置換知識1bと1cを適用して得られる要約文1bの場合が競合するが、下記の要約文1bのほうが置換コストの和が0に近いので適切な要約となる。
【0014】
[要約文1b] 「表明した」 (削減文字数=4文字,置換コストの和=0.5)
そこで、本発明の目的は、上述のような点に鑑みて、原文と所望の要約率が与えられたときに、置換コストと文字削減数を利用して、置換知識を適切にかつ効率的に選択することにより、原文の最適な要約文を自動的に得ることを可能にすることにある。
【0015】
【課題を解決するための手段】
上記目的を達成するため、請求項1の自動要約装置の発明は、入力された原文を形態素解析し、原文に含まれる文字列を単語に分割しその品詞を付与した形態素情報を出力する形態素解析手段と、入力された原文の要約率と入力された該原文の文字数とから削減すべき文字数の最小値を計算する文字削減数最小値計算手段と、前記形態素解析手段から出力される前記形態素情報に基づいて、前記原文の単語列に対して先頭の単語列から順に、あらかじめ得られている置換知識との照合を行い、照合に成功した場合には置換する単語列を前記形態素情報に追加し、かつその置換コストを付与した単語ラティス構造を出力する置換知識検索手段と、該置換知識検索手段から出力される前記単語ラティス構造を文末から文頭に向けて探索し、該単語ラティス構造の文末から各ノードまでの最大可能な文字削減数を計算する後向き文字削減数計算手段と、前記置換知識検索手段から出力される前記単語ラティス構造を文頭から文末に向けて探索し、各パスに対して文頭からの文字削減数を計算し、その計算結果と前記後向き文字削減数計算手段から出力された文字削減数との和を求め、その和が所望の文字削減数よりも小さい場合には、そのパスを枝刈りし、その和が所望の文字削減数よりも小さくない場合には、そのパスを出力する前向き文字削減数計算手段と、該前向き文字削減数計算手段から出力されるパスに対してその置換コストの和を計算し、文末に達したときには文頭から文末までのパスを出力する置換コスト計算手段と、該置換コスト計算手段から出力されたパスの中で、文頭から文末までの置換コストの和が最小となるパスを求め、求めた最小パスの文字列を要約文として出力する置換コスト最小パス計算手段とを有することを特徴とする。
【0016】
ここで、好ましくは、前記置換知識検索手段は、パスごとに必須適用置換知識リストをもっておき、置換知識を適用する時にそのリストを参照する。
【0017】
また、好ましくは、前記後向き文字削減数計算手段は、前記単語ラティス構造の文末ノードn(nは単語数)から文頭ノード0に向けてノード番号iを1ずつ減少させて、各ノードiにおいて、文末ノードnからその現ノードiまでの最大可能な文字削減数すなわち文字削減数の最大値mb (i)をダイナミックプログラミングにより求める。
【0018】
また、好ましくは、前記前向き文字削減数計算手段は、文末ノードから文頭ノードまでの文字削減数の最大値mb (0)が、削減すべき所望の文字数の最小値mよりも小さい場合には、入力された要約率では要約できない旨を出力する。
【0019】
また、好ましくは、前記前向き文字削減数計算手段は、文末ノードから文頭ノードまでの文字削減数の最大値mb (0)が、削減すべき文字数の最小値mよりも小さくない場合には、前記単語ラティス構造の文頭ノード0から文末ノードnに向けてノード番号iを1ずつ増加させて、各ノードiまでのすべてのパスにおいて、そのパスの文字削減数mf (i)を計算し、前記後向き文字削減数計算手段で得られた前記ノードiにおける文字削減数mb (i)との和をとり、その和mf (i)+mb (i)が削減すべき文字数の最小値mよりも小さい場合には,そのパスを枝刈りし、その和mf (i)+mb (i)が削減すべき文字数の最小値mよりも小さくない場合には、そのパスを出力する。
【0020】
また、好ましくは、前記前向き文字削減数計算手段は、前向き計算の処理中に、正例がない単語に達したときに、条件(前向き文字削減数、必須適用置換リスト等)の同じ候補は、置換コストが最小でないパスも枝刈りする。
【0021】
上記目的を達成するため、請求項7の記録媒体の発明は、コンピュータによって原文と所望の要約率から該要約率の中で最適な要約文を自動的に求めるための自動要約プログラムを記録した記録媒体であって、該自動要約プログラムはコンピュータに、入力された原文を形態素解析させることで原文に含まれる文字列を単語に分割させ、かつその品詞を付与した形態素情報を生成させ、入力された原文の要約率と入力された原文の文字数とから削減すべき文字数の最小値を計算させ、前記形態素情報に基づいて、前記原文の単語列に対して先頭の単語列から順に、あらかじめ得られている置換知識との照合を行わせ、照合に成功した場合には置換する単語列を前記形態素情報に追加して、かつその置換コストを付与した単語ラティス構造を求めさせ、前記単語ラティス構造を文末から文頭に向けて探索させて、該単語ラティス構造の文末から各ノードまでの最大可能な文字削減数(後向き文字削減数)を計算させ、前記単語ラティス構造を文頭から文末に向けて探索させて、各パスに対して文頭からの文字削減数を計算させ、その計算結果と前記後向き文字削減数との和を求め、その和が所望の文字削減数よりも小さい場合には、そのパスを枝刈りさせ、その和が所望の文字削減数よりも小さくない場合には、そのパスを選出させ、該選出されたパスに対してその置換コストの和を計算させ、文末に達したときには文頭から文末までのパスを出力させ、該出力されたパスの中で、文頭から文末までの置換コストの和が最小となるパスを求め、求めた最小パスの文字列を要約文として出力させることを特徴とする。
【0022】
ここで、好ましくは、前記自動要約プログラムはコンピュータに、文末ノードから文頭ノードまでの文字削減数の最大値が、削減すべき所望の文字数の最小値よりも小さい場合には、入力された要約率では要約できない旨を出力させる。
【0023】
【発明の実施の形態】
本発明の実施の形態を説明するに先立ち、本発明に係る自動要約に必要な上述の置換コストについて説明する。
【0024】
自動要約に必要な要約知識は、置換知識と置換条件の2つから構成されている。置換知識は上述のように原文の単語列をどのような単語列に置換するかを規定する知識である。例えば、連体助詞の「 の」 を省略するという知識である。一方、置換条件とは置換知識の適用の良否を数値化したもの、すなわち上述の置換コストである。置換知識はその前後の単語列によって適用の良否が決まる。例えば、「 日本の銀行」 の「 の/体助」 を省略することはできない。
【0025】
そこで、置換コストは、置換知識の前後の単語列と、あらかじめ獲得しておいた置換条件との距離を計算している。すなわち、i番目からj番目までの単語列wijを、単語列xijに置換するという置換コストをdistsub (wij→xij)と表すと、(1)式で定義される(さらに詳しくは、上記文献2を参照。)。
【0026】
【数1】
Figure 0003832613
【0027】
上記(1) 式は、正例がある場合には、
low (=0.01)〜1.0 の値(0.0 ≦g(wij→xij1.0 、正例)≦1.0 ))を取り、0.0 に近いほど置換することが可能であると定義されている。また、正例がない(適用される置換知識がない)場合には0.0 を取る。
【0028】
また、本発明による自動要約アルゴリズムの概要を説明する。説明を簡単にするために、以下では1文を要約する場合を考える。複数の文にわたる場合には単純に連結すればよい。
【0029】
今、原文をある要約率以下に要約したいとする。このとき、m(=原文の文字数×要約率)文字以上の文字を削除しなければならない。さらに、最適な要約であってほしい。ここで、「 最適な要約」 とは、適用した置換知識のコストの和(置換コスト)が最小となる場合であると定義する。したがって、自動要約とは、m文字以上の文字数を削除し、文頭から文末までの置換コストが最小のパス(最適パス)を求めることである。定式化すると、(2)式のようになる。
【0030】
【数2】
Figure 0003832613
(2)式の解を求めるアルゴリズムについては図1、図2を用いて後述する。なお、本発明では、文字削減数と置換コストという2つの評価関数を用いているが、前者を計算する際にヒューリスティック関数(現在のノードからゴールまでの評価関数の予測値)を用いている。
【0031】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0032】
図1は、本発明の一実施形態の装置構成を示す。図1において、il は原文を入力する端子であり、i2は要約率を入力する端子である。ol は要約文を出力する端子である。
【0033】
形態素解析装置1は、i1の端子に入力された原文を形態素解析し、原文に含まれる文字列を単語に分割しその品詞を付与した形態素情報を出力する。
【0034】
文字削減数最小値計算装置2は、i2の端子に入力された原文の要約率とi1の端子に入力された原文の文字数とから削減すべき文字数の最小値を計算する。置換知識検索装置3は、形態素解析装置1から出力される形態素情報に基づいて、原文の単語列に対して先頭の単語列から順に、あらかじめ得られている置換知識との照合を行い、照合に成功した場合には置換する単語列を上記形態素情報に追加し、かつその置換コストを付与した単語ラティス構造を出力する。本例では、その置換コストは、各置換知識に付随して置換知識と共に内部メモリ(図示しない)にあらかじめ格納されているものとする。
【0035】
後向き文字削減数計算装置4は、置換知識検索装置3から出力される単語ラティス構造を文末から文頭に向けて探索し、その単語ラティス構造の文末から各ノードまでの最大可能な文字削減数を計算する。
【0036】
前向き文字削減数計算装置5は、置換知識検索装置3から出力される単語ラティス構造を文頭から文末に向けて探索し、各パスに対して文頭からの文字削減数を計算し、その計算結果と後向き文字削減数計算装置4から出力された文字削減数との和を求め、その和が所望の文字削減数(入力された上記原文と要約率から算出)よりも小さい場合には、そのパスを枝刈りし、その和が所望の文字削減数よりも小さくない場合には、そのパスを出力する。
【0037】
置換コスト計算装置6は、前向き文字削減数計算装置5から出力されるパスに対してその置換コストの和を計算し、文末に達したときには文頭から文末までのパスを出力する。
【0038】
置換コスト最小パス計算装置7は、置換コスト計算装置6から出力されたパスの中で、文頭から文末までの置換コストの和が最小となるパスを求め、求めた最小パスの文字列を要約文としてo1の端子から出力する。
【0039】
図2は、図1の装置構成により自動要約の処理を行う手順の一例を示すフローチャートである。図2に従って、以下、本発明による自動要約の手順を説明する。
【0040】
まず、i1の端子に原文が入力されると、ステップS1では形態素解析装置1によって原文が形態素解析され、その単語分割と品詞が出力される。i2の端子に要約率が入力されると、次のステップS2では原文の文字数と要約率から削減すべき文字数の最小値が計算される。
【0041】
続くステップS3では、上記ステップS1で得られた形態素解析結果に基づいて、先頭の単語列から順に、あらかじめ得られている置換知識との照合を行い、照合に成功した場合には、形態素解析結果に置換する単語列を追加し、その置換コストを付与して単語ラティス構造を作成する。
【0042】
ステップS4〜S7では、後向きの計算を行う。すなわち、ステップS4、S6、S7で単語ラティス構造の文末ノードn(nは単語数)から文頭ノード0に向けてノード番号iを1ずつ減少させて、各ノードiにおいてステップS5の処理を実行する。ステップS5では、文末ノードnからその現ノードiまでの最大可能な文字削減数(後ろ向き文字削減数)すなわち文字削減数の最大値mb (i)をダイナミックプログラミング(DP)により求め、保存する。
【0043】
次のステップS8では、文末ノードから文頭ノードまでの文字削減数の最大値mb (0)が、削減すべき所望(指定の)の文字数の最小値mよりも小さい場合には、ステップS9を実行した後、本自動要約処理を終了する。ステップS9では入力された要約率では要約できない旨を出力する。一方、文末ノードから文頭ノードまでの文字削減数の最大値mb (0)が、削減すべき文字数の最小値mよりも小さくない場合には、ステップS10を実行する。
【0044】
ステップS10〜S16では前向きの計算を行う。ステップS10、S15、S16において単語ラティス構造の文頭ノード0から文末ノードnに向けてノード番号iを1ずつ増加させて、各ノードiまでのすべてのパスにおいてステップS11〜S14の処理を実行する。まず、ステップS11では、そのパスの文字削減数(前向き文字削減数)mf (i)を計算し、上述のステップS5で求めたノードiにおける文字削減数mb (i)との和をとり、ステップS12でその和mf (i)+mb (i)が削減すべき文字数の最小値mよりも小さい場合には,このパスは最終的な解となり得ないので、ステップS13でそのパスを枝刈りする。文末にしたがい可能なパスの候補が増加していくが、このような枝刈りにより候補数を抑えることができる。一方、その和mf (i)+mb (i)が削減すべき文字数の最小値mよりも小さくない場合には、ステップS14を実行する。ステップS14ではそのパスの置換コストcost(i)の和を求め、文末に達しているときには文頭から文末までのパスを出力する。
【0045】
次のステップS17では、上記のステップS14で求められたパスの中で、置換コストの和が最小となるパスを求め、要約文をo1の端子から出力する。
【0046】
さらに、図2の処理の具体的な一例を、下記の原文2を次のように要約する場合を用いて説明する。
【0047】
[原文2]
「福沢総理大臣は特別委員会で方針を明らかにしました」 (24文字)
[要約率2]
要約率70%以下。
【0048】
また、置換知識として、次があらかじめ得られているとする。
【0049】
Figure 0003832613
【0050】
i1の端子に原文が入力されると、ステップS1では原文を形態素解析する。すると、原文2はその形態素解析結果として、図3(a)に示すように、単語数(これをnと表す)13個の単語に分割され、品詞が付与される。図3(a)において、上段の数字は単語間に文頭から順につけたノード番号である。このとき、文頭ノードの番号は0であり、文末ノードの番号は単語数n(=13)である。
【0051】
i2の端子に要約率70%が入力されると、ステップS2では、原文の文字数が24文字であることから、削減すべき文字数の最小値(これをmと表し、所望の文字削減数と呼ぶ)が次のように計算される。
【0052】
[所望の文字削減数]
m=24文字×(100−70)%=7.2文字
ステップS3では、上記形態素解析結果に基づいて、先頭の単語列から順に置換知識2との照合を行い、照合に成功した場合には置換する単語列を形態素解析結果に追加し、その置換を付与した単語ラティス構造を作成する。すると、図3(b)に示すような単語ラティス構造が得られる。なお、図3(b)で、例えば、置換候補の「 首相」 の脇に記載した「 0.01」 は置換コストを表す。
【0053】
ステップS4〜S7では後向きの計算を行う。ステップS4,S6,S7で単語ラティス構造の文末ノード13から文頭ノード0に向けてノード番号iをi=13,12,…,0と1ずつ減少させて、各ノードiにおいてステップS4を実行する。ステップS4では文末ノード13から現在着目しているノードiまでに最大可能な文字削減数(これをmb (i)と表し、後向き文字削減数と呼ぶ)を計算する。この際に、ダイナミックプログラミングにより効率的に処理を行う。すると、図3(c) に示すように、各ノードにおける後向き文字削減数が計算される。
【0054】
図3(c)において、例えば、ノード8での後向き文字削減数mb (8)は、
ケース8a 置換知識2d「まし→φ」と置換知識2e「明らかに→表明」を適用.(文字削減数4)
ケース8b 置換知識2c「明らかにしました→表明」を適用.(文字削減数6)
と2つの場合が考えられるが、ケース8bが文字削減数が最も大きいので、
b (8)=6と求められる。
【0055】
ステップS8では文末ノードから文頭ノードまでの文字削減数の最大値mb (0)=10が、所望の文字削減数m=7.2も小さくない(mb (0)=10≧m=7.2)ので、ステップS9は実行せずに、ステップS10を実行する。
【0056】
ステップS10〜S16では前向きの計算を行う。ステップS10,S15,S16で単語ラティス構造の文頭ノード0から文末ノード13に向けてノード番号iをi=0,1,・・・,13と1ずつ増加させて,各ノードiにおけるすべてのパスにおいてステップS11〜S14を実行する。ステップS11では文頭から現在着目しているノードiまでのそれぞれのパスにおける文字削減数(これをmf (i)と表し,前向き文字削減数と呼ぶ)を計算する。ノード5(i=5)の場合を例にとると、図4(a)に示すように、4つのパスが求められる。
【0057】
次に、ステップS5で求めた後向き文字削減数mb (i)との和をとる。ノード5の例では、後向き文字削減数mb (5)=6との和をとると、図4(b)に示すようになる。
【0058】
図4(b)に示すその和(mf (i)+mb (i))が所望の文字削減数mよりも小さい場合(mf (i)+mb (i)<m)には、ステップS13を実行し、小さくない場合(mf (i)+mb (i)≧m)には、ステップS14を実行する。ステップS13ではそのパスを枝刈りする。ステップS14ではそのパスの置換コストの和を求める。ノード5の例では、パス5aは、前向き文字削減数と後向き文字削減数との和が所望の文字削減数(m=7.2)よりも小さいパスであるので、ステップS13で枝刈りされ、以降の処理では使われない。パス5b、5c、5dはその和が所望の文字削減数(m=7.2)よりも小さくないので、ステップS14が実行される。ステップS14では、それぞれのパスにおける置換コストの和を求める。ノード5の例では図4(c)に示すようになる。
【0059】
同様にして、ステップS14において文頭から文末までの各パスにおける置換コストの和が求められる。文末まで達すると、文頭から文末までのパスである、図5(a)に示すような、4つの要約候補が得られる。
【0060】
ステップS17ではその要約候補の中で、置換コストの和が最小であるパスl3dが選択され、単語列をつないで得られる次の要約文がo1の端子から出力される(図5(b)参照)。
【0061】
[要約文2] 「福沢首相は特別委で方針を表明した」
(他の実施の形態)
以上の説明では適用される置換知識がそれぞれ独立であるとした。しかし、「 総理大臣→首相」 のように、1度適用したら次回にも必ず適用しなければならない置換知識もある。これに対応するためには、パスごとに必須適用置換知識リストをもっておき、置換知識を適用する時にそのリストを参照する処理を図2のアルゴリズムに追加すればよい。
【0062】
また、上述したステップS10〜S16の前向き計算の処理中には、正例がない単語(例えば、図4(a)の「 で」 )に達したときに、条件(前向き文字削減数、必須適用置換リスト等)の同じ候補は、置換コストが最小でないパス(例えば、図4(a)のパス5b)も枝刈りするという改善を加えることも可能である。
【0063】
なお、図1の形態素解析装置1、文字削減数最小値計算装置2等はROM等を利用したモジュール回路(デバイス)のようなハードウェアで構成しても、形態素解析ルーチン、文字削減数最小値計算ルーチンのようにコンピュータ制御で動作するソフトウェアで構成してもよい。また、本発明は、複数の機器(例えば、ホストコンピュータ、インターフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、1つの機器からなる専用装置(例えば、自動要約装置、自動字幕作成装置など)に適用してもよい。
【0064】
また、本発明の目的は、前述した実施の形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体(記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し、実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記録した記録媒体(例えば、CD−ROM,MD, フロッピーなど)は本発明を構成することになる。
【0065】
【発明の効果】
以上の説明から明らかなように、本発明によれば、文字削減数と置換コストという2つの評価関数を用いて、与えられた要約率以下で、原文を最適に要約するので、原文と要約率を入力するだけで、最適な要約を自動的に求めることが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態の自動要約装置の構成を示すブロック図である。
【図2】図1の装置の自動要約の処理手順を示すフローチャートである。
【図3】具体的な原文を入力した場合の本発明の一実施形態の各段階の処理内容と結果を順次に説明する図であり、(a)形態素解析結果、(b)単語ラティス構造、(c)後向き文字削減数計算を具体例で示す。
【図4】図3に連続する説明図であり、(a)前向き文字削減数の計算、(b)前向き文字削減数と後向き文字削減数との和の計算、(c)置換コストの和の計算を具体例で示す。
【図5】図4に連続する説明図であり、(a) 要約候補、(b)要約文を具体例で示す。
【符号の説明】
1 形態素解析装置
2 文字削減数最小値計算装置
3 置換知識検索装置
4 後向き文字削減数計算装置
5 前向き文字削減数計算装置
6 置換コスト計算装置
7 置換コスト最小パス計算装置

Claims (8)

  1. 入力された原文を形態素解析し、原文に含まれる文字列を単語に分割しその品詞を付与した形態素情報を出力する形態素解析手段と、
    入力された原文の要約率と入力された該原文の文字数とから削減すべき文字数の最小値を計算する文字削減数最小値計算手段と、
    前記形態素解析手段から出力される前記形態素情報に基づいて、前記原文の単語列に対して先頭の単語列から順に、あらかじめ得られている置換知識との照合を行い、照合に成功した場合には置換する単語列を前記形態素情報に追加し、かつその置換コストを付与した単語ラティス構造を出力する置換知識検索手段と、
    該置換知識検索手段から出力される前記単語ラティス構造を文末から文頭に向けて探索し、該単語ラティス構造の文末から各ノードまでの最大可能な文字削減数を計算する後向き文字削減数計算手段と、
    前記置換知識検索手段から出力される前記単語ラティス構造を文頭から文末に向けて探索し、各パスに対して文頭からの文字削減数を計算し、その計算結果と前記後向き文字削減数計算手段から出力された文字削減数との和を求め、その和が所望の文字削減数よりも小さい場合には、そのパスを枝刈りし、その和が所望の文字削減数よりも小さくない場合には、そのパスを出力する前向き文字削減数計算手段と、
    該前向き文字削減数計算手段から出力されるパスに対してその置換コストの和を計算し、文末に達したときには文頭から文末までのパスを出力する置換コスト計算手段と、
    該置換コスト計算手段から出力されたパスの中で、文頭から文末までの置換コストの和が最小となるパスを求め、求めた最小パスの文字列を要約文として出力する置換コスト最小パス計算手段と
    を有することを特徴とする自動要約装置。
  2. 前記置換知識検索手段は、パスごとに必須適用置換知識リストをもっておき、置換知識を適用する時にそのリストを参照することを特徴とする請求項1に記載の自動要約装置。
  3. 前記後向き文字削減数計算手段は、前記単語ラティス構造の文末ノードn(nは単語数)から文頭ノード0に向けてノード番号iを1ずつ減少させて、各ノードiにおいて、文末ノードnからその現ノードiまでの最大可能な文字削減数すなわち文字削減数の最大値mb (i)をダイナミックプログラミングにより求めることを特徴とする請求項1または2記載の自動要約装置。
  4. 前記前向き文字削減数計算手段は、文末ノードから文頭ノードまでの文字削減数の最大値mb (0)が、削減すべき所望の文字数の最小値mよりも小さい場合には、入力された要約率では要約できない旨を出力することを特徴とする請求項1ないし3のいずれかに記載の自動要約装置。
  5. 前記前向き文字削減数計算手段は、文末ノードから文頭ノードまでの文字削減数の最大値mb (0)が、削減すべき文字数の最小値mよりも小さくない場合には、前記単語ラティス構造の文頭ノード0から文末ノードnに向けてノード番号iを1ずつ増加させて、各ノードiまでのすべてのパスにおいて、そのパスの文字削減数mf (i)を計算し、前記後向き文字削減数計算手段で得られた前記ノードiにおける文字削減数mb (i)との和をとり、その和mf (i)+mb (i)が削減すべき文字数の最小値mよりも小さい場合には,そのパスを枝刈りし、その和mf (i)+mb (i)が削減すべき文字数の最小値mよりも小さくない場合には、そのパスを出力することを特徴とする請求項4に記載の自動要約装置。
  6. 前記前向き文字削減数計算手段は、前向き計算の処理中に、正例がない単語に達したときに、条件(前向き文字削減数、必須適用置換リスト等)の同じ候補は、置換コストが最小でないパスも枝刈りすることを特徴とする請求項5に記載の自動要約装置。
  7. コンピュータによって原文と所望の要約率から該要約率の中で最適な要約文を自動的に求めるための自動要約プログラムを記録した記録媒体であって、該自動要約プログラムはコンピュータに、
    入力された原文を形態素解析させることで原文に含まれる文字列を単語に分割させ、かつその品詞を付与した形態素情報を生成させ、
    入力された原文の要約率と入力された原文の文字数とから削減すべき文字数の最小値を計算させ、
    前記形態素情報に基づいて、前記原文の単語列に対して先頭の単語列から順に、あらかじめ得られている置換知識との照合を行わせ、照合に成功した場合には置換する単語列を前記形態素情報に追加して、かつその置換コストを付与した単語ラティス構造を求めさせ、
    前記単語ラティス構造を文末から文頭に向けて探索させて、該単語ラティス構造の文末から各ノードまでの最大可能な文字削減数(後向き文字削減数)を計算させ、
    前記単語ラティス構造を文頭から文末に向けて探索させて、各パスに対して文頭からの文字削減数を計算させ、その計算結果と前記後向き文字削減数との和を求め、その和が所望の文字削減数よりも小さい場合には、そのパスを枝刈りさせ、その和が所望の文字削減数よりも小さくない場合には、そのパスを選出させ、
    該選出されたパスに対してその置換コストの和を計算させ、文末に達したときには文頭から文末までのパスを出力させ、
    該出力されたパスの中で、文頭から文末までの置換コストの和が最小となるパスを求め、求めた最小パスの文字列を要約文として出力させることを特徴とする自動要約プログラムを記録した記録媒体。
  8. 前記自動要約プログラムはコンピュータに、
    文末ノードから文頭ノードまでの文字削減数の最大値が、削減すべき所望の文字数の最小値よりも小さい場合には、入力された要約率では要約できない旨を出力させることを特徴とする請求項7に記載の自動要約プログラムを記録した記録媒体。
JP27014798A 1998-09-24 1998-09-24 自動要約装置および自動要約プログラムを記録した記録媒体 Expired - Fee Related JP3832613B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27014798A JP3832613B2 (ja) 1998-09-24 1998-09-24 自動要約装置および自動要約プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27014798A JP3832613B2 (ja) 1998-09-24 1998-09-24 自動要約装置および自動要約プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000099536A JP2000099536A (ja) 2000-04-07
JP3832613B2 true JP3832613B2 (ja) 2006-10-11

Family

ID=17482207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27014798A Expired - Fee Related JP3832613B2 (ja) 1998-09-24 1998-09-24 自動要約装置および自動要約プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3832613B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4572321B2 (ja) * 2004-03-10 2010-11-04 セイコーエプソン株式会社 文書出力装置及びその制御方法
JP4931958B2 (ja) * 2009-05-08 2012-05-16 日本電信電話株式会社 テキスト要約方法、その装置およびプログラム

Also Published As

Publication number Publication date
JP2000099536A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
CA2202696C (en) Method and apparatus for language translation
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
US7809744B2 (en) Method and system for approximate string matching
JP2007512609A (ja) 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
US6108620A (en) Method and system for natural language parsing using chunking
JP5715755B2 (ja) Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体
JP2000293191A (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
US7328157B1 (en) Domain adaptation for TTS systems
CN109190112B (zh) 基于双通道特征融合的专利分类方法、系统及存储介质
JP2001229180A (ja) コンテンツ検索装置
JP3832613B2 (ja) 自動要約装置および自動要約プログラムを記録した記録媒体
CN110866397A (zh) 一种基于Ternary Search Trie的电力设备模型特征匹配方法
JP4047900B1 (ja) 係り受け解析装置及びそのプログラム
JP2004046775A (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2000285112A (ja) 予測入力装置及び予測入力方法並びに記録媒体
JP2006106907A (ja) 構造化文書管理システム、索引構築方法及びプログラム
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP4084816B2 (ja) 依存構造情報処理装置、そのプログラム及び記録媒体
JP2005234800A (ja) 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム
JP2008217529A (ja) テキスト分析装置およびテキスト分析プログラム
US20070124148A1 (en) Speech processing apparatus and speech processing method
Sornlertlamvanich Probabilistic language modeling for generalized LR parsing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060630

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100728

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees