JP2000099536A - Automatic summarizing device and storage medium recording automatic summarizing program - Google Patents

Automatic summarizing device and storage medium recording automatic summarizing program

Info

Publication number
JP2000099536A
JP2000099536A JP10270147A JP27014798A JP2000099536A JP 2000099536 A JP2000099536 A JP 2000099536A JP 10270147 A JP10270147 A JP 10270147A JP 27014798 A JP27014798 A JP 27014798A JP 2000099536 A JP2000099536 A JP 2000099536A
Authority
JP
Japan
Prior art keywords
sentence
path
character
replacement
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10270147A
Other languages
Japanese (ja)
Other versions
JP3832613B2 (en
Inventor
Naoto Kato
直人 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP27014798A priority Critical patent/JP3832613B2/en
Publication of JP2000099536A publication Critical patent/JP2000099536A/en
Application granted granted Critical
Publication of JP3832613B2 publication Critical patent/JP3832613B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide an optimum summary sentence from a text and a summary rate. SOLUTION: A device 1 which morpheme-analyzes a text and outputs morpheme information, a device 2 calculating the minimum value of the number of characters reduced from a summary rate and the number of characters in the text, a device 3 adding a word string substituted for the word string of the text based on morpheme information and outputting word lattice structure to which substitution cost is added, a device 4 searching word lattice structure from a sentence end to a sentence head and outputting the largest reduction number of characters from the sentence end to respective nodes, a device 5 searching word lattice structure from the sentence head to the sentence end, calculating the reduction number of characters from the sentence head against respective paths, obtaining the sum of the reduction number of characters in the device 4, branch-cutting the path when the sum is smaller than the desired reduction number of characters and outputting the path when it is not smaller, a device 6 calculating the sum of substitution cost against the output path of the device 5 and outputting the path from the sentence head to the sentence end when a system reaches the sentence end and a device 7 outputting the path where the sum of substitution cost becomes minimum in the output path of the device 6 are installed.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、原文に対して所望
の要約率が与えられたときに、その所望の要約率の中で
最適な要約文を自動的に求める自動要約を行う自動要約
装置および自動要約プログラムを記録した記録媒体に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic summarizing apparatus for automatically summarizing an optimal summary sentence at a desired summarization rate when a desired summarization rate is given to an original sentence. And a recording medium on which an automatic summarizing program is recorded.

【0002】本発明は、TVニュース等の文章を自動的
に要約するのに好適であり、また字幕作成への応用など
も考えられる。
[0002] The present invention is suitable for automatically summarizing sentences such as TV news and the like, and can be applied to caption creation.

【0003】[0003]

【従来の技術】自動要約とは、原文の単語列を短い単語
列に置換することにより、原文を自動的に縮約すること
である。自動要約を実現するためには、原文のどの単語
列をどのような単語列に置換するのかという置換知識が
必要となる。例えば、次が置換知識の一例である。
2. Description of the Related Art Automatic summarization is to automatically reduce an original sentence by replacing the original sentence with a short word sequence. In order to implement automatic summarization, it is necessary to have a knowledge of which word string in the original sentence is to be replaced with what kind of word string. For example, the following is an example of replacement knowledge.

【0004】 [置換知識1] (原文単語列→要約文単語列) [置換知識la] 明らかにしました→表明,置換コス
ト=0.6 [置換知識Ib] 明らかに→表明,置換コスト=0.
3 [置換知識1c] まし→φ(φは空、省略を表す記
号),置換コスト=0.2 ここで、置換知識に付属している「 置換コスト」 は、そ
の置換知識を使う際のペナルティーを表しており、置換
コストが0に近いほどその置換知識は使いやすいとして
いる。
[Replacement knowledge 1] (Original word string → summary sentence word string) [Replacement knowledge la] Clarified → Expression, replacement cost = 0.6 [Replacement knowledge Ib] Clear → Expression, replacement cost = 0 .
3 [Replacement knowledge 1c] → φ (φ is empty, symbol for omission), replacement cost = 0.2 Here, the “replacement cost” attached to the replacement knowledge is the penalty for using the replacement knowledge. It is stated that as the replacement cost is closer to 0, the replacement knowledge is easier to use.

【0005】上述の置換知識1の例を使って、下記の原
文1を次の要約率で要約することを考えてみよう。な
お、要約率=要約文の文字数/原文の文字数×100と
する。 [原文1] 「明らかにしました」 (8文字) [要約率1] 要約率60%以下。
[0005] Using the above example of the permutation knowledge 1, consider summarizing the following original sentence 1 at the following summarization rate. It is assumed that the summarization rate = the number of characters in the summary sentence / the number of characters in the original sentence × 100. [Original text 1] "Clarified" (8 characters) [Summary rate 1] Summarization rate 60% or less.

【0006】要約率を60%以下にするということは、
削除する文字数でいうと次のようになる。
To reduce the summarization rate to 60% or less,
The number of characters to be deleted is as follows.

【0007】8文字×(100−60)%=3.2文字 すなわち、原文中の3.2文字以上の文字数を削減しな
ければならない。
8 characters × (100-60)% = 3.2 characters That is, the number of characters of 3.2 or more in the original text must be reduced.

【0008】従来の自動要約では、置換知識を出現順に
順次適用することにより要約文を得ていた。また、そこ
で使われる置換知識は人手で収集し作成していたため
に、その数は非常に少なかった。(例えば、文献1:
『山本ほか:「文章内構造を複合的に利用した論説文要
約システムGREEN」自然言語処理、Vo1.2,N
o.2,pp.39‐55,I994』は、人手で作成
した置換知識をはじめとする要約知識を順次適用するこ
とにより自動要約している。)。
In conventional automatic summarization, a summary sentence is obtained by sequentially applying replacement knowledge in the order of appearance. In addition, the number of replacement knowledge used there was very small because it was manually collected and created. (For example, Document 1:
"Yamamoto et al .:" Editorial sentence summarization system GREEN using compound structure of sentences "Natural language processing, Vo1.2, N
o. 2, pp. 39-55, I994], automatic summarization is performed by sequentially applying summary knowledge including replacement knowledge created manually. ).

【0009】要約率60%以下の例では、上記文献1と
同様に、削減文字数3.2文字以上を置換知識1の出現
順に順次適用すると、置換知識1aが適用され、下記の
要約文1aが得られる。
In the example in which the summarization rate is 60% or less, as in the case of the above-mentioned document 1, when the number of reduced characters of 3.2 or more is sequentially applied in the order of appearance of the replacement knowledge 1, the replacement knowledge 1a is applied, and the following summary sentence 1a is obtained. can get.

【0010】[要約文la] 「表明」 (削減文字数
=6文字、置換コストの和=0.6)
[Summary Sentence la] "Announcement" (reduced number of characters = 6 characters, sum of replacement cost = 0.6)

【0011】[0011]

【発明が解決しようとする課題】しかし、最近、置換知
識を自動的に作成する手法が開発され、大量の置換知識
を簡単に得ることができるようになった。(例えば、文
献2:『加藤直人:「ニュース文要約のための局所的要
約知識獲得とその評価」電子情報通信学会言語理解とコ
ミュニケーション研究会,NLC98−16,pp.7
−14,1998』)。
However, recently, a technique for automatically creating replacement knowledge has been developed, and a large amount of replacement knowledge can be easily obtained. (For example, Reference 2: "Naoto Kato:" Acquisition and Evaluation of Local Summary Knowledge for Summarizing News Sentences ", IEICE Technical Committee on Language Understanding and Communication, NLC 98-16, pp. 7)
-14, 1998 ").

【0012】このようにして置換知識が大幅に増える
と、今度は1つの原文の単語列に対して複数の置換知識
を適用できる場合があり、そのため自動要約の際に、適
用する置換知識間で競合が生じるようになって、最適な
要約文が求められないという場合があった。
When the replacement knowledge is greatly increased in this way, a plurality of replacement knowledges may be applied to a single original word string in some cases. In some cases, a conflict occurred, and an optimal summary could not be obtained.

【0013】上述の例でも、置換知識1aを適用して得
られる要約文1aの場合と、置換知識1bと1cを適用
して得られる要約文1bの場合が競合するが、下記の要
約文1bのほうが置換コストの和が0に近いので適切な
要約となる。
Also in the above example, the case of the summary sentence 1a obtained by applying the replacement knowledge 1a and the case of the summary sentence 1b obtained by applying the replacement knowledge 1b and 1c conflict with each other. Is more appropriate because the sum of the replacement costs is closer to 0.

【0014】[要約文1b] 「表明した」 (削減文
字数=4文字,置換コストの和=0.5) そこで、本発明の目的は、上述のような点に鑑みて、原
文と所望の要約率が与えられたときに、置換コストと文
字削減数を利用して、置換知識を適切にかつ効率的に選
択することにより、原文の最適な要約文を自動的に得る
ことを可能にすることにある。
[Summary Sentence 1b] "Expressed" (reduced number of characters = 4 characters, sum of replacement costs = 0.5) Therefore, an object of the present invention is to provide an original sentence and a desired abstract in view of the above points. To be able to automatically obtain the optimal summary sentence of the original sentence by appropriately and efficiently selecting replacement knowledge using the replacement cost and the number of character reductions given the rate. It is in.

【0015】[0015]

【課題を解決するための手段】上記目的を達成するた
め、請求項1の自動要約装置の発明は、入力された原文
を形態素解析し、原文に含まれる文字列を単語に分割し
その品詞を付与した形態素情報を出力する形態素解析手
段と、入力された原文の要約率と入力された該原文の文
字数とから削減すべき文字数の最小値を計算する文字削
減数最小値計算手段と、前記形態素解析手段から出力さ
れる前記形態素情報に基づいて、前記原文の単語列に対
して先頭の単語列から順に、あらかじめ得られている置
換知識との照合を行い、照合に成功した場合には置換す
る単語列を前記形態素情報に追加し、かつその置換コス
トを付与した単語ラティス構造を出力する置換知識検索
手段と、該置換知識検索手段から出力される前記単語ラ
ティス構造を文末から文頭に向けて探索し、該単語ラテ
ィス構造の文末から各ノードまでの最大可能な文字削減
数を計算する後向き文字削減数計算手段と、前記置換知
識検索手段から出力される前記単語ラティス構造を文頭
から文末に向けて探索し、各パスに対して文頭からの文
字削減数を計算し、その計算結果と前記後向き文字削減
数計算手段から出力された文字削減数との和を求め、そ
の和が所望の文字削減数よりも小さい場合には、そのパ
スを枝刈りし、その和が所望の文字削減数よりも小さく
ない場合には、そのパスを出力する前向き文字削減数計
算手段と、該前向き文字削減数計算手段から出力される
パスに対してその置換コストの和を計算し、文末に達し
たときには文頭から文末までのパスを出力する置換コス
ト計算手段と、該置換コスト計算手段から出力されたパ
スの中で、文頭から文末までの置換コストの和が最小と
なるパスを求め、求めた最小パスの文字列を要約文とし
て出力する置換コスト最小パス計算手段とを有すること
を特徴とする。
In order to achieve the above object, an automatic summarizing apparatus according to the first aspect of the present invention morphologically analyzes an input original sentence, divides a character string included in the original sentence into words, and converts the part of speech into words. Morphological analysis means for outputting the assigned morphological information, character reduction number minimum value calculation means for calculating the minimum value of the number of characters to be reduced from the summarization rate of the input original text and the input number of characters of the original text, Based on the morphological information output from the analyzing means, the original word string is compared with the replacement knowledge obtained in advance from the head word string, and if the matching is successful, replacement is performed. A replacement knowledge search unit that adds a word string to the morphological information and outputs a word lattice structure to which the replacement cost is added, and that the word lattice structure output from the replacement knowledge search unit A backward character reduction number calculation means for searching for the maximum possible character reduction number from the end of the sentence of the word lattice structure to each node, and a word lattice structure output from the replacement knowledge search means; From the beginning to the end of the sentence, calculate the number of character reductions from the beginning of the sentence for each path, obtain the sum of the calculation result and the number of character reductions output from the backward character reduction number calculation means, and calculate the sum. If the number is smaller than the desired character reduction number, the path is pruned; if the sum is not smaller than the desired character reduction number, the forward character reduction number calculation means for outputting the path; A replacement cost calculating means for calculating the sum of the replacement costs of the paths output from the character reduction number calculating means and outputting a path from the beginning to the end of the sentence when the sentence end is reached; And a replacement cost minimum path calculating means for obtaining a path in which the sum of the replacement costs from the beginning to the end of the sentence is the minimum among the paths output from the path, and outputting a character string of the obtained minimum path as a summary sentence. Features.

【0016】ここで、好ましくは、前記置換知識検索手
段は、パスごとに必須適用置換知識リストをもってお
き、置換知識を適用する時にそのリストを参照する。
[0016] Preferably, the replacement knowledge search means keeps an essential application replacement knowledge list for each path, and refers to the list when applying replacement knowledge.

【0017】また、好ましくは、前記後向き文字削減数
計算手段は、前記単語ラティス構造の文末ノードn(n
は単語数)から文頭ノード0に向けてノード番号iを1
ずつ減少させて、各ノードiにおいて、文末ノードnか
らその現ノードiまでの最大可能な文字削減数すなわち
文字削減数の最大値mb (i)をダイナミックプログラ
ミングにより求める。
[0017] Preferably, the backward character reduction number calculating means includes a sentence end node n (n
Is the number of words) and the node number i is 1
At each node i, the maximum possible number of character reductions from the last node n of the sentence to the current node i, that is, the maximum value m b (i) of the number of character reductions, is obtained by dynamic programming.

【0018】また、好ましくは、前記前向き文字削減数
計算手段は、文末ノードから文頭ノードまでの文字削減
数の最大値mb (0)が、削減すべき所望の文字数の最
小値mよりも小さい場合には、入力された要約率では要
約できない旨を出力する。
[0018] Preferably, the forward character reduction number calculating means is configured such that the maximum value m b (0) of the character reduction number from the last node to the first node is smaller than the minimum value m of the desired number of characters to be reduced. In this case, it is output that summarization cannot be performed at the input summarization rate.

【0019】また、好ましくは、前記前向き文字削減数
計算手段は、文末ノードから文頭ノードまでの文字削減
数の最大値mb (0)が、削減すべき文字数の最小値m
よりも小さくない場合には、前記単語ラティス構造の文
頭ノード0から文末ノードnに向けてノード番号iを1
ずつ増加させて、各ノードiまでのすべてのパスにおい
て、そのパスの文字削減数mf (i)を計算し、前記後
向き文字削減数計算手段で得られた前記ノードiにおけ
る文字削減数mb (i)との和をとり、その和mf
(i)+mb (i)が削減すべき文字数の最小値mより
も小さい場合には,そのパスを枝刈りし、その和mf
(i)+mb (i)が削減すべき文字数の最小値mより
も小さくない場合には、そのパスを出力する。
Preferably, the forward character reduction number calculation means calculates the maximum value m b (0) of the character reduction number from the last node of the sentence to the first node of the sentence as the minimum value m of the number of characters to be reduced.
If it is not smaller than 1, the node number i is 1 from the head node 0 of the word lattice structure to the end node n of the sentence.
For each path up to each node i, the character reduction number m f (i) of the path is calculated, and the character reduction number m b at the node i obtained by the backward character reduction number calculation means is calculated. (I) and the sum m f
If (i) + mb (i) is smaller than the minimum value m of the number of characters to be reduced, the path is pruned and the sum m f
If (i) + mb (i) is not smaller than the minimum value m of the number of characters to be reduced, the path is output.

【0020】また、好ましくは、前記前向き文字削減数
計算手段は、前向き計算の処理中に、正例がない単語に
達したときに、条件(前向き文字削減数、必須適用置換
リスト等)の同じ候補は、置換コストが最小でないパス
も枝刈りする。
[0020] Preferably, the forward character reduction number calculation means, when a word having no positive example is reached during the forward calculation processing, has the same condition (forward character reduction number, essential application replacement list, etc.) The candidate also prunes a path whose replacement cost is not the minimum.

【0021】上記目的を達成するため、請求項7の記録
媒体の発明は、コンピュータによって原文と所望の要約
率から該要約率の中で最適な要約文を自動的に求めるた
めの自動要約プログラムを記録した記録媒体であって、
該自動要約プログラムはコンピュータに、入力された原
文を形態素解析させることで原文に含まれる文字列を単
語に分割させ、かつその品詞を付与した形態素情報を生
成させ、入力された原文の要約率と入力された原文の文
字数とから削減すべき文字数の最小値を計算させ、前記
形態素情報に基づいて、前記原文の単語列に対して先頭
の単語列から順に、あらかじめ得られている置換知識と
の照合を行わせ、照合に成功した場合には置換する単語
列を前記形態素情報に追加して、かつその置換コストを
付与した単語ラティス構造を求めさせ、前記単語ラティ
ス構造を文末から文頭に向けて探索させて、該単語ラテ
ィス構造の文末から各ノードまでの最大可能な文字削減
数(後向き文字削減数)を計算させ、前記単語ラティス
構造を文頭から文末に向けて探索させて、各パスに対し
て文頭からの文字削減数を計算させ、その計算結果と前
記後向き文字削減数との和を求め、その和が所望の文字
削減数よりも小さい場合には、そのパスを枝刈りさせ、
その和が所望の文字削減数よりも小さくない場合には、
そのパスを選出させ、該選出されたパスに対してその置
換コストの和を計算させ、文末に達したときには文頭か
ら文末までのパスを出力させ、該出力されたパスの中
で、文頭から文末までの置換コストの和が最小となるパ
スを求め、求めた最小パスの文字列を要約文として出力
させることを特徴とする。
According to a seventh aspect of the present invention, there is provided a recording medium comprising: an automatic summarization program for automatically obtaining an optimum summary sentence from an original sentence and a desired summarization rate by a computer; A recorded medium,
The automatic summarization program causes the computer to morphologically analyze the input original sentence to divide a character string included in the original sentence into words and generate morphological information to which the part of speech is added, and to calculate a summarization rate of the input original sentence and A minimum value of the number of characters to be reduced is calculated from the number of characters of the input original sentence and, based on the morphological information, the word sequence of the original sentence is sequentially compared with the replacement knowledge obtained in advance from the leading word sequence. When the collation is successful, the word string to be replaced is added to the morphological information when the collation is successful, and the word lattice structure with the replacement cost is obtained, and the word lattice structure is directed from the end of the sentence to the beginning of the sentence. The search is performed to calculate the maximum possible character reduction number (rearward character reduction number) from the end of the sentence of the word lattice structure to each node. To calculate the number of character reductions from the beginning of the sentence for each path, obtain the sum of the calculation result and the number of backward character reductions, and when the sum is smaller than the desired number of character reductions, Causes the path to be pruned,
If the sum is not less than the desired number of character reductions,
The path is selected, the sum of the replacement costs is calculated for the selected path, and when the end of the sentence is reached, the path from the beginning to the end of the sentence is output. A path that minimizes the sum of the replacement costs up to and including the obtained minimum path is output as a summary sentence.

【0022】ここで、好ましくは、前記自動要約プログ
ラムはコンピュータに、文末ノードから文頭ノードまで
の文字削減数の最大値が、削減すべき所望の文字数の最
小値よりも小さい場合には、入力された要約率では要約
できない旨を出力させる。
Preferably, the automatic summarization program is input to the computer when the maximum value of the number of character reductions from the last node to the first node is smaller than the minimum value of the desired number of characters to be reduced. Output that the summarization rate cannot be summarized.

【0023】[0023]

【発明の実施の形態】本発明の実施の形態を説明するに
先立ち、本発明に係る自動要約に必要な上述の置換コス
トについて説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Before describing embodiments of the present invention, the above-mentioned replacement cost required for automatic summarization according to the present invention will be described.

【0024】自動要約に必要な要約知識は、置換知識と
置換条件の2つから構成されている。置換知識は上述の
ように原文の単語列をどのような単語列に置換するかを
規定する知識である。例えば、連体助詞の「 の」 を省略
するという知識である。一方、置換条件とは置換知識の
適用の良否を数値化したもの、すなわち上述の置換コス
トである。置換知識はその前後の単語列によって適用の
良否が決まる。例えば、「 日本の銀行」 の「 の/体助」
を省略することはできない。
The summary knowledge required for automatic summarization is composed of two pieces: replacement knowledge and replacement conditions. As described above, the replacement knowledge is the knowledge that defines the word string to be replaced with the word string of the original sentence. For example, knowledge of omitting the adnominal particle "no". On the other hand, the replacement condition is a numerical value indicating whether or not the replacement knowledge is applied, that is, the replacement cost described above. The success or failure of the replacement knowledge is determined by the word strings before and after it. For example, "Japanese Bank"
Cannot be omitted.

【0025】そこで、置換コストは、置換知識の前後の
単語列と、あらかじめ獲得しておいた置換条件との距離
を計算している。すなわち、i番目からj番目までの単
語列wijを、単語列xijに置換するという置換コストを
distsub (wij→xij)と表すと、(1)式で定義され
る(さらに詳しくは、上記文献2を参照。)。
Therefore, the replacement cost is calculated by calculating the distance between the word string before and after the replacement knowledge and the replacement condition acquired in advance. That is, the replacement cost of replacing the i-th to j-th word strings w ij with the word strings x ij is
If it is expressed as distsub (w ij → x ij ), it is defined by equation (1) (for further details, see the above reference 2).

【0026】[0026]

【数1】 (Equation 1)

【0027】上記(1) 式は、正例がある場合には、 glow (=0.01)〜1.0 の値(0.0 ≦g(wij→xij1.
0 、正例)≦1.0 )) を取り、0.0 に近いほど置換することが可能であると定
義されている。また、正例がない(適用される置換知識
がない)場合には0.0 を取る。
In the above equation (1), if there is a positive example, the value of g low (= 0.01) to 1.0 (0.0 ≦ g (w ij → x ij 1.
0, positive example) ≤ 1.0)), and it is defined that the substitution can be made closer to 0.0. If there is no positive example (there is no permutation knowledge to be applied), take 0.0.

【0028】また、本発明による自動要約アルゴリズム
の概要を説明する。説明を簡単にするために、以下では
1文を要約する場合を考える。複数の文にわたる場合に
は単純に連結すればよい。
The outline of the automatic summarization algorithm according to the present invention will be described. For the sake of simplicity, a case where one sentence is summarized below will be considered. If it spans multiple sentences, it may be simply connected.

【0029】今、原文をある要約率以下に要約したいと
する。このとき、m(=原文の文字数×要約率)文字以
上の文字を削除しなければならない。さらに、最適な要
約であってほしい。ここで、「 最適な要約」 とは、適用
した置換知識のコストの和(置換コスト)が最小となる
場合であると定義する。したがって、自動要約とは、m
文字以上の文字数を削除し、文頭から文末までの置換コ
ストが最小のパス(最適パス)を求めることである。定
式化すると、(2)式のようになる。
Now, it is assumed that the original text is to be summarized below a certain summarization rate. At this time, characters that are equal to or more than m (= the number of characters in the original text × the summarization rate) must be deleted. Furthermore, I want the best summary. Here, the “optimal summary” is defined as a case where the sum of the costs of the applied replacement knowledge (replacement cost) is minimized. Therefore, automatic summarization is
This is to obtain a path (optimal path) with the minimum replacement cost from the beginning of the sentence to the end of the sentence by deleting the number of characters equal to or more than the character. Formulated as (2).

【0030】[0030]

【数2】 argmin Σ distsub (wij→xij) (2) x∈X x X={(x0, …,xij, …,x.n) |Σ(|wij|-|xij| )≧m)} (2)式の解を求めるアルゴリズムについては図1、図
2を用いて後述する。なお、本発明では、文字削減数と
置換コストという2つの評価関数を用いているが、前者
を計算する際にヒューリスティック関数(現在のノード
からゴールまでの評価関数の予測値)を用いている。
Argmin Σ distsub (w ij → x ij ) (2) x∈X x X = {(x 0 ,…, x ij ,…, x. N ) | Σ (| w ij |-| x ij |) ≧ m)} The algorithm for finding the solution of equation (2) will be described later with reference to FIGS. In the present invention, two evaluation functions of the number of character reductions and the replacement cost are used, but a heuristic function (predicted value of the evaluation function from the current node to the goal) is used when calculating the former.

【0031】以下、図面を参照して本発明の実施形態を
詳細に説明する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

【0032】図1は、本発明の一実施形態の装置構成を
示す。図1において、il は原文を入力する端子であ
り、i2は要約率を入力する端子である。ol は要約文
を出力する端子である。
FIG. 1 shows an apparatus configuration of an embodiment of the present invention. In FIG. 1, il is a terminal for inputting an original sentence, and i2 is a terminal for inputting a summary rate. ol is a terminal for outputting a summary sentence.

【0033】形態素解析装置1は、i1の端子に入力さ
れた原文を形態素解析し、原文に含まれる文字列を単語
に分割しその品詞を付与した形態素情報を出力する。
The morphological analyzer 1 morphologically analyzes the original sentence input to the terminal of i1, divides a character string included in the original sentence into words, and outputs morphological information to which the parts of speech are added.

【0034】文字削減数最小値計算装置2は、i2の端
子に入力された原文の要約率とi1の端子に入力された
原文の文字数とから削減すべき文字数の最小値を計算す
る。置換知識検索装置3は、形態素解析装置1から出力
される形態素情報に基づいて、原文の単語列に対して先
頭の単語列から順に、あらかじめ得られている置換知識
との照合を行い、照合に成功した場合には置換する単語
列を上記形態素情報に追加し、かつその置換コストを付
与した単語ラティス構造を出力する。本例では、その置
換コストは、各置換知識に付随して置換知識と共に内部
メモリ(図示しない)にあらかじめ格納されているもの
とする。
The character reduction number minimum value calculation device 2 calculates the minimum value of the number of characters to be reduced from the summarization rate of the original sentence input to the terminal i2 and the number of characters of the original sentence input to the terminal i1. Based on the morphological information output from the morphological analysis device 1, the replacement knowledge search device 3 checks the word sequence of the original sentence in order from the leading word sequence with replacement knowledge that has been obtained in advance. If successful, a word string to be replaced is added to the morphological information, and a word lattice structure with the replacement cost is output. In this example, it is assumed that the replacement cost is stored in advance in an internal memory (not shown) together with the replacement knowledge along with each replacement knowledge.

【0035】後向き文字削減数計算装置4は、置換知識
検索装置3から出力される単語ラティス構造を文末から
文頭に向けて探索し、その単語ラティス構造の文末から
各ノードまでの最大可能な文字削減数を計算する。
The backward character reduction number calculator 4 searches the word lattice structure output from the replacement knowledge search device 3 from the end of the sentence to the beginning of the sentence, and reduces the maximum possible character from the end of the word lattice structure to each node. Calculate the number.

【0036】前向き文字削減数計算装置5は、置換知識
検索装置3から出力される単語ラティス構造を文頭から
文末に向けて探索し、各パスに対して文頭からの文字削
減数を計算し、その計算結果と後向き文字削減数計算装
置4から出力された文字削減数との和を求め、その和が
所望の文字削減数(入力された上記原文と要約率から算
出)よりも小さい場合には、そのパスを枝刈りし、その
和が所望の文字削減数よりも小さくない場合には、その
パスを出力する。
The forward character reduction number calculation device 5 searches the word lattice structure output from the replacement knowledge search device 3 from the beginning of the sentence toward the end of the sentence, and calculates the number of character reductions from the beginning of the sentence for each path. When the sum of the calculation result and the character reduction number output from the backward character reduction number calculation device 4 is obtained, and the sum is smaller than the desired character reduction number (calculated from the input original text and the summarization rate), The path is pruned, and if the sum is not less than the desired number of character reductions, the path is output.

【0037】置換コスト計算装置6は、前向き文字削減
数計算装置5から出力されるパスに対してその置換コス
トの和を計算し、文末に達したときには文頭から文末ま
でのパスを出力する。
The replacement cost calculator 6 calculates the sum of the replacement costs of the paths output from the forward character reduction number calculator 5, and outputs the path from the beginning to the end of the sentence when the end of the sentence is reached.

【0038】置換コスト最小パス計算装置7は、置換コ
スト計算装置6から出力されたパスの中で、文頭から文
末までの置換コストの和が最小となるパスを求め、求め
た最小パスの文字列を要約文としてo1の端子から出力
する。
The replacement cost minimum path calculation device 7 finds a path that minimizes the sum of the replacement costs from the beginning to the end of the sentence among the paths output from the replacement cost calculation device 6, and obtains the character string of the obtained minimum path. Is output from the terminal o1 as a summary sentence.

【0039】図2は、図1の装置構成により自動要約の
処理を行う手順の一例を示すフローチャートである。図
2に従って、以下、本発明による自動要約の手順を説明
する。
FIG. 2 is a flowchart showing an example of a procedure for performing automatic summarization processing by the apparatus configuration of FIG. The procedure of automatic summarization according to the present invention will be described below with reference to FIG.

【0040】まず、i1の端子に原文が入力されると、
ステップS1では形態素解析装置1によって原文が形態
素解析され、その単語分割と品詞が出力される。i2の
端子に要約率が入力されると、次のステップS2では原
文の文字数と要約率から削減すべき文字数の最小値が計
算される。
First, when the original text is input to the terminal of i1,
In step S1, the original sentence is morphologically analyzed by the morphological analysis device 1, and its word division and part of speech are output. When the digest rate is input to the terminal of i2, in the next step S2, the minimum value of the number of characters to be reduced is calculated from the number of characters of the original text and the digest rate.

【0041】続くステップS3では、上記ステップS1
で得られた形態素解析結果に基づいて、先頭の単語列か
ら順に、あらかじめ得られている置換知識との照合を行
い、照合に成功した場合には、形態素解析結果に置換す
る単語列を追加し、その置換コストを付与して単語ラテ
ィス構造を作成する。
In the following step S3, step S1
Based on the morphological analysis result obtained in step 1, the matching is performed with the replacement knowledge obtained in advance from the head word string, and if the matching is successful, the word string to be replaced is added to the morphological analysis result. , Giving the replacement cost to create a word lattice structure.

【0042】ステップS4〜S7では、後向きの計算を
行う。すなわち、ステップS4、S6、S7で単語ラテ
ィス構造の文末ノードn(nは単語数)から文頭ノード
0に向けてノード番号iを1ずつ減少させて、各ノード
iにおいてステップS5の処理を実行する。ステップS
5では、文末ノードnからその現ノードiまでの最大可
能な文字削減数(後ろ向き文字削減数)すなわち文字削
減数の最大値mb (i)をダイナミックプログラミング
(DP)により求め、保存する。
In steps S4 to S7, backward calculation is performed. That is, in steps S4, S6, and S7, the node number i is decremented by one from the sentence end node n (n is the number of words) of the word lattice structure toward the beginning node 0, and the processing of step S5 is executed at each node i. . Step S
In step 5, the maximum possible character reduction number (backward character reduction number) from the last node n to the current node i, that is, the maximum value m b (i) of the character reduction number is obtained by dynamic programming (DP) and stored.

【0043】次のステップS8では、文末ノードから文
頭ノードまでの文字削減数の最大値mb (0)が、削減
すべき所望(指定の)の文字数の最小値mよりも小さい
場合には、ステップS9を実行した後、本自動要約処理
を終了する。ステップS9では入力された要約率では要
約できない旨を出力する。一方、文末ノードから文頭ノ
ードまでの文字削減数の最大値mb (0)が、削減すべ
き文字数の最小値mよりも小さくない場合には、ステッ
プS10を実行する。
In the next step S8, if the maximum value m b (0) of the number of character reductions from the last node of the sentence to the first node of the sentence is smaller than the minimum value m of the desired (specified) number of characters to be reduced, After executing step S9, the automatic summarization process ends. In step S9, the fact that summarization is not possible at the input summarization rate is output. On the other hand, if the maximum value m b (0) of the number of reduced characters from the last node to the first node is not smaller than the minimum value m of the number of characters to be reduced, step S10 is executed.

【0044】ステップS10〜S16では前向きの計算
を行う。ステップS10、S15、S16において単語
ラティス構造の文頭ノード0から文末ノードnに向けて
ノード番号iを1ずつ増加させて、各ノードiまでのす
べてのパスにおいてステップS11〜S14の処理を実
行する。まず、ステップS11では、そのパスの文字削
減数(前向き文字削減数)mf (i)を計算し、上述の
ステップS5で求めたノードiにおける文字削減数mb
(i)との和をとり、ステップS12でその和mf
(i)+mb (i)が削減すべき文字数の最小値mより
も小さい場合には,このパスは最終的な解となり得ない
ので、ステップS13でそのパスを枝刈りする。文末に
したがい可能なパスの候補が増加していくが、このよう
な枝刈りにより候補数を抑えることができる。一方、そ
の和mf (i)+mb (i)が削減すべき文字数の最小
値mよりも小さくない場合には、ステップS14を実行
する。ステップS14ではそのパスの置換コストcost
(i)の和を求め、文末に達しているときには文頭から
文末までのパスを出力する。
In steps S10 to S16, a forward calculation is performed. In steps S10, S15, and S16, the node number i is incremented by one from the head node 0 of the word lattice structure to the end node n of the sentence, and the processing of steps S11 to S14 is executed on all paths up to each node i. First, in step S11, the number of character reductions (forward character reduction number) m f (i) of the path is calculated, and the number of character reductions m b in node i obtained in step S5 described above.
(I) and the sum m f in step S12
If (i) + mb (i) is smaller than the minimum value m of the number of characters to be reduced, this path cannot be the final solution, so the path is pruned in step S13. The number of possible path candidates increases as the sentence ends, but the number of candidates can be reduced by such pruning. On the other hand, if the sum m f (i) + mb (i) is not smaller than the minimum value m of the number of characters to be reduced, step S14 is executed. In step S14, the replacement cost cost of the path
The sum of (i) is obtained, and when reaching the end of the sentence, a path from the beginning to the end of the sentence is output.

【0045】次のステップS17では、上記のステップ
S14で求められたパスの中で、置換コストの和が最小
となるパスを求め、要約文をo1の端子から出力する。
In the next step S17, a path which minimizes the sum of the replacement costs is obtained from the paths obtained in step S14, and a summary sentence is output from the terminal o1.

【0046】さらに、図2の処理の具体的な一例を、下
記の原文2を次のように要約する場合を用いて説明す
る。
Further, a specific example of the processing of FIG. 2 will be described using a case where the following original text 2 is summarized as follows.

【0047】[原文2] 「福沢総理大臣は特別委員会で方針を明らかにしまし
た」 (24文字) [要約率2]要約率70%以下。
[Original 2] "Prime Minister Fukuzawa clarified his policy at the special committee." (24 characters) [Summary rate 2] Summarization rate of 70% or less.

【0048】また、置換知識として、次があらかじめ得
られているとする。
It is also assumed that the following has been obtained in advance as replacement knowledge.

【0049】 [置換知識2] [置換知識2a] 総理大臣/普通名詞→首相/普通名詞, 置換コスト=0.01 [置換知識2b] 委員会/普通名詞→委/普通名詞, 置換コスト=0.02 [置換知識2c] 明らか/形容名詞 に/格助詞に し/サ変連用 まし/助動丁寧 た/助動過去 →表明/サ変名詞、置換コスト=0.6 [置換知識2d] 明らか/形容名詞 に/格助詞 →表明/サ変名詞、置換コスト=0.3 [置換知識2c] まし→/φ(φは空を表す記号)、置換コスト=0.2 ここで、単語は「表層表現/品詞」と表している。[Replacement Knowledge 2] [Replacement Knowledge 2a] Prime Minister / Normal Noun → Prime Minister / Common Noun, Replacement Cost = 0.01 [Replacement Knowledge 2b] Committee / Common Noun → Commission / Common Noun, Replacement Cost = 0 .02 [Replacement knowledge 2c] Obvious / adjective noun to / case particle / replacement / replacement polite / replacement past → representation / replacement noun, replacement cost = 0.6 [replacement knowledge 2d] Noun / case particle → assertion / sa-variant noun, replacement cost = 0.3 [replacement knowledge 2c] →→ φ (φ is a symbol representing the sky), replacement cost = 0.2 where the word is “surface expression / Part of speech ”.

【0050】i1の端子に原文が入力されると、ステッ
プS1では原文を形態素解析する。すると、原文2はそ
の形態素解析結果として、図3(a)に示すように、単
語数(これをnと表す)13個の単語に分割され、品詞
が付与される。図3(a)において、上段の数字は単語
間に文頭から順につけたノード番号である。このとき、
文頭ノードの番号は0であり、文末ノードの番号は単語
数n(=13)である。
When an original sentence is input to the terminal of i1, in step S1, the original sentence is morphologically analyzed. Then, as a result of the morphological analysis, the original sentence 2 is divided into 13 words (the number is represented by n) as shown in FIG. In FIG. 3A, the numbers in the upper row are the node numbers assigned between words in order from the beginning of the sentence. At this time,
The number of the sentence start node is 0, and the number of the end node of the sentence is the number of words n (= 13).

【0051】i2の端子に要約率70%が入力される
と、ステップS2では、原文の文字数が24文字である
ことから、削減すべき文字数の最小値(これをmと表
し、所望の文字削減数と呼ぶ)が次のように計算され
る。
When the digest rate of 70% is input to the terminal of i2, in step S2, since the number of characters in the original text is 24, the minimum value of the number of characters to be reduced (this is represented by m, and the desired character reduction (Called a number) is calculated as follows:

【0052】[所望の文字削減数] m=24文字×(100−70)%=7.2文字 ステップS3では、上記形態素解析結果に基づいて、先
頭の単語列から順に置換知識2との照合を行い、照合に
成功した場合には置換する単語列を形態素解析結果に追
加し、その置換を付与した単語ラティス構造を作成す
る。すると、図3(b)に示すような単語ラティス構造
が得られる。なお、図3(b)で、例えば、置換候補の
「 首相」 の脇に記載した「 0.01」 は置換コストを表
す。
[Desired character reduction number] m = 24 characters × (100−70)% = 7.2 characters In step S3, based on the result of the morphological analysis, collation with replacement knowledge 2 is performed in order from the first word string. If the collation is successful, the word string to be replaced is added to the morphological analysis result, and a word lattice structure to which the replacement is added is created. Then, a word lattice structure as shown in FIG. 3B is obtained. In FIG. 3B, for example, “0.01” written next to “Prime Minister” of the replacement candidate indicates the replacement cost.

【0053】ステップS4〜S7では後向きの計算を行
う。ステップS4,S6,S7で単語ラティス構造の文
末ノード13から文頭ノード0に向けてノード番号iを
i=13,12,…,0と1ずつ減少させて、各ノード
iにおいてステップS4を実行する。ステップS4では
文末ノード13から現在着目しているノードiまでに最
大可能な文字削減数(これをmb (i)と表し、後向き
文字削減数と呼ぶ)を計算する。この際に、ダイナミッ
クプログラミングにより効率的に処理を行う。すると、
図3(c) に示すように、各ノードにおける後向き文字削
減数が計算される。
In steps S4 to S7, backward calculation is performed. In steps S4, S6 and S7, the node number i is decreased from i = 13, 12,..., 0 by 1 from the end node 13 of the word lattice structure to the head node 0, and step S4 is executed in each node i. . In step S4, the maximum possible character reduction number from the end-of-sentence node 13 to the current focused node i (this is represented as m b (i) and referred to as the backward character reduction number) is calculated. At this time, processing is efficiently performed by dynamic programming. Then
As shown in FIG. 3C, the backward character reduction number at each node is calculated.

【0054】図3(c)において、例えば、ノード8で
の後向き文字削減数mb (8)は、 ケース8a 置換知識2d「まし→φ」と置換知識2e
「明らかに→表明」を適用.(文字削減数4) ケース8b 置換知識2c「明らかにしました→表明」
を適用.(文字削減数6) と2つの場合が考えられるが、ケース8bが文字削減数
が最も大きいので、mb (8)=6と求められる。
In FIG. 3 (c), for example, the backward character reduction number m b (8) at the node 8 is the case 8a, the replacement knowledge 2d “better → φ” and the replacement knowledge 2e.
Apply “Clearly → Statement”. (Number of character reduction 4) Case 8b Replacement knowledge 2c "Clarified → assertion"
Apply. (Character reduction number 6) There are two cases, but in case 8b, the number of character reduction is the largest, so that m b (8) = 6 is obtained.

【0055】ステップS8では文末ノードから文頭ノー
ドまでの文字削減数の最大値mb (0)=10が、所望
の文字削減数m=7.2も小さくない(mb (0)=1
0≧m=7.2)ので、ステップS9は実行せずに、ス
テップS10を実行する。
In step S8, the maximum character reduction number m b (0) = 10 from the sentence end node to the head node is not smaller than the desired character reduction number m = 7.2 (m b (0) = 1).
Since 0 ≧ m = 7.2), step S10 is executed without executing step S9.

【0056】ステップS10〜S16では前向きの計算
を行う。ステップS10,S15,S16で単語ラティ
ス構造の文頭ノード0から文末ノード13に向けてノー
ド番号iをi=0,1,・・・,13と1ずつ増加させ
て,各ノードiにおけるすべてのパスにおいてステップ
S11〜S14を実行する。ステップS11では文頭か
ら現在着目しているノードiまでのそれぞれのパスにお
ける文字削減数(これをmf (i)と表し,前向き文字
削減数と呼ぶ)を計算する。ノード5(i=5)の場合
を例にとると、図4(a)に示すように、4つのパスが
求められる。
In steps S10 to S16, a forward calculation is performed. In steps S10, S15, and S16, the node number i is incremented by one from i = 0, 1,..., 13 from the head node 0 of the word lattice structure to the end node 13 of the word lattice structure. Steps S11 to S14 are executed. In step S11, the number of character reductions in each path from the beginning of the sentence to the node i of interest is calculated (referred to as m f (i) and referred to as the number of forward character reductions). Taking the case of node 5 (i = 5) as an example, four paths are obtained as shown in FIG.

【0057】次に、ステップS5で求めた後向き文字削
減数mb (i)との和をとる。ノード5の例では、後向
き文字削減数mb (5)=6との和をとると、図4
(b)に示すようになる。
Next, the sum with the backward character reduction number m b (i) obtained in step S5 is calculated. In the example of the node 5, when the sum of the backward character reduction number m b (5) = 6 is obtained, FIG.
The result is as shown in FIG.

【0058】図4(b)に示すその和(mf (i)+m
b (i))が所望の文字削減数mよりも小さい場合(m
f (i)+mb (i)<m)には、ステップS13を実
行し、小さくない場合(mf (i)+mb (i)≧m)
には、ステップS14を実行する。ステップS13では
そのパスを枝刈りする。ステップS14ではそのパスの
置換コストの和を求める。ノード5の例では、パス5a
は、前向き文字削減数と後向き文字削減数との和が所望
の文字削減数(m=7.2)よりも小さいパスであるの
で、ステップS13で枝刈りされ、以降の処理では使わ
れない。パス5b、5c、5dはその和が所望の文字削
減数(m=7.2)よりも小さくないので、ステップS
14が実行される。ステップS14では、それぞれのパ
スにおける置換コストの和を求める。ノード5の例では
図4(c)に示すようになる。
The sum (m f (i) + m shown in FIG.
b (i)) is smaller than the desired character reduction number m (m
If f (i) + mb (i) <m), step S13 is executed, and if not smaller ( mf (i) + mb (i) ≧ m)
, Execute step S14. In step S13, the path is pruned. In step S14, the sum of the replacement costs of the path is obtained. In the example of the node 5, the path 5a
Is a path in which the sum of the forward character reduction number and the backward character reduction number is smaller than the desired character reduction number (m = 7.2), and is pruned in step S13, and is not used in the subsequent processing. Since the sum of the paths 5b, 5c, and 5d is not smaller than the desired character reduction number (m = 7.2), step S
14 is executed. In step S14, the sum of replacement costs in each path is obtained. FIG. 4C shows an example of the node 5.

【0059】同様にして、ステップS14において文頭
から文末までの各パスにおける置換コストの和が求めら
れる。文末まで達すると、文頭から文末までのパスであ
る、図5(a)に示すような、4つの要約候補が得られ
る。
Similarly, in step S14, the sum of the replacement costs in each pass from the beginning to the end of the sentence is obtained. When reaching the end of the sentence, four summary candidates as shown in FIG. 5A, which are paths from the beginning of the sentence to the end of the sentence, are obtained.

【0060】ステップS17ではその要約候補の中で、
置換コストの和が最小であるパスl3dが選択され、単
語列をつないで得られる次の要約文がo1の端子から出
力される(図5(b)参照)。
In step S17, among the summary candidates,
The path l3d with the minimum replacement cost is selected, and the next summary sentence obtained by connecting the word strings is output from the terminal o1 (see FIG. 5B).

【0061】 [要約文2] 「福沢首相は特別委で方針を表明した」 (他の実施の形態)以上の説明では適用される置換知識
がそれぞれ独立であるとした。しかし、「総理大臣→首
相」 のように、1度適用したら次回にも必ず適用しなけ
ればならない置換知識もある。これに対応するために
は、パスごとに必須適用置換知識リストをもっておき、
置換知識を適用する時にそのリストを参照する処理を図
2のアルゴリズムに追加すればよい。
[Summary Sentence 2] "Fukuzawa announces policy at special committee" (Other Embodiments) In the above description, it is assumed that the permuted knowledge applied is independent. However, there is some replacement knowledge, such as “Prime Minister → Prime Minister”, that must be applied once after applying it. To deal with this, keep a list of required applied replacement knowledge for each path,
A process of referring to the list when applying the replacement knowledge may be added to the algorithm of FIG.

【0062】また、上述したステップS10〜S16の
前向き計算の処理中には、正例がない単語(例えば、図
4(a)の「 で」 )に達したときに、条件(前向き文字
削減数、必須適用置換リスト等)の同じ候補は、置換コ
ストが最小でないパス(例えば、図4(a)のパス5
b)も枝刈りするという改善を加えることも可能であ
る。
During the forward calculation in steps S10 to S16, when a word having no positive example (for example, “de” in FIG. 4A) is reached, a condition (forward character reduction count) is set. , The essential application replacement list, etc.) are the paths whose replacement cost is not the minimum (for example, path 5 in FIG.
It is also possible to add the improvement of pruning b).

【0063】なお、図1の形態素解析装置1、文字削減
数最小値計算装置2等はROM等を利用したモジュール
回路(デバイス)のようなハードウェアで構成しても、
形態素解析ルーチン、文字削減数最小値計算ルーチンの
ようにコンピュータ制御で動作するソフトウェアで構成
してもよい。また、本発明は、複数の機器(例えば、ホ
ストコンピュータ、インターフェース機器、リーダ、プ
リンタなど)から構成されるシステムに適用しても、1
つの機器からなる専用装置(例えば、自動要約装置、自
動字幕作成装置など)に適用してもよい。
The morphological analyzer 1, the character reduction number minimum value calculator 2, and the like shown in FIG. 1 may be constituted by hardware such as a module circuit (device) using a ROM or the like.
It may be configured by software operating under computer control, such as a morphological analysis routine and a character reduction number minimum value calculation routine. Further, the present invention can be applied to a system including a plurality of devices (for example, a host computer, an interface device, a reader, a printer, etc.).
The present invention may be applied to a dedicated device including one device (for example, an automatic summarizing device, an automatic subtitle creating device, and the like).

【0064】また、本発明の目的は、前述した実施の形
態の機能を実現するソフトウエアのプログラムコードを
記録した記録媒体(記憶媒体)を、システムあるいは装
置に供給し、そのシステムあるいは装置のコンピュータ
(またはCPUやMPU)が記録媒体に格納されたプロ
グラムコードを読み出し、実行することによっても、達
成されることは言うまでもない。この場合、記録媒体か
ら読み出されたプログラムコード自体が前述した実施の
形態の機能を実現することになり、そのプログラムコー
ドを記録した記録媒体(例えば、CD−ROM,MD,
フロッピーなど)は本発明を構成することになる。
Another object of the present invention is to provide a recording medium (storage medium) recording software program codes for realizing the functions of the above-described embodiments to a system or an apparatus, and to provide a computer for the system or the apparatus. Needless to say, the present invention is also achieved when the CPU (or the CPU or the MPU) reads out and executes the program code stored in the recording medium. In this case, the program code itself read from the recording medium realizes the function of the above-described embodiment, and the recording medium (for example, CD-ROM, MD,
Floppy, etc.) would constitute the present invention.

【0065】[0065]

【発明の効果】以上の説明から明らかなように、本発明
によれば、文字削減数と置換コストという2つの評価関
数を用いて、与えられた要約率以下で、原文を最適に要
約するので、原文と要約率を入力するだけで、最適な要
約を自動的に求めることが可能となる。
As is clear from the above description, according to the present invention, the original sentence is optimally summarized at a given summarization rate or less by using two evaluation functions of the character reduction number and the replacement cost. By simply inputting the original sentence and the summarization rate, the optimum summarization can be automatically obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態の自動要約装置の構成を示
すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of an automatic summarizing apparatus according to an embodiment of the present invention.

【図2】図1の装置の自動要約の処理手順を示すフロー
チャートである。
FIG. 2 is a flowchart illustrating a procedure of automatic summarization performed by the apparatus of FIG. 1;

【図3】具体的な原文を入力した場合の本発明の一実施
形態の各段階の処理内容と結果を順次に説明する図であ
り、(a)形態素解析結果、(b)単語ラティス構造、
(c)後向き文字削減数計算を具体例で示す。
FIG. 3 is a diagram for sequentially explaining the processing contents and results of each stage of one embodiment of the present invention when a specific original sentence is input, (a) a morphological analysis result, (b) a word lattice structure,
(C) The calculation of the number of backward character reductions is shown by a specific example.

【図4】図3に連続する説明図であり、(a)前向き文
字削減数の計算、(b)前向き文字削減数と後向き文字
削減数との和の計算、(c)置換コストの和の計算を具
体例で示す。
4A and 4B are explanatory diagrams continuing from FIG. 3; (a) calculation of the number of forward character reductions, (b) calculation of the sum of the number of forward character reductions and backward character reduction, and (c) calculation of the sum of the replacement cost. The calculation is shown by a specific example.

【図5】図4に連続する説明図であり、(a) 要約候補、
(b)要約文を具体例で示す。
FIG. 5 is an explanatory diagram that is continuous with FIG. 4;
(B) A summary sentence is shown by a specific example.

【符号の説明】[Explanation of symbols]

1 形態素解析装置 2 文字削減数最小値計算装置 3 置換知識検索装置 4 後向き文字削減数計算装置 5 前向き文字削減数計算装置 6 置換コスト計算装置 7 置換コスト最小パス計算装置 DESCRIPTION OF SYMBOLS 1 Morphological analyzer 2 Character reduction number minimum value calculation device 3 Replacement knowledge search device 4 Backward character reduction number calculation device 5 Forward character reduction number calculation device 6 Replacement cost calculation device 7 Replacement cost minimum path calculation device

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 入力された原文を形態素解析し、原文に
含まれる文字列を単語に分割しその品詞を付与した形態
素情報を出力する形態素解析手段と、 入力された原文の要約率と入力された該原文の文字数と
から削減すべき文字数の最小値を計算する文字削減数最
小値計算手段と、 前記形態素解析手段から出力される前記形態素情報に基
づいて、前記原文の単語列に対して先頭の単語列から順
に、あらかじめ得られている置換知識との照合を行い、
照合に成功した場合には置換する単語列を前記形態素情
報に追加し、かつその置換コストを付与した単語ラティ
ス構造を出力する置換知識検索手段と、 該置換知識検索手段から出力される前記単語ラティス構
造を文末から文頭に向けて探索し、該単語ラティス構造
の文末から各ノードまでの最大可能な文字削減数を計算
する後向き文字削減数計算手段と、 前記置換知識検索手段から出力される前記単語ラティス
構造を文頭から文末に向けて探索し、各パスに対して文
頭からの文字削減数を計算し、その計算結果と前記後向
き文字削減数計算手段から出力された文字削減数との和
を求め、その和が所望の文字削減数よりも小さい場合に
は、そのパスを枝刈りし、その和が所望の文字削減数よ
りも小さくない場合には、そのパスを出力する前向き文
字削減数計算手段と、 該前向き文字削減数計算手段から出力されるパスに対し
てその置換コストの和を計算し、文末に達したときには
文頭から文末までのパスを出力する置換コスト計算手段
と、 該置換コスト計算手段から出力されたパスの中で、文頭
から文末までの置換コストの和が最小となるパスを求
め、求めた最小パスの文字列を要約文として出力する置
換コスト最小パス計算手段とを有することを特徴とする
自動要約装置。
1. A morphological analysis means for morphologically analyzing an input original sentence, dividing a character string included in the original sentence into words, and outputting morphological information to which the part of speech is added, and a summarization rate of the input original sentence. A character reduction number minimum value calculating means for calculating a minimum value of the number of characters to be reduced from the number of characters of the original text, and a head of the word string of the original text based on the morphological information output from the morphological analysis means. In order from the word string of
A replacement knowledge search means for adding a replacement word string to the morphological information when the collation is successful, and outputting a word lattice structure provided with the replacement cost; and the word lattice output from the replacement knowledge search means. Backward character reduction number calculation means for searching the structure from the end of the sentence to the beginning of the sentence and calculating the maximum possible number of character reductions from the end of the sentence of the word lattice structure to each node; and the word output from the replacement knowledge search means The lattice structure is searched from the beginning to the end of the sentence, the number of character reductions from the beginning of each path is calculated for each path, and the sum of the calculation result and the number of character reductions output from the backward character reduction number calculation means is obtained. If the sum is less than the desired number of character reductions, the path is pruned; if the sum is not less than the desired number of character reductions, the forward Character replacement number calculation means, and a replacement cost calculation means for calculating the sum of the replacement costs of the paths output from the forward character reduction number calculation means, and outputting the path from the beginning to the end of the sentence when the sentence is reached. A path that minimizes the sum of the replacement costs from the beginning to the end of the path output from the replacement cost calculation means, and outputs a character string of the determined minimum path as a summary sentence; And an automatic summarizing apparatus.
【請求項2】 前記置換知識検索手段は、パスごとに必
須適用置換知識リストをもっておき、置換知識を適用す
る時にそのリストを参照することを特徴とする請求項1
に記載の自動要約装置。
2. The replacement knowledge search means stores an essential application replacement knowledge list for each path and refers to the list when applying replacement knowledge.
The automatic summarizing apparatus according to claim 1.
【請求項3】 前記後向き文字削減数計算手段は、前記
単語ラティス構造の文末ノードn(nは単語数)から文
頭ノード0に向けてノード番号iを1ずつ減少させて、
各ノードiにおいて、文末ノードnからその現ノードi
までの最大可能な文字削減数すなわち文字削減数の最大
値mb (i)をダイナミックプログラミングにより求め
ることを特徴とする請求項1または2記載の自動要約装
置。
3. The backward character reduction number calculation means decreases a node number i by one from a sentence end node n (n is the number of words) of the word lattice structure toward a sentence head node 0,
At each node i, the last node n to the current node i
3. The automatic summarizing apparatus according to claim 1, wherein the maximum possible number of character reductions, that is, the maximum value m b (i) of the character reduction number is obtained by dynamic programming.
【請求項4】 前記前向き文字削減数計算手段は、文末
ノードから文頭ノードまでの文字削減数の最大値mb
(0)が、削減すべき所望の文字数の最小値mよりも小
さい場合には、入力された要約率では要約できない旨を
出力することを特徴とする請求項1ないし3のいずれか
に記載の自動要約装置。
4. The forward character reduction number calculation means includes a maximum value m b of character reduction numbers from a sentence end node to a sentence start node.
4. The method according to claim 1, wherein when (0) is smaller than a minimum value m of a desired number of characters to be reduced, a message that summarization cannot be performed at the input summarization rate is output. Automatic summarization device.
【請求項5】 前記前向き文字削減数計算手段は、文末
ノードから文頭ノードまでの文字削減数の最大値mb
(0)が、削減すべき文字数の最小値mよりも小さくな
い場合には、前記単語ラティス構造の文頭ノード0から
文末ノードnに向けてノード番号iを1ずつ増加させ
て、各ノードiまでのすべてのパスにおいて、そのパス
の文字削減数mf (i)を計算し、前記後向き文字削減
数計算手段で得られた前記ノードiにおける文字削減数
b (i)との和をとり、その和mf (i)+mb
(i)が削減すべき文字数の最小値mよりも小さい場合
には,そのパスを枝刈りし、その和mf (i)+mb
(i)が削減すべき文字数の最小値mよりも小さくない
場合には、そのパスを出力することを特徴とする請求項
4に記載の自動要約装置。
5. The forward character reduction number calculation means includes a maximum value m b of character reduction numbers from a sentence end node to a sentence start node.
If (0) is not smaller than the minimum value m of the number of characters to be reduced, the node number i is increased by one from the head node 0 of the word lattice structure to the end node n of the word lattice structure, and each node i is increased. , Calculate the character reduction number m f (i) of the path, and sum with the character reduction number m b (i) at the node i obtained by the backward character reduction number calculation means, The sum m f (i) + mb
If (i) is smaller than the minimum value m of the number of characters to be reduced, the path is pruned and the sum m f (i) + mb
The automatic summarizing apparatus according to claim 4, wherein when (i) is not smaller than the minimum value m of the number of characters to be reduced, the path is output.
【請求項6】 前記前向き文字削減数計算手段は、前向
き計算の処理中に、正例がない単語に達したときに、条
件(前向き文字削減数、必須適用置換リスト等)の同じ
候補は、置換コストが最小でないパスも枝刈りすること
を特徴とする請求項5に記載の自動要約装置。
6. The forward character reduction number calculation means, when a word without a positive example is reached during the forward calculation processing, the same candidate of the condition (forward character reduction number, mandatory application replacement list, etc.) 6. The automatic summarizing apparatus according to claim 5, wherein a path whose replacement cost is not minimum is also pruned.
【請求項7】 コンピュータによって原文と所望の要約
率から該要約率の中で最適な要約文を自動的に求めるた
めの自動要約プログラムを記録した記録媒体であって、
該自動要約プログラムはコンピュータに、 入力された原文を形態素解析させることで原文に含まれ
る文字列を単語に分割させ、かつその品詞を付与した形
態素情報を生成させ、 入力された原文の要約率と入力された原文の文字数とか
ら削減すべき文字数の最小値を計算させ、 前記形態素情報に基づいて、前記原文の単語列に対して
先頭の単語列から順に、あらかじめ得られている置換知
識との照合を行わせ、照合に成功した場合には置換する
単語列を前記形態素情報に追加して、かつその置換コス
トを付与した単語ラティス構造を求めさせ、 前記単語ラティス構造を文末から文頭に向けて探索させ
て、該単語ラティス構造の文末から各ノードまでの最大
可能な文字削減数(後向き文字削減数)を計算させ、 前記単語ラティス構造を文頭から文末に向けて探索させ
て、各パスに対して文頭からの文字削減数を計算させ、
その計算結果と前記後向き文字削減数との和を求め、そ
の和が所望の文字削減数よりも小さい場合には、そのパ
スを枝刈りさせ、その和が所望の文字削減数よりも小さ
くない場合には、そのパスを選出させ、 該選出されたパスに対してその置換コストの和を計算さ
せ、文末に達したときには文頭から文末までのパスを出
力させ、 該出力されたパスの中で、文頭から文末までの置換コス
トの和が最小となるパスを求め、求めた最小パスの文字
列を要約文として出力させることを特徴とする自動要約
プログラムを記録した記録媒体。
7. A recording medium recording an automatic summarization program for automatically obtaining an optimum summary sentence from an original sentence and a desired summarization rate by a computer from the summarization rate,
The automatic summarization program causes a computer to morphologically analyze the input original sentence to divide a character string included in the original sentence into words and generate morphological information to which the part of speech is added, and to calculate a summarization rate of the input original sentence and A minimum value of the number of characters to be reduced is calculated from the number of characters of the input original text, and based on the morphological information, the word sequence of the original text is sequentially replaced with the replacement knowledge obtained in advance from the leading word sequence. When the matching is successful, the word string to be replaced is added to the morphological information when the matching is successful, and a word lattice structure to which the replacement cost is given is obtained.The word lattice structure is directed from the end of the sentence to the beginning of the sentence. Search and calculate the maximum possible character reduction number (rearward character reduction number) from the end of the sentence of the word lattice structure to each node. By searching towards the end of the sentence, to calculate the number of characters reductions from beginning of a sentence for each path,
The sum of the calculation result and the backward character reduction number is obtained. If the sum is smaller than the desired character reduction number, the path is pruned, and if the sum is not smaller than the desired character reduction number. , The path is selected, the sum of the replacement costs is calculated for the selected path, and when the end of the sentence is reached, the path from the beginning to the end of the sentence is output. A recording medium on which an automatic summarization program is recorded, wherein a path that minimizes the sum of replacement costs from the beginning to the end of a sentence is obtained, and a character string of the obtained minimum path is output as a summary sentence.
【請求項8】 前記自動要約プログラムはコンピュータ
に、 文末ノードから文頭ノードまでの文字削減数の最大値
が、削減すべき所望の文字数の最小値よりも小さい場合
には、入力された要約率では要約できない旨を出力させ
ることを特徴とする請求項7に記載の自動要約プログラ
ムを記録した記録媒体。
8. The automatic summarization program according to claim 1, wherein when the maximum value of the number of character reductions from the last node of the sentence to the first node of the sentence is smaller than the minimum value of the desired number of characters to be reduced, 8. A recording medium on which the automatic summarization program according to claim 7 is output, indicating that summarization is impossible.
JP27014798A 1998-09-24 1998-09-24 Automatic summarization device and recording medium on which automatic summarization program is recorded Expired - Fee Related JP3832613B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27014798A JP3832613B2 (en) 1998-09-24 1998-09-24 Automatic summarization device and recording medium on which automatic summarization program is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27014798A JP3832613B2 (en) 1998-09-24 1998-09-24 Automatic summarization device and recording medium on which automatic summarization program is recorded

Publications (2)

Publication Number Publication Date
JP2000099536A true JP2000099536A (en) 2000-04-07
JP3832613B2 JP3832613B2 (en) 2006-10-11

Family

ID=17482207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27014798A Expired - Fee Related JP3832613B2 (en) 1998-09-24 1998-09-24 Automatic summarization device and recording medium on which automatic summarization program is recorded

Country Status (1)

Country Link
JP (1) JP3832613B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258676A (en) * 2004-03-10 2005-09-22 Seiko Epson Corp Document outputting device and its control method
JP2010262511A (en) * 2009-05-08 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> Text summarization method, apparatus thereof, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258676A (en) * 2004-03-10 2005-09-22 Seiko Epson Corp Document outputting device and its control method
JP4572321B2 (en) * 2004-03-10 2010-11-04 セイコーエプソン株式会社 Document output apparatus and control method thereof
JP2010262511A (en) * 2009-05-08 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> Text summarization method, apparatus thereof, and program

Also Published As

Publication number Publication date
JP3832613B2 (en) 2006-10-11

Similar Documents

Publication Publication Date Title
US8234108B2 (en) Building and contracting a linguistic dictionary
US9251294B2 (en) Method and system for approximate string matching
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
US7480612B2 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
CN110750993A (en) Word segmentation method, word segmentation device, named entity identification method and system
CN111444330A (en) Method, device and equipment for extracting short text keywords and storage medium
US20070067153A1 (en) Morphological analysis apparatus, morphological analysis method and morphological analysis program
Theeramunkong et al. Non-dictionary-based Thai word segmentation using decision trees
JP3309174B2 (en) Character recognition method and device
JP3080066B2 (en) Character recognition device, method and storage medium
JP2000099536A (en) Automatic summarizing device and storage medium recording automatic summarizing program
JP4047900B1 (en) Dependency analyzer and program thereof
JP2008217529A (en) Text analyzer and text analytical program
JP2845096B2 (en) Kana-Kanji conversion device
JP4034777B2 (en) Parallel translation estimation apparatus, method, and program
JPH0785057A (en) Syntax analyzing method and device therefor
JP2003122749A (en) Device and program for dividing word
JP2695772B2 (en) Kana-Kanji conversion device
JP2729342B2 (en) Kana-kanji conversion method and device
JP3939151B2 (en) Translated word selection device, translated word selection program, and medium storing translated word selection program
JPH10340264A (en) Machine translation device and computer-readable recording medium where machine translation processing program is recorded
CN111753095A (en) Method and device for generating knowledge base
JPH08212225A (en) Language judgement device
JPH11175522A (en) Method for processing natural language and device therefor
JPH07271792A (en) Device and method for analyzing japanese morpheme

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060630

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100728

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees