JP2003150614A - Text summarizing method and device, text summarizing program and storage medium stored with text summarizing program - Google Patents

Text summarizing method and device, text summarizing program and storage medium stored with text summarizing program

Info

Publication number
JP2003150614A
JP2003150614A JP2001352172A JP2001352172A JP2003150614A JP 2003150614 A JP2003150614 A JP 2003150614A JP 2001352172 A JP2001352172 A JP 2001352172A JP 2001352172 A JP2001352172 A JP 2001352172A JP 2003150614 A JP2003150614 A JP 2003150614A
Authority
JP
Japan
Prior art keywords
sentence
sentences
text
characters
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001352172A
Other languages
Japanese (ja)
Inventor
Takaaki Hasegawa
隆明 長谷川
Takefumi Yamazaki
毅文 山崎
Yoshihiko Hayashi
林  良彦
Hisashi Obara
永 小原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001352172A priority Critical patent/JP2003150614A/en
Publication of JP2003150614A publication Critical patent/JP2003150614A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To prevent erroneous read by indicating that one sentence or a plurality of successive sentences are present between the separated sentences of a high importance degree without making them be adjacent to each other. SOLUTION: An appearing order is imparted to each sentence, the importance degree is calculated for each sentence and the sentences of the importance degree higher than a prescribed threshold or a prescribed number of the sentences are extracted. In the case of judging that the sentences extracted on the basis of the order are not adjacent, a symbol is inserted or a line is fed, information of the entire sentences including the symbol is calculated and the number of the sentences is increased or reduced until an information amount of the entire extracted sentences becomes equal to or less than a prescribed number of characters or a summarization degree. Sentence extraction/ information amount calculation are repeated and the extracted sentences (including the symbol) are displayed according to the order.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、テキスト要約方法
及び装置及びテキスト要約プログラム及びテキスト要約
プログラムを格納した記憶媒体に係り、特に、テキスト
中の重要文だけでなく、重要文に挟まれた文が脱落して
いることを示す記号も要約に含め、要約文を生成するた
めのテキスト要約方法及び装置及びテキスト要約プログ
ラム及びテキスト要約プログラムを格納した記憶媒体に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a text summarization method and apparatus, a text summarization program, and a storage medium storing the text summarization program, and more particularly to not only important sentences in text but also sentences sandwiched between important sentences. The present invention relates to a text summarization method and apparatus for generating a summarization text including a symbol indicating that a text has been dropped, a text summarization program, and a storage medium storing the text summarization program.

【0002】[0002]

【従来の技術】従来、テキストの要約では、文を単位と
して、予め指定された手掛かりが文に含まれる場合に、
その文に重要度を与え、与えられた得点に従って文を並
べ、要約率や制限文字数の範囲で上位の重要度を持つ文
から順に文を選択して出力する重要文抽出手法が提案さ
れている。
2. Description of the Related Art Conventionally, in text summarization, when a sentence contains a previously specified clue,
An important sentence extraction method has been proposed in which the sentence is given importance, the sentences are arranged according to the given score, and the sentences having higher importance in the range of the summarization rate and the limited number of characters are selected and output in order. .

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来のテキスト要約方法では、重要度の高い文以外は出力
されず、ある文と離れている別の文が隣接するため、要
約を読んだときに、テキストの文意を誤って解釈してし
まうという問題が発生する。
However, in the above-described conventional text summarizing method, since only a sentence having a high degree of importance is output, and another sentence which is apart from a certain sentence is adjacent, a summary is read. , The problem of misinterpreting the meaning of the text occurs.

【0004】本発明は、上記の点に鑑みなされたもの
で、重要度が低く選択されない一つの文、または、連続
する複数の文を記号化して出力することにより、離れて
いる重要度の高い文同士が隣接せず、その間に一つの文
または、連続している複数の文が存在していたことを示
すことにより誤読を防ぐことが可能なテキスト要約方法
及び装置及びテキスト要約プログラム及びテキスト要約
プログラムを格納した記憶媒体を提供することを目的と
する。
The present invention has been made in view of the above points, and one sentence that is not selected because of its low importance or a plurality of continuous sentences is symbolized and output, so that it is highly distant. Text summarization method and device, text summarization program and text summarization capable of preventing misreading by indicating that sentences are not adjacent to each other and one sentence or a plurality of consecutive sentences are present between them It is an object to provide a storage medium storing a program.

【0005】[0005]

【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
FIG. 1 is a diagram for explaining the principle of the present invention.

【0006】本発明(請求項1)は、少なくとも3以上
の文からなるテキストを要約するテキスト要約方法にお
いて、テキストを文に分割し、分割された文毎にシーケ
ンシャルな文番号を付与し(ステップ1)、一定の指示
に基づいて各文に重要度を付与し(ステップ2)、重要
度の高い文から優先的に文を選択し(ステップ3)、選
択されない単一の文あるいは、文番号が連続する複数の
文を記号または改行に置換し(ステップ4)、選択され
た文または、該選択された文と置換された記号の文字数
が指定された制限文字数、または、指定された要約率か
ら計算された文字数の範囲内を越えていないかどうかを
調べ(ステップ5)、範囲を越えていなければ、選択さ
れた文と置換された記号を文番号順に出力する(ステッ
プ6)。
The present invention (Claim 1) is a text summarizing method for summarizing a text consisting of at least three sentences, the text is divided into sentences, and a sequential sentence number is given to each divided sentence (step 1) Assigning importance to each sentence based on a certain instruction (step 2), preferentially selecting sentences from the ones with high importance (step 3), single sentence not selected or sentence number Replace a plurality of consecutive sentences with symbols or line feeds (step 4), and specify the number of characters of the selected sentence or the symbols replaced with the selected sentence, the specified limit number of characters, or the specified summarization rate. It is checked whether or not the number of characters exceeds the range calculated from (step 5). If not, the symbols replaced with the selected sentence are output in the order of sentence numbers (step 6).

【0007】図2は、本発明の原理構成図である。FIG. 2 is a block diagram showing the principle of the present invention.

【0008】本発明(請求項2)は、少なくとも3以上
の文からなるテキストを要約するテキスト要約装置であ
って、テキストを文に分割し、分割された文毎にシーケ
ンシャルな文番号を付与する文分割手段1と、一定の指
示に基づいて各文に重要度を付与する重要度付与手段2
と、重要度の高い文から優先的に文を選択する重要文選
択手段3と、選択されない単一の文あるいは、文番号が
連続する複数の文を記号または改行に置換する文置換手
段4と、選択された文または、該選択された文と置換さ
れた記号の文字数が指定された制限文字数、または、指
定された要約率から計算された文字数の範囲内を越えて
いないかどうかを調べる制限文字数判定手段5と、制限
文字数判定手段5において、範囲を越えていなければ、
選択された文と置換された記号を文番号順に出力する出
力手段6とを有する。
The present invention (Claim 2) is a text summarizing device for summarizing a text composed of at least three sentences, the text is divided into sentences, and a sequential sentence number is given to each divided sentence. Sentence dividing means 1 and importance degree giving means 2 for giving importance degree to each sentence based on a certain instruction
An important sentence selecting means 3 for preferentially selecting a sentence from a sentence having a high degree of importance, and a sentence replacing means 4 for replacing a single sentence that is not selected or a plurality of sentences having consecutive sentence numbers with a symbol or a line feed. , The limit of checking whether the number of characters of the selected sentence or the symbol replaced with the selected sentence exceeds the specified number of characters or the number of characters calculated from the specified summarization rate. In the character number determination means 5 and the limited character number determination means 5, if the ranges are not exceeded,
The output unit 6 outputs the selected sentence and the replaced symbols in the sentence number order.

【0009】本発明(請求項3)は、少なくとも3以上
の文からなるテキストを要約するテキスト要約プログラ
ムであって、テキストを文に分割し、分割された文毎に
シーケンシャルな文番号を付与する文分割プロセスと、
一定の指示に基づいて各文に重要度を付与する重要度付
与プロセスと、重要度の高い文から優先的に文を選択す
る重要文選択プロセスと、選択されない単一の文あるい
は、文番号が連続する複数の文を記号または改行に置換
する文置換プロセスと、選択された文または、該選択さ
れた文と置換された記号の文字数が指定された制限文字
数、または、指定された要約率から計算された文字数の
範囲内を越えていないかどうかを調べる制限文字数判定
プロセスと、制限文字数判定プロセスにおいて、範囲を
越えていなければ、選択された文と置換された記号を文
番号順に出力する出力プロセスとを有する。
The present invention (claim 3) is a text summarizing program for summarizing a text composed of at least three sentences, wherein the text is divided into sentences and a sequential sentence number is given to each divided sentence. The sentence-breaking process,
The importance assignment process that assigns importance to each sentence based on certain instructions, the important sentence selection process that preferentially selects sentences from the ones with high importance, the single sentence that is not selected, or the sentence number From the sentence substitution process that replaces multiple consecutive sentences with symbols or line breaks, and the specified limit on the number of characters of the selected sentence or the symbols replaced with the selected sentence, or the specified summarization rate. In the limit character number judgment process that checks whether the number of characters exceeds the calculated number of characters, and in the limit character number judgment process, if the range is not exceeded, output the symbols replaced with the selected sentence in sentence number order Process and.

【0010】本発明(請求項4)は、少なくとも3以上
の文からなるテキストを要約するテキスト要約プログラ
ムを格納した記憶媒体であって、テキストを文に分割
し、分割された文毎にシーケンシャルな文番号を付与す
る文分割プロセスと、一定の指示に基づいて各文に重要
度を付与する重要度付与プロセスと、重要度の高い文か
ら優先的に文を選択する重要文選択プロセスと、選択さ
れない単一の文あるいは、文番号が連続する複数の文を
記号または改行に置換する文置換プロセスと、選択され
た文または、該選択された文と置換された記号の文字数
が指定された制限文字数、または、指定された要約率か
ら計算された文字数の範囲内を越えていないかどうかを
調べる制限文字数判定プロセスと、制限文字数判定プロ
セスにおいて、範囲を越えていなければ、選択された文
と置換された記号を文番号順に出力する出力プロセスと
を有する。上記のように、本発明では、入力されたテキ
ストは文に分割され、分割された各文に対して先頭から
順にM番までの文番号が付与される。これにより得られ
た各文に対して、一定の指示に基づき重要度を付与す
る。各文に付与された重要度に従って、重要度の高い文
から優先的にN個の文を選択する。このとき選択されな
い(M−N)個の文については、選択された文同士に挟
まれた一つの文、あるいは、連続する複数の文は、一つ
の記号に置換(または改行)される。これらの選択され
た文とそれに挟まれた置換済の記号の合計の文字数が要
約に課せられた制限文字数や要約率から計算された文字
数の範囲を越えていないかどうかが調べられる。要約の
制限文字数や要約率を越えている場合は、Nの数値を変
更し、再度、重要度の高いN個の文を選択し直し、選択
されない文の記号化を経て、要約の制限文字数や要約率
を越えていないかどうかが調べられる。制限文字数や要
約率を越えていなければ、選択された文や置換された記
号が文番号に順に並べられて出力される。また、重要度
の高いN個の文を優先的に選ぶ際に、最初に制限文字数
や要約率を考慮して選び、Nの数値を変更するときに、
(N−1)してもよいし、1つずつ選択していき、文の
数が制限文字数や要約率の範囲で最大になるまでNの数
値を(N+1)に変更してもよく、重要度を考慮してい
れば選択の方法は問わない。
The present invention (Claim 4) is a storage medium storing a text summarization program for summarizing a text consisting of at least three or more sentences, wherein the text is divided into sentences and the divided sentences are sequentially divided. A sentence segmentation process that assigns sentence numbers, an importance assignment process that assigns importance to each sentence based on certain instructions, an important sentence selection process that preferentially selects sentences from those with high importance, and a selection Sentence substitution process that replaces a single sentence or multiple sentences with consecutive sentence numbers with symbols or line breaks, and a specified limit on the number of characters in the selected sentence or the symbol replaced with the selected sentence In the limit character count judgment process that checks whether the number of characters or the number of characters calculated from the specified summarization rate does not exceed the range, and the limit character count judgment process, If not exceeded, and an output process for outputting the replaced with the selected text symbol sentences numerical order. As described above, in the present invention, the input text is divided into sentences, and sentence numbers from the beginning to the Mth are sequentially given to the respective divided sentences. The degree of importance is given to each sentence thus obtained based on a certain instruction. According to the degree of importance given to each sentence, N sentences are preferentially selected from the sentences of high importance. At this time, for the (MN) sentences that are not selected, one sentence sandwiched between the selected sentences or a plurality of consecutive sentences is replaced with one symbol (or a line feed). It is checked whether the total number of characters of these selected sentences and the substituted symbols sandwiched between them exceeds the limit of the number of characters imposed on the abstract or the number of characters calculated from the abstraction rate. If the number of characters or the rate of summarization exceeds the limit, the number of N is changed, N sentences with high importance are selected again, and the sentences not selected are symbolized. It is checked whether the summarization rate is exceeded. If the number of characters and the summarization rate are not exceeded, the selected sentence and the replaced symbol are arranged and output in order of the sentence number. Also, when preferentially selecting N high-sentence sentences, first select in consideration of the limited number of characters and the summarization rate, and when changing the numerical value of N,
(N-1) may be selected, or the number of sentences may be selected one by one and changed to (N + 1) until the number of sentences becomes maximum within the range of the limited number of characters or the summarization rate. The method of selection does not matter as long as the degree is taken into consideration.

【0011】例えば、以下のような文があった場合に、
『(1)清原選手の満塁ホームランなどにより巨人が序
盤は大量点リードしました。(2)しかし、中盤に入り
投手陣が打ち込まれ、終盤ヤクルトが同点に追い付きま
した。(3)支配は延長戦に入りヤクルトが古田選手の
タイムリーヒットでサヨナラ勝ちしました。(4)この
結果、巨人は今期のヤクルトへの負け越しが決定しまし
た。』 重要文が仮に(1)と(4)であるとすると、従来の要
約結果では、『清原選手の満塁ホームランなどにより巨
人が序盤は大量点リードしました。この結果、巨人は今
期のヤクルトへの負け越しが決定しました。』という文
章が抽出されたまま表示され、恰も巨人が試合に勝った
ような誤解を招く。これに対して、本発明では、『清原
選手の満塁ホームランなどにより巨人が序盤は大量点リ
ードしました。…この結果、巨人は今期のヤクルトへの
負け越しが決定しました。』のように、直接2つの重要
文が接続しないことで、上記のような誤解を防止するこ
とが可能となる。
For example, if there is the following sentence,
"(1) Giant led a large number of points in the early stages due to Kiyohara's home run home run. (2) However, the pitchers were struck in the middle of the game, and Yakult came in at the end of the match. (3) Dominance entered overtime and Yakult won the goodbye with Furuta's timely hit. (4) As a result, the giant decided to lose to Yakult this season. ] If the important sentences are (1) and (4), the conventional summary results show that "Kiyohara led a large number of points in the early stages due to the base run of Mr. Kiyohara. As a result, the giant decided to lose to Yakult this term. The text "" is displayed as it is extracted, which is misleading as if the giant won the match. On the other hand, in the present invention, "Giants lead a large number of points in the early stages due to Kiyohara's home run. … As a result, the giant decided to lose to Yakult this season. It is possible to prevent the above misunderstanding by not connecting the two important sentences directly.

【0012】このように、重要度の高い文を優先して残
し、予め決められた制限文字数や要約率以内に収まるよ
う文章を残すか否かを決めることが可能となり、互いに
内容の相矛盾する文章が隣接して抽出された場合など、
その間に記号を配置するなり改行することで直接の結合
を避け、読み手によって要約文の自然性を向上させるこ
とが可能となる。
As described above, it becomes possible to preferentially leave a sentence having a high degree of importance, and to decide whether or not to leave a sentence so as to fit within a predetermined limited number of characters or a summarization rate, and the contents conflict with each other. For example, when sentences are extracted adjacent to each other,
By arranging the symbols between them and breaking the line, it is possible to avoid direct connection and improve the naturalness of the abstract by the reader.

【0013】[0013]

【発明の実施の形態】以下、図面と共に本発明の実施の
形態について説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.

【0014】図3は、本発明の一実施の形態におけるテ
キスト要約装置の構成を示す。
FIG. 3 shows the configuration of a text summarizing device according to an embodiment of the present invention.

【0015】同図に示すテキスト要約装置は、文分割部
1、重要度付与部2、重要文選択部3、文置換部4、制
限文字数判定部5、出力部6及び制御部7から構成され
る。文分割部1は、入力されたテキストを句点や行の長
さや特別な文字列の有無を手掛かりに文に分割し、先頭
の文から順番に1からMまでシーケンシャルな文番号を
付与する。
The text summarizing device shown in FIG. 1 comprises a sentence dividing unit 1, an importance degree assigning unit 2, an important sentence selecting unit 3, a sentence replacing unit 4, a limited character number determining unit 5, an output unit 6 and a control unit 7. It The sentence dividing unit 1 divides the input text into sentences based on punctuations, line lengths and the presence / absence of special character strings, and assigns sequential sentence numbers from 1 to M sequentially from the first sentence.

【0016】重要度付与部2は、各文に対して形態素解
析を行い、形態素に分割し、予め保持している形態素か
ら構成されたパターンとのマッチングにより、文を構成
する形態素がパターンにマッチすれば、そのパターンが
持っている重要度をその文に付与する。この例として
は、特開2000−148767に開示されている方法
を用いることができる。当該方法は、重要度を規定する
表現の形態素情報と重要度が記述された重要度付与テー
ブルを参照することにより、文書の各文中に含まれてい
る表現の重要度から各文に重要度を付与する。当該重要
度は数値が高い程重要であることを表しており、重要度
付与テーブルに記述されている表現を含んだ文には、含
んでいる表現のうち最も高い値の重要度が付与される。
また、重要度付与テーブルに記述されている表現を含ん
でいない文には、デフォルトで設定された重要度が付与
される。各文に重要度が付与された文書は、さらに、重
要度を調整する表現の形態素情報と重要度調整値が記述
されている重要度調整テーブルを参照することにより、
付与されている重要度を調整する。
The importance assigning unit 2 performs morphological analysis on each sentence, divides the sentence into morphemes, and matches with a pattern formed of morphemes held in advance, so that the morphemes forming the sentence match the pattern. If so, the importance of the pattern is given to the sentence. As this example, the method disclosed in Japanese Patent Laid-Open No. 2000-148767 can be used. The method refers to the morpheme information of expressions that define the importance and the importance assignment table in which the importance is described, and determines the importance of each sentence from the importance of the expression included in each sentence of the document. Give. The higher the numerical value of the importance, the more important it is, and the sentence containing the expression described in the importance assignment table is assigned the highest value of the included expressions. .
In addition, the degree of importance set by default is given to a sentence that does not include the expression described in the degree-of-importance table. For documents with importance attached to each sentence, by further referring to the importance adjustment table in which the morpheme information of the expression for adjusting the importance and the importance adjustment value are described,
Adjust the assigned importance.

【0017】重要文選択部3は、各文に付与された重要
度に基づいて上位N個の文を選択する。
The important sentence selection unit 3 selects the top N sentences based on the degree of importance given to each sentence.

【0018】文置換部4は、選択されない残りの文につ
いて、選択された文と選択された文に挟まれた文また
は、連続する複数の文を1つの記号“…”に置き換え
る。また、記号に置き換える以外に、改行を入れる方法
もある。
The sentence replacing unit 4 replaces the selected sentence and the sentence sandwiched between the selected sentence or a plurality of consecutive sentences with one symbol "..." For the remaining unselected sentences. Also, instead of replacing with symbols, there is also a way to insert a line break.

【0019】制限文字数判定部5は、重要文選択部3に
おいて選択された文と文置換部4において置換された記
号の文字数の総和が指定された制限数や要約率から計算
された文字数を越えないかどうかを調べる。
The limit character number determination unit 5 exceeds the specified limit number or the number of characters calculated from the summarization rate when the sum of the character numbers of the sentence selected by the important sentence selection unit 3 and the symbols replaced by the sentence replacement unit 4 exceeds the specified number. Check if there isn't.

【0020】出力部6は、選択された文と置換された記
号を1からMまでのシーケンシャルな番号の順に並び替
えて出力する。
The output unit 6 rearranges the symbols replaced with the selected sentence in the order of the sequential numbers from 1 to M and outputs them.

【0021】制御部7は、上記の各構成要素を制御す
る。
The control unit 7 controls each of the above components.

【0022】次に、上記の構成における動作を説明す
る。
Next, the operation of the above configuration will be described.

【0023】図4は、本発明の一実施の形態における動
作を示すフローチャートである。
FIG. 4 is a flowchart showing the operation of the embodiment of the present invention.

【0024】ステップ101) 最初に、文分割部1に
おいて、入力されたテキストを文に分割し、シーケンシ
ャルな文番号を1〜Mまで付与する。
Step 101) First, in the sentence dividing unit 1, the input text is divided into sentences, and sequential sentence numbers 1 to M are given.

【0025】ステップ102) 重要度付与部2は、各
文に重要度を付与する。
Step 102) The importance assigning section 2 assigns importance to each sentence.

【0026】ステップ103) 重要文選択部3におい
て、文に付与された重要度に基づいて上位N個の文を選
択する。
Step 103) The important sentence selection unit 3 selects the top N sentences based on the degree of importance given to the sentence.

【0027】ステップ104) 文置換部4において、
ステップ103で選択されなかった(M−N)個の文に
ついて、選択された文に挟まれている文または、連続す
る複数の文を1つの器具尾“…”や「改行」に置換す
る。
Step 104) In the sentence replacement unit 4,
For the (M−N) sentences not selected in step 103, the sentence sandwiched between the selected sentences or a plurality of consecutive sentences is replaced with one instrument tail “...” Or “line feed”.

【0028】ステップ105) 制約文字数判定部5
は、ステップ103で選択された文と置換された記号の
文字数の総和が予め指定されている制限文字数や要約率
から計算された文字数を越えていないかを調べる。
Step 105) Constraint character number determination unit 5
Checks whether the total sum of the numbers of characters replaced with the sentence selected in step 103 exceeds the number of characters specified in advance or the number of characters calculated from the summarization rate.

【0029】ステップ106) 越えている場合には、
Nの数を変更し、ステップ103に移行し、再度、ステ
ップ103とステップ104の処理を行なう。この処理
を制限文字数や要約率を越えない範囲まで繰り返す。例
えば、Nを(N−1)に変更して、上記のステップを繰
り返す。
Step 106) If the value is exceeded,
The number of N is changed, the process proceeds to step 103, and the processes of step 103 and step 104 are performed again. This process is repeated until the number of characters and the summarization rate are not exceeded. For example, change N to (N-1) and repeat the above steps.

【0030】ステップ107) ステップ105におい
て、選択された文と置換された記号の文字数の総和が制
限文字数や要約率を越えない場合は、文番号順に並べ替
えて要約文として出力する。
Step 107) In step 105, if the total sum of the numbers of characters of the symbols replaced with the selected sentence does not exceed the limited number of characters or the summarization rate, they are rearranged in the order of the sentence numbers and output as a summarized sentence.

【0031】[0031]

【実施例】以下、図面と共に本発明の実施例を説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0032】図5は、本発明の一実施例のテキストの例
を示し、図6は、本発明の一実施例のテキストの各文の
重要度の例を示す。
FIG. 5 shows an example of the text of the embodiment of the present invention, and FIG. 6 shows an example of the importance of each sentence of the text of the embodiment of the present invention.

【0033】図6の各文の重要度は、図5に示すテキス
トを文分割部1で分割し、重要度付与部2において重要
度を付与したものである。各文の重要度は、予め指定し
た文を構成する形態素や形態素の並びが持つ重要度を、
これらの形態素が出現する文に付与することで実現され
る。重要度の付与方法は、前述した特開2000−14
876に開示されている方法を適用することができる。
The degree of importance of each sentence in FIG. 6 is obtained by dividing the text shown in FIG. 5 by the sentence dividing unit 1 and giving the degree of importance by the degree of importance providing unit 2. The importance of each sentence is the importance of a morpheme or a sequence of morphemes that make up a previously specified sentence.
It is realized by adding these morphemes to the appearing sentence. The method of assigning importance is described in the above-mentioned JP 2000-14.
The method disclosed in 876 can be applied.

【0034】例えば、指定された制限文字数が300バ
イトであるとすると、制限文字数判定部5では、最初に
制限文字数を考慮して重要度の高い順に文を選択する場
合、10、4、11、2番目の文の順序で選択される。
このときの文字数は262バイトである。さらに、次
に、重要度の高い5文目を加えると、300バイトを越
えるので、5文目は選択しない。上記の4つの選択され
た文の残りの文のうち、3文目、5〜9文目が選択され
た文に挟まれているので、これを1つの記号“…”にそ
れぞれ置換する。
For example, assuming that the specified limited number of characters is 300 bytes, the limited number of characters determination unit 5 selects the sentences in descending order of importance in consideration of the limited number of characters, 10, 4, 11, Selected in the order of the second sentence.
The number of characters at this time is 262 bytes. Furthermore, if the fifth sentence of high importance is added next, it exceeds 300 bytes, so the fifth sentence is not selected. Of the remaining sentences of the above-mentioned four selected sentences, the third sentence and the fifth to ninth sentences are sandwiched by the selected sentences, and therefore these are replaced by one symbol "...".

【0035】選択された文と置換された記号の文字数の
総和は、記号が1つが2バイトであるので、266バイ
トになる。これは、制限文字数を越えないので、文番号
順に置き換えられて出力部6から出力される。この出力
結果を図7に示す。
The total number of characters of the symbols replaced with the selected sentence is 266 bytes because one symbol has 2 bytes. Since the number of characters does not exceed the limit number of characters, they are replaced in the order of sentence numbers and output from the output unit 6. The output result is shown in FIG.

【0036】また、制限文字数が265バイトのときに
は、上記の4つの文を選択するところまでは同一である
が、置換された2つの記号を含めた文字数の総和が26
6バイトであるので、制限文字数を越えてしまう。この
場合は、重要度に従って選択する文を4文から10、
4、11番目の文である3文に減らす。選択された文に
挟まれている残りの文は、5〜9文だけになり、これを
文置換部4において、記号“…”に置換する。選択され
た文と置換された文に挟まれている残りの文は5〜9文
だけになり、これを記号“…”に置換する。選択された
文と置換された記号の文字列の総和は166バイトとな
り、制限文字数を越えていないので、文番号順に並び替
えて出力部6から出力される。
Further, when the limited number of characters is 265 bytes, it is the same until the above four sentences are selected, but the total number of characters including the replaced two symbols is 26.
Since it is 6 bytes, the number of characters exceeds the limit. In this case, select sentences from 4 to 10, according to the importance.
Reduced to the 4th and 11th sentences, 3 sentences. The remaining sentences sandwiched between the selected sentences are only 5 to 9 sentences, which are replaced by the symbol "..." In the sentence replacement unit 4. The remaining sentences sandwiched between the selected sentence and the replaced sentence are only 5 to 9 sentences, which are replaced with the symbol "...". The total sum of the selected sentence and the character string of the replaced symbol is 166 bytes, which does not exceed the limit number of characters, so the sentences are rearranged in the order of sentence numbers and output from the output unit 6.

【0037】文末に改行を加えた形式で出力する場合に
は、改行コードの文字数も加えて計算し、制限文字数を
越えないかどうかを判定する。
In the case of outputting in a format with a line feed added at the end of the sentence, the number of characters of the line feed code is also added to calculate and it is determined whether the limit number of characters is not exceeded.

【0038】また、本発明は、上記の一連の動作をプロ
グラムとして構築し、テキスト要約装置として利用され
るコンピュータにインストールする、または、ネットワ
ークを介して流通させることも可能である。
In the present invention, the above series of operations can be constructed as a program and installed in a computer used as a text summarizing device, or distributed through a network.

【0039】また、構築されたプログラムをテキスト要
約装置として利用されるコンピュータに接続されるハー
ドディスク装置や、フロッピー(登録商標)ディスク、
CD−ROM等の可搬記憶媒体に格納しておき、本発明
を実施する際に、インストールすることにより、容易に
本発明を実現できる。
In addition, a hard disk device connected to a computer that uses the constructed program as a text summarizing device, a floppy (registered trademark) disk,
The present invention can be easily realized by storing it in a portable storage medium such as a CD-ROM and installing it when implementing the present invention.

【0040】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内において、種々変更・応
用が可能である。
The present invention is not limited to the above embodiment, but various modifications and applications are possible within the scope of the claims.

【0041】[0041]

【発明の効果】上述のように、本発明によれば、重要度
の高い文はそのままの文として、重要度の高くない文は
記号に置換されてテキストの要約に含まれているので、
テキストの大意を把握することができるだけでなく、重
要度の高い離れた文同士が隣接することによる誤読を防
止することができる。
As described above, according to the present invention, a sentence having a high degree of importance is left as it is, and a sentence having a low degree of importance is replaced with a symbol and included in the text summary.
Not only is it possible to understand the meaning of the text, but it is possible to prevent erroneous reading due to the fact that distant sentences of high importance are adjacent to each other.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明の一実施の形態におけるテキスト要約装
置の構成図である。
FIG. 3 is a configuration diagram of a text summarizing device according to an embodiment of the present invention.

【図4】本発明の一実施の形態における動作のフローチ
ャートである。
FIG. 4 is a flowchart of an operation in the embodiment of the present invention.

【図5】本発明の一実施例のテキストの例である。FIG. 5 is an example of text of an embodiment of the present invention.

【図6】本発明の一実施例のテキストの各文の重要度の
例である。
FIG. 6 is an example of the degree of importance of each sentence of text according to an embodiment of the present invention.

【図7】本発明の一実施例のテキストの要約の出力結果
の例である。
FIG. 7 is an example of an output result of a text summary according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 順序付け手段、文分割部 2 重要度算出手段、重要度付与部 3 文抽出手段、重要文選択部 4 文置換手段、文置換部 5 制限文字数判定手段、制限文字数判定部 6 出力手段、出力部 7 制御部 1 Ordering means, sentence division 2 Importance calculation means, Importance assigning section 3 sentence extraction means, important sentence selection section 4 sentence replacement means, sentence replacement unit 5 Restricted character number determination means, restricted character number determination unit 6 Output means, output section 7 control unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 林 良彦 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 小原 永 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B009 QA05 RB22 5B075 ND03 NS01 PQ80    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Yoshihiko Hayashi             2-3-1, Otemachi, Chiyoda-ku, Tokyo             Inside Telegraph and Telephone Corporation (72) Inventor Ei Ohara             2-3-1, Otemachi, Chiyoda-ku, Tokyo             Inside Telegraph and Telephone Corporation F-term (reference) 5B009 QA05 RB22                 5B075 ND03 NS01 PQ80

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 少なくとも3以上の文からなるテキスト
を要約するテキスト要約方法において、 前記テキストを文に分割し、分割された文毎にシーケン
シャルな文番号を付与し、 一定の指示に基づいて前記各文に重要度を付与し、 重要度の高い文から優先的に文を選択し、 選択されない単一の文あるいは、文番号が連続する複数
の文を記号または改行に置換し、 選択された文または、該選択された文と置換された記号
の文字数が指定された制限文字数、または、指定された
要約率から計算された文字数の範囲内を越えていないか
どうかを調べ、 前記範囲を越えていなければ、前記選択された文と置換
された記号を文番号順に出力することを特徴とするテキ
スト要約方法。
1. A text summarizing method for summarizing a text consisting of at least three sentences, wherein the text is divided into sentences, a sequential sentence number is given to each of the divided sentences, and the text is divided into sentences based on a certain instruction. Each sentence is given a degree of importance, the sentence with the highest degree of importance is selected preferentially, and a single sentence that is not selected or multiple sentences with consecutive sentence numbers are replaced with symbols or line breaks. Check if the number of characters of the sentence or the symbol replaced with the selected sentence exceeds the specified limit number of characters or the range of the number of characters calculated from the specified summarization rate. If not, the text summarization method is characterized in that the symbols replaced with the selected sentence are output in the order of sentence numbers.
【請求項2】 少なくとも3以上の文からなるテキスト
を要約するテキスト要約装置であって、 前記テキストを文に分割し、分割された文毎にシーケン
シャルな文番号を付与する文分割手段と、 一定の指示に基づいて前記各文に重要度を付与する重要
度付与手段と、 重要度の高い文から優先的に文を選択する重要文選択手
段と、 選択されない単一の文あるいは、文番号が連続する複数
の文を記号または改行に置換する文置換手段と、 選択された文または、該選択された文と置換された記号
の文字数が指定された制限文字数、または、指定された
要約率から計算された文字数の範囲内を越えていないか
どうかを調べる制限文字数判定手段と、 前記制限文字数判定手段において、前記範囲を越えてい
なければ、前記選択された文と置換された記号を文番号
順に出力する出力手段とを有することを特徴とするテキ
スト要約装置。
2. A text summarizing device for summarizing a text composed of at least three sentences, the sentence dividing device dividing the text into sentences, and giving a sequential sentence number to each divided sentence, Based on the instruction, importance degree assigning means for assigning importance to each sentence, important sentence selecting means for preferentially selecting a sentence from sentences with high importance, single sentence not selected, or sentence number A sentence replacement means that replaces multiple consecutive sentences with symbols or line breaks, and the number of characters of the selected sentence or the symbols replaced with the selected sentence is limited to the specified number of characters or the specified summarization rate. In the limited character number determination means for checking whether the number of characters exceeds the calculated number of characters, and in the limited character number determination means, if the number of characters does not exceed the range, the text replaced with the selected sentence And a means for outputting the numbers in the order of sentence numbers.
【請求項3】 少なくとも3以上の文からなるテキスト
を要約するテキスト要約プログラムであって、 前記テキストを文に分割し、分割された文毎にシーケン
シャルな文番号を付与する文分割プロセスと、 一定の指示に基づいて前記各文に重要度を付与する重要
度付与プロセスと、 重要度の高い文から優先的に文を選択する重要文選択プ
ロセスと、 選択されない単一の文あるいは、文番号が連続する複数
の文を記号または改行に置換する文置換プロセスと、 選択された文または、該選択された文と置換された記号
の文字数が指定された制限文字数、または、指定された
要約率から計算された文字数の範囲内を越えていないか
どうかを調べる制限文字数判定プロセスと、 前記制限文字数判定プロセスにおいて、前記範囲を越え
ていなければ、前記選択された文と置換された記号を文
番号順に出力する出力プロセスとを有することを特徴と
するテキスト要約プログラム。
3. A text summarizing program for summarizing a text consisting of at least three sentences, the sentence dividing process for dividing the text into sentences, and giving a sequential sentence number to each divided sentence, Based on the instructions, the importance assignment process that assigns importance to each sentence, the important sentence selection process that preferentially selects sentences from the ones with high importance, the single sentence that is not selected, or the sentence number From the sentence replacement process that replaces multiple consecutive sentences with symbols or line breaks, and the specified limit on the number of characters of the selected sentence or the symbols replaced with the selected sentence, or the specified summarization rate. In the limit character number determination process for checking whether the number of characters exceeds the calculated number of characters, and in the limit character number determination process, if the range is not exceeded, A text summarization program, comprising: an output process for outputting the selected sentence and the replaced symbols in the sentence number order.
【請求項4】 少なくとも3以上の文からなるテキスト
を要約するテキスト要約プログラムを格納した記憶媒体
であって、 前記テキストを文に分割し、分割された文毎にシーケン
シャルな文番号を付与する文分割プロセスと、 一定の指示に基づいて前記各文に重要度を付与する重要
度付与プロセスと、 重要度の高い文から優先的に文を選択する重要文選択プ
ロセスと、 選択されない単一の文あるいは、文番号が連続する複数
の文を記号または改行に置換する文置換プロセスと、 選択された文または、該選択された文と置換された記号
の文字数が指定された制限文字数、または、指定された
要約率から計算された文字数の範囲内を越えていないか
どうかを調べる制限文字数判定プロセスと、 前記制限文字数判定プロセスにおいて、前記範囲を越え
ていなければ、前記選択された文と置換された記号を文
番号順に出力する出力プロセスとを有することを特徴と
するテキスト要約プログラムを格納した記憶媒体。
4. A storage medium storing a text summarization program for summarizing a text consisting of at least three sentences, wherein the text is divided into sentences, and a sentence is given a sequential sentence number for each divided sentence. A division process, an importance assigning process that assigns importance to each sentence based on a certain instruction, an important sentence selection process that preferentially selects sentences from those with high importance, and a single sentence that is not selected. Alternatively, a sentence replacement process that replaces multiple sentences with consecutive sentence numbers with symbols or line breaks, and a specified number of characters of the selected sentence or the symbols replaced with the selected sentence, or a specified number of characters In the limit character number determination process for checking whether the number of characters exceeds the range of the number of characters calculated from the summarized rate, and in the limit character number determination process, A storage medium storing a text summarization program, characterized in that it has an output process for outputting the selected sentence and the replaced symbols in the sentence number order if they do not exceed.
JP2001352172A 2001-11-16 2001-11-16 Text summarizing method and device, text summarizing program and storage medium stored with text summarizing program Pending JP2003150614A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001352172A JP2003150614A (en) 2001-11-16 2001-11-16 Text summarizing method and device, text summarizing program and storage medium stored with text summarizing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001352172A JP2003150614A (en) 2001-11-16 2001-11-16 Text summarizing method and device, text summarizing program and storage medium stored with text summarizing program

Publications (1)

Publication Number Publication Date
JP2003150614A true JP2003150614A (en) 2003-05-23

Family

ID=19164386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001352172A Pending JP2003150614A (en) 2001-11-16 2001-11-16 Text summarizing method and device, text summarizing program and storage medium stored with text summarizing program

Country Status (1)

Country Link
JP (1) JP2003150614A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008050649A1 (en) * 2006-10-23 2008-05-02 Nec Corporation Content summarizing system, method, and program
JP2019016239A (en) * 2017-07-07 2019-01-31 富士通株式会社 Learning program, learning method, and learning apparatus
CN109684642A (en) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 A kind of abstract extraction method of combination page parsing rule and NLP text vector

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008050649A1 (en) * 2006-10-23 2008-05-02 Nec Corporation Content summarizing system, method, and program
JP5104762B2 (en) * 2006-10-23 2012-12-19 日本電気株式会社 Content summarization system, method and program
JP2019016239A (en) * 2017-07-07 2019-01-31 富士通株式会社 Learning program, learning method, and learning apparatus
CN109684642A (en) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 A kind of abstract extraction method of combination page parsing rule and NLP text vector
CN109684642B (en) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 Abstract extraction method combining page parsing rule and NLP text vectorization

Similar Documents

Publication Publication Date Title
CA1189976A (en) Displaying and correcting method for machine translation system
US4689768A (en) Spelling verification system with immediate operator alerts to non-matches between inputted words and words stored in plural dictionary memories
RU2214620C2 (en) Reduced-keyboard system for ambiguity elimination
EP0098959A2 (en) Method for producing right margin justified text data in a text processing system
JPH07244661A (en) System and method for developing glyph of unknown character
JPH0418346B2 (en)
JPH079655B2 (en) Spelling error detection and correction method and apparatus
JPH01214964A (en) European word processor with correcting function
JP5056337B2 (en) Information retrieval system
JP2013050890A (en) Text retrieval device, text retrieval program, and text retrieval method
JP2003150614A (en) Text summarizing method and device, text summarizing program and storage medium stored with text summarizing program
EP0097818A2 (en) Spelling verification method and typewriter embodying said method
KR930010909B1 (en) Method and apparatus for korean character recognition from korean alphabet row
JP2007317214A (en) Unicode converter
US5371676A (en) Apparatus and method for determining data of compound words
CN106471743A (en) The coding of common ascii data stream
JP4250024B2 (en) Text summarization device and text summarization program
JPH0683812A (en) Kana/kanji converting device for document input device
JPH0869474A (en) Similar character string retrieval device
JP2714238B2 (en) Character processor
JP2007122661A (en) Document data processor and document data processing program
JP2005202739A (en) Machine translation apparatus, machine translation method and machine translation program
RU2473964C1 (en) Method of detecting identification features for different letter-symbol writing systems
JP2021026774A (en) Document evaluation device, document evaluation method, and document evaluation program
JPH11191105A (en) Method and device for processing document and recording medium recording processing program therefor

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060704