JPH0474259A - Document summarizing device - Google Patents

Document summarizing device

Info

Publication number
JPH0474259A
JPH0474259A JP2187096A JP18709690A JPH0474259A JP H0474259 A JPH0474259 A JP H0474259A JP 2187096 A JP2187096 A JP 2187096A JP 18709690 A JP18709690 A JP 18709690A JP H0474259 A JPH0474259 A JP H0474259A
Authority
JP
Japan
Prior art keywords
sentence
document
sentences
important
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2187096A
Other languages
Japanese (ja)
Other versions
JPH0748217B2 (en
Inventor
Satoshi Kinoshita
聡 木下
Kenji Ono
顕司 小野
Teruhiko Ukita
浮田 輝彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP2187096A priority Critical patent/JPH0748217B2/en
Publication of JPH0474259A publication Critical patent/JPH0474259A/en
Publication of JPH0748217B2 publication Critical patent/JPH0748217B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To improve the accuracy of recognition for decision of the importance of the sentences forming a document by recognizing and deciding the important sentences of the document based on the analyzing results of the component sentences of the document and the knowledges prepared for recognition of the important parts of the document which are stored in a knowledge storage means. CONSTITUTION:A sentence analyzing part 2 extracts the component sentences of a document out of the document information inputted from a sentence input part 1 and analyzes the morphemes of these sentences. At the same time, the character modifying information added to the document information is also detected and given to an important sentence deciding part 3 together with the morpheme analyzing results to be compared with the character modifying information 5 stored in a knowledge storage part 4. Then the part 3 extracts the sentences including the characters added with the character modifying information as the highly important sentences and at the same time applies properly a general important sentence extracting method to extract the highly important sentences out of a document. Thus it is possible to improve the recognizing performance of the sentence important and to produce a summary sentence of high quality.

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は文書中の重要な部分を抽出した要約文を、精度
良く効率的に作成することのできる文書要約装置に関す
る。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial Application Field) The present invention relates to a document summarization device that can accurately and efficiently create a summary text that extracts important parts of a document.

(従来の技術) 情報化社会の発展に伴い種々の文書情報が溢れている。(Conventional technology) With the development of the information society, various types of document information are overflowing.

このような大量の文書情報を効率的にう)類整理するこ
とを目的とする等して、文書の要約文を自動的に作成す
ることが種々試みられている。
Various attempts have been made to automatically create document summaries with the aim of efficiently organizing such large amounts of document information into categories.

しかして文書の要約は、一般的には文書中の重要な部分
を取り出し、これらを繋ぎ合わせて要約文章の形式にま
とめることにより実現される。従って文書中の重要な部
分を認識する技術は、その要約文を作成する上で非常に
重要な基本技術であると云える。
Generally, summarizing a document is achieved by extracting important parts of the document and connecting them together in the form of a summary sentence. Therefore, it can be said that the technology for recognizing important parts of a document is a very important basic technology for creating a summary sentence.

ところで文書中の重要な部分を認識する為の手法として
、従来一般的には ■ 単語の出現頻度や分布状況に着目する手法■ 主張
、評価、意見を表す語當に着目する手法■ 言語外の知
識を利用する手法 ■ 接続詞等により示される文書構造に着目する手法 等が提唱されている。
By the way, the conventional methods for recognizing important parts of a document are: ■ A method that focuses on the frequency and distribution of words. ■ A method that focuses on words that express claims, evaluations, and opinions. ■ A method that focuses on words that express assertions, evaluations, and opinions. Techniques that utilize knowledge ■ Techniques that focus on the document structure indicated by conjunctions, etc. have been proposed.

■の「単語の出現頻度や分布状況に着目する手法」は、
文書にて主張されようとしている重要な事項については
、その読み手の理解を助けることを目的とする等して、
繰り返し何度も用いられたり、或いは類似した言葉を用
いて言い換えられたりすることが多いと云う前提に基づ
き、文書の広い範囲に亘って数多く分布・出現する語を
含む文を集計処理するだけで良いので比較的簡単にその
要約処理を実現することができる。然し乍ら、その反面
、重要であると判定された語(単語)を含んでいない文
については、要約文の作成の為の抽出対象から外される
ことになる。この結果、例えば重要な語(単語)が代名
詞にて参照されているような場合、仮にその文が重要な
意味を持っていても要約文の作成には利用されないこと
になる。
■ “Method that focuses on the frequency and distribution of words”
Regarding important matters to be asserted in the document, for the purpose of helping the reader understand, etc.
Based on the premise that words are often used repeatedly or paraphrased using similar words, it is possible to simply aggregate and process sentences containing words that are distributed and appear in large numbers over a wide range of documents. Since the summarization process is good, it is relatively easy to implement the summarization process. However, on the other hand, sentences that do not include words determined to be important are excluded from extraction targets for creating a summary sentence. As a result, if an important word is referred to by a pronoun, for example, even if the sentence has an important meaning, it will not be used to create a summary sentence.

従って適切な要約文を作成することができない場合が往
々にして生じると云う不具合がある。
Therefore, there is a problem in that it is often impossible to create an appropriate summary sentence.

また■の「主張、評価、意見を表す語堂に着目す8手法
」は、論説調の文章(論説文)の要約に多く利用される
手法で、その論説文においてテーマとなっている事項に
関する文書作成者の主張や評価、意見が重要であるとの
前提に立脚したものである。しかしてこの手法では、例
えば「・・・と思う」 U・・・であろう」等の、主張
や意見、推測等を述べる際に用いられる語交や特定の表
現を含む文を重要な文として判断・抽出し、その要約文
の作成が行われる。
In addition, ■ ``8 methods that focus on words that express claims, evaluations, and opinions'' is a method that is often used to summarize editorial-style texts (opinionary texts), and is a method that is often used to summarize editorial-style texts (opinionary texts). It is based on the premise that the arguments, evaluations, and opinions of document creators are important. However, with this method, important sentences include sentences that include colloquialisms or specific expressions used when expressing assertions, opinions, speculations, etc., such as "I think..." or "U..." It is judged and extracted as such, and a summary sentence is created.

更に■の「言語外の知識を利用する手法」は、文の解析
に利用する各単語の品詞情報や文法等の言語的な知識の
みならず、単語に付与された概念が現実社会においてど
のような性質を持っているかと云う知識、つまり言語的
な知識以外の知識を利用して文書要約を行うものである
。具体的には、文字通り文章を要約すると云うよりも、
むしろ成る1つの事柄について述べられている情報を文
書中から抽出・整理し、これを利用者の目的や興味等に
応じて、例えば表形式で出力するような用途に用いられ
る。
Furthermore, ``techniques that utilize non-linguistic knowledge'' in ■ are not only based on linguistic knowledge such as part-of-speech information and grammar of each word used to analyze sentences, but also how concepts attached to words are used in real society. This method uses knowledge other than linguistic knowledge, such as knowledge about whether a document has certain properties, to summarize the document. Specifically, rather than literally summarizing the text,
Rather, it is used for extracting and organizing information about a single matter from a document and outputting it in a table format, for example, depending on the user's purpose or interest.

このような手法は、予め知識が用意されている特定の分
野における文書要約に非常に効果がある。
Such a method is very effective for document summarization in a specific field for which knowledge is prepared in advance.

しかしこのような言語外の知識を大量に準備しておくこ
とは極めて困難であることのみならず、その知識を保持
しておくことも非常に困難である。
However, it is not only extremely difficult to prepare a large amount of such non-linguistic knowledge, but it is also extremely difficult to retain that knowledge.

しかもその処理に要する時間が非常に多大であり、現在
の技術レベルではその実現が非常に困難であると云う問
題がある。
Moreover, the time required for this processing is extremely large, and there is a problem in that it is extremely difficult to realize it at the current technological level.

これらに対して■の「接続詞等により示されるどちらの
文が重要であるかを求めて行くものである。具体的には
「従って」なる接続詞により2つの文が「順接」の関係
で結ばれているとき、後に位置する部分(文)を重要な
部分であるとして検出する。また「何故なら」なる接続
詞により2つの文が「理由」の関係で結ばれている場合
には、前に位置する文を重要な部分であるとして検出す
る。
For these, we will find out which sentence indicated by the conjunction, etc. in ■ is more important.Specifically, the conjunction "therefore" connects two sentences in a "conjunctive" relationship. , the part (sentence) located after is detected as an important part. Further, when two sentences are connected in a relationship of "reason" by a conjunction "because", the preceding sentence is detected as an important part.

このような文書の修辞的関係に基づいて文章構造を求め
ていくことにより、その構造がらより重要度の高い文(
部分)を順に求めていくことが可能となる。また上述し
た構造を求めるには、文間の修辞的関係を認識する必要
があるが、修辞的関係を求めるには主として接続詞に着
目すれば良く、しかもこれらの接続詞等の数も比較的限
られているので、上述した他の手法に比較してより精度
良く文書中の重要な部分を取り出すことが可能となる。
By determining the sentence structure based on the rhetorical relationships of the document, we can find sentences with higher importance based on the structure (
parts) in order. Furthermore, in order to obtain the above-mentioned structure, it is necessary to recognize the rhetorical relationships between sentences, but in order to find rhetorical relationships, it is sufficient to focus primarily on conjunctions, and the number of these conjunctions is relatively limited. Therefore, it is possible to extract important parts of a document with higher precision than with the other methods mentioned above.

然し乍ら、文章によっては又聞の修辞的関係を示す接続
詞が殆どない場合もあり、この結果、重とができないと
云う問題があり、結局、この手法だけを用いて精度の高
い要約文を作成するには問題がある。
However, depending on the text, there are cases where there are almost no conjunctions that indicate the rhetorical relationship between words, and as a result, there is a problem that it is not possible to make a synopsis.In the end, only this method is used to create a highly accurate summary sentence. There is a problem.

(発明が解決しようとする課題) このように従来より種々提唱されている要約文の作成手
法にあっては、文書からの重要な文を抽出する為の認識
精度が悪い為、作成された要約文の内容が本来の文書の
内容と大幅に異なってしまうことか多く、満足のいく精
度の高い要約文を得ることが非常に困難であった。
(Problem to be Solved by the Invention) As described above, various methods of creating summaries that have been proposed in the past have poor recognition accuracy for extracting important sentences from documents, so The content of the text often differs significantly from the content of the original document, making it extremely difficult to obtain a satisfactorily accurate summary text.

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、文書を構成する文の重要度を判
定する為の認識精度を向上させ、内容の充実した精度の
高い要約文を作成することのできる文書要約装置を提供
することにある。
The present invention was developed in consideration of these circumstances, and its purpose is to improve the recognition accuracy for determining the importance of the sentences that make up a document, and to provide a highly accurate summary that is rich in content. An object of the present invention is to provide a document summarization device that can create sentences.

[発明の構成コ (課題を解決するための手段) 本発明に係る文書要約装置は、要約対象とする文書を構
成している文をそれぞれ解析し、この解析結果と知識記
憶手段に格納されている文書中な文を抽出して要約文を
作成するようにしたことを特徴とするものである。
[Configuration of the Invention (Means for Solving the Problems) The document summarization device according to the present invention analyzes each sentence constituting a document to be summarized, and stores the results of this analysis and the knowledge storage means. This feature is characterized in that a summary sentence is created by extracting sentences from a given document.

(作 用) 本発明によれば、文書中の重要度の高い文を判定する為
の手掛かりとして、文章中の文字に付された文字修飾情
報を利用するので、例えば前述した従来の手法に併用し
て文書中の重要度の高い文を認識判定することにより、
精度良く重要な文を抽出し、これらの文をつなぎ合わせ
て充実した内容の要約文を作成することが可能となる。
(Function) According to the present invention, character modification information attached to characters in a document is used as a clue for determining sentences with high importance in a document, so it can be used, for example, in combination with the conventional method described above. By recognizing and determining sentences with high importance in a document,
It becomes possible to extract important sentences with high precision and connect these sentences to create a rich summary sentence.

(実施例) 以下、図面を参照して本発明の一実施例に係る文書要約
装置について説明する。
(Embodiment) A document summarization device according to an embodiment of the present invention will be described below with reference to the drawings.

第19図は実施例装置の概略構成を示すブロック図であ
り、 lは文人内部である。この人力部Iは、キーボー
ド等から入力されて文書作成された文書情報を格納する
バッファメモリ機能、或いは他の装置にて作成された文
書情報を入力し、これを格納保持するメモリ機能からな
る。尚、文書画像を入力し、これを認識処理してコード
化される文書段落等を手掛かりとしてその文章を構成す
る文を個々に抽出し、これらの各文をそれぞれ形態未解
このようにして検出された文字修飾情報は、その文の形
態素解析結果と共に重要文判定部3に与えられ、知識記
憶部4に予め格納されている重要な文に関する知識情報
、つまり重要な文を特定し得る文字修飾情報5との比較
照合に供される。重要文判定部3は、このような知識情
報との照合に従って、文字修飾情報が付加されている文
字を含む文を重要度の高い文として抽出すると共に、前
述した従来−船釣な重要度の抽出手法を適宜採用して前
記文書中の重要度の高い文を抽出する。
FIG. 19 is a block diagram showing a schematic configuration of the embodiment device, and l is inside the Bunjin. This human power section I includes a buffer memory function for storing document information inputted from a keyboard or the like to create a document, or a memory function for inputting document information created by another device and storing and holding it. In addition, a document image is input, and it is recognized and processed, and the sentences that make up the sentence are extracted using clues such as document paragraphs, and each of these sentences is detected in this way. The character modification information is given to the important sentence determination unit 3 together with the morphological analysis result of the sentence, and the knowledge information regarding the important sentence stored in advance in the knowledge storage unit 4, that is, the character modification information that can identify the important sentence. It is used for comparison with information 5. The important sentence determination unit 3 extracts sentences including characters to which character modification information is added as sentences with high importance according to the comparison with such knowledge information, and also extracts sentences that include characters with character modification information added as sentences with high importance. Sentences with high importance from the document are extracted by appropriately employing an extraction method.

要約文作成部6は、上述した如く重要文判定部3で抽出
された重要度の高い文を入力し、これらの文をその抽出
順序に従って繋ぎ合わせる等して要作文を作成し、これ
を出力する。
The summary sentence creation unit 6 inputs the sentences with high importance extracted by the important sentence determination unit 3 as described above, connects these sentences in accordance with the extraction order, etc., creates a required essay, and outputs this. do.

ここで文書を構成する文の文字に付される文字修飾情報
は、例えば第2図に示すようなフォーマット形式で与え
られる。例えば上位4ビツトを用いて下線、網掛け1強
調、中抜き等の文字修飾の種別を指定し、残りの下位4
ビツトを用いて文字修飾の範囲を最大16文字まで指定
し得るようにて文書中に配置される。
The character modification information added to the characters of sentences constituting the document is given in the format shown in FIG. 2, for example. For example, the upper 4 bits are used to specify the type of character modification such as underlining, shading 1 emphasis, hollowing, etc., and the remaining lower 4 bits are
They are placed in a document so that the range of character modification can be specified using bits, up to a maximum of 16 characters.

即ち、文書情報は、例えば第3図(a)に示すような内
部表現形式で与えられる。この例は文字コードを16進
表示で示したものであり、「これは下線てす。」なる文
はr a4b3a4ec−・−ala3PPJなるコー
ド列で与えられる。
That is, the document information is given in an internal representation format as shown in FIG. 3(a), for example. This example shows the character code in hexadecimal notation, and the sentence ``This is an underline.'' is given as a code string ra4b3a4ec-.-ala3PPJ.

しかして文字修飾情報は、文字修飾情報指定記号「Ol
」に続いて「82」等として上述した文字コード列中に
挿入される。このような文字修飾情報により、前記文中
の文字コードr b2bc、 cOreJで示される文
字「下、線」にそれぞれ下線が付される。この結果、こ
のような文字修飾情報が付された文は、例えば第3図(
b)に示すように文字「下線」部分に下線が付された状
態で表示、または印刷出力される。
Therefore, the character modification information is the character modification information designation symbol "Ol".
" followed by "82" etc., which are inserted into the character code string described above. With such character modification information, the characters "bottom, line" indicated by the character codes r b2bc and cOreJ in the sentence are each underlined. As a result, a sentence with such character modification information, for example, as shown in Figure 3 (
As shown in b), the "underlined" portion of the character is displayed or printed out with an underline attached.

さて上述したような文字修飾情報を含む電子化された文
書情報を解析する文解析部2は、文書中の各文を1文づ
つ形態素解析する。この際、その文か現れたバラグラフ
の番号と、そのバラグラフ内における文番号とを文解析
部2内のポインタテ文節毎に登録する。
The sentence analysis unit 2, which analyzes electronic document information including character modification information as described above, morphologically analyzes each sentence in the document one by one. At this time, the number of the baragraph in which the sentence appears and the sentence number within the baragraph are registered for each pointer clause in the sentence analysis section 2.

この際、上記結果バッファ2bにおける文字修飾情報と
しては、前述した第2図に示すフォーマットの文字修飾
情報の上位4ビツトが用いられる。
At this time, the upper four bits of the character modification information in the format shown in FIG. 2 described above are used as the character modification information in the result buffer 2b.

また文字修飾が語の一部のみに施されている場合でも、
ここではその語の全てに文字修飾が施されているものと
看做し、結果バッファ2b上ではその語に対して文字修
飾情報が付される。
Also, even if the character modification is applied to only part of the word,
Here, it is assumed that all of the word has undergone character modification, and character modification information is attached to the word on the result buffer 2b.

尚、ポインタテーブル2aにおける重要度の項目には、
前記重要文判定部3により判定された各文についての重
要度判定結果がそれぞれ格納される。
In addition, the items of importance in pointer table 2a are as follows:
The importance determination results for each sentence determined by the important sentence determining section 3 are stored.

さて前記知識記憶部4に予め登録されている重要な文を
認識する為の知識情報5は、例えば第5図に示すような
「タイプ」 「内容」 「位置情報」「重要度」の項目
を持つ情報として与えられる。
Now, the knowledge information 5 for recognizing important sentences registered in advance in the knowledge storage section 4 includes items such as "type", "content", "location information", and "importance" as shown in FIG. It is given as information that you have.

「内容」の項目に記述される知識の内容は、rタイプ」
の項目が“0”である場合には諸量などの表現に基づく
重要度判定知識として記述され、また「タイプ」の項目
が“1“である場合には、文字修飾情報に基づく重要度
判定知識として記述さ報に相当する16進数の情報とし
て与えられる。
The content of knowledge described in the ``Content'' item is r type.''
If the item is “0”, it is described as importance judgment knowledge based on expressions such as various quantities, and if the item “type” is “1”, importance judgment is based on character modification information. It is given as hexadecimal information corresponding to information described as knowledge.

また「位置情報」の項目に記述される内容は、前記「内
容」の項目に記述された条件を判定する際、文中のとの
部分に着目するかを指定するものであり、例えば0″な
らば文頭、“1゛ならば文末、“2′ならば文中の任意
の位置、そして“3″ならばその1文の全てと云うよう
な指定が行われる。
In addition, the content described in the "location information" item specifies whether to focus on the part in the sentence when determining the condition described in the "content" item. For example, if 0'' The specification is such that ``1'' indicates the beginning of the sentence, ``1'' indicates the end of the sentence, ``2'' indicates any position within the sentence, and ``3'' specifies the entire sentence.

更に「重要度」の項目は、例えば[−1コがら[1]ま
ての範囲の数値として表現される重要度の程度を示す情
報を格納したものである。この重要度を示す数値により
、例えばその値が[1コに近い程その重要度が高<、[
−1]に近い程その重要度が低いことが示される。
Further, the "importance" item stores information indicating the degree of importance expressed as a numerical value ranging from [-1 to [1], for example. For example, the closer the value is to 1, the higher the importance is.
-1] indicates that the importance level is lower.

このようなフォーマットで記述される重要度に関する知
識情報が、例えば第6図に示すようなテーブル形式で前
記知識記憶部4に格納されている。
Knowledge information regarding importance described in such a format is stored in the knowledge storage unit 4 in a table format as shown in FIG. 6, for example.

この第6図に示す例では、その1番目の欄の情報から、 「1文中の全ての語に下線が付されている場合、ことが
示される。
In the example shown in Figure 6, the information in the first column indicates that ``If all words in a sentence are underlined.

このような知識情報と前述した解析結果とを対比するこ
とにより、重要文判定部3は入力された文書から求めら
れる各文毎にその文の重要度を求め、その重要度の情報
を前述したポインタテーブル2aの「重要度」の項目に
記述していく。そして要約文作成部6は上記ポインタテ
ーブル2aの「重要度」の項目に着目して重要度の高い
文を抽出し、これらの文を結合して要約文を作成するこ
とになる。
By comparing such knowledge information with the analysis results described above, the important sentence determination unit 3 determines the importance of each sentence found from the input document, and uses the information on the importance as described above. It is described in the "importance" item of the pointer table 2a. Then, the summary sentence creation unit 6 extracts sentences with high importance by paying attention to the "importance" item in the pointer table 2a, and combines these sentences to create a summary sentence.

この処理手続きは、前述したポインタテーブル2aを文
毎に順次参照する為の制御パラメータIを[1]に初期
化することから開始される(ステップa)。しかる後、
上記制御パラメータIで指定されるポインタテーブル2
aの重要度を[0]にセットし、変数P1には上記制御
パラメータIで指定されるポインタ値を、また変数P2
には制御パラメータ(1+1)で指定されるポインタ値
をそれぞれセットする(ステップb)。
This processing procedure starts with initializing the control parameter I to [1] for sequentially referencing the pointer table 2a for each sentence (step a). After that,
Pointer table 2 specified by control parameter I above
Set the importance of a to [0], set the pointer value specified by the above control parameter I to variable P1, and set the pointer value specified by the control parameter I to variable P2.
A pointer value specified by the control parameter (1+1) is set for each (step b).

上記変数ptは文の解析結果が登録されている変数P2
は制御パラメータIによって指定される文の次の文につ
いての解析結果の先頭の要素(文節)を指定するもので
ある。
The above variable pt is the variable P2 in which the sentence analysis result is registered.
specifies the first element (clause) of the analysis result for the sentence next to the sentence specified by control parameter I.

このようにしてセットされた上記変数PI、P2の値を
相互に比較することにより、例えば変数PI、P2が等
しい場合には、文の解析処理が失敗する等の理由により
その文に関して重要度を判定する要素が存在しないこと
が検出される(ステップC)。このようにして制御パラ
メータlで指定される文に重要度を判定する要素が存在
しないことか判定検出された場合には、前記制御パラメ
ータ1をインクリメントしくステップd)、制御パラメ
ータIで示される前記ポインタテーブル2aのパラグラ
フの値が“0“でないことを確認して前述したステップ
bからの処理手続きに戻り、次の制御パラメータIに基
づく処理手続きを同様にして開始する(ステップe)。
By comparing the values of the variables PI and P2 set in this way with each other, for example, if the variables PI and P2 are equal, the importance of the sentence can be determined due to reasons such as a failure in the sentence analysis process. It is detected that the element to be determined does not exist (step C). In this way, if it is determined that there is no element for determining the importance in the sentence specified by the control parameter l, the control parameter 1 is incremented and step d), the sentence specified by the control parameter I is After confirming that the value of the paragraph in the pointer table 2a is not "0", the process returns to step b and starts the next process based on the control parameter I in the same way (step e).

しかして前述した変数のチエツクにおいて文中に重要度
を判定する為の要素が存在することが確認された場合に
は、次に前記知識記憶部4に登録された知識5を順に参
照する為の制御パラメータうな知識参照の為の初期設定
を行った後、前記変数Kに示される前述した位置情報の
値が、前述した如く意味を持つ[0コ [1]  [2
]  [3]のいずれであるかを判定する(ステップh
、i、j)。
If it is confirmed in the above-mentioned variable check that there is an element for determining importance in the sentence, then control is executed to sequentially refer to the knowledge 5 registered in the knowledge storage section 4. After performing the initial settings for knowledge reference such as parameters, the value of the above-mentioned position information shown in the variable K has the meaning as described above [0 [1] [2]
] [3] (step h
, i, j).

しかして前記変数Kに示される値が[0]であるならば
、その知識の内容が文の先頭たけで成り立つだけである
から、前記変数P1で指定される前記結果バッファ2b
の内容だけを調べる(ステップk)。そして結果バッフ
ァ2bの内容が重要文判定知識に示される条件を満足し
ていなければ、次の知識について同様にその条件が満た
されるかを調べるべく、前記制御パラメータJをインク
リメントしくステップ「)、全ての知識についてのチエ
ツクが終了するまで、これを繰り返す(ステップS)。
However, if the value indicated by the variable K is [0], the content of the knowledge is valid only at the beginning of the sentence, so the result buffer 2b specified by the variable P1
Check only the contents of (step k). If the content of the result buffer 2b does not satisfy the condition indicated in the important sentence judgment knowledge, the control parameter J is incremented in step ``)'' to check whether the condition is similarly satisfied for the next knowledge. This is repeated until the check for knowledge of is completed (step S).

これに対して結果バッファ2bの内容が重要文判定知識
に示される条件を満足している場合には、制御パラメー
タJで指定される重要文判定知識の重要度と、前記制御
パラメータIで指定される文に関して今までに判定され
ている重要度とを相互一方、前記変数Kに示される値が
[1コであるならば、その知識の内容が文の最後の文節
だけで成り立つことが示されるから、前記変数P2で指
定される値から[1]を引いた値[P2−1]により指
定される前記結果バッファ2bの内容だけを調べる(ス
テップm)。そして結果バッファ2bの内容に応じて前
述した変数Kに示される値が[0]の場合と同様な処理
手続きを行い、その文についての重要度の値を求める。
On the other hand, if the content of the result buffer 2b satisfies the conditions indicated by the important sentence determination knowledge, the importance of the important sentence determination knowledge specified by the control parameter J and the importance of the important sentence determination knowledge specified by the control parameter I are determined. If the value shown in the variable K is 1, it is shown that the content of the knowledge consists only of the last clause of the sentence. Then, only the contents of the result buffer 2b specified by the value [P2-1] obtained by subtracting [1] from the value specified by the variable P2 are examined (step m). Then, according to the contents of the result buffer 2b, the same processing procedure as in the case where the value indicated by the variable K is [0] is performed to obtain the importance value for that sentence.

同様にして前記変数Kに示される値が[2]の場合には
、制御パラメータ■で指定される文中に、その知識が成
立する文節が存在するか否かを調べ(ステップn)、ま
た前記変数Kに示される値が[3]の場合には、制御パ
ラメータIで指定される文を構成する全ての文節がその
知識が成立するか否かを調べる(ステップO)。
Similarly, if the value indicated by the variable K is [2], it is checked whether or not there is a clause in which the knowledge is established in the sentence specified by the control parameter ■ (step n); If the value indicated by the variable K is [3], it is checked whether the knowledge holds true for all clauses forming the sentence specified by the control parameter I (step O).

このようにして制御パラメータIで指定される文が重要
文判定知識に示される条件を満たしているか否かを、各
知識の判定条件に従って順次調べ、各文についての重要
度の値をそれぞれ求める。そ現順序に従って連結する等
して要約文の作成が行われる。
In this way, whether or not the sentence specified by the control parameter I satisfies the conditions indicated in the important sentence determination knowledge is sequentially checked according to the determination conditions of each knowledge, and the importance value for each sentence is determined. A summary sentence is created by concatenating them in the order in which they appear.

かくしてこのように構成された本装置によれば、従来よ
り種々提唱されている重要文の判定手法に加えて、文を
構成する文字に付加された文字修飾情報に着目し、文字
修飾がなされている文字を含む文を重要度の高い文とし
て認識しながら文書中から重要な文を抽出するので、簡
易にして効果的に重要度の高い文を選択抽出することが
可能となる。しかも知識情報に従ってその重要度に重み
付けを行いながら各文の重要度を認識判定していくので
、重要度の高い文を適確に選択抽出することができる。
According to the present device configured in this way, in addition to the various methods of determining important sentences that have been proposed in the past, it also focuses on character modification information added to the characters that make up a sentence, and determines which characters are modified. Since the important sentences are extracted from the document while recognizing the sentences containing the characters in the text as sentences with high importance, it becomes possible to select and extract sentences with high importance easily and effectively. Moreover, since the importance of each sentence is recognized and judged while weighting the importance according to the knowledge information, sentences with high importance can be accurately selected and extracted.

この結果、内容の充実した精度の良い要約文を効果的に
自動作成することが可能となる。
As a result, it becomes possible to effectively and automatically create a highly accurate summary sentence that is rich in content.

尚、本発明は上述した実施例に限定されるものではない
。例えば前述した従来より種々提唱されている重要文の
判定の手法を適宜併用し、これらを総合判定して重要文
を抽出するようにしても良いことは勿論のことである。
Note that the present invention is not limited to the embodiments described above. For example, it goes without saying that the various techniques for determining important sentences that have been proposed in the past may be appropriately used in conjunction with each other, and the important sentences may be extracted by comprehensively evaluating them.

また重要文を認識判定する為に用いる知識情報も上述し
た例に限定されるものではなく、その条件や内容等は仕
様に応して定めておけば良いものである。その他、要約
対象となる文書の内部表現形式等についても種々変形可
能であり、要はその要旨を逸脱しない範囲で種々変形し
て実施することができる。
Further, the knowledge information used to recognize and determine important sentences is not limited to the above-mentioned example, and its conditions and contents may be determined according to the specifications. In addition, various modifications can be made to the internal representation format of the document to be summarized, and in other words, various modifications can be made without departing from the gist of the document.

[発明の効果] す図、第4図は文解析結果の例を示す図、第5図は重要
文判定に用いられる重要度知識の表現形式の例を示す図
、第6図は重要文判定加工の例を示す図、第7図は重要
文判定処理の流れを示す図である。
[Effects of the invention] Figure 4 shows an example of sentence analysis results, Figure 5 shows an example of the expression format of importance knowledge used for determining important sentences, and Figure 6 shows important sentence determination. FIG. 7, which is a diagram showing an example of processing, is a diagram showing the flow of important sentence determination processing.

1・・・文人内部、2・・・文解析部、3・・・重要文
判定部、5・・・知識記憶部、6・・・文字修飾情報に
関する知識情報、6・・・要約文作成部。
1...Inside literary figures, 2...Sentence analysis section, 3...Important sentence judgment section, 5...Knowledge storage section, 6...Knowledge information regarding character modification information, 6...Summary sentence creation Department.

てその文についての重要度を認識していくので、文に対
する重要度の認識性能を大幅に向上させることができる
。この結果、内容の充実した品質の高い要約文を効果的
に作成することが可能となる等の実用上多大なる効果が
奏せられる。
Since the degree of importance of the sentence is recognized by using the system, the recognition performance of the degree of importance of the sentence can be greatly improved. As a result, great practical effects can be achieved, such as making it possible to effectively create a high-quality summary with rich content.

【図面の簡単な説明】[Brief explanation of drawings]

Claims (2)

【特許請求の範囲】[Claims] (1)要約対象とする文書を構成する文を解析する文解
析手段と、文書中の重要な部分を認識する為の知識を記
憶した知識記憶手段と、前記文解析手段による解析結果
と前記知識記憶手段に記憶された知識とを用いて前記要
約対象とする文書中の重要な文を認識判定する判定手段
と、この判定手段による判定結果に従って前記要約対象
とする文書中から文を抽出して要約文を作成する要約文
作成手段とを具備したことを特徴とする文書要約装置。
(1) A sentence analysis means for analyzing the sentences that constitute the document to be summarized, a knowledge storage means for storing knowledge for recognizing important parts in the document, and an analysis result by the sentence analysis means and the knowledge. a determining means for recognizing and determining important sentences in the document to be summarized using the knowledge stored in the storage means; 1. A document summarizing device comprising: a summary sentence creation means for creating a summary sentence.
(2)文書中の重要な部分を認識する為の知識は、文字
修飾情報からなることを特徴とする請求項(1)に記載
の文書要約装置。
(2) The document summarizing device according to claim (1), wherein the knowledge for recognizing important parts in a document consists of character modification information.
JP2187096A 1990-07-17 1990-07-17 Document summarization device Expired - Lifetime JPH0748217B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2187096A JPH0748217B2 (en) 1990-07-17 1990-07-17 Document summarization device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2187096A JPH0748217B2 (en) 1990-07-17 1990-07-17 Document summarization device

Publications (2)

Publication Number Publication Date
JPH0474259A true JPH0474259A (en) 1992-03-09
JPH0748217B2 JPH0748217B2 (en) 1995-05-24

Family

ID=16200036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2187096A Expired - Lifetime JPH0748217B2 (en) 1990-07-17 1990-07-17 Document summarization device

Country Status (1)

Country Link
JP (1) JPH0748217B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612447A (en) * 1992-03-31 1994-01-21 Toshiba Corp Summary sentence preparing device
JPH0713967A (en) * 1992-09-25 1995-01-17 Maruzen Kk Abstract sentence generator
US5835922A (en) * 1992-09-30 1998-11-10 Hitachi, Ltd. Document processing apparatus and method for inputting the requirements of a reader or writer and for processing documents according to the requirements
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
JP2002073644A (en) * 2000-08-28 2002-03-12 Suuri Giken:Kk Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (en) * 1984-10-23 1986-05-19 Toshiba Corp Document editing device
JPS6359661A (en) * 1986-08-30 1988-03-15 Canon Inc Document processor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (en) * 1984-10-23 1986-05-19 Toshiba Corp Document editing device
JPS6359661A (en) * 1986-08-30 1988-03-15 Canon Inc Document processor

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612447A (en) * 1992-03-31 1994-01-21 Toshiba Corp Summary sentence preparing device
JPH0713967A (en) * 1992-09-25 1995-01-17 Maruzen Kk Abstract sentence generator
US5835922A (en) * 1992-09-30 1998-11-10 Hitachi, Ltd. Document processing apparatus and method for inputting the requirements of a reader or writer and for processing documents according to the requirements
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
JP2002073644A (en) * 2000-08-28 2002-03-12 Suuri Giken:Kk Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing program

Also Published As

Publication number Publication date
JPH0748217B2 (en) 1995-05-24

Similar Documents

Publication Publication Date Title
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
Rayson Matrix: A statistical method and software tool for linguistic analysis through corpus comparison
JP3220560B2 (en) Machine translation equipment
US5907821A (en) Method of computer-based automatic extraction of translation pairs of words from a bilingual text
McEnery et al. Corpus linguistics: Method, theory and practice
US6115683A (en) Automatic essay scoring system using content-based techniques
Saad et al. Arabic morphological tools for text mining
WO1997004405A1 (en) Method and apparatus for automated search and retrieval processing
JP2002222189A (en) Translation device, translation method, and translation program
Wolinski et al. PoliMorf: a (not so) new open morphological dictionary for Polish.
Scheible et al. A gold standard corpus of Early Modern German
Kammoun et al. The MORPH2 new version: A robust morphological analyzer for Arabic texts
Seljan et al. From digitisation process to terminological digital resources
US20020129066A1 (en) Computer implemented method for reformatting logically complex clauses in an electronic text-based document
JPH0474259A (en) Document summarizing device
Lopresti Performance evaluation for text processing of noisy inputs
JP2838984B2 (en) General-purpose reference device
Naserzade et al. CKMorph: a comprehensive morphological analyzer for Central Kurdish
Vayadande et al. Spell Checker Model for String Comparison in Automata
JPH0561902A (en) Mechanical translation system
Sawalha The Design and the Construction of the Traditional Arabic Lexicons Corpus (The TAL-Corpus)
Sezer Corpus linguistics theory and design and application of a Turkish corpus
Krek et al. Online style guide for Slovene as a language resources hub
JP2004272831A (en) Keyword extracting device, program and recording medium
Lu et al. Lexical analysis

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term