JP2001325273A - Important sentence extraction device, method therefor and storage medium - Google Patents

Important sentence extraction device, method therefor and storage medium

Info

Publication number
JP2001325273A
JP2001325273A JP2000141140A JP2000141140A JP2001325273A JP 2001325273 A JP2001325273 A JP 2001325273A JP 2000141140 A JP2000141140 A JP 2000141140A JP 2000141140 A JP2000141140 A JP 2000141140A JP 2001325273 A JP2001325273 A JP 2001325273A
Authority
JP
Japan
Prior art keywords
important
document
sentence
importance
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000141140A
Other languages
Japanese (ja)
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000141140A priority Critical patent/JP2001325273A/en
Publication of JP2001325273A publication Critical patent/JP2001325273A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To appropriately specify an important sentence corresponding to the kind of the structure of a document. SOLUTION: In a document structure information importance table 3, the 'conditions' of the presence/absence of a document structure expression and the number of the paragraphs in the document and 'important parts' in the document are made to correspond to each other for registration. The document structure expression is an expression for clearly indicating the document structure and is a subtitle or the title of a chapter or a passage, for instance. A document analysis part 2 analyzes an input document, examines to which 'condition' of the document structure information importance table 3 it is pertinent and specifies a part pertinent to the 'important part' corresponding to the pertinent 'condition' as the important part of the input document.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、対象となる文書
の重要部分を特定することができる重要文抽出装置およ
びその方法ならびに記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an important sentence extracting apparatus and method capable of specifying an important part of a target document, a method thereof, and a storage medium.

【0002】[0002]

【従来の技術】近年、インターネットの普及などによっ
て、大量の文書データを扱う必要が生じてきている。そ
のため、文書中の重要な個所を抽出するための技術が研
究されている。かかる技術には、単語の頻度や表現によ
って文書中の重要な個所を特定するものと、文書の構造
から文書中の重要な個所を判断するものとがある。特に
後者の場合、文書によってその構造は異なってくるた
め、どのような文書を処理対象にするかによって重要か
どうかの判断基準が変ってくる。
2. Description of the Related Art In recent years, with the spread of the Internet and the like, it has become necessary to handle a large amount of document data. Therefore, techniques for extracting important points in a document have been studied. Such techniques include those that specify important points in a document based on the frequency and expression of words, and those that determine important points in a document based on the structure of the document. In the latter case, in particular, since the structure differs depending on the document, the criteria for determining whether the document is important depends on the type of document to be processed.

【0003】これに対し、特開平7-13967号公報には、
文書の分野ごとのシナリオ項目をもち、シナリオの部分
ごとに述語のテーブルを持ち、文書の重要な文を抽出す
る、「抄録文作成装置」が開示されている。これは、対
象文書の分野に応じた重要文を抽出し、かつそれらの文
を整形して抄録文をつくるものである。
On the other hand, JP-A-7-13967 discloses that
An “abstract sentence creation device” is disclosed, which has a scenario item for each field of a document, has a predicate table for each scenario part, and extracts important sentences of the document. In this method, important sentences corresponding to the field of the target document are extracted, and those sentences are formed to form an abstract sentence.

【0004】[0004]

【発明が解決しようとする課題】しかし、前記特開平7-
13967号公報に開示の技術では、以下の不具合がある。
However, the above-mentioned Japanese Patent Application Laid-Open No.
The technique disclosed in JP-A-13967 has the following disadvantages.

【0005】第1に、述語表現に一致しない場合は重要
文を得ることができないという不具合がある。
First, there is a problem that an important sentence cannot be obtained if the expression does not match the predicate expression.

【0006】第2に、述語表現だけに着目し、その他の
手がかりとなる言語情報を使用しないため、重要文がう
まく抽出できない場合があるという不具合がある。
Second, since attention is paid only to the predicate expression and no other linguistic information is used, an important sentence may not be extracted properly.

【0007】第3に、抽出する重要文の量を変えること
ができないという不具合がある。
Third, there is a problem that the amount of important sentences to be extracted cannot be changed.

【0008】この発明の目的は、文書の構造の種類に応
じて適切に重要文を特定することである。
An object of the present invention is to appropriately specify an important sentence according to the type of the structure of a document.

【0009】この発明の別の目的は、文書タイプに応じ
て適切に重要文の特定をすることである。
Another object of the present invention is to appropriately specify an important sentence according to a document type.

【0010】この発明の別の目的は、文書中の重要であ
る可能性がある個所は落とさずに特定することである。
Another object of the present invention is to identify, without dropping, a potentially important part of a document.

【0011】この発明の別の目的は、重要度によって多
段階に文書中の重要個所を特定できるようにすることで
ある。
Another object of the present invention is to make it possible to specify an important part in a document in multiple stages according to the degree of importance.

【0012】この発明の別の目的は、文書をより効率的
に読み進めることが可能となるよう文書中の重要個所を
特定できるようにすることである。
Another object of the present invention is to specify an important part in a document so that the document can be read more efficiently.

【0013】この発明の別の目的は、重要個所を追加で
特定し、または、特定する個所を増加する際に、所望の
個所を特定することができるようにすることである。
Another object of the present invention is to specify a desired portion when additionally specifying an important portion or increasing the number of specified portions.

【0014】この発明の別の目的は、より重要度の高い
部分だけを文書中で特定することができるようにするこ
とである。
Another object of the present invention is to enable only a portion having higher importance to be specified in a document.

【0015】[0015]

【課題を解決するための手段】請求項1に記載の発明
は、文書構造の種類と当該構造を有する文書中の部分の
重要性の有無とを対応付けて記述しているテーブルを記
憶する記憶手段と、前記テーブルを参照して対象となる
文書中の重要個所を特定する重要個所特定手段と、を備
えている重要文抽出装置である。
According to a first aspect of the present invention, there is provided a storage device for storing a table in which a type of a document structure is described in association with the importance of a part in a document having the structure. An important sentence extracting apparatus comprising: means; and an important part specifying means for specifying an important part in a target document by referring to the table.

【0016】したがって、文書の構造の種類に応じて適
切に重要文を抽出することができる。
Therefore, an important sentence can be appropriately extracted according to the type of the structure of the document.

【0017】請求項2に記載の発明は、請求項1に記載
の重要文抽出装置において、前記テーブルは、文書構造
を明示する表現の有無を用いて前記文書構造の種類を表
現している。
According to a second aspect of the present invention, in the important sentence extracting apparatus according to the first aspect, the table expresses the type of the document structure by using the presence or absence of an expression that specifies the document structure.

【0018】したがって、文書構造を明示する表現の有
無により文書の構造の種類を特定し、適切に重要文を抽
出することができる。
Therefore, it is possible to specify the type of the structure of the document based on the presence or absence of the expression that clearly indicates the document structure, and to appropriately extract important sentences.

【0019】請求項3に記載の発明は、請求項1または
2に記載の重要文抽出装置において、前記テーブルは、
文書の長さを用いて前記文書構造の種類を表現してい
る。
According to a third aspect of the present invention, in the important sentence extracting apparatus according to the first or second aspect, the table includes:
The type of the document structure is expressed using the length of the document.

【0020】したがって、文書の長さで文書の構造の種
類を特定し、適切に重要文を抽出することができる。
Therefore, the type of the structure of the document can be specified by the length of the document, and the important sentence can be appropriately extracted.

【0021】請求項4に記載の発明は、文書のタイプと
当該タイプである文書中の部分の重要性の有無とを対応
付けて記述しているテーブルを記憶する記憶手段と、前
記テーブルを参照して対象となる文書中の重要個所を特
定する重要個所特定手段と、を備えている重要文抽出装
置である。
According to a fourth aspect of the present invention, there is provided a storage means for storing a table in which a type of a document is described in association with the importance of a part in the document of the type, and the table is referred to. Important section specifying means for specifying important points in a target document.

【0022】したがって、文書タイプに応じて適切に重
要文の抽出をすることができる。
Therefore, important sentences can be appropriately extracted according to the document type.

【0023】請求項5に記載の発明は、請求項4に記載
の重要文抽出装置において、前記テーブルは、文書中の
非重要個所の要件を記述していて、前記重要個所特定手
段は、前記テーブルを参照して対象となる文書中で前記
非重要個所の要件に該当する部分以外の部分を前記重要
個所として特定する。
According to a fifth aspect of the present invention, in the important sentence extracting apparatus according to the fourth aspect, the table describes a requirement of a non-important portion in the document, and the important portion specifying means includes: Referring to the table, a portion other than the portion corresponding to the requirement of the non-important portion in the target document is specified as the important portion.

【0024】したがって、文書中の重要でない個所をテ
ーブルに規定することで、その他の部分については漏ら
さずに抽出することを可能とし、重要である可能性があ
る個所は落とさずに抽出することができる。
Therefore, by defining unimportant parts in the document in the table, it is possible to extract other parts without leaking, and it is possible to extract parts that may be important without dropping them. it can.

【0025】請求項6に記載の発明は、請求項4に記載
の重要文抽出装置において、前記テーブルは、文書中の
重要個所の要件を記述し、かつ、この各要件の重要度の
大きさを記述していて、前記重要個所特定手段は、前記
テーブルを参照し前記重要度の大きさを付して対象とな
る文書中で前記重要個所を特定する。
According to a sixth aspect of the present invention, in the important sentence extracting apparatus according to the fourth aspect, the table describes requirements of important places in the document, and a magnitude of importance of each requirement. The important part specifying means refers to the table and attaches the magnitude of the importance to specify the important part in a target document.

【0026】したがって、重要度によって多段階に文書
中の重要個所を特定することができる。
Therefore, an important part in a document can be specified in multiple stages according to the degree of importance.

【0027】請求項7に記載の発明は、請求項4に記載
の重要文抽出装置において、前記テーブルは、文書中の
重要個所の要件を記述し、かつ、この要件間を関連付け
ていて、前記重要個所特定手段は、前記テーブルを参照
し対象となる文書中で前記関連付けに基づく前記重要個
所間の関連付けを行って前記重要個所を特定する。
According to a seventh aspect of the present invention, in the important sentence extracting apparatus according to the fourth aspect, the table describes requirements of important places in the document and associates the requirements with each other. The important point specifying means specifies the important point by referring to the table and performing association between the important points based on the association in a target document.

【0028】したがって、対象文書中で重要個所として
特定した部分の他にそれと関係する部分を必要に応じて
特定することが可能となり、文書を効率的に読み進める
ことができる。
Therefore, in addition to the part specified as an important part in the target document, a part related thereto can be specified as necessary, and the document can be read efficiently.

【0029】請求項8に記載の発明は、請求項7に記載
の重要文抽出装置において、前記テーブルは、前記関連
付けの関係名を記述していて、前記重要個所特定手段
は、前記関連付けを行って前記重要個所の特定を行う際
に前記関係名も関連付ける。
According to an eighth aspect of the present invention, in the important sentence extracting apparatus according to the seventh aspect, the table describes a relation name of the association, and the important location specifying means performs the association. When specifying the important part, the relation name is also associated.

【0030】したがって、重要個所を追加で特定し、ま
たは、特定する個所を増加する際に、関係名を手がかり
として所望の個所を特定することができる。
Therefore, when an important part is additionally specified or the number of specified parts is increased, a desired part can be specified by using the relation name as a clue.

【0031】請求項9に記載の発明は、請求項6に記載
の重要文抽出装置において、前記テーブルは、前記要件
に対応させて当該要件を具備する個所の記載に関する条
件を記述していて、前記重要個所特定手段は、前記テー
ブルを参照し対象となる文書中で前記重要度が比較的大
きい前記要件を具備する個所を前記重要個所として特定
し、また、この特定した重要個所から前記重要度が比較
的大きい前記条件に合致する部分を探し、前記対象とな
る文書中で前記重要度が比較的小さい前記要件を具備す
る部分で前記合致する部分が出現するものも前記重要個
所として特定する。
According to a ninth aspect of the present invention, in the important sentence extracting apparatus according to the sixth aspect, the table describes a condition relating to a description of a location where the requirement is satisfied in association with the requirement. The important location specifying means refers to the table and specifies a location having the requirement with the relatively high importance in the target document as the important location, and further determines the importance level from the identified important location. Is searched for a portion that satisfies the condition that is relatively large, and a portion that satisfies the requirement where the importance is relatively small in the target document and where the matching portion appears is also specified as the important portion.

【0032】したがって、文書中の重要度が比較的高い
個所の表現を解析し、それによって他の部分の重要度を
判定することで、より重要度の高い部分だけを文書中で
特定することができる。
Therefore, by analyzing the expression of a portion having a relatively high importance in the document and determining the importance of the other parts based on the analysis, it is possible to specify only the higher importance portion in the document. it can.

【0033】請求項10に記載の発明は、所定の記憶装
置に記憶されていて文書構造の種類と当該構造を有する
文書中の部分の重要度とを対応付けて記述しているテー
ブルを参照して、対象となる文書中の重要個所を特定す
る重要個所特定工程を含んでなる重要文抽出方法であ
る。
The invention according to claim 10 refers to a table stored in a predetermined storage device and describing the type of document structure and the importance of a part in a document having the structure in association with each other. The important sentence extraction method includes an important part specifying step of specifying an important part in a target document.

【0034】したがって、文書の構造の種類に応じて適
切に重要文を抽出することができる。
Therefore, an important sentence can be appropriately extracted according to the type of the structure of the document.

【0035】請求項11に記載の発明は、請求項10に
記載の重要文抽出方法において、前記テーブルは、文書
構造を明示する表現の有無を用いて前記文書構造の種類
を表現している。
According to an eleventh aspect of the present invention, in the important sentence extracting method according to the tenth aspect, the table expresses the type of the document structure by using the presence or absence of an expression that specifies the document structure.

【0036】したがって、文書構造を明示する表現の有
無により文書の構造の種類を特定し、適切に重要文を抽
出することができる。
Therefore, it is possible to specify the type of the structure of the document based on the presence or absence of the expression that explicitly specifies the document structure, and to appropriately extract important sentences.

【0037】請求項12に記載の発明は、請求項10ま
たは11に記載の重要文抽出方法において、前記テーブ
ルは、文書の長さを用いて前記文書構造の種類を表現し
ている。
According to a twelfth aspect of the present invention, in the important sentence extracting method according to the tenth or eleventh aspect, the table expresses the type of the document structure using a document length.

【0038】したがって、文書の長さで文書の構造の種
類を特定し、適切に重要文を抽出することができる。
Therefore, it is possible to specify the type of the structure of the document based on the length of the document, and to appropriately extract important sentences.

【0039】請求項13に記載の発明は、所定の記憶装
置に記憶されていて文書のタイプと当該タイプである文
書中の部分の重要性の有無とを対応付けて記述している
テーブルを参照して、対象となる文書中の重要個所を特
定する重要個所特定工程を含んでなる重要文抽出方法で
ある。
The invention according to claim 13 refers to a table stored in a predetermined storage device and describing the type of a document in association with the importance of a part in the document of the type. The important sentence extraction method includes an important part specifying step of specifying an important part in a target document.

【0040】したがって、文書タイプに応じて適切に重
要文の抽出をすることができる。
Therefore, important sentences can be appropriately extracted according to the document type.

【0041】請求項14に記載の発明は、請求項13に
記載の重要文抽出方法において、前記テーブルは、文書
中の非重要個所の要件を記述していて、前記重要個所特
定工程は、前記テーブルを参照して対象となる文書中で
前記非重要個所の要件に該当する部分以外の部分を前記
重要個所として特定する。
According to a fourteenth aspect of the present invention, in the important sentence extracting method according to the thirteenth aspect, the table describes a requirement of a non-important part in the document, and the important part specifying step includes the step of: Referring to the table, a portion other than the portion corresponding to the requirement of the non-important portion in the target document is specified as the important portion.

【0042】したがって、文書中の重要でない個所をテ
ーブルに規定することで、その他の部分については漏ら
さずに抽出することを可能とし、重要である可能性があ
る個所は落とさずに抽出することができる。
Therefore, by defining insignificant portions in the document in the table, it is possible to extract other portions without leaking, and to extract portions that may be important without dropping them. it can.

【0043】請求項15に記載の発明は、請求項13に
記載の重要文抽出方法において、前記テーブルは、文書
中の重要個所の要件を記述し、かつ、この各要件の重要
度の大きさを記述していて、前記重要個所特定工程は、
前記テーブルを参照し前記重要度の大きさを付して対象
となる文書中で前記重要個所を特定する。
According to a fifteenth aspect of the present invention, in the important sentence extracting method according to the thirteenth aspect, the table describes requirements of important parts in the document, and the magnitude of importance of each requirement is described. Is described, the important location specifying step,
The important portion is specified in the target document by referring to the table and assigning the magnitude of the importance.

【0044】したがって、重要度によって多段階に文書
中の重要個所を特定することができる。
Therefore, an important part in a document can be specified in multiple stages according to the degree of importance.

【0045】請求項16に記載の発明は、請求項13に
記載の重要文抽出方法において、前記テーブルは、文書
中の重要個所の要件を記述し、かつ、この要件間を関連
付けていて、前記重要個所特定工程は、前記テーブルを
参照し対象となる文書中で前記関連付けに基づく前記重
要個所間の関連付けを行って前記重要個所を特定する。
According to a sixteenth aspect of the present invention, in the important sentence extracting method according to the thirteenth aspect, the table describes requirements of important places in the document and associates the requirements with each other. In the important part specifying step, the important part is specified by referring to the table and performing association between the important parts based on the association in a target document.

【0046】したがって、対象文書中で重要個所として
特定した部分の他にそれと関係する部分を必要に応じて
特定することが可能となり、文書を効率的に読み進める
ことができる。
Therefore, in addition to the part specified as an important part in the target document, a related part can be specified as necessary, and the document can be read efficiently.

【0047】請求項17に記載の発明は、請求項16に
記載の重要文抽出方法において、前記テーブルは、前記
関連付けの関係名を記述していて、前記重要個所特定工
程は、前記関連付けを行って前記重要個所の特定を行う
際に前記関係名も関連付ける。
According to a seventeenth aspect of the present invention, in the important sentence extracting method according to the sixteenth aspect, the table describes a relation name of the association, and the important part specifying step performs the association. When specifying the important part, the relation name is also associated.

【0048】したがって、重要個所を追加で特定し、ま
たは、特定する個所を増加する際に、関係名を手がかり
として所望の個所を特定することができる。
Therefore, when an important part is additionally specified or the number of specified parts is increased, a desired part can be specified by using the relation name as a clue.

【0049】請求項18に記載の発明は、請求項15に
記載の重要文抽出方法において、前記テーブルは、前記
要件に対応させて当該要件を具備する個所の記載に関す
る条件を記述していて、前記重要個所特定工程は、前記
テーブルを参照し対象となる文書中で前記重要度が比較
的大きい前記要件を具備する個所を前記重要個所として
特定し、また、この特定した重要個所から前記重要度が
比較的大きい前記条件に合致する部分を探し、前記対象
となる文書中で前記重要度が比較的小さい前記要件を具
備する部分で前記合致する部分が出現するものも前記重
要個所として特定する。
According to an eighteenth aspect of the present invention, in the important sentence extracting method according to the fifteenth aspect, the table describes a condition relating to a description of a location having the requirement in association with the requirement. The important location specifying step refers to the table, specifies a location having the requirement where the importance is relatively large in the target document as the important location, and further determines the importance level from the identified important location. Is searched for a portion that satisfies the condition that is relatively large, and a portion that satisfies the requirement where the importance is relatively small in the target document and where the matching portion appears is also specified as the important portion.

【0050】したがって、文書中の重要度が比較的高い
個所の表現を解析し、それによって他の部分の重要度を
判定することで、より重要度の高い部分だけを文書中で
特定することができる。
Therefore, by analyzing the expression of a portion having relatively high importance in the document and judging the importance of the other portions, it is possible to specify only the portion having higher importance in the document. it can.

【0051】請求項19に記載の発明は、所定の記憶装
置に記憶されていて文書構造の種類と当該構造を有する
文書中の部分の重要度とを対応付けて記述しているテー
ブルを参照して、対象となる文書中の重要個所を特定す
る重要個所特定工程をコンピュータに実行させるプログ
ラムを記憶したコンピュータに読み取り可能な記憶媒体
である。
The invention according to claim 19 refers to a table stored in a predetermined storage device and describing the type of document structure and the importance of a part in a document having the structure in association with each other. And a computer-readable storage medium storing a program for causing a computer to execute an important portion specifying step of specifying an important portion in a target document.

【0052】したがって、文書の構造の種類に応じて適
切に重要文を抽出することができる。
Therefore, an important sentence can be appropriately extracted according to the type of the structure of the document.

【0053】請求項20に記載の発明は、請求項19に
記載の記憶媒体において、前記テーブルとして、文書構
造を明示する表現の有無を用いて前記文書構造の種類を
表現しているものを用いる。
According to a twentieth aspect of the present invention, in the storage medium according to the nineteenth aspect, a table that expresses the type of the document structure by using the presence or absence of an expression that explicitly indicates a document structure is used as the table. .

【0054】したがって、文書構造を明示する表現の有
無により文書の構造の種類を特定し、適切に重要文を抽
出することができる。
Therefore, the type of the document structure can be specified based on the presence or absence of the expression that clearly indicates the document structure, and the important sentence can be appropriately extracted.

【0055】請求項21に記載の発明は、請求項19ま
たは20に記載の重要文抽出方法において、前記テーブ
ルとして、文書の長さを用いて前記文書構造の種類を表
現しているものを用いる。
According to a twenty-first aspect of the present invention, in the important sentence extracting method according to the nineteenth or twentieth aspect, a table expressing a type of the document structure using a document length is used as the table. .

【0056】したがって、文書の長さで文書の構造の種
類を特定し、適切に重要文を抽出することができる。
Therefore, the type of the structure of the document can be specified by the length of the document, and the important sentence can be appropriately extracted.

【0057】請求項22に記載の発明は、所定の記憶装
置に記憶されていて文書のタイプと当該タイプである文
書中の部分の重要性の有無とを対応付けて記述している
テーブルを参照して、対象となる文書中の重要個所を特
定する重要個所特定工程をコンピュータに実行させるプ
ログラムを記憶したコンピュータに読み取り可能な記憶
媒体である。
The invention according to claim 22 refers to a table stored in a predetermined storage device and describing the type of a document in association with the presence or absence of importance of a part in the document of the type. The computer-readable storage medium stores a program for causing a computer to execute an important portion specifying step of specifying an important portion in a target document.

【0058】したがって、文書タイプに応じて適切に重
要文の抽出をすることができる。
Therefore, important sentences can be appropriately extracted according to the document type.

【0059】請求項23に記載の発明は、請求項22に
記載の記憶媒体において、前記テーブルとして、文書中
の非重要個所の要件を記述しているものを用い、前記重
要個所特定工程は、前記テーブルを参照して対象となる
文書中で前記非重要個所の要件に該当する部分以外の部
分を前記重要個所として特定する。
According to a twenty-third aspect of the present invention, in the storage medium according to the twenty-second aspect, a table that describes requirements of an insignificant point in a document is used as the table, and the important point specifying step includes: With reference to the table, a portion other than the portion corresponding to the requirement of the non-important portion in the target document is specified as the important portion.

【0060】したがって、文書中の重要でない個所をテ
ーブルに規定することで、その他の部分については漏ら
さずに抽出することを可能とし、重要である可能性があ
る個所は落とさずに抽出することができる。
Therefore, by defining unimportant parts in the document in the table, it is possible to extract other parts without leaking, and it is possible to extract parts which may be important without dropping them. it can.

【0061】請求項24に記載の発明は、請求項22に
記載の記憶媒体において、前記テーブルとして、文書中
の重要個所の要件を記述し、かつ、この各要件の重要度
の大きさを記述しているものを用い、前記重要個所特定
工程は、前記テーブルを参照し前記重要度の大きさを付
して対象となる文書中で前記重要個所を特定する。
According to a twenty-fourth aspect of the present invention, in the storage medium according to the twenty-second aspect, the table describes requirements of important locations in a document and describes the magnitude of importance of each requirement. In the important portion specifying step, the important portion is specified in the target document by attaching the magnitude of the importance with reference to the table.

【0062】したがって、重要度によって多段階に文書
中の重要個所を特定することができる。
Therefore, important parts in a document can be specified in multiple stages according to the degree of importance.

【0063】請求項25に記載の発明は、請求項22に
記載の記憶媒体において、前記テーブルとして、文書中
の重要個所の要件を記述し、かつ、この要件間を関連付
けているものを用い、前記重要個所特定工程は、前記テ
ーブルを参照し対象となる文書中で前記関連付けに基づ
く前記重要個所間の関連付けを行って前記重要個所を特
定する。
According to a twenty-fifth aspect of the present invention, in the storage medium according to the twenty-second aspect, the table describes a requirement of an important part in a document and associates the requirement with the requirement. In the important part specifying step, the important parts are specified by referring to the table and performing association between the important parts based on the association in a target document.

【0064】したがって、対象文書中で重要個所として
特定した部分の他にそれと関係する部分を必要に応じて
特定することが可能となり、文書を効率的に読み進める
ことができる。
Therefore, in addition to the part specified as an important part in the target document, a part related thereto can be specified as necessary, and the document can be read efficiently.

【0065】請求項26に記載の発明は、請求項25に
記載の記憶媒体において、前記テーブルとして、前記関
連付けの関係名を記述しているものを用い、前記重要個
所特定工程は、前記関連付けを行って前記重要個所の特
定を行う際に前記関係名も関連付ける。
According to a twenty-sixth aspect of the present invention, in the storage medium according to the twenty-fifth aspect, the table describing the relation name of the association is used as the table. When performing the identification of the important part, the relation name is also associated.

【0066】したがって、重要個所を追加で特定し、ま
たは、特定する個所を増加する際に、関係名を手がかり
として所望の個所を特定することができる。
Therefore, when an important part is additionally specified or the number of specified parts is increased, a desired part can be specified using the relation name as a clue.

【0067】請求項27に記載の発明は、請求項24に
記載の記憶媒体において、前記テーブルとして、前記要
件に対応させて当該要件を具備する個所の記載に関する
条件を記述しているものを用い、前記重要個所特定工程
は、前記テーブルを参照し対象となる文書中で前記重要
度が比較的大きい前記要件を具備する個所を前記重要個
所として特定し、また、この特定した重要個所から前記
重要度が比較的大きい前記条件に合致する部分を探し、
前記対象となる文書中で前記重要度が比較的小さい前記
要件を具備する部分で前記合致する部分が出現するもの
も前記重要個所として特定する。
According to a twenty-seventh aspect of the present invention, in the storage medium according to the twenty-fourth aspect, the table, which corresponds to the requirement and describes a condition relating to a description of a location having the requirement, is used as the table. The important point specifying step includes: referring to the table, specifying a part having the requirement having the relatively high importance in the target document as the important part, and determining the important part from the specified important part. Look for a part that meets the above condition with a relatively large degree,
In the target document, a part where the matching part appears in the document having the requirement with the relatively low importance is also specified as the important part.

【0068】したがって、文書中の重要度が比較的高い
個所の表現を解析し、それによって他の部分の重要度を
判定することで、より重要度の高い部分だけを文書中で
特定することができる。
Therefore, by analyzing the expression of a portion having relatively high importance in the document and judging the importance of the other portions, it is possible to specify only the portion having higher importance in the document. it can.

【0069】[0069]

【発明の実施の形態】[発明の実施の形態1]この発明
の一実施の形態について説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS [First Embodiment of the Invention] One embodiment of the present invention will be described.

【0070】図1は、この発明の一実施の形態である重
要文抽出装置の機能ブロック図である。図1に示すよう
に、この重要文抽出装置1は、文書解析部2と、文書構
造情報重要度テーブル3と、抽出部4とからなる。
FIG. 1 is a functional block diagram of an important sentence extracting apparatus according to an embodiment of the present invention. As shown in FIG. 1, the important sentence extracting apparatus 1 includes a document analyzing unit 2, a document structure information importance table 3, and an extracting unit 4.

【0071】文書解析部2は、重要個所特定手段を実現
するもので、文書構造情報重要度テーブル3に登録され
ているルールに基づいて、入力された文書に必要な解析
を行なう。すなわち、形態素解析または文字列パターン
によって、文書の構造や重要度判定に関係する語句と品
詞とを認識する。
The document analysis unit 2 realizes an important place specifying means, and performs necessary analysis on an input document based on rules registered in the document structure information importance table 3. That is, words and parts of speech related to the structure and importance of the document are recognized by morphological analysis or character string pattern.

【0072】文書構造情報重要度テーブル3は、文書の
構造等とその重要度を記述したルールが登録されてい
る。すなわち、文書構造に関する条件を記述し、また、
その条件に該当する文書の場合に、どの部分を重要と判
定するかの重要個所を記述したテーブルである。この例
では、対象となる文書に文書構造を表す明らかな表現が
あるかどうかによって重要個所を特定する。
In the document structure information importance table 3, rules describing the structure of the document and its importance are registered. That is, it describes the conditions for the document structure,
In the case of a document that satisfies the condition, it is a table that describes an important part of which part is determined to be important. In this example, an important part is specified based on whether or not the target document has a clear expression representing the document structure.

【0073】抽出部4は、文書構造情報重要度テーブル
3に登録されている条件に基づいて、入力文書から重要
な文を抽出する。
The extraction unit 4 extracts important sentences from the input document based on the conditions registered in the document structure information importance table 3.

【0074】次に、以上のような機能を実現する重要文
抽出装置1の具体的な構成について説明する。図2は、
重要文抽出装置1の電気的な接続を示すブロック図であ
る。図2に示すように、この重要文抽出装置1は、各種
の演算を行い、重要文抽出装置1の全体を集中的に制御
するCPU11と、BIOSなどを格納したROM12
と、CPU11の作業エリアとなるRAM13とが、バ
スライン14で接続されている。また、バスライン14
には、ハードディスクなどの磁気ディスク装置15と、
重要文抽出装置1をインターネットなどのネットワーク
に接続する通信制御装置16と、記憶媒体17を読み取
る記憶媒体読取装置18と、キーボード、マウスなどの
入力装置19と、LCDなどの出力装置20とが、図示
しないインターフェイスを介して接続されている。
Next, a specific configuration of the important sentence extracting apparatus 1 that realizes the above functions will be described. FIG.
FIG. 2 is a block diagram showing an electrical connection of the important sentence extraction device 1. As shown in FIG. 2, the important sentence extracting apparatus 1 performs various operations to centrally control the entire important sentence extracting apparatus 1, and a ROM 12 storing a BIOS and the like.
And a RAM 13 serving as a work area of the CPU 11 are connected by a bus line 14. In addition, bus line 14
Has a magnetic disk device 15 such as a hard disk,
A communication control device 16 that connects the important sentence extraction device 1 to a network such as the Internet, a storage medium reading device 18 that reads a storage medium 17, an input device 19 such as a keyboard and a mouse, and an output device 20 such as an LCD include: They are connected via an interface (not shown).

【0075】記憶媒体17としては、DVD、CDなど
の光ディスク、光磁気ディスクおよびフロッピー(登録
商標)ディスクなど、各種の方式のメディアを用いるこ
とができる。この記憶媒体17には、文書解析部2およ
び抽出部4の機能を実現するプログラムならびに文書構
造情報重要度テーブル3の内容である固定データなどが
記憶されている。記憶媒体読取装置18は、具体的に
は、記憶媒体17の方式に対応して、光ディスクドライ
ブ装置、光磁気ディスクドライブ装置、フロッピーディ
スクドライブ装置などが用いられ、記憶媒体17に記憶
されているプログラムおよび固定データは、記憶媒体読
取装置18を介してCPU11に読み取られ、磁気ディ
スク装置15にインストールされることにより、重要文
抽出装置1は、文書解析部2および抽出部4などの機能
を実現することが可能な状態となる。すなわち、磁気デ
ィスク装置15、RAM13が、テーブルである文書構
造情報重要度テーブル3を記憶する記憶手段、記憶装置
となる。
As the storage medium 17, various types of media such as an optical disk such as a DVD and a CD, a magneto-optical disk, and a floppy (registered trademark) disk can be used. The storage medium 17 stores a program for realizing the functions of the document analysis unit 2 and the extraction unit 4 and fixed data as the contents of the document structure information importance table 3. The storage medium reading device 18 specifically uses an optical disk drive device, a magneto-optical disk drive device, a floppy disk drive device, or the like corresponding to the method of the storage medium 17, and stores the program stored in the storage medium 17. The fixed data is read by the CPU 11 via the storage medium reading device 18 and installed in the magnetic disk device 15, so that the important sentence extracting device 1 realizes functions such as the document analyzing unit 2 and the extracting unit 4. It becomes possible to do this. That is, the magnetic disk device 15 and the RAM 13 serve as storage means and a storage device for storing the document structure information importance table 3 which is a table.

【0076】このプログラムおよび固定データは、記憶
媒体17から磁気ディスク装置15にインストールする
のに代えて、インターネットなどのネットワークから通
信制御装置16を介してダウンロードして、磁気ディス
ク装置15にインストールするようにしてもよい。この
場合に、プログラムおよび固定データを送信したサーバ
装置において前記プログラムおよび固定データを記憶し
ている記憶装置も、この発明の記憶媒体である。
Instead of installing the program and fixed data from the storage medium 17 to the magnetic disk device 15, the program and the fixed data are downloaded from a network such as the Internet via the communication control device 16 and installed on the magnetic disk device 15. It may be. In this case, a storage device that stores the program and the fixed data in the server device that has transmitted the program and the fixed data is also a storage medium of the present invention.

【0077】なお、磁気ディスク装置15にインストー
ルされた前記のプログラムは、所定のOS上で動作する
アプリケーションプログラムであってもよい。また、こ
のプログラムは、以下に説明する文書解析部2および抽
出部4などが遂行する機能の一部の実行をOSや他のア
プリケーションプログラムに代行させるものであっても
よい。
The program installed in the magnetic disk device 15 may be an application program that runs on a predetermined OS. In addition, this program may be a program that substitutes an OS or another application program for executing some of the functions performed by the document analysis unit 2 and the extraction unit 4 described below.

【0078】次に、重要文抽出装置1が行う具体的な処
理について説明する。まず、この重要文抽出装置1に入
力する入力文書の例を示す。以下の例は、新聞記事であ
り(毎日新聞(1995年))、タイトルは“北日本、低気
圧の影響で大荒れ−−交通機関、乱れる”である。
Next, a specific process performed by the important sentence extracting apparatus 1 will be described. First, an example of an input document to be input to the important sentence extraction device 1 will be described. The following example is a newspaper article (Mainichi Shimbun (1995)), and the title is "Northern Japan, stormy due to low pressure-transportation, disturbed".

【0079】<入力文書の例> ------------------------------------------ 「発達した低気圧の影響で、四日は北海道、東北地方の
各地で吹雪や強風の大荒れの天候となった。このため高
速道路が通行止めとなったり、東北新幹線が運転を見合
わせるなど交通機関が乱れ、正月休み明けで首都圏へ向
かうUターンラッシュにも影響が出た。気象庁による
と、マイナス三六度以下の強い寒気が日本列島北部の上
空に流れ込んだため、北日本や北陸地方では陸上で一五
―二〇メートル、岬や海上で二〇―二五メートルの最大
風速を記録。この強風に雪が伴い、吹雪となった。悪天
候は五日朝まで続きそうだという。JR東日本による
と、東北新幹線の福島―白石蔵王(宮城県白石市)間で
同日午後五時五十分、三〇メートルを超える強風を観測
したため、同八時まで運転を見合わせた。このため同線
の三十七本が最高二時間六分遅れた。このほか、東北地
方の一部の在来線も不通となった。一方、高速道路は四
日朝から寸断状態。日本道路交通情報センターによると
五日午前一時現在、東北道は青森インター―仙台泉イン
ター間が通行止めのほか、福島県内でも断続的に通行止
めになった。このほか八戸道、秋田道、磐越道も一時、
通行止めとなった。」 ------------------------------------------
<Example of input document> ----------------------------------------- -"The effects of the developed low pressure caused severe snowstorms and strong winds on the four days of Hokkaido and the Tohoku region due to the effects of the developed low pressure. As a result, traffic such as closing the highway and stopping the operation of the Tohoku Shinkansen was suspended. Institutional disruptions affected the U-turn rush to the Tokyo metropolitan area at the end of the New Year holidays, according to the Japan Meteorological Agency, where strong cold air below minus 36 degrees flowed over the northern part of the Japanese archipelago. A maximum wind speed of 15-200 meters on land and 20-25 meters on capes and sea was recorded.This strong wind was accompanied by snow and a snowstorm.The bad weather is likely to continue until the morning of the 5th. A strong wind of more than 30 meters was observed between Fukushima and Shiroishi Zao (Shiraishi City, Miyagi Prefecture) on the same day at 5:50 pm on the same day. Thirty-seven trains on this line were delayed up to two hours and six minutes, and some conventional lines in the Tohoku region were closed. According to the Japan Road Traffic Information Center, as of the morning of March 5, the Aomori Interchange and Sendai Izumi Interchange were closed off in Tohoku Expressway and intermittently in Fukushima Prefecture. The road is temporary,
The road was closed. ------------------------------------------

【0080】以上のような入力文書があったときに、ま
ず、文書解析部2が、図3に示す文書構造情報重要度テ
ーブル3を参照して必要な解析を行なう。
When there is such an input document, first, the document analysis unit 2 performs necessary analysis with reference to the document structure information importance table 3 shown in FIG.

【0081】具体的には、文書構造情報重要度テーブル
3に、文書構造表現があるか否かという条件が登録され
ている。文書構造表現とは、文書構造を明示する表現で
あり、例えば、小見出しや、章や節の見出しが該当す
る。
More specifically, the document structure information importance table 3 has registered therein a condition as to whether or not there is a document structure expression. The document structure expression is an expression that specifies the document structure, and corresponds to, for example, a subheading or a chapter or section heading.

【0082】小見出しか否かは、 ・字下げがあり、レコードの末が名詞であるものは小見
出しである。 ・レコードの先頭に記号があるものは小見出しである。 等で判断できる。ここで、名詞か否かは字下げのあるレ
コードについて形態素解析すればよい。また、文書の段
落は、字下げがあるか否かで判定することができる。
The subheadings are as follows:-There is indentation, and a record whose noun is at the end is a subheading. -A record with a symbol at the beginning is a subheading. And so on. Here, whether or not a word is a noun may be determined by performing morphological analysis on a record with indentation. The paragraph of the document can be determined by whether or not there is indentation.

【0083】図4は、文書解析部2が行う処理を示すフ
ローチャートである。この処理により重要個所特定工程
が実現される。図4に示すように、まず、入力文書中に
文書解析部2で未処理の文またはレコードがあるか否か
を判断し(ステップS1)、未処理の文またはレコード
があるときは(ステップS1のY)、未処理の文または
レコードの先頭から1文または1レコードを特定して
(ステップS2)、当該1文または1レコードに文書構
造表現があるか否かを判断し(ステップS3)、その判
断結果をRAM13の所定領域に記録して(ステップS
4)、ステップS1に戻る。すべての文やレコードにつ
いてこのような判断をした後に(ステップS1のN)、
前記のようにRAM13の所定領域に記録された文書構
造表現のあり/なしの結果から、入力文書全体として文
書構造表現のあり/なしの判定を行い、入力文書全体の
段落数を判定する(ステップS5)。そして、文書構造
情報重要度テーブル3を参照して、当該判定結果に合致
した条件に対応している重要個所を入力文書中で特定す
る(ステップS6)。
FIG. 4 is a flowchart showing the processing performed by the document analysis unit 2. This process implements an important location specifying step. As shown in FIG. 4, first, the document analysis unit 2 determines whether there is an unprocessed sentence or record in the input document (step S1). If there is an unprocessed sentence or record (step S1) Y), one sentence or one record is specified from the head of the unprocessed sentence or record (step S2), and it is determined whether or not the one sentence or one record has a document structure expression (step S3). The result of the determination is recorded in a predetermined area of the RAM 13 (step S
4) Return to step S1. After making such a determination for all sentences and records (N in step S1),
From the result of the presence / absence of the document structure expression recorded in the predetermined area of the RAM 13 as described above, the presence / absence of the document structure expression is determined for the entire input document, and the number of paragraphs of the entire input document is determined (step). S5). Then, referring to the document structure information importance table 3, an important part corresponding to the condition that matches the determination result is specified in the input document (step S6).

【0084】前記の例の入力文書では、小見出し等の文
書構造表現はなく、段落数は4であることがわかる。そ
して、文書構造情報重要度テーブル3を参照して、先の
解析結果で得られた条件に一致する重要個所を調べる
と、「文書構造表現なし」で「段落数5以下」の条件に
おいては、重要個所として「先頭の段落を抽出」とある
ので、この例の入力文書中から、先頭段落だけが重要文
書として特定されることとなる。
In the input document of the above example, it is understood that there is no document structure expression such as a subheading and the number of paragraphs is four. Then, by referring to the document structure information importance table 3 and examining important points that match the condition obtained in the previous analysis result, under the condition of “no document structure expression” and “5 or less paragraphs”, Since "extract the first paragraph" is described as an important part, only the first paragraph is specified as an important document from the input document in this example.

【0085】抽出部4は、ステップS6で特定された入
力文書中の重要個所を抽出して、出力装置20に出力す
る。
The extraction section 4 extracts important points in the input document specified in step S 6 and outputs the extracted important points to the output device 20.

【0086】前記の入力文書例において、このようにし
て抽出された入力文書中の重要個所は、以下のとおりと
なる。
In the input document example described above, important portions in the input document extracted in this manner are as follows.

【0087】<抽出文書の例> ------------------------------------------ 「発達した低気圧の影響で、四日は北海道、東北地方の
各地で吹雪や強風の大荒れの天候となった。このため高
速道路が通行止めとなったり、東北新幹線が運転を見合
わせるなど交通機関が乱れ、正月休み明けで首都圏へ向
かうUターンラッシュにも影響が出た。」 ------------------------------------------
<Example of extracted document> ----------------------------------------- -"The effects of the developed low pressure caused severe snowstorms and strong winds on the four days of Hokkaido and the Tohoku region due to the effects of the developed low pressure. As a result, traffic such as closing the highway and stopping the operation of the Tohoku Shinkansen was suspended. The institution was disrupted, and the U-turn rush to the Tokyo metropolitan area after the New Year holidays was affected. "--------------------------- ---------------

【0088】以上説明した重要文抽出装置1によれば、
文書の構造の種類により、それを特徴づける要因(段落
数等)を用いて適切に重要文を抽出できる。
According to the important sentence extracting apparatus 1 described above,
Depending on the type of the structure of the document, an important sentence can be appropriately extracted by using factors (number of paragraphs, etc.) characterizing the structure.

【0089】なお、前記の例では、文書構造表現を持た
ず、段落数5以下と、比較的短い文書であることが、文
書構造情報重要度テーブル3に記述され、このような短
い文書は通常、速報等の即時性を求めた文書であること
が多く、それらは文書の冒頭部分がほとんど全体の要約
に適する場合が多いとの考えに基づいて、重要文の抽出
を行うものである。また、段落の小見出しがある(文書
構造表現あり)場合は、前記のものよりは文書は長い場
合が多く、それに応じた抽出ができる。
In the above example, it is described in the document structure information importance table 3 that the document does not have a document structure expression and has a paragraph number of 5 or less and is relatively short. In many cases, the document is a document that seeks immediacy such as a flash report, and extracts an important sentence based on the idea that the beginning of the document is often suitable for almost the entire summary. In addition, when there is a subheading of a paragraph (with a document structure expression), the document is often longer than the above, and extraction can be performed in accordance with the document.

【0090】[発明の実施の形態2]別例である発明の
実施の形態を発明の実施の形態2として説明する。
[Second Embodiment of the Invention] Another embodiment of the invention will be described as a second embodiment of the invention.

【0091】この発明の実施の形態2である重要文抽出
装置1が発明の実施の形態1と相違するのは、図3に示
す文書構造情報重要度テーブル3に代えて図5に示す文
書構造情報重要度テーブル3を用い、これに伴い、図4
に示す処理に代えて図6に示す処理を行う点にある。そ
の他の内容については、発明の実施の形態1と同様であ
るので、発明の実施の形態1の場合と同一符号を用い、
詳細な説明を省略する。
The important sentence extracting device 1 according to the second embodiment of the present invention is different from the first embodiment in that the document structure information importance table 3 shown in FIG. 3 is replaced with the document structure shown in FIG. Using the information importance table 3, FIG.
6 in that the processing shown in FIG. 6 is performed instead of the processing shown in FIG. The other contents are the same as those of the first embodiment of the present invention.
Detailed description is omitted.

【0092】図5に示す文書構造情報重要度テーブル3
は、入力された文書のタイプに基づいて重要個所を特定
できるよう、文書タイプと、その文書タイプ中の重要個
所となる構成要素(文書構造表現を先頭としたまとま
り)を対応づけて記述したものである。
Document structure information importance table 3 shown in FIG.
Is a description that associates a document type with a component (a group with the document structure expression at the top) that is an important point in the document type so that important points can be specified based on the type of the input document. It is.

【0093】次に、重要文抽出装置1が行う具体的な処
理について説明する。まず、この重要文抽出装置1に入
力する入力文書の例を示す。以下の文書は、公開特許公
報の例である(なお、この明細書において、特許公報を
示すときは、便宜上、その文中のすみ付きカッコを“<
>”に代えて示す)。
Next, a specific process performed by the important sentence extracting apparatus 1 will be described. First, an example of an input document to be input to the important sentence extraction device 1 will be described. The following document is an example of a published patent gazette. (In this specification, when a patent gazette is indicated, for convenience, parentheses in the sentence are replaced with "<
>").

【0094】<入力文書の例> -------------------------------------------- 「<発明の名称>文章要約支援装置 <特許請求の範囲> <請求項1> 電子化された文章を表示する表示部と、前
記表示部に表示されている文章中の文字や語句を指定す
る位置指定を利用者が入力するための入力部と、利用者
から入力された位置指定で指定された文字や語句を含む
1文を切り出す文切り出し部と、記憶部と、解析用辞書
と、切り出された文の構造を前記解析用辞書を用いて解
析し、指定された文字や語句を含む、1つの述語を中心
とするまとまりである単位文を取り出して前記記憶部に
格納する単位文検出部と、利用者により入力された全て
の位置指定に対して前記文切り出し部と前記単位文検出
部による処理が終了すると、前記記憶部に格納されてい
る全ての単位文を前記文章の要約の元となる要約文作成
用データとして出力する出力部とを有する文章要約支援
装置。 <発明の詳細な説明> <0001> <産業上の利用分野> 本発明は、入力された文章を要約
する際に利用者の手助けをする文章要約支援装置に関す
る。 <0002> <従来の技術> 人間が文章を要約する際には、文章を読
みながら重要な箇所をマークし、しかる後にマークした
箇所を抜き出して、それを基に要約文を組み立てるとい
う手順を取るのが一般的である。 <発明が解決しようとする課題> 従来の自動要約の考え
方では、文が長くなるとそれだけキーワードを含む確率
が高くなり、修飾語句を多く含む文が抽出される割合が
比較的高くなる。また、キーワードを1個しか含まない
文は抽出されにくいという問題もある。このため、自動
要約といっても現実には要約の基本データの抽出装置に
過ぎず、最終的な要約文を作成するには、人間による、
抽出した文章の確認や抽出漏れの救済や抽出した文の加
工が不可欠である。 <0006> 本発明はこうした事情に鑑みてなされたもの
で、その目的は、文章の要約を行なう利用者の負担を軽
減するような文章要約支援装置を提供することにある。 <0007> <問題を解決するための手段> 上記目的を達成するため
に、本発明の文章要約支援装置は、電子化されている文
章を表示する表示部と、表示部に表示されている文章中
の文字や語句を指定する位置指定を利用者が入力するた
めの入力部と、利用者から入力された位置指定で指定さ
れた文字や語句を含む1文を切り出す文切り出し部と、
記憶部と、解析用辞書と、切り出された文の構造を前記
解析用辞書を用いて解析し、指定された文字や語句を含
む、1つの述語を中心とするまとまりである単位文を取
り出して前記記憶部に格納する単位文検出部と、利用者
により入力された全ての位置指定に対して前記文切り出
し部と前記単位文検出部による処理が終了すると、前記
記憶部に格納されている全ての単位文を前記文章の要約
の元となる要約文作成用データとして出力する出力部と
を有する。 <0008> <作用> 本発明は、要約文を作成しようとして文章中か
ら、利用者が指定(中略) <実施例> 次に、本発明の実施例について図面を参照し
て説明する。 (中略) <発明の効果> 以上説明したように本発明は、電子化さ
れた文章をディスプレイ等に表示し、利用者からの位置
指定を契機として文章中から指定された文字や語句を含
む1文を切り出し、自然言語解析によってその文の構造
を解析し、指定された文字や語句を含む単位文を取り出
して記憶しておき、利用者による一連の位置指定が終了
すれば、記憶されている単位文を要約文作成用データと
して出力することにより、利用者は出力された単位文か
ら要約文を容易に作成することができる効果がある。 <図面の簡単な説明> <図1> 本発明の一実施例の文章要約支援装置の構成を
示すブロック図である。 <図2> 文切り出し部3の処理を示す流れ図である。 <図3> 単位文検出部5の処理を示す流れ図である。 <図4> 単位文検出部5による自然言語解析の解析結果の
例を示す図である。 <図5> 単位文検出部5による自然言語解析によって得ら
れる単位文の範囲の例を示す図である。」 --------------------------------------------
<Example of input document> ----------------------------------------- --- `` <Title of Invention> Text Summarization Support Device <Claims><Claim1> A display unit that displays digitized text, and characters and phrases in the text displayed on the display unit Contains the input part for the user to input the position specification to specify the character and the phrase specified by the position specification input from the user
A sentence cutout unit that cuts out one sentence, a storage unit, an analysis dictionary, and analyzes the structure of the cutout sentence using the analysis dictionary, including a specified character or phrase, and focusing on one predicate. When a unit sentence detecting unit that takes out a unit sentence that is a unitary unit and stores the unit sentence in the storage unit, and the processing by the sentence cutout unit and the unit sentence detecting unit ends for all position designations input by a user, A sentence summarization support device comprising: an output unit that outputs all unit sentences stored in the storage unit as summary sentence creation data that is a source of the sentence summary. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a sentence summarization support device that assists a user when summarizing an input sentence. <0002><Priorart> When a human summarizes a sentence, he takes the steps of marking important points while reading the sentence, extracting the marked part, and assembling a summary sentence based on it. It is common. <Problems to be Solved by the Invention> In the conventional concept of automatic summarization, the longer a sentence is, the higher the probability of including a keyword is, and the ratio of extracting a sentence containing many modifiers is relatively high. Another problem is that sentences containing only one keyword are difficult to extract. For this reason, automatic summarization is actually only a device for extracting basic data of summaries, and human
It is indispensable to confirm the extracted sentences, relieve omission of extraction, and process the extracted sentences. [0006] The present invention has been made in view of such circumstances, and an object of the present invention is to provide a text summarization support apparatus that reduces the burden on a user who summarizes text. <Means for Solving the Problem> In order to achieve the above object, a sentence summarization support device of the present invention includes a display unit for displaying digitized sentences, and a sentence displayed on the display unit. An input unit for the user to input a position specification that specifies a character or phrase in the inside, a sentence cutout unit that cuts out one sentence including the character or phrase specified by the position specification input from the user,
A storage unit, an analysis dictionary, and the structure of the cut-out sentence are analyzed using the analysis dictionary, and a specified sentence, including a specified character or phrase, is extracted as a unit sentence that is a united unit centered on one predicate. When the unit sentence detection unit stored in the storage unit and the processing by the sentence cutout unit and the unit sentence detection unit for all position designations input by the user are completed, all of the units stored in the storage unit And an output unit for outputting the unit sentence of the sentence as summary sentence creation data serving as a basis for summarizing the sentence. <Operation> According to the present invention, a user specifies (omitted) in a sentence in order to create an abstract sentence. <Example> Next, an example of the present invention will be described with reference to the drawings. (Omitted) <Effect of the Invention> As described above, the present invention displays a digitized text on a display or the like, and includes a character or a phrase specified in the text when the position is specified by the user. A sentence is cut out, the structure of the sentence is analyzed by natural language analysis, a unit sentence including a specified character or phrase is taken out and stored, and is stored when a series of position designations by the user are completed. By outputting the unit sentence as data for creating a summary sentence, there is an effect that the user can easily create a summary sentence from the output unit sentence. <Brief Description of the Drawings><FIG.1> FIG. 1 is a block diagram illustrating a configuration of a text summarization support device according to an embodiment of the present invention. <FIG. 2> A flowchart showing the processing of the sentence segmentation unit 3. <FIG. 3> A flowchart showing the processing of the unit sentence detection unit 5. FIG. 4 is a diagram illustrating an example of an analysis result of natural language analysis performed by the unit sentence detection unit 5. FIG. 5 is a diagram showing an example of a range of a unit sentence obtained by natural language analysis by the unit sentence detection unit 5. --------------------------------------------

【0095】以上の文書が入力されると、その文書のタ
イプを特定する。その特定は、ユーザが文書のタイプを
直接入力することで行ってもよく、また、文書解析部2
が入力文書中の文書構造表現を解析して、その解析結果
に基づいて自動的に特定するようにしてもよい。前記の
入力文書の例では、図5に示す文書構造情報重要度テー
ブル3の文書タイプの中で「特許」に該当するが、この
「特許」という文書タイプをユーザが直接入力してもよ
いし、また、文書解析部2で文書構造情報重要度テーブ
ル3内の「特許」という文書タイプに対応して規定され
た「特許請求の範囲」、「従来の技術」等の文書構造表
現を抽出することで、「特許」という文書タイプである
と判定してもよい。
When the above document is input, the type of the document is specified. The specification may be performed by the user directly inputting the type of the document.
May analyze the document structure expression in the input document and automatically specify the document structure expression based on the analysis result. In the example of the input document described above, the document type in the document structure information importance table 3 shown in FIG. 5 corresponds to “patent”. However, the user may directly input the document type “patent”. Further, the document analysis unit 2 extracts a document structure expression such as “claims” or “conventional technology” defined corresponding to the document type “patent” in the document structure information importance table 3. Thus, it may be determined that the document type is “patent”.

【0096】入力文書中の重要個所を文書解析部2が自
動的に特定する場合の文書解析部2の具体的な処理は、
図6のフローチャートに示すとおりである。この処理に
より重要個所特定工程が実現される。すなわち、まず、
入力文書中に文書解析部2で未処理の文またはレコード
があるか否かを判断し(ステップS11)、未処理の文
またはレコードがあるときは(ステップS11のY)、
未処理の文またはレコードの先頭から1文または1レコ
ードを特定して(ステップS12)、当該1文または1
レコードに文書構造情報重要度テーブル3の「特許」と
いう文書タイプに対応している重要個所として挙げられ
ている、「発明の名称」「従来の技術」等の特許明細書
に特有の文書構造表現があるか否かを判断し(ステップ
S13)、その判断結果をRAM13の所定領域に記録
して(ステップS14)、ステップS11に戻る。すべ
ての文やレコードについてこのような判断をした後に
(ステップS11のN)、前記のようにRAM13の所
定領域に記録された文書構造表現のあり/なしの結果か
ら、入力文書のタイプを特定し(ステップS15)、文
書構造情報重要度テーブル3を参照して当該文書タイプ
に対応した入力文書中の重要個所を特定する(ステップ
S16)。
The specific processing of the document analysis unit 2 when the document analysis unit 2 automatically specifies important points in the input document is as follows.
This is as shown in the flowchart of FIG. This process implements an important location specifying step. That is, first,
The document analysis unit 2 determines whether there is an unprocessed statement or record in the input document (step S11). If there is an unprocessed statement or record (Y in step S11),
One sentence or one record is specified from the beginning of the unprocessed sentence or record (step S12), and the one sentence or one
Document structure expressions unique to patent specifications such as "Title of Invention" and "Prior Art" listed as important places corresponding to the document type "Patent" in the document structure information importance table 3 in the record It is determined whether or not there is (Step S13), the determination result is recorded in a predetermined area of the RAM 13 (Step S14), and the process returns to Step S11. After making such a determination for all sentences and records (N in step S11), the type of the input document is specified from the result of the presence / absence of the document structure expression recorded in the predetermined area of the RAM 13 as described above. (Step S15) Referring to the document structure information importance table 3, an important part in the input document corresponding to the document type is specified (Step S16).

【0097】すなわち、図5に示す文書構造情報重要度
テーブル3の例では、「発明の名称」「従来の技術」等
の特許明細書に特有の文書構造表現が入力文書中に含ま
れているときは入力文書のタイプを「特許」と特定し、
このような文書構造表現が含まれていないときは入力文
書のタイプを例えば「コラム」と特定する。そして、そ
れぞれの文書タイプに対応して登録されている重要個所
を入力文書中で特定する。
That is, in the example of the document structure information importance table 3 shown in FIG. 5, a document structure expression unique to a patent specification such as "name of invention" or "conventional technology" is included in the input document. Sometimes we identify the type of input document as "patent"
When such a document structure expression is not included, the type of the input document is specified as, for example, “column”. Then, important points registered corresponding to each document type are specified in the input document.

【0098】このような文書解析部2による結果に基づ
き、特定された入力文書中の重要個所を、抽出部4が入
力文書中から抽出し、出力装置20にその結果を出力す
る。図5の例では、文書タイプが「特許」であれば、
「発明の名称」、「特許請求の範囲」、「従来の技
術」、「発明が解決しようとする課題」の欄の文章が抽
出される。
[0098] Based on such a result of the document analysis unit 2, the extraction unit 4 extracts an important part in the specified input document from the input document, and outputs the result to the output device 20. In the example of FIG. 5, if the document type is "patent",
The texts in the columns of “Title of Invention”, “Claims”, “Prior Art”, and “Problem to be Solved by the Invention” are extracted.

【0099】前記入力文書の例に対しては、以下が抽出
例である。
The following is an extraction example of the example of the input document.

【0100】<抽出文書の例> ----------------------------------------------- 「<発明の名称>文章要約支援装置 <特許請求の範囲> <請求項1> 電子化された文章を表示する表示部と、前
記表示部に表示されている文章中の文字や語句を指定す
る位置指定を利用者が入力するための入力部と、利用者
から入力された位置指定で指定された文字や語句を含む
1文を切り出す文切り出し部と、記憶部と、解析用辞書
と、切り出された文の構造を前記解析用辞書を用いて解
析し、指定された文字や語句を含む、1つの述語を中心
とするまとまりである単位文を取り出して前記記憶部に
格納する単位文検出部と、利用者により入力された全て
の位置指定に対して前記文切り出し部と前記単位文検出
部による処理が終了すると、前記記憶部に格納されてい
る全ての単位文を前記文章の要約の元となる要約文作成
用データとして出力する出力部とを有する文章要約支援
装置。 <従来の技術> 人間が文章を要約する際には、文章を読
みながら重要な箇所をマークし、しかる後にマークした
箇所を抜き出して、それを基に要約文を組み立てるとい
う手順を取るのが一般的である。<発明が解決しようと
する課題> 従来の自動要約の考え方では、文が長くな
るとそれだけキーワードを含む確率が高くなり、修飾語
句を多く含む文が抽出される割合が比較的高くなる。ま
た、キーワードを1個しか含まない文は抽出されにくい
という問題もある。このため、自動要約といっても現実
には要約の基本データの抽出装置に過ぎず、最終的な要
約文を作成するには、人間による、抽出した文章の確認
や抽出漏れの救済や抽出した文の加工が不可欠である。
<0006> 本発明はこうした事情に鑑みてなされたもの
で、その目的は、文章の要約を行なう利用者の負担を軽
減するような文章要約支援装置を提供することにあ
る。」 -------------------------------------------
<Example of extracted document> ----------------------------------------- ------ `` <Title of Invention> Text Summarization Support Device <Claims><Claim1> A display unit that displays digitized text, and a text in the text displayed on the display unit Includes an input part for the user to input the position specification to specify characters and phrases, and the characters and phrases specified by the position specification entered by the user
A sentence cutout unit that cuts out one sentence, a storage unit, an analysis dictionary, and analyzes the structure of the cutout sentence using the analysis dictionary, including a specified character or phrase, and focusing on one predicate. When a unit sentence detecting unit that takes out a unit sentence that is a unitary unit and stores the unit sentence in the storage unit, and the processing by the sentence cutout unit and the unit sentence detecting unit ends for all position designations input by a user, A sentence summarization support device comprising: an output unit that outputs all unit sentences stored in the storage unit as summary sentence creation data that is a source of the sentence summary. <Conventional technology> When a human summarizes a sentence, it is common practice to mark important points while reading the sentence, then extract the marked part, and assemble a summary based on that. It is a target. <Problems to be Solved by the Invention> In the conventional concept of automatic summarization, the longer a sentence is, the higher the probability of including a keyword is, and the ratio of extracting a sentence containing many modifiers is relatively high. Another problem is that sentences containing only one keyword are difficult to extract. For this reason, automatic summarization is actually only a device for extracting the basic data of summarization, and humans need to confirm extracted sentences, rescue omissions, and extract Sentence processing is essential.
[0006] The present invention has been made in view of such circumstances, and an object of the present invention is to provide a text summarization support apparatus that reduces the burden on a user who summarizes text. -------------------------------------------

【0101】また、公開特許公報のような定型的な文書
以外にも、図5の文書構造情報重要度テーブル3に記載
の例のように、対象となる文書がコラムの場合は、先頭
の段落および小見出し部分だけを重要個所として抽出す
る。
If the target document is a column, as in the example described in the document structure information importance table 3 in FIG. And only the subheadings are extracted as important parts.

【0102】以下は、コラムである入力文書の例であ
り、毎日新聞(95年)の記事である。タイトルは、“砂
糖 “甘さ控えめ”で現実は甘くない?!−−業界、消
費拡大に懸命”である。
The following is an example of an input document as a column, which is an article of the Mainichi Shimbun (1995). The title is "Sugar is" sweet "and the reality is not sweet?

【0103】<入力文書の例> ------------------------------------------- 「砂糖の消費が、年々減っている。飲み物も、お菓子
も、あげて「甘さ控えめ」が全盛だが、業界は砂糖の効
用をPRして消費拡大に懸命だ。 ◇73年度ピークに消費減少−−業界、PRに躍起 砂糖の一人当たり消費量は、農水省によると一九七三砂
糖年度(十月―翌年九月)の二十九キロが最高。その後
は減少傾向で、八〇年度に二十五キロを割り、九三年度
以降は二十キロを下回っている。また、でんぷんを原料
とする異性化糖の大量生産技術が確立され、十数年前か
ら清涼飲料、缶詰、菓子、パンなどに広く利用されてい
る。異性化糖は分類上、砂糖に含まれないため、砂糖の
需要を食った形になるが、異性化糖を加えた消費量で
も、七八年度の二十八キロをピークに、ここ三年は二十
五キロ台と、じり貧だ。同省砂糖類課は「砂糖が肥満や
虫歯、糖尿病などのもとになるという、間違った健康知
識に基づく砂糖・甘味離れが、平成時代に入って目立つ
ようになった。これを受けて、飲料や菓子メーカーが
『甘さを抑えれば売れ筋になる』と、生産を切り替えた
ことが大きく影響している」(信太英治・課長補佐)と
分析する。こうした減少傾向に、精糖工業会や日本砂糖
輸出入協議会など砂糖八団体は九〇年末、「お砂糖
“真”時代協議会」を結成。消費者にもっと砂糖を知っ
てもらおうと、キャンペーン活動を続ける。一昨年にテ
レビ放映した番組を基に昨年春、おいしい和洋菓子や職
人の技などを紹介する冊子「甘いお話」を三万部作成し
たが、残部はほとんどないという。今春に第二集を発行
する。さらに、二月十九日から二十五日まで、東京・銀
座のソニースクエアで、砂糖を使ったオブジェを展示
し、買い物客らにPRする。 ◇上手な使用法や効果 《健康》「砂糖を食べると太るのでは」「虫歯にならな
いか」「ビタミンB1やカルシウムは奪われないか」な
ど、健康に絡んだ消費者の疑問に、精糖工業会は(1)
砂糖は疲労を速やかに回復するエネルギー源。バランス
良く食べて、よく体を動かせば、問題はない(2)食事
やおやつは、時間と量を決めて節度よく与える。その
後、必ず歯を磨けば虫歯は予防できる(3)B1やカル
シウムが奪われることはないが、牛乳、果物、野菜など
からバランス良く摂取するのが合理的――などと説明す
る。 《九不思議》砂糖の効用は「七不思議」よりふたつ多い
? (1)親水性=肉にもみ込むと、たんぱく質と水分を結
びつけ、肉を軟らかくする。 (2)泡の安定=卵白に加えて泡立てれば、しっかりし
た泡のメレンゲになる。 (3)浸透性=果実酒を作るとき加えるのは、浸透圧で
フルーツの味と香りを引き出すため。 (4)ゼリー化=ジャムを作るときに加え、果物に含ま
れるペクチンをゼリーのようにする。 (5)でんぷんの老化防止=でんぷんを軟らかく保つ働
きがあるため、すし飯に加えると固くなるのを防ぐ。 (6)発酵の促進=イーストの発酵を活発にし、焼き色
の良いふっくらしたパンにする。 (7)温度による変化=約一〇五度でシロップ、一一五
度でフォンダン、一六〇―一六五度でべっこうあめ、一
九五度以上でカラメルになる。 (8)脂肪の酸化防止=ケーキやクッキーのバター風味
を保つ。 (9)防腐性=カビや細菌の繁殖に必要な水分を吸収す
る。 (「甘いお話」から) 《保存》東京都消費者センターによると、砂糖について
の問い合わせ、苦情は一九九〇年四月以降、昨年十一月
までで計二十八件と、比較的少ない。大半は「古い砂糖
が出てきたが、大丈夫か」など、保存に関する内容とい
う。砂糖は、においや水分を吸収しやすいので、密閉で
きる缶やプラスチック容器に入れて使う。においが移っ
たら、風通しの良い場所に広げて空気にさらす。固まっ
た場合は、広げて霧を吹くか、砕いて使うとよい。 《プレート》お祝いにタイをかたどった砂糖を配る風習
は、昔からよく見られたが、東京の三越銀座店では、菓
乃実(かのみ)の杜(もり)=港区元赤坂=が、名入れ
のできる砂糖のプレートを発売。プレートは大人の手の
ひらほどの大きさ。「〇〇ちゃん、おめでとう」といっ
た言葉を付けられる。砂糖製のベビーシューズをあしら
って、値段は三千円。バレンタインデー向けのハート形
小物入れ(四千円)など、季節商品が数種類ある。注文
に応じ、オリジナルの品も製作する。 種類 特徴 ・ 用途 ◆上白糖 いわゆる白砂糖。しっとりした風味。
調味、菓子、飲み物など万能 ◆三温糖 黄褐色で甘みが強い。煮物やつくだ煮
に使うと、甘さとコクが出る ◆グラニュー糖 高純度でサラサラ。淡泊な甘さで飲み
物、菓子、料理に広く使う ◆中ざら糖 黄褐色だが純度が高い。風味があり、
煮物やめん類の汁などに使う ◆角砂糖 グラニュー糖を四角く固めた。飲み物
のほか料理、菓子作りに便利 ◆氷砂糖 果実酒に最適。稲荷ずしのアゲを煮る
と、美しいつやが出る ◆粉砂糖 果物にかけたり、ケーキやクッキー、
洋菓子作りに使う ◆顆粒状糖 多孔質、顆粒(かりゅう)状の高純度
糖。冷たい飲み物に入れたり果物にかける ◆和三盆 伝統製法で作る。結晶が非常に小さ
く、和菓子用に珍重される ◆黒砂糖 サトウキビの搾り汁をそのまま煮詰め
た。強い風味と甘さをもつ =精糖工業会の資料から」 -------------------------------------------
<Example of input document> ----------------------------------------- -"Sugar consumption is declining every year. Drinks and sweets are all about" low-sweetness, "but the industry is working hard to expand its consumption by promoting the utility of sugar.消費 Consumption decreased at the peak of FY73--Industry and PR sprung up According to the Ministry of Agriculture and Fisheries, per capita consumption of sugar was the highest in the 197kg sugar year (October-September of the following year). Since then, it has been declining, falling below 25 km in FY1990 and below 20 km since FY193. In addition, the technology for mass production of isomerized sugars using starch as a raw material has been established, and has been widely used for soft drinks, cans, confections, breads and the like for more than ten years. Isomerized sugar is not included in sugar in the classification, so it is in the form of consumption of sugar.However, consumption of isomerized sugar also peaked at 28 kg in FY78, Is 25 km, poor. According to the Ministry of Sugars, "Sucrose and sweetness based on incorrect health knowledge that sugar causes obesity, tooth decay and diabetes have become noticeable in the Heisei era. And confectionery manufacturers say, "If you reduce sweetness, it will sell well," and switching production has a major effect. "(Eiji Shinta, Assistant Manager). In response to this downward trend, eight sugar groups, including the Sugar Refining Industry Association and the Japan Sugar Import and Export Council, formed the Sugar “True” Age Council at the end of 1990. Continue campaigning to get more sugar from consumers. Last spring, she produced 30,000 copies of the book "Sweet Story", which introduces delicious Japanese and Western confectionery and artisan skills, based on programs aired on TV two years ago, but says that there is almost no remainder. The second volume will be published this spring. In addition, from February 19 to 25, an art object using sugar will be exhibited at Sony Square in Ginza, Tokyo, and publicized to shoppers.使用 Successful usage and effects << Health >> Sugar industry asks questions about health related consumers, such as "If you eat sugar, you get fat,""Do you not lose tooth decay,""Do you lose vitamin B1 and calcium?" The meeting is (1)
Sugar is an energy source that quickly recovers from fatigue. There is no problem if you eat well-balanced and move your body well. After that, if you brush your teeth, you can prevent tooth decay. (3) B1 and calcium will not be deprived, but it is reasonable to take milk, fruits, vegetables, etc. in a well-balanced manner. "Nine Wonders" Are there two more uses of sugar than "Seven Wonders"? (1) Hydrophilicity: When immersed in meat, it binds protein and moisture and softens meat. (2) Foam stability = whisking in addition to egg white provides a firm foam meringue. (3) Osmoticness = added when making fruit wine to bring out the taste and aroma of fruit by osmotic pressure. (4) Jellification = In addition to making jam, pectin contained in fruits is made into jelly. (5) Prevention of starch aging = Since it has the function of keeping starch soft, it prevents it from becoming hard when added to sushi rice. (6) Promotion of fermentation = Activate yeast fermentation to make plump bread with good baking color. (7) Temperature change = about 150 ° C to syrup, 115 ° C to fondant, 1650 ° C to 165 ° C, caramel at 195 ° C or more. (8) Antioxidation of fat = Preserve the buttery flavor of cakes and cookies. (9) Antiseptic = absorbs water required for the growth of mold and bacteria. (From “Sweet Story”) 《Preservation》 According to the Tokyo Consumer Center, inquiries about sugar and complaints from April 1990 to November last year were relatively low, totaling 28 cases. . Most of the content is about preservation, such as "Old sugar came out, is it OK?" Sugar is easy to absorb odor and moisture, so put it in a can or plastic container that can be sealed. When the smell is transferred, spread it in a well-ventilated place and expose it to the air. If it hardens, it can be spread and sprayed or crushed. << Plate >> The custom of distributing sugar in the shape of Thailand for the celebration has been common since ancient times, but in the Mitsukoshi Ginza store in Tokyo, the name of the forest of Kaminomi = Moto Akasaka, Minato-ku Released a sugar plate that can be inserted. The plate is about the size of the palm of an adult. You can put words like "Congratulations, chan." The price is 3,000 yen with sugar baby shoes. There are several types of seasonal products, such as a heart-shaped accessory case for Valentine's Day (4,000 yen). We also produce original products according to orders. Kind Features / Usage ◆ Kami-shirasu So-called white sugar. Moist flavor.
All-purpose seasoning, confectionery, drinks, etc. ◆ Three-colored sugar. When used for boiled foods and tsukudani, sweetness and richness can be obtained. ◆ Granulated sugar High purity and smooth. Widely used for drinks, confectionery, and cooking with a light sweetness. It has a flavor,
Used for cooking and noodles. Kaku Sugar Granulated sugar is hardened into a square. Convenient for making drinks, cooking and confectionery ◆ Crying sugar Ideal for fruit wine. When you boil Inari sushi, it gives a beautiful luster. Powdered sugar Sprinkled on fruits, cakes and cookies,
Used for making Western confectionery ◆ Granular sugar Porous, granule-like high-purity sugar. Put it in a cold drink or put it on fruit. Crystals are very small and are prized for Japanese sweets ◆ Brown sugar The sugarcane juice was boiled down. Strong flavor and sweetness = from the data of the Sugar Refining Industry Association "----------------------------------- --------

【0104】以上の入力文書の例の文書タイプを「コラ
ム」と認識して、文書構造情報重要度テーブル3を参照
して重要文を抽出した例は下記のとおりである。
The following is an example in which the document type of the above example of the input document is recognized as “column”, and the important sentence is extracted by referring to the document structure information importance table 3.

【0105】<抽出例> ------------------------------------------- 「砂糖の消費が、年々減っている。飲み物も、お菓子
も、あげて「甘さ控えめ」が全盛だが、業界は砂糖の効
用をPRして消費拡大に懸命だ。 ◇73年度ピークに消費減少−−業界、PRに躍起 ◇上手な使用法や効果 《健康》 《九不思議》 《保存》 《プレート》」 -------------------------------------------
<Extraction Example> ------------------------------------------- "Sugar consumption is decreasing year by year. Although drinks and sweets are all about" low-sweetness, "the industry is working hard to expand its consumption by promoting the utility of sugar.消費 Decrease in consumption at the peak of FY73--Industry and PR booming ◇ Good usage and effects 《Health》 《Nine wonder》 《Preservation》 《Plate》 --------------- ----------------------------

【0106】以上説明した重要文抽出装置1によれば、
文書タイプごとに文書中の重要個所を規定するので、文
書タイプに応じた適切な文の抽出ができる。
According to the important sentence extracting apparatus 1 described above,
Since important points in the document are defined for each document type, an appropriate sentence can be extracted according to the document type.

【0107】[発明の実施の形態3]別例である発明の
実施の形態を発明の実施の形態3として説明する。
[Third Embodiment of the Invention] Another embodiment of the invention will be described as a third embodiment of the invention.

【0108】この発明の実施の形態3である重要文抽出
装置1が発明の実施の形態2と相違するのは、図5に示
す文書構造情報重要度テーブル3に代えて図7に示す文
書構造情報重要度テーブル3を用い、これに伴い、図6
に示す処理に代えて図8に示す処理を行う点にある。そ
の他の内容については、発明の実施の形態2と同様であ
るので、発明の実施の形態2の場合と同一符号を用い、
詳細な説明を省略する。
The important sentence extracting device 1 according to the third embodiment of the present invention is different from the second embodiment in that the document structure information importance table 3 shown in FIG. 5 is replaced with the document structure shown in FIG. Using the information importance table 3, FIG.
8 in that the processing shown in FIG. 8 is performed instead of the processing shown in FIG. The other contents are the same as those of the second embodiment of the present invention, so that the same reference numerals as those of the second embodiment of the present invention are used.
Detailed description is omitted.

【0109】この重要文抽出装置1では、図7に示す文
書構造情報重要度テーブル3で、入力された文書のタイ
プに基づいて文書中の重要でない個所を特定できるよ
う、文書タイプと、その文書タイプ中の抽出しなくても
よい重要でない個所となる構成要素(文書構造表現を先
頭としたまとまり)を対応づけて記述するものである。
The important sentence extracting apparatus 1 uses the document structure information importance table 3 shown in FIG. 7 such that a document type and its document can be identified based on the type of the input document. It is described in association with constituent elements that are not important parts that need not be extracted from the type (groups starting with the document structure expression).

【0110】図8は、文書解析部2が行う具体的な処理
について説明するフローチャートである。この処理によ
り重要個所特定工程が実現される。図8に示すように、
まず、この例では、入力文書のタイプをユーザが直接入
力する。この入力がされたときは(ステップS21の
Y)、入力文書中に文書解析部2で未処理の文またはレ
コードがあるか否かを判断し(ステップS22)、未処
理の文またはレコードがあるときは(ステップS22の
Y)、未処理の文またはレコードの先頭から1文または
1レコードを特定して(ステップS23)、当該1文ま
たは1レコードに文書構造情報重要度テーブル3のステ
ップS21で特定された文書タイプに対応している非重
要個所として挙げられている内容の有無の判定のために
必要な解析を行い(ステップS24)、その判断結果を
RAM13の所定領域に記録して(ステップS25)、
ステップS22に戻る。すべての文やレコードについて
このような解析を行った後に(ステップS22のN)、
前記のようにRAM13の所定領域に記録されたその解
析結果に基づいて、入力文書中の非重要個所を特定する
(ステップS26)。
FIG. 8 is a flowchart illustrating a specific process performed by the document analysis unit 2. This process implements an important location specifying step. As shown in FIG.
First, in this example, the user directly inputs the type of the input document. When this input is made (Y in step S21), the document analysis unit 2 determines whether there is an unprocessed sentence or record in the input document (step S22), and there is an unprocessed sentence or record. At this time (Y in step S22), one sentence or one record is specified from the head of the unprocessed sentence or record (step S23), and the sentence or record is added to the sentence or record in step S21 of the document structure information importance table 3 in step S21. An analysis necessary to determine the presence or absence of contents listed as non-important parts corresponding to the specified document type is performed (step S24), and the determination result is recorded in a predetermined area of the RAM 13 (step S24). S25),
It returns to step S22. After performing such an analysis for all sentences and records (N in step S22),
Based on the analysis result recorded in the predetermined area of the RAM 13 as described above, a non-important portion in the input document is specified (step S26).

【0111】より具体的な例をもって説明すると、文書
タイプがコラムである場合に、図7の文書構造情報重要
度テーブル3ではコラムに関する記載の「小見出しより
下の階層の箇条書き、列挙」が非重要個所とされてい
る。そこで、文書解析部2では、「小見出し」「箇条書
き」「列挙表現」を解析、判定する。
More specifically, when the document type is a column, in the document structure information importance table 3 shown in FIG. 7, the description of the column, ie, "itemization and enumeration of the hierarchy below the subheading" is not shown. It is an important place. Therefore, the document analysis unit 2 analyzes and determines “subheadline”, “item list”, and “enumeration expression”.

【0112】箇条書き、列挙表現は、例えば、 ・先頭が記号の表現か数詞表現がある部分 ・先頭が記号で、レコードの末が名詞のレコードが連続
する部分 に対して判定する。
The itemized list and the enumerated expression include, for example, a part where the beginning is a symbolic expression or a numerical expression. A part where the beginning is a symbol and the end of the record is a series of consecutive noun records.

【0113】1文ずつの解析(ステップS24)では、
上記条件の表現を検出してRAM13に記憶しておき、
すべての文を解析した後(ステップS22のN)、連続
した個所は箇条書き、そうでない場合は小見出しとして
判定する(ステップS26)。
In the analysis for each sentence (step S24),
The expression of the above condition is detected and stored in the RAM 13,
After analyzing all sentences (N in step S22), a continuous part is determined as an item, and if not, it is determined as a subheading (step S26).

【0114】そして、抽出部4では、RAM13に記憶
されている非重要個所の記述から、非重要個所に該当し
ない個所だけを重要個所として抽出する。
Then, the extracting unit 4 extracts only non-important locations from the description of the non-important locations stored in the RAM 13 as important locations.

【0115】発明の実施の形態2で示した入力文書例で
は、図7に示す文書構造情報重要度テーブル3のうち、
文書タイプとしてコラムが選択されて、前記処理がなさ
れた結果、以下のような文書が抽出される。
In the example of the input document shown in the second embodiment of the present invention, in the document structure information importance table 3 shown in FIG.
As a result of performing the above-described processing by selecting the column as the document type, the following documents are extracted.

【0116】<抽出文書の例> -------------------------------------------- 「砂糖の消費が、年々減っている。飲み物も、お菓子
も、あげて「甘さ控えめ」が全盛だが、業界は砂糖の効
用をPRして消費拡大に懸命だ。 ◇73年度ピークに消費減少−−業界、PRに躍起 砂糖の一人当たり消費量は、農水省によると一九七三砂
糖年度(十月―翌年九月)の二十九キロが最高。その後
は減少傾向で、八〇年度に二十五キロを割り、九三年度
以降は二十キロを下回っている。また、でんぷんを原料
とする異性化糖の大量生産技術が確立され、十数年前か
ら清涼飲料、缶詰、菓子、パンなどに広く利用されてい
る。異性化糖は分類上、砂糖に含まれないため、砂糖の
需要を食った形になるが、異性化糖を加えた消費量で
も、七八年度の二十八キロをピークに、ここ三年は二十
五キロ台と、じり貧だ。同省砂糖類課は「砂糖が肥満や
虫歯、糖尿病などのもとになるという、間違った健康知
識に基づく砂糖・甘味離れが、平成時代に入って目立つ
ようになった。これを受けて、飲料や菓子メーカーが
『甘さを抑えれば売れ筋になる』と、生産を切り替えた
ことが大きく影響している」(信太英治・課長補佐)と
分析する。こうした減少傾向に、精糖工業会や日本砂糖
輸出入協議会など砂糖八団体は九〇年末、「お砂糖
“真”時代協議会」を結成。消費者にもっと砂糖を知っ
てもらおうと、キャンペーン活動を続ける。一昨年にテ
レビ放映した番組を基に昨年春、おいしい和洋菓子や職
人の技などを紹介する冊子「甘いお話」を三万部作成し
たが、残部はほとんどないという。今春に第二集を発行
する。さらに、二月十九日から二十五日まで、東京・銀
座のソニースクエアで、砂糖を使ったオブジェを展示
し、買い物客らにPRする。 ◇上手な使用法や効果 《健康》 「砂糖を食べると太るのでは」「虫歯にならないか」
「ビタミンB1やカルシウムは奪われないか」など、健
康に絡んだ消費者の疑問に、精糖工業会は(1)砂糖は
疲労を速やかに回復するエネルギー源。バランス良く食
べて、よく体を動かせば、問題はない(2)食事やおや
つは、時間と量を決めて節度よく与える。その後、必ず
歯を磨けば虫歯は予防できる(3)B1やカルシウムが
奪われることはないが、牛乳、果物、野菜などからバラ
ンス良く摂取するのが合理的――などと説明する。 《九不思議》砂糖の効用は「七不思議」よりふたつ多い
? 《保存》東京都消費者センターによると、砂糖について
の問い合わせ、苦情は一九九〇年四月以降、昨年十一月
までで計二十八件と、比較的少ない。大半は「古い砂糖
が出てきたが、大丈夫か」など、保存に関する内容とい
う。砂糖は、においや水分を吸収しやすいので、密閉で
きる缶やプラスチック容器に入れて使う。においが移っ
たら、風通しの良い場所に広げて空気にさらす。固まっ
た場合は、広げて霧を吹くか、砕いて使うとよい。 《プレート》お祝いにタイをかたどった砂糖を配る風習
は、昔からよく見られたが、東京の三越銀座店では、菓
乃実(かのみ)の杜(もり)=港区元赤坂=が、名入れ
のできる砂糖のプレートを発売。プレートは大人の手の
ひらほどの大きさ。「〇〇ちゃん、おめでとう」といっ
た言葉を付けられる。砂糖製のベビーシューズをあしら
って、値段は三千円。バレンタインデー向けのハート形
小物入れ(四千円)など、季節商品が数種類ある。注文
に応じ、オリジナルの品も製作する。」 ------------------------------------------
<Example of extracted document> ----------------------------------------- --- "Sugar consumption is decreasing year by year. Drinks and sweets are all about" low-sweetness, "but the industry is working hard to expand its consumption by promoting the utility of sugar.消費 Consumption decreased at the peak of FY73--Industry and PR sprung up According to the Ministry of Agriculture and Fisheries, per capita consumption of sugar was the highest in the 197kg sugar year (October-September of the following year). Since then, it has been declining, falling below 25 km in FY1990 and below 20 km since FY193. In addition, the technology for mass production of isomerized sugars using starch as a raw material has been established, and has been widely used for soft drinks, cans, confections, breads and the like for more than ten years. Isomerized sugar is not included in sugar in the classification, so it is in the form of consumption of sugar.However, consumption of isomerized sugar also peaked at 28 kg in FY78, Is 25 km, poor. According to the Ministry of Sugars, "Sucrose and sweetness based on incorrect health knowledge that sugar causes obesity, tooth decay and diabetes have become noticeable in the Heisei era. And confectionery manufacturers say, "If you reduce sweetness, it will sell well," and switching production has a major effect. "(Eiji Shinta, Assistant Manager). In response to this downward trend, eight sugar groups, including the Sugar Refining Industry Association and the Japan Sugar Import and Export Council, formed the Sugar “True” Age Council at the end of 1990. Continue campaigning to get more sugar from consumers. Last spring, she produced 30,000 copies of the book "Sweet Story", which introduces delicious Japanese and Western confectionery and artisan skills, based on programs aired on TV two years ago, but says that there is almost no remainder. The second volume will be published this spring. In addition, from February 19 to 25, an art object using sugar will be exhibited at Sony Square in Ginza, Tokyo, and publicized to shoppers. ◇ Good use and effects 《Health》 “If you eat sugar, you will get fat”
Consumers concerned with health, such as "Can vitamin B1 and calcium be deprived?" The Sugar Refining Manufacturers Association (1) sugar is an energy source that quickly recovers from fatigue. There is no problem if you eat well-balanced and move your body well. After that, if you brush your teeth, you can prevent tooth decay. (3) B1 and calcium will not be deprived, but it is reasonable to take milk, fruits, vegetables, etc. in a well-balanced manner. "Nine Wonders" Are there two more uses of sugar than "Seven Wonders"? << Conservation >> According to the Tokyo Consumer Center, there have been relatively few inquiries and complaints about sugar since April 1990, up to November last year, a total of 28 cases. Most of the content is about preservation, such as "Old sugar came out, is it OK?" Sugar is easy to absorb odor and moisture, so put it in a can or plastic container that can be sealed. When the smell is transferred, spread it in a well-ventilated place and expose it to the air. If it hardens, it can be spread and sprayed or crushed. << Plate >> The custom of distributing sugar in the shape of Thailand for the celebration has been common since ancient times, but in the Mitsukoshi Ginza store in Tokyo, the name of the forest of Kaminomi = Moto Akasaka, Minato-ku Released a sugar plate that can be inserted. The plate is about the size of the palm of an adult. You can put words like "Congratulations, chan." The price is 3,000 yen with sugar baby shoes. There are several types of seasonal products, such as a heart-shaped accessory case for Valentine's Day (4,000 yen). We also produce original products according to orders. ------------------------------------------

【0117】以上説明した重要文抽出装置1によれば、
文書構造情報重要度テーブル3において文書タイプごと
に文書中の重要でない個所を規定することで、文書の種
類に応じた重要文抽出を的確に行うことができる。
According to the important sentence extracting apparatus 1 described above,
By defining unimportant parts in the document for each document type in the document structure information importance table 3, it is possible to accurately extract important sentences according to the type of the document.

【0118】また、文書中の重要でない個所を文書構造
情報重要度テーブル3に規定することで、その他の部分
については漏らさずに抽出することを可能とし、重要で
ある可能性がある個所は落とさずに抽出することができ
る。
Further, by defining unimportant portions in the document in the document structure information importance table 3, it is possible to extract other portions without leaking, and to remove portions that may be important. It can be extracted without.

【0119】[発明の実施の形態4]別例である発明の
実施の形態を発明の実施の形態4として説明する。
[Fourth Embodiment of the Invention] Another embodiment of the invention will be described as a fourth embodiment of the invention.

【0120】この発明の実施の形態4である重要文抽出
装置1が発明の実施の形態3と相違するのは、図7に示
す文書構造情報重要度テーブル3に代えて図9に示す文
書構造情報重要度テーブル3を用い、これに伴い、図8
に示す処理に代えて図10に示す処理を行う点にある。
その他の内容については、発明の実施の形態3と同様で
あるので、発明の実施の形態3の場合と同一符号を用
い、詳細な説明を省略する。
The important sentence extracting apparatus 1 according to the fourth embodiment of the present invention is different from the third embodiment in that the document structure information importance table 3 shown in FIG. 7 is replaced with the document structure shown in FIG. Using the information importance table 3, FIG.
Is that the processing shown in FIG. 10 is performed instead of the processing shown in FIG.
Other details are the same as those of the third embodiment of the present invention, and therefore, the same reference numerals as those of the third embodiment of the present invention are used, and the detailed description is omitted.

【0121】この重要文抽出装置1では、図9に示す文
書構造情報重要度テーブル3で、入力された文書のタイ
プに基づいて、文書の構成要素(文書構造表現を先頭と
したまとまり)と、当該個所が重要であるかどうかの度
合いや順序付けを記述している。
In the important sentence extracting apparatus 1, in the document structure information importance table 3 shown in FIG. 9, based on the type of the input document, the components of the document (the unit having the document structure expression at the head) and Describes the degree and order of importance of the location.

【0122】入力文書中の重要個所を文書解析部2が自
動的に特定する場合の文書解析部2の具体的な処理は、
図10のフローチャートに示すとおりである。この処理
により重要個所特定工程が実現される。すなわち、ま
ず、入力文書中に文書解析部2で未処理の文またはレコ
ードがあるか否かを判断し(ステップ31)、未処理の
文またはレコードがあるときは(ステップS31の
Y)、未処理の文またはレコードの先頭から1文または
1レコードを特定して(ステップS32)、当該1文ま
たは1レコードに文書構造情報重要度テーブル3の「特
許」という文書タイプに対応している条件として挙げら
れている、「発明の名称」「従来の技術」等の特許明細
書に特有の文書構造表現があるか否かを判断し(ステッ
プS33)、その判断結果をRAM13の所定領域に記
録して(ステップS34)、ステップS31に戻る。す
べての文やレコードについてこのような判断をした後に
(ステップS31のN)、前記のようにRAM13の所
定領域に記録された文書構造表現のあり/なしの結果か
ら、入力文書のタイプを特定し(ステップS35)、文
書構造情報重要度テーブル3を参照して当該文書タイプ
に対応した条件から、重要個所を特定する(ステップS
36)。
The specific processing of the document analysis unit 2 when the document analysis unit 2 automatically specifies important points in the input document is as follows.
This is as shown in the flowchart of FIG. This process implements an important location specifying step. That is, first, the document analysis unit 2 determines whether there is an unprocessed sentence or record in the input document (step 31). If there is an unprocessed sentence or record (Y in step S31), the process proceeds to step S31. One sentence or one record is specified from the beginning of the processing sentence or record (step S32), and the condition corresponding to the document type “patent” in the document structure information importance table 3 for the sentence or record is specified. It is determined whether or not there is a specific document structure expression in the patent specification such as “name of invention” or “prior art” (step S33), and the determination result is recorded in a predetermined area of the RAM 13. Then (step S34), the process returns to step S31. After making such a determination for all sentences and records (N in step S31), the type of the input document is specified from the result of the presence / absence of the document structure expression recorded in the predetermined area of the RAM 13 as described above. (Step S35), referring to the document structure information importance table 3, specify an important part from conditions corresponding to the document type (Step S35).
36).

【0123】そして、抽出部4が、その重要個所を抽出
して出力装置20に出力するが、図9に示す文書構造情
報重要度テーブル3では、条件ごとに入力文書中の重要
個所についての重要度の順序付けがなされており、この
例では重要度1のものを重要度最大としている。このよ
うに重要度の順序付けがなされているので、入力文書中
の重要個所を特定する際(ステップS36)には、出力
装置20による出力については、最初に重要度1のもの
だけを出力し、ユーザの指示がある場合のみ重要度2を
出力する、あるいは、重要度1と2のものをフォントサ
イズや色などを区別して表示する、あるいは、出力した
い文書サイズが規定されている場合には、重要度1のも
のの分量でサイズに余裕がある場合のみ重要度2のもの
も出力するなど、重要度の大きさに応じた様々な出力が
可能となる。
Then, the extracting unit 4 extracts the important part and outputs the extracted important part to the output device 20. In the document structure information importance table 3 shown in FIG. The order of the degrees is determined. In this example, the one having the importance level of 1 is set to the maximum importance level. Since the order of importance is determined in this way, when an important part in the input document is specified (step S36), only the output of the output device 20 having the importance of 1 is output first. When the importance 2 is output only when instructed by the user, or when the importance 1 and 2 are displayed by distinguishing font sizes and colors, or when the document size to be output is specified, Various outputs in accordance with the magnitude of importance are possible, such as outputting importance 2 only when there is room in the size of the importance 1.

【0124】発明の実施の形態2で示した入力文書例
を、この重要文抽出装置1で処理し、重要度1のみ出力
した例を以下に示す。
An example in which the input document example shown in the second embodiment of the present invention is processed by the important sentence extracting apparatus 1 and only the importance 1 is output is shown below.

【0125】<抽出文書の例> ----------------------------------------- 「砂糖の消費が、年々減っている。飲み物も、お菓子
も、あげて「甘さ控えめ」が全盛だが、業界は砂糖の効
用をPRして消費拡大に懸命だ。 ◇73年度ピークに消費減少−−業界、PRに躍起 ◇上手な使用法や効果 《健康》 《九不思議》 《保存》 《プレート》」 -------------------------------------------
<Example of extracted document> ----------------------------------------- "Sugar consumption is decreasing year by year. Although drinks and sweets are all about" low-sweetness, "the industry is working hard to expand its consumption by promoting the utility of sugar.消費 Decrease in consumption at the peak of FY73--Industry and PR booming ◇ Good usage and effects 《Health》 《Nine wonder》 《Preservation》 《Plate》 --------------- ----------------------------

【0126】以上説明した重要文抽出装置1によれば、
入力文書のタイプに基づき、文書の構成要素ごとに重要
度を付与しているので、文書タイプに応じた重要文の抽
出が可能であり、ユーザの希望や出力制限などに応じて
多段階に抽出文書を出力することが可能である。
According to the important sentence extracting apparatus 1 described above,
Importance is assigned to each component of the document based on the type of the input document, so important sentences can be extracted according to the document type, and extracted in multiple stages according to the user's wishes and output restrictions. It is possible to output a document.

【0127】[発明の実施の形態5]別例である発明の
実施の形態を発明の実施の形態5として説明する。
[Fifth Embodiment] Another embodiment of the present invention will be described as a fifth embodiment of the present invention.

【0128】この発明の実施の形態5である重要文抽出
装置1が発明の実施の形態4と相違するのは、図9に示
す文書構造情報重要度テーブル3に代えて図11に示す
文書構造情報重要度テーブル3を用い、図10に示す処
理に代えて図6に示す発明の実施の形態2と同様の処理
を行う点にある。その他の内容については、発明の実施
の形態4と同様であるので、発明の実施の形態4の場合
と同一符号を用い、詳細な説明を省略する。
The important sentence extracting device 1 according to the fifth embodiment of the present invention is different from the fourth embodiment in that the document structure information importance table 3 shown in FIG. 9 is replaced with the document structure shown in FIG. The point is that the same processing as in the second embodiment of the invention shown in FIG. 6 is performed instead of the processing shown in FIG. 10 using the information importance table 3. The other contents are the same as those of the fourth embodiment of the invention, so that the same reference numerals as those of the fourth embodiment of the invention are used and the detailed description is omitted.

【0129】図11に示す文書構造情報重要度テーブル
3では、入力された文書のタイプに基づいて、文書中の
文書構造表現、構成要素(文書構造表現を先頭としたま
とまり)間で関係する個所を記述している。図11の例
では、「特許請求の範囲」が「実施例」と内容的に関連
する。特に、この例では、最も左に書かれた文書構造表
現の構成要素と、その右に記載された文書構造表現の構
成要素とが関係する。
In the document structure information importance table 3 shown in FIG. 11, based on the type of the input document, the document structure expression in the document and the parts related to the constituent elements (the unit having the document structure expression at the head) are related. Is described. In the example of FIG. 11, “Claims” are related in content to “Examples”. In particular, in this example, the component of the document structure expression written on the leftmost side and the component of the document structure expression described on the right side are related.

【0130】このような文書構造情報重要度テーブル3
を参照して、文書解析部2は、図6に示す発明の実施の
形態2と同様の処理を行う。この場合にステップS13
では文書構造情報重要度テーブル3の文書タイプ「特
許」に対応する文書構造表現の組に挙げられている文書
構造表現の有無を判断し、このような文書構造表現があ
るときにステップS15で入力文書のタイプを「特許」
と特定する。そして、ステップS16では、文書タイプ
「特許」に対応する文書構造表現の組に挙げられている
文書構造表現に対応している構成要素を入力文書の重要
個所として特定する。この特定を行う場合に、文書構造
表現の組の欄で最も左に書かれた文書構造表現の構成要
素なのか、あるいは、その右に記載された文書構造表現
の構成要素なのかを識別し、同一の文書構造表現の組の
構成要素同士を対応付けて特定する。
Such a document structure information importance table 3
, The document analysis unit 2 performs the same processing as in the second embodiment of the invention shown in FIG. In this case, step S13
Determines whether there is a document structure expression listed in the set of document structure expressions corresponding to the document type "patent" in the document structure information importance table 3, and inputs such a document structure expression in step S15. Document type "patent"
And specify. Then, in step S16, a component corresponding to the document structure expression listed in the set of document structure expressions corresponding to the document type "patent" is specified as an important part of the input document. When performing this identification, identify whether it is the component of the document structure expression written at the leftmost in the column of the document structure expression set, or the component of the document structure expression described to the right of it. The components of the same set of document structure expressions are specified in association with each other.

【0131】そして、抽出部4は、文書タイプ「特許」
に対応する文書構造表現の組の欄のうち、最も左に記載
した文書構造表現(図5の例では、「特許請求の範
囲」、「発明が解決しようとする課題」)の構成要素を
抽出して、出力装置20に出力する。その際、各構成素
が関連する構成要素(図5の例では、「効果」「実施
例」「作用」)について、ユーザから指示がある場合
や、最も左に記載した文書構造表現の構成要素だけでは
抽出量が少ない場合に、その関連する個所を出力する。
例えば、ユーザが「発明が解決しようとする課題」の部
分を指示すると、関連する「作用」「効果」の部分が出
力される。なお、関連づけられた部分は発明の実施の形
態3に説明と同様に識別表示等でもよい。
Then, the extracting unit 4 sets the document type "patent"
Of the set of document structure expressions corresponding to (1), the components of the leftmost document structure expression (in the example of FIG. 5, “claims” and “problem to be solved by the invention”) are extracted. Then, the data is output to the output device 20. At this time, the user is instructed about the components related to each component (in the example of FIG. 5, “effect”, “example”, and “action”), or the component of the document structure expression described at the leftmost. If only the amount of extraction is small, the relevant part is output.
For example, when the user designates the “problem to be solved by the invention” part, the related “action” and “effect” parts are output. Note that the associated portion may be an identification display or the like as described in Embodiment 3 of the present invention.

【0132】発明の実施の形態2に示した特許公開公報
の入力文書の例で、この重要文抽出装置1で重要個所を
抽出した例は以下のようになる。
In the example of the input document of the patent publication shown in the second embodiment of the invention, an example in which important portions are extracted by the important sentence extracting device 1 is as follows.

【0133】<抽出文書の例> ------------------------------------------- 「<発明が解決しようとする課題> 従来の自動要約の考
え方では、文が長くなるとそれだけキーワードを含む確
率が高くなり、修飾語句を多く含む文が抽出される割合
が比較的高くなる。また、キーワードを1個しか含まな
い文は抽出されにくいという問題もある。このため、自
動要約といっても現実には要約の基本データの抽出装置
に過ぎず、最終的な要約文を作成するには、人間によ
る、抽出した文章の確認や抽出漏れの救済や抽出した文
の加工が不可欠である。 <0006> 本発明はこうした事情に鑑みてなされたもの
で、その目的は、文章の要約を行なう利用者の負担を軽
減するような文章要約支援装置を提供することにある。 <作用> 本発明は、要約文を作成しようとして文章中か
ら、利用者が指定した文字や語句を含む単位文(1つの
述語を中心とするまとまり)を抽出するので、利用者は
抽出された単位文から従来に比べて容易に要約文を作成
することができる。 <発明の効果> 以上説明したように本発明は、電子化さ
れた文章をディスプレイ等に表示し、利用者からの位置
指定を契機として文章中から指定された文字や語句を含
む1文を切り出し、自然言語解析によってその文の構造
を解析し、指定された文字や語句を含む単位文を取り出
して記憶しておき、利用者による一連の位置指定が終了
すれば、記憶されている単位文を要約文作成用データと
して出力することにより、利用者は出力された単位文か
ら要約文を容易に作成することができる効果がある。」 ------------------------------------------
<Example of extracted document> ----------------------------------------- -"<Problems to be Solved by the Invention> In the conventional concept of automatic summarization, the longer a sentence is, the higher the probability of including a keyword is, and the ratio of extracting a sentence containing many modifiers is relatively high. There is also a problem that sentences containing only one keyword are difficult to extract, so even if an automatic summarization is used, it is actually just a device for extracting basic data for summarization, and a final summary sentence is created. It is indispensable for a human to check the extracted text, remedy the omission of extraction, and process the extracted text. <0006> The present invention has been made in view of such circumstances, and its purpose is to summarize the text. It is an object of the present invention to provide a sentence summarization support device that can reduce the burden on a user who performs summarization. , A unit sentence containing a character or phrase specified by the user (a unit of one predicate) is extracted, so that the user can create a summary sentence from the extracted unit sentence more easily than in the past. <Effects of the Invention> As described above, the present invention displays digitized text on a display or the like, and includes a character or phrase specified in the text when the position is specified by the user. A sentence is cut out, the structure of the sentence is analyzed by natural language analysis, a unit sentence including a specified character or phrase is taken out and stored, and is stored when a series of position designations by the user are completed. By outputting the unit sentence as data for creating a summary sentence, there is an effect that a user can easily create a summary sentence from the output unit sentence. "------------ ------------------------------

【0134】以上説明した重要文抽出装置1によれば、
文書タイプごとに各構成要素間を関連づけておくこと
で、関係する構成要素部分を必要に応じて出力すること
が可能となり、重要な個所とそれに関連する部分を提示
でき、文書を効率的に読み進めることができる。
According to the important sentence extracting apparatus 1 described above,
By associating each component with each document type, it is possible to output related component parts as necessary, and to present important parts and related parts, and to read documents efficiently. You can proceed.

【0135】[発明の実施の形態6]別例である発明の
実施の形態を発明の実施の形態6として説明する。
[Sixth Embodiment of the Invention] Another embodiment of the invention will be described as a sixth embodiment of the invention.

【0136】この発明の実施の形態6である重要文抽出
装置1が発明の実施の形態5と相違するのは、図11に
示す文書構造情報重要度テーブル3に代えて図12に示
す文書構造情報重要度テーブル3を用いる点にある。そ
の他の内容については、発明の実施の形態5と同様であ
るので、発明の実施の形態5の場合と同一符号を用い、
詳細な説明を省略する。
The important sentence extracting device 1 according to the sixth embodiment of the present invention is different from the fifth embodiment in that the document structure information importance table 3 shown in FIG. 11 is replaced with the document structure shown in FIG. The point is that the information importance table 3 is used. Other details are the same as those of the fifth embodiment of the present invention, so that the same reference numerals as those of the fifth embodiment of the present invention are used.
Detailed description is omitted.

【0137】図12に示す文書構造情報重要度テーブル
3では、文書のタイプに応じて、図11に示す発明の実
施の形態5の場合と同様に文書構造表現の組が記述さ
れ、さらに、各文書構造表現の組には、どのような関係
にあるか関係の種類を示す「関係名」が対応付けられて
記述されている。すなわち、図12の例では、「特許請
求の範囲」が「実施例」と情報を「詳細化」するという
点で関連し、「特許請求の範囲」は「作用」と「平易
化」という点で関連する。
In the document structure information importance table 3 shown in FIG. 12, a set of document structure expressions is described in the same manner as in the fifth embodiment of the invention shown in FIG. In the set of document structure expressions, a “relation name” indicating the type of the relationship is described in association with the relationship. That is, in the example of FIG. 12, "claims" is related to "embodiment" in that information is "refined", and "claims" is referred to as "operation" and "simplification". Related in.

【0138】このような文書構造情報重要度テーブル3
を参照して、文書解析部2は、図6に示す発明の実施の
形態5と同様の処理を行う。前記のように、ステップS
16では、文書タイプ「特許」に対応する文書構造表現
の組に挙げられている文書構造表現に対応している構成
要素を入力文書の重要個所として特定し、この特定を行
う場合に、文書構造表現の組の欄で最も左に書かれた文
書構造表現の構成要素なのか、あるいは、その右に記載
された文書構造表現の構成要素なのかを識別し、同一の
文書構造表現の組の構成要素同士を対応付けて特定す
る。そして、この特定を行う場合に、同一の文書構造表
現の組の構成要素に文書構造情報重要度テーブル3に掲
げる関係名も対応付ける。
Such document structure information importance table 3
, The document analysis unit 2 performs the same processing as in the fifth embodiment of the invention shown in FIG. As described above, step S
In step S16, the component corresponding to the document structure expression listed in the set of the document structure expression corresponding to the document type "patent" is specified as an important part of the input document. Identify whether it is a component of the document structure expression written on the leftmost in the column of expression set or a component of the document structure expression described on the right of it, and configure the same set of document structure expressions The elements are specified in association with each other. When this identification is performed, the relation names listed in the document structure information importance table 3 are also associated with the components of the same set of document structure expressions.

【0139】そして、抽出部4は、文書構造情報重要度
テーブル3の最も左に記載している構成要素「特許請求
の範囲」のまとまりをまず重要な個所として出力装置2
0に出力する。その際、文書構造情報重要度テーブル3
の最も左に記載している文書構造表現の構成要素が関連
する構成要素名と、この関連を示す関連名の出力も可能
とし、ユーザから指示がある場合や、重要個所の抽出量
が少ない場合に、その関連する構成要素を表示すること
ができる。
Then, the extraction unit 4 regards the unit of the component “claims” described at the leftmost of the document structure information importance table 3 as an important part first, and
Output to 0. At this time, the document structure information importance table 3
It is also possible to output the component name related to the component of the document structure expression described at the leftmost and the related name indicating this relationship, when there is an instruction from the user, or when the amount of important parts extracted is small Can display its associated components.

【0140】例えば、図12の例で、ユーザが「特許請
求の範囲」について関係名「平易化」の「作用」の部分
を指示すると、関連する「作用」の部分が出力装置20
から出力される。なお、関連づけられた部分は発明の実
施の形態3に説明と同様に識別表示等でもよい。これは
用途等に応じて、どの関係名が情報を追加表示する際よ
いかをあらかじめ設定しておいてもよい。
For example, in the example of FIG. 12, when the user designates the "action" portion of the relation name "simplification" for "claims", the related "action" portion is output to the output device 20.
Output from Note that the associated portion may be an identification display or the like as described in Embodiment 3 of the present invention. This may be set in advance as to which relation name is better for additionally displaying information, depending on the use or the like.

【0141】発明の実施の形態2に示した特許公開公報
の入力文書の例で、この重要文抽出装置1で重要個所を
抽出した例は以下のようになる。
In the example of the input document of the patent publication shown in the second embodiment of the invention, an example in which important portions are extracted by the important sentence extracting device 1 is as follows.

【0142】<抽出文書の例> ---------------------------------------- 「<特許請求の範囲> <請求項1> 電子化された文章を表示する表示部と、前
記表示部に表示されている文章中の文字や語句を指定す
る位置指定を利用者が入力するための入力部と、利用者
から入力された位置指定で指定された文字や語句を含む
1文を切り出す文切り出し部と、記憶部と、解析用辞書
と、切り出された文の構造を前記解析用辞書を用いて解
析し、指定された文字や語句を含む、1つの述語を中心
とするまとまりである単位文を取り出して前記記憶部に
格納する単位文検出部と、利用者により入力された全て
の位置指定に対して前記文切り出し部と前記単位文検出
部による処理が終了すると、前記記憶部に格納されてい
る全ての単位文を前記文章の要約の元となる要約文作成
用データとして出力する出力部とを有する文章要約支援
装置。 -->(平易化)作用 <作用> 本発明は、要約文を作成しようとして文章中か
ら、利用者が指定した文字や語句を含む単位文(1つの
述語を中心とするまとまり)を抽出するので、利用者は
抽出された単位文から従来に比べて容易に要約文を作成
することができる。」 -----------------------------------------
<Example of Extracted Document> ---------------------------------------- "<Claims><Claim1> A display for displaying a digitized sentence, and a position for designating a character or a phrase in the sentence displayed on the display for the user to input. Includes characters and phrases specified by the input part and the position specified by the user
A sentence cutout unit that cuts out one sentence, a storage unit, an analysis dictionary, and analyzes the structure of the cutout sentence using the analysis dictionary, including a specified character or phrase, and focusing on one predicate. When a unit sentence detecting unit that takes out a unit sentence that is a unitary unit and stores the unit sentence in the storage unit, and the processing by the sentence cutout unit and the unit sentence detecting unit ends for all position designations input by a user, A sentence summarization support device comprising: an output unit that outputs all unit sentences stored in the storage unit as summary sentence creation data that is a source of the sentence summary. -> (Simplification) Action <Action> The present invention extracts a unit sentence (a unit of one predicate) containing a character or phrase specified by the user from a sentence in an attempt to create an abstract sentence. Therefore, the user can easily create a summary sentence from the extracted unit sentence as compared with the related art. -----------------------------------------

【0143】以上説明した重要文抽出装置1によれば、
文書中の関連する構成要素とその関係を保持しておくこ
とにより、情報を追加表示あるいは出力分量を増やす際
に、ユーザの所望の情報を出力することができる。
According to the important sentence extracting apparatus 1 described above,
By retaining related components in the document and their relationships, it is possible to output information desired by the user when information is additionally displayed or the output amount is increased.

【0144】前記の例では、文として長く、複雑である
「特許請求の範囲」と、それをより平易化した「作用」
部分の表現と共に表示することで、より適切な情報提示
を行うことができる。
In the above example, the “claims”, which are long and complex as sentences, and the “actions” which are simplified from them.
By displaying together with the expression of the portion, more appropriate information presentation can be performed.

【0145】[発明の実施の形態7]別例である発明の
実施の形態を発明の実施の形態7として説明する。
[Embodiment 7] Another embodiment of the present invention will be described as a seventh embodiment of the present invention.

【0146】この発明の実施の形態7である重要文抽出
装置1が発明の実施の形態6と相違するのは、図12に
示す文書構造情報重要度テーブル3に代えて図13に示
す文書構造情報重要度テーブル3を用いる点にある。そ
の他の内容については、発明の実施の形態6と同様であ
るので、発明の実施の形態6の場合と同一符号を用い、
詳細な説明を省略する。
The important sentence extracting apparatus 1 according to the seventh embodiment differs from the sixth embodiment in that the document structure information importance table 3 shown in FIG. 12 is replaced with the document structure shown in FIG. The point is that the information importance table 3 is used. Other details are the same as those in the sixth embodiment of the present invention, and thus the same reference numerals as those in the sixth embodiment of the present invention are used.
Detailed description is omitted.

【0147】図13に示す文書構造情報重要度テーブル
3では、文書タイプに応じて、その文書タイプ中の重要
個所となる構成要素(文書構造表現を先頭としたまとま
り)の先頭の「文書構造表現」と、その構成要素に含ま
れる語句についての所定の「条件」と、その構成要素の
「重要度」とが対応付けられて記述されている。
In the document structure information importance table 3 shown in FIG. 13, according to the document type, the “document structure expression” at the head of a component (a group starting from the document structure expression) which is an important part in the document type ", A predetermined" condition "for a phrase included in the component, and" importance "of the component are described in association with each other.

【0148】このような文書構造情報重要度テーブル3
を参照して、文書解析部2は、図10に示す発明の実施
の形態4と同様の処理を行う。但し、図10のステップ
S36においては、入力文書の重要個所の特定を次のよ
うに行う。すなわち、まず、文書構造情報重要度テーブ
ル3に挙げている「文書構造表現」を先頭とする構成要
素を入力文書中で特定する。そして、これらの構成要素
のうち、「重要度」の最も高い構成要素部分(重要度
1)に対して構文解析、パタンマッチ、形態素解析等を
行い、対応する「条件」に合致する語句、すなわち、修
飾句の長い文の語句か、修飾句の長い文の末の語句か、
または、頻度の高い語句かを保持する。図13の例で
は、修飾句の長い文の末の語句を「条件」としている。
この構成要素自体については、全体を重要度1として
も、特にこの修飾句の長い文だけを重要としてもよい。
そのほかの「重要度」の低い構成要素部分(重要度2)
については、保持した語句が文書構造情報重要度テーブ
ル3に記載の「条件」で出現していれば、その構成要素
のその文を重要個所として抽出する。
Such a document structure information importance table 3
, The document analysis unit 2 performs the same processing as in the fourth embodiment of the invention shown in FIG. However, in step S36 of FIG. 10, the important part of the input document is specified as follows. That is, first, a component having “document structure expression” listed in the document structure information importance table 3 is specified in the input document. Then, among these constituent elements, syntax analysis, pattern matching, morphological analysis, and the like are performed on the component part having the highest “importance” (importance 1), and a word that matches the corresponding “condition”, that is, , The word in a long qualifier sentence, the last word in a long qualifier sentence,
Or, keep words that are frequently used. In the example of FIG. 13, the last word of the sentence having a long modifier is “condition”.
With respect to this component itself, the whole may be set to the importance level 1, or particularly, only the long sentence of the modifier may be set to the importance level.
Other components with low "importance" (importance 2)
With regard to, if the held phrase appears in the "condition" described in the document structure information importance table 3, the sentence of the component is extracted as an important part.

【0149】図13に示す文書構造情報重要度テーブル
3の例では、「重要度」が1の「特許請求の範囲」につ
いて、修飾句の長い文(長いとは、どの程度長いものを
指すのかは予め文書構造情報重要度テーブル3に設定さ
れている)を抽出し、その語句を得る。入力文書が発明
の実施の形態2で示した特許公開公報の例である場合
は、「前記表示部に表示されている文章中の文字や語句
を指定する位置指定を利用者が入力するための入力
部」、「利用者から入力された位置指定で指定された文
字や語句を含む1文を切り出す文切り出し部」、「切り
出された文の構造を前記解析用辞書を用いて解析し、指
定された文字や語句を含む、1つの述語を中心とするま
とまりである単位文を取り出して前記記憶部に格納する
単位文検出部」、「利用者により入力された全ての位置
指定に対して前記文切り出し部と前記単位文検出部によ
る処理が終了すると、前記記憶部に格納されている全て
の単位文を前記文章の要約の元となる要約文作成用デー
タとして出力する出力部」の4文が長いので、これらに
含まれる語句をまず保持する。
In the example of the document structure information importance table 3 shown in FIG. 13, for the “claims” having “importance” of 1, a long sentence of a qualifying phrase (how long does it mean? Is set in advance in the document structure information importance table 3), and its phrase is obtained. When the input document is an example of the patent publication disclosed in the second embodiment of the invention, "the position designation for designating a character or a phrase in a sentence displayed on the display unit for the user to input is designated. `` Input unit '', `` Sentence cutout unit that cuts out one sentence containing the character or phrase specified by the position specified by the user '', `` Analyze and specify the structure of the cutout sentence using the analysis dictionary, and specify Including united characters and phrases, a unit sentence detection unit that extracts unit sentences centered on one predicate and stores the unit sentence in the storage unit '', `` for all position designations input by the user, When the processing by the sentence segmentation unit and the unit sentence detection unit is completed, all of the unit sentences stored in the storage unit are output as summary sentence creation data that is the basis for summarizing the sentence. Are so long that the words The first to hold.

【0150】そして、文書構造表現「従来の技術」「実
施例」があると、その「従来の技術」「実施例」に対応
した構成要素の部分について、先の語句が文書構造情報
重要度テーブル3に掲げられた「条件」である、“提題
「〜は」”という形で出現したかどうかを判定し、“提
題「〜は」”という形で出現した文があれば、その文の
位置を特定してRAM13に記憶する。
If there is a document structure expression “conventional technology” or “embodiment”, for the component corresponding to the “conventional technology” or “embodiment”, the preceding term is described in the document structure information importance table. It is determined whether or not the “condition” listed in 3 has appeared in the form of “proposal“ -ha ””. If there is a sentence that appeared in the form of “proposal“ -ha ””, that sentence Is specified and stored in the RAM 13.

【0151】そして、以上のように特定された文を抽出
部4が抽出して出力装置20から出力する。
Then, the extraction unit 4 extracts the sentence specified as described above and outputs it from the output device 20.

【0152】以下の文書は、発明の実施の形態2で示し
たものと同じ公開特許公報の例である。
The following document is an example of the same published patent publication as that described in the second embodiment of the present invention.

【0153】<入力文書の例> ----------------------------------------- 「<発明の名称>文章要約支援装置 <特許請求の範囲> <請求項1> 電子化された文章を表示する表示部と、前
記表示部に表示されている文章中の文字や語句を指定す
る位置指定を利用者が入力するための入力部と、利用者
から入力された位置指定で指定された文字や語句を含む
1文を切り出す文切り出し部と、記憶部と、解析用辞書
と、切り出された文の構造を前記解析用辞書を用いて解
析し、指定された文字や語句を含む、1つの述語を中心
とするまとまりである単位文を取り出して前記記憶部に
格納する単位文検出部と、利用者により入力された全て
の位置指定に対して前記文切り出し部と前記単位文検出
部による処理が終了すると、前記記憶部に格納されてい
る全ての単位文を前記文章の要約の元となる要約文作成
用データとして出力する出力部とを有する文章要約支援
装置。 (中略) <0012> 記憶部4には要約したい文章が記憶されてい
る。表示部1は例えばCRTディスプレイで、記憶部4に
記憶されている文章を表示する。入力部2はマウス、タ
ッチキーなどで、利用者は表示部1に表示されている文
章を見ながら、重要だと思われる文字や語句を入力部2
を用いてマーク(位置指定)する、文切り出し部3は、
図2に示すように、マークから文章の先頭方向へ向かっ
て文と文の境界を探し、その位置を「S」とし(ステッ
プ11)、次にマークから文章の末尾方向へ向かって文と
文の境界を探し、その位置を「E」として(ステップ1
2)、最後にSからEまでの範囲を1文として切り出す。
(ステップ13)。単位文検出部5は図3に示すように、文
切り出し部3で切り出された文を解析用辞書6を用いて自
然言語解析し(参考文献:長尾真監修「日本語情報処
理」(電子通信学会,1985))(ステップ21)、1つの
述語を中心とするまとまりである単位文の範囲を決定し
(ステップ22)、マークされた文字や語句を含む単位文
を検出し、記憶部4に格納する(ステップ23)。出力部7
は、例えばプリンタで、全てのマークについて文切り出
し部3と単位文検出部5による処理が終了すると、記憶部
4に格納されている全ての単位文を文章要約の元となる
要約文作成用データとして出力する。 <0013> 次に、本実施例の文章要約支援装置の動作を、
次に示す文書が要約対象である場合について説明する。 <0014> 「製品の取扱説明書作成の大手の十印は英文マ
ニュアルを日本文に直す機械翻訳システムを実用化し、
作成工程で導入した。英日機械翻訳作業をコンピュータ
が自動的にこなすため、人手に比べ納期が半減するう
え、翻訳レベルも一定になる。業務用の本格的なシステ
ムは珍しく、すでに外資系企業の日本向け製品の技術マ
ニュアルに絞って同システムの運用を始めた。一年後に
は月間一万ページの体制を整える。 <0015> 開発したシステムはTDMS。英文の技術マニ
ュアルを対象に運用開始し、米国の電子部品、通信機メ
ーカー数社から受注している。同事業を推進するため、
このほど専門セクションの「機械翻訳部」を設置した。 <0016> 同システムでは、英文の原稿をフロッピーディ
スクなどの磁気媒体で受け取り、書式を設定する事前前
編集から翻訳、版下制作などの一連の作業をコンピュー
タで処理する。人間による翻訳作業はほとんど排除し
て、機械が翻訳できなかった箇所をチェックしたり、自
然な日本語にするためのリライト部分に翻訳者が手を加
えるだけにした。 <0017> 翻訳者一人が一ヶ月かかる仕事を機械翻訳だと
四時間で済むという。マニュアルの中の数字や単位など
訳す必要のない部分には手を加えず、日本語化の際にデ
ータの入力ミスを防いでいる。また、原文の印刷スタイ
ルも日本語にしてそのまま再現できる。」(以下略;日
本経済新聞1991年7月1日の記事より)利用者は表示部1
に表示されている上記文章を見ながらアンダラインで示
された箇所を入力部2によりマークしたものとする。文
切り出し部3は、利用者によるマークの入力契機として
文の切り出しを開始する。例えば、第1行の「機械翻
訳」のマークに対しては、図2の流れ図に従って、まず
前方へ文の境界を探しにいき、文章の先頭に至るので、
文章の先頭、すなわち「製品の取扱説明書…」を文の開
始位置Sとする。次いで後方へ文と文の境界を探しにい
き、2行目半ばの「…作業行程で導入した。」の句点が
境界となるのでここを文の終了位置Eとする。このよう
にしてマークされた語句を含む1文を順に切り出してい
く。 <0018> 単位文検出部5では、文切り出し部3で切り出さ
れた文を対象として、図3の流れ図に従って単位文の抽
出を行なう。まず、切り出された文の自然言語解析を行
ない、文の構造を決定する。図4は、この解析によって
得られる文の構造の例を示している。この構造によって
得られる1つの述語を中心とするまとまりを単位文とし
て図5(1),(2)のような各単位文の範囲を決定
し、単位文中に利用者によりマークされた語句を含むも
のを順に抽出する。この例では「機械翻訳」の部分にマ
ークがあるので、述語“実用化する”を中心とするまと
まり「製品の取扱説明書作成大手の十印は英文マニュア
ルを日本語に直す機械翻訳システムを実用化し」の部分
が抽出される。このようにして次のような要約文生成用
データが得られる。これらは記憶部4に格納された後、
出力部7により出力される。 <0019> 要約文作成データ 製品の取扱説明書作成の大手の十印は英文マニュアル
を日本文に直す機械翻訳システムを実用化した。人手
に比べ納期が半減するうえ、翻訳レベルも一定になる。
一年後には月間一万ページの体制を整える。開発し
たシステムはTDMS。英文の技術マニュアルを対象
に運用開始した。米国の電子部品、通信機メーカー数
社から受注している。翻訳者一人が一ヶ月かかる仕事
を機械翻訳だと四時間で済むという。 <0020> これらの要約文作成用データは、利用者がマー
クした文字や語句を含む必要最低限の要素から構成され
る文であるので、これらを適宜組み合わせることによ
り、次のような要約文を利用者が容易に作成することが
できる。この例では、のシステム名との「技術マニ
ュアル」に着目して、この2文にに組み合わせて表現
し、その他の文の順序を前後させている。 <0021> 要約文の作成例 「製品の取扱説明書作成の大手の十印は英文マニュアル
を日本文に直す機械翻訳システム「TDMS」を実用化
した。米国の電子部品、通信機メーカー数社から受注し
ている。翻訳者一人が一ヶ月かかる仕事を機械翻訳だと
四時間で済むという。人手に比べ納期が半減するうえ、
翻訳レベルも一定になる。一年後には月間一万ページの
体制を整える。」」 -------------------------------------
<Example of input document> ----------------------------------------- `` <Title of invention> Text summarization support device <Claims><Claim1> Designating a display unit that displays digitized text, and characters and phrases in the text displayed on the display unit Includes an input part for the user to input the position specification, and the characters and phrases specified by the position specification input by the user
A sentence cutout unit that cuts out one sentence, a storage unit, an analysis dictionary, and analyzes the structure of the cutout sentence using the analysis dictionary, including a specified character or phrase, and focusing on one predicate. When a unit sentence detecting unit that takes out a unit sentence that is a unitary unit and stores the unit sentence in the storage unit, and the processing by the sentence cutout unit and the unit sentence detecting unit ends for all position designations input by a user, A sentence summarization support device comprising: an output unit that outputs all unit sentences stored in the storage unit as summary sentence creation data that is a source of the sentence summary. (Omitted) <0012> The storage unit 4 stores sentences to be summarized. The display unit 1 is, for example, a CRT display, and displays a sentence stored in the storage unit 4. The input unit 2 is a mouse, a touch key, etc., and the user looks at the text displayed on the display unit 1 and inputs characters or phrases that are considered important.
The sentence segmentation unit 3 that marks (positions specified) using
As shown in FIG. 2, a boundary between a sentence and a sentence is searched for from the mark toward the beginning of the sentence, the position is set to “S” (step 11), and then the sentence and the sentence are sent from the mark toward the end of the sentence. And find its position as “E” (step 1
2) Finally, cut out the range from S to E as one sentence.
(Step 13). As shown in FIG. 3, the unit sentence detection unit 5 performs a natural language analysis of the sentence cut out by the sentence extraction unit 3 using the analysis dictionary 6 (see Reference: Shin Nagao, "Japanese Information Processing" (electronic communication (Academic Society, 1985)) (Step 21), determine the range of unit sentence that is a unit around one predicate (Step 22), detect the unit sentence including the marked character or phrase, and store it in the storage unit 4. It is stored (step 23). Output unit 7
When the processing by the sentence extraction unit 3 and the unit sentence detection unit 5 is completed for all the marks in the printer, for example, the storage unit
All the unit sentences stored in 4 are output as summary sentence creation data which is the basis of the sentence summary. <0013> Next, the operation of the text summarization support apparatus of the present embodiment will be described.
A case where the following document is the subject of summarization will be described. <0014> “Toin, a leading manufacturer of product instruction manuals, has put into practical use a machine translation system that translates English manuals into Japanese.
Introduced in the creation process. Since the computer automatically handles the English-Japanese machine translation work, the delivery time is reduced by half and the translation level is also constant. A full-fledged business system is unusual, and the company has already begun operation of the system by focusing on technical manuals for foreign-affiliated companies' products for Japan. One year later, it will have a 10,000 page monthly system. <0015> The developed system is TDMS. It has started operation for English-language technical manuals, and has received orders from several US electronic component and communication equipment manufacturers. To promote this business,
We have recently set up a specialized section, the “Machine Translation Department”. [0016] In this system, an English-language manuscript is received on a magnetic medium such as a floppy disk, and a series of operations such as pre-editing for setting a format, translation, and production of a copy are processed by a computer. Most of the translation work by humans was eliminated, and the translators only worked on parts that could not be translated by the machine, and on the rewrite part to make natural Japanese. <0017> It is said that machine translation can be completed in four hours if one translator takes one month. It does not change the parts of the manual that do not need to be translated, such as numbers and units, to prevent data entry errors during Japanese translation. The original print style can be reproduced in Japanese as it is. (Hereinafter abbreviated; from the article of Nihon Keizai Shimbun on July 1, 1991) The user is the display unit 1
It is assumed that the portion indicated by the underline is marked by the input unit 2 while looking at the above-mentioned sentence displayed in. The sentence segmentation unit 3 starts segmentation of a sentence when the user inputs a mark. For example, for the “Machine Translation” mark on the first line, first look for the boundaries of the sentence according to the flowchart of FIG. 2 and reach the beginning of the sentence.
The head of the sentence, that is, “the instruction manual for the product ...” is the starting position S of the sentence. Next, a search is made for a boundary between sentences, and the punctuation mark "... introduced in the work process" in the middle of the second line becomes the boundary. One sentence containing the phrase thus marked is cut out in order. <0018> The unit sentence detection unit 5 extracts unit sentences in accordance with the flowchart of FIG. First, a natural language analysis of the extracted sentence is performed to determine the structure of the sentence. FIG. 4 shows an example of the structure of a sentence obtained by this analysis. The range of each unit sentence as shown in FIGS. 5 (1) and 5 (2) is determined with a unit sentence centered on one predicate obtained by this structure as a unit sentence, and the unit sentence includes a word marked by the user. Things are extracted in order. In this example, there is a mark in the "Machine Translation" part, so a united product centered on the predicate "Practical use""A major manufacturer of instruction manuals for products has implemented a machine translation system that translates English manuals into Japanese. Is extracted. In this way, the following summary sentence generation data is obtained. After these are stored in the storage unit 4,
Output by the output unit 7. <0019> Summarized sentence creation data Toin, a major manufacturer of product instruction manuals, has commercialized a machine translation system that converts English manuals into Japanese sentences. The delivery time is halved compared to humans, and the translation level is constant.
One year later, it will have a 10,000 page monthly system. The developed system is TDMS. Operation started for technical manuals in English. It has received orders from several US electronic component and communication equipment manufacturers. A translator can take a month to complete a machine translation job in four hours. <0020> Since these summary sentence creation data are sentences composed of the minimum necessary elements including characters and phrases marked by the user, by appropriately combining these, the following summary sentence can be obtained. It can be easily created by the user. In this example, focusing on the "technical manual" with the system name, the two sentences are combined and expressed, and the order of the other sentences is changed. <0021> Example of creating a summary sentence "Toin, a major manufacturer of product instruction manuals, has commercialized a machine translation system" TDMS "that converts English manuals into Japanese sentences. It has received orders from several US electronic component and communication equipment manufacturers. A translator can take a month to complete a machine translation job in four hours. Delivery time is halved compared to manual labor,
The translation level also becomes constant. One year later, it will have a 10,000 page monthly system. '''' -------------------------------------

【0154】このような入力文書例において、「実施
例」について以下の部分が抽出される。
In such an input document example, the following parts are extracted for “Example”.

【0155】<抽出文書の例> ------------------------------------- <実施例> <0012> 表示部1は例えばCRTディスプレイで、記憶
部4に記憶されている文章を表示する。入力部2はマウ
ス、タッチキーなどで、利用者は表示部1に表示されて
いる文章を見ながら、重要だと思われる文字や語句を入
力部2を用いてマーク(位置指定)する。文切り出し部3
は、図2に示すように、マークから文章の先頭方向へ向
かって文と文の境界を探し、その位置を「S」とし(ス
テップ11)、次にマークから文章の末尾方向へ向かって
文と文の境界を探し、その位置を「E」として(ステッ
プ12)、最後にSからEまでの範囲を1文として切り出
す。(ステップ13)。単位文検出部5は図3に示すよう
に、文切り出し部3で切り出された文を解析用辞書6を用
いて自然言語解析し(参考文献:長尾真監修「日本語情
報処理」(電子通信学会,1985))(ステップ21)、1
つの述語を中心とするまとまりである単位文の範囲を決
定し(ステップ22)、マークされた文字や語句を含む単
位文を検出し、記憶部4に格納する(ステップ23)。出
力部7は、例えばプリンタで、全てのマークについて文
切り出し部3と単位文検出部5による処理が終了すると、
記憶部4に格納されている全ての単位文を文章要約の元
となる要約文作成用データとして出力する。 -------------------------------------
<Example of Extracted Document> ------------------------------------- <Example><0012> The display unit 1 is, for example, a CRT display, and displays a text stored in the storage unit 4. The input unit 2 is a mouse, a touch key, or the like, and the user uses the input unit 2 to mark (position designation) a character or a phrase that is considered important while viewing the text displayed on the display unit 1. Sentence segmentation part 3
As shown in FIG. 2, a search is made for a sentence-to-sentence boundary from the mark toward the beginning of the sentence, the position is set to "S" (step 11), and the sentence is then sent from the mark toward the end of the sentence. Then, the boundary between the sentence and the sentence is searched, the position is set to “E” (step 12), and finally the range from S to E is cut out as one sentence. (Step 13). As shown in FIG. 3, the unit sentence detection unit 5 performs a natural language analysis of the sentence cut out by the sentence extraction unit 3 using the analysis dictionary 6 (see Reference: Shin Nagao, "Japanese Information Processing" (electronic communication Society, 1985)) (Step 21), 1
The range of unit sentence, which is a group around one predicate, is determined (step 22), unit sentences including marked characters and phrases are detected, and stored in the storage unit 4 (step 23). The output unit 7 is, for example, a printer, when the processing by the sentence extraction unit 3 and the unit sentence detection unit 5 is completed for all the marks,
All the unit sentences stored in the storage unit 4 are output as summary sentence creation data which is a source of the sentence summary. -------------------------------------

【0156】以上説明した重要文抽出装置1によれば、
入力文書中のもっとも重要な個所の表現を解析し、重要
単語を保持し、他の構成要素については、その重要単語
を特定の形で含むかどうかで当該他の構成要素の重要度
を判定するので、より重要度の高い部分だけを特定する
ことができる。
According to the important sentence extracting apparatus 1 described above,
Analyzes the expression of the most important part in the input document, retains the important words, and determines the importance of other components based on whether or not the important words are included in a specific form. Therefore, it is possible to specify only a portion having higher importance.

【0157】[0157]

【発明の効果】請求項1に記載の発明は、文書の構造の
種類に応じて適切に重要文を抽出することができる。
According to the first aspect of the present invention, an important sentence can be appropriately extracted according to the type of the structure of the document.

【0158】請求項2に記載の発明は、請求項1に記載
の重要文抽出装置において、文書構造を明示する表現の
有無により文書の構造の種類を特定し、適切に重要文を
抽出することができる。
According to a second aspect of the present invention, in the important sentence extracting apparatus according to the first aspect, the type of a document structure is specified based on the presence or absence of an expression that specifies the document structure, and an important sentence is appropriately extracted. Can be.

【0159】請求項3に記載の発明は、請求項1または
2に記載の重要文抽出装置において、文書の長さで文書
の構造の種類を特定し、適切に重要文を抽出することが
できる。
According to a third aspect of the present invention, in the important sentence extracting apparatus according to the first or second aspect, the type of the structure of the document is specified by the length of the document, and the important sentence can be appropriately extracted. .

【0160】請求項4に記載の発明は、文書タイプに応
じて適切に重要文の抽出をすることができる。
According to the present invention, an important sentence can be appropriately extracted according to a document type.

【0161】請求項5に記載の発明は、請求項4に記載
の重要文抽出装置において、文書中の重要でない個所を
テーブルに規定することで、その他の部分については漏
らさずに抽出することを可能とし、重要である可能性が
ある個所は落とさずに抽出することができる。
According to a fifth aspect of the present invention, in the important sentence extracting apparatus according to the fourth aspect, by defining unimportant portions in a document in a table, other portions can be extracted without leaking. Possible and potentially important parts can be extracted without dropping.

【0162】請求項6に記載の発明は、請求項4に記載
の重要文抽出装置において、重要度によって多段階に文
書中の重要個所を特定することができる。
According to a sixth aspect of the present invention, in the important sentence extracting apparatus according to the fourth aspect, an important part in a document can be specified in multiple stages according to the importance.

【0163】請求項7に記載の発明は、請求項4に記載
の重要文抽出装置において、対象文書中で重要個所とし
て特定した部分の他にそれと関係する部分を必要に応じ
て特定することが可能となり、文書を効率的に読み進め
ることができる。
According to a seventh aspect of the present invention, in the important sentence extracting apparatus according to the fourth aspect, in addition to a part specified as an important part in the target document, a part related thereto can be specified as necessary. This makes it possible to read the document efficiently.

【0164】請求項8に記載の発明は、請求項7に記載
の重要文抽出装置において、重要個所を追加で特定し、
または、特定する個所を増加する際に、関係名を手がか
りとして所望の個所を特定することができる。
According to an eighth aspect of the present invention, in the important sentence extracting apparatus according to the seventh aspect, an important part is additionally specified,
Alternatively, when the number of locations to be specified is increased, a desired location can be specified using the relation name as a clue.

【0165】請求項9に記載の発明は、請求項6に記載
の重要文抽出装置において、文書中の重要度が比較的高
い個所の表現を解析し、それによって他の部分の重要度
を判定することで、より重要度の高い部分だけを文書中
で特定することができる。
According to a ninth aspect of the present invention, in the important sentence extracting apparatus according to the sixth aspect, the expression of a portion having a relatively high importance in the document is analyzed, and thereby the importance of the other part is determined. By doing so, it is possible to specify only a portion having higher importance in the document.

【0166】請求項10に記載の発明は、文書の構造の
種類に応じて適切に重要文を抽出することができる。
According to the tenth aspect, an important sentence can be appropriately extracted according to the type of the structure of the document.

【0167】請求項11に記載の発明は、請求項10に
記載の重要文抽出方法において、文書構造を明示する表
現の有無により文書の構造の種類を特定し、適切に重要
文を抽出することができる。
According to an eleventh aspect of the present invention, in the important sentence extracting method according to the tenth aspect, the type of the structure of the document is specified based on the presence or absence of an expression specifying the document structure, and the important sentence is appropriately extracted. Can be.

【0168】請求項12に記載の発明は、請求項10ま
たは11に記載の重要文抽出方法において、前記テーブ
ルは、文書の長さを用いて前記文書構造の種類を表現し
ている。
According to a twelfth aspect of the present invention, in the important sentence extracting method according to the tenth or eleventh aspect, the table expresses the type of the document structure using a document length.

【0169】したがって、文書の長さで文書の構造の種
類を特定し、適切に重要文を抽出することができる。
Therefore, the type of the structure of the document can be specified based on the length of the document, and the important sentence can be appropriately extracted.

【0170】請求項13に記載の発明は、所定の記憶装
置に記憶されていて文書のタイプと当該タイプである文
書中の部分の重要性の有無とを対応付けて記述している
テーブルを参照して、対象となる文書中の重要個所を特
定する重要個所特定工程を含んでなる重要文抽出方法で
ある。
The invention according to claim 13 refers to a table stored in a predetermined storage device and describing a document type in association with the presence or absence of importance of a part in the document of the type. The important sentence extraction method includes an important part specifying step of specifying an important part in a target document.

【0171】したがって、文書タイプに応じて適切に重
要文の抽出をすることができる。
Therefore, important sentences can be appropriately extracted according to the document type.

【0172】請求項14に記載の発明は、請求項13に
記載の重要文抽出方法において、前記テーブルは、文書
中の非重要個所の要件を記述していて、前記重要個所特
定工程は、前記テーブルを参照して対象となる文書中で
前記非重要個所の要件に該当する部分以外の部分を前記
重要個所として特定する。
According to a fourteenth aspect of the present invention, in the important sentence extracting method according to the thirteenth aspect, the table describes requirements of a non-important portion in the document, and the important portion specifying step includes the step of: Referring to the table, a portion other than the portion corresponding to the requirement of the non-important portion in the target document is specified as the important portion.

【0173】したがって、文書中の重要でない個所をテ
ーブルに規定することで、その他の部分については漏ら
さずに抽出することを可能とし、重要である可能性があ
る個所は落とさずに抽出することができる。
Therefore, by defining unimportant parts in the document in the table, it is possible to extract other parts without leaking, and it is possible to extract parts that may be important without dropping them. it can.

【0174】請求項15に記載の発明は、請求項13に
記載の重要文抽出方法において、前記テーブルは、文書
中の重要個所の要件を記述し、かつ、この各要件の重要
度の大きさを記述していて、前記重要個所特定工程は、
前記テーブルを参照し前記重要度の大きさを付して対象
となる文書中で前記重要個所を特定する。
According to a fifteenth aspect of the present invention, in the important sentence extracting method according to the thirteenth aspect, the table describes requirements at important locations in the document, and the magnitude of the importance of each requirement. Is described, the important location specifying step,
The important portion is specified in the target document by referring to the table and assigning the magnitude of the importance.

【0175】したがって、重要度によって多段階に文書
中の重要個所を特定することができる。
Therefore, an important part in a document can be specified in multiple stages according to the degree of importance.

【0176】請求項16に記載の発明は、請求項13に
記載の重要文抽出方法において、前記テーブルは、文書
中の重要個所の要件を記述し、かつ、この要件間を関連
付けていて、前記重要個所特定工程は、前記テーブルを
参照し対象となる文書中で前記関連付けに基づく前記重
要個所間の関連付けを行って前記重要個所を特定する。
According to a sixteenth aspect of the present invention, in the important sentence extracting method according to the thirteenth aspect, the table describes requirements of important places in the document and associates the requirements with each other. In the important part specifying step, the important part is specified by referring to the table and performing association between the important parts based on the association in a target document.

【0177】したがって、対象文書中で重要個所として
特定した部分の他にそれと関係する部分を必要に応じて
特定することが可能となり、文書を効率的に読み進める
ことができる。
Therefore, in addition to the part specified as an important part in the target document, a related part can be specified as necessary, and the document can be read efficiently.

【0178】請求項17に記載の発明は、請求項16に
記載の重要文抽出方法において、前記テーブルは、前記
関連付けの関係名を記述していて、前記重要個所特定工
程は、前記関連付けを行って前記重要個所の特定を行う
際に前記関係名も関連付ける。
According to a seventeenth aspect of the present invention, in the important sentence extracting method according to the sixteenth aspect, the table describes a relation name of the association, and the important part specifying step performs the association. When specifying the important part, the relation name is also associated.

【0179】したがって、重要個所を追加で特定し、ま
たは、特定する個所を増加する際に、関係名を手がかり
として所望の個所を特定することができる。
Therefore, when an important part is additionally specified or the number of specified parts is increased, a desired part can be specified by using the relation name as a clue.

【0180】請求項18に記載の発明は、請求項15に
記載の重要文抽出方法において、前記テーブルは、前記
要件に対応させて当該要件を具備する個所の記載に関す
る条件を記述していて、前記重要個所特定工程は、前記
テーブルを参照し対象となる文書中で前記重要度が比較
的大きい前記要件を具備する個所を前記重要個所として
特定し、また、この特定した重要個所から前記重要度が
比較的大きい前記条件に合致する部分を探し、前記対象
となる文書中で前記重要度が比較的小さい前記要件を具
備する部分で前記合致する部分が出現するものも前記重
要個所として特定する。
According to an eighteenth aspect of the present invention, in the important sentence extracting method according to the fifteenth aspect, the table describes conditions relating to a description of a location having the requirement in association with the requirement. The important location specifying step refers to the table, specifies a location having the requirement where the importance is relatively large in the target document as the important location, and further determines the importance level from the identified important location. Is searched for a portion that satisfies the condition that is relatively large, and a portion that satisfies the requirement where the importance is relatively small in the target document and where the matching portion appears is also specified as the important portion.

【0181】したがって、文書中の重要度が比較的高い
個所の表現を解析し、それによって他の部分の重要度を
判定することで、より重要度の高い部分だけを文書中で
特定することができる。
Therefore, by analyzing the expression of a portion having a relatively high importance in the document and determining the importance of the other parts based on the analysis, it is possible to specify only the higher importance portion in the document. it can.

【0182】請求項19に記載の発明は、所定の記憶装
置に記憶されていて文書構造の種類と当該構造を有する
文書中の部分の重要度とを対応付けて記述しているテー
ブルを参照して、対象となる文書中の重要個所を特定す
る重要個所特定工程をコンピュータに実行させるプログ
ラムを記憶したコンピュータに読み取り可能な記憶媒体
である。
The invention according to claim 19 refers to a table which is stored in a predetermined storage device and describes the type of document structure and the importance of a part in a document having the structure in association with each other. And a computer-readable storage medium storing a program for causing a computer to execute an important portion specifying step of specifying an important portion in a target document.

【0183】したがって、文書の構造の種類に応じて適
切に重要文を抽出することができる。
Therefore, important sentences can be appropriately extracted according to the type of the structure of the document.

【0184】請求項20に記載の発明は、請求項19に
記載の記憶媒体において、前記テーブルとして、文書構
造を明示する表現の有無を用いて前記文書構造の種類を
表現しているものを用いる。
According to a twentieth aspect of the present invention, in the storage medium according to the nineteenth aspect, a table expressing the type of the document structure by using the presence or absence of an expression for explicitly indicating a document structure is used as the table. .

【0185】したがって、文書構造を明示する表現の有
無により文書の構造の種類を特定し、適切に重要文を抽
出することができる。
Therefore, the type of the structure of the document can be specified based on the presence / absence of the expression that clearly indicates the document structure, and the important sentence can be appropriately extracted.

【0186】請求項21に記載の発明は、請求項19ま
たは20に記載の重要文抽出方法において、前記テーブ
ルとして、文書の長さを用いて前記文書構造の種類を表
現しているものを用いる。
According to a twenty-first aspect of the present invention, in the important sentence extracting method according to the nineteenth or twentieth aspect, a table expressing the type of the document structure using a document length is used as the table. .

【0187】したがって、文書の長さで文書の構造の種
類を特定し、適切に重要文を抽出することができる。
Therefore, the type of the structure of the document can be specified by the length of the document, and the important sentence can be appropriately extracted.

【0188】請求項22に記載の発明は、所定の記憶装
置に記憶されていて文書のタイプと当該タイプである文
書中の部分の重要性の有無とを対応付けて記述している
テーブルを参照して、対象となる文書中の重要個所を特
定する重要個所特定工程をコンピュータに実行させるプ
ログラムを記憶したコンピュータに読み取り可能な記憶
媒体である。
The invention according to claim 22 refers to a table stored in a predetermined storage device and describing, in association with each other, the type of document and the importance of a part in the document of the type. The computer-readable storage medium stores a program for causing a computer to execute an important portion specifying step of specifying an important portion in a target document.

【0189】したがって、文書タイプに応じて適切に重
要文の抽出をすることができる。
Therefore, important sentences can be appropriately extracted according to the document type.

【0190】請求項23に記載の発明は、請求項22に
記載の記憶媒体において、前記テーブルとして、文書中
の非重要個所の要件を記述しているものを用い、前記重
要個所特定工程は、前記テーブルを参照して対象となる
文書中で前記非重要個所の要件に該当する部分以外の部
分を前記重要個所として特定する。
According to a twenty-third aspect of the present invention, in the storage medium according to the twenty-second aspect, a table describing requirements of an insignificant part in a document is used as the table. With reference to the table, a portion other than the portion corresponding to the requirement of the non-important portion in the target document is specified as the important portion.

【0191】したがって、文書中の重要でない個所をテ
ーブルに規定することで、その他の部分については漏ら
さずに抽出することを可能とし、重要である可能性があ
る個所は落とさずに抽出することができる。
Therefore, by defining unimportant parts in the document in the table, it is possible to extract other parts without leaking, and it is possible to extract parts which may be important without dropping them. it can.

【0192】請求項24に記載の発明は、請求項22に
記載の記憶媒体において、前記テーブルとして、文書中
の重要個所の要件を記述し、かつ、この各要件の重要度
の大きさを記述しているものを用い、前記重要個所特定
工程は、前記テーブルを参照し前記重要度の大きさを付
して対象となる文書中で前記重要個所を特定する。
According to a twenty-fourth aspect of the present invention, in the storage medium according to the twenty-second aspect, the table describes requirements of important places in a document and describes a degree of importance of each requirement. In the important portion specifying step, the important portion is specified in the target document by attaching the magnitude of the importance with reference to the table.

【0193】したがって、重要度によって多段階に文書
中の重要個所を特定することができる。
Therefore, an important part in a document can be specified in multiple stages according to the degree of importance.

【0194】請求項25に記載の発明は、請求項22に
記載の記憶媒体において、前記テーブルとして、文書中
の重要個所の要件を記述し、かつ、この要件間を関連付
けているものを用い、前記重要個所特定工程は、前記テ
ーブルを参照し対象となる文書中で前記関連付けに基づ
く前記重要個所間の関連付けを行って前記重要個所を特
定する。
According to a twenty-fifth aspect of the present invention, in the storage medium according to the twenty-second aspect, a table that describes requirements of important places in a document and associates the requirements with each other is used as the table. In the important part specifying step, the important parts are specified by referring to the table and performing association between the important parts based on the association in a target document.

【0195】したがって、対象文書中で重要個所として
特定した部分の他にそれと関係する部分を必要に応じて
特定することが可能となり、文書を効率的に読み進める
ことができる。
Therefore, in addition to the part specified as an important part in the target document, a part related thereto can be specified as necessary, and the document can be read efficiently.

【0196】請求項26に記載の発明は、請求項25に
記載の記憶媒体において、前記テーブルとして、前記関
連付けの関係名を記述しているものを用い、前記重要個
所特定工程は、前記関連付けを行って前記重要個所の特
定を行う際に前記関係名も関連付ける。
According to a twenty-sixth aspect of the present invention, in the storage medium according to the twenty-fifth aspect, the table describing the relation name of the association is used as the table. When performing the identification of the important part, the relation name is also associated.

【0197】したがって、重要個所を追加で特定し、ま
たは、特定する個所を増加する際に、関係名を手がかり
として所望の個所を特定することができる。
Therefore, when an important part is additionally specified or the number of specified parts is increased, a desired part can be specified using the relation name as a clue.

【0198】請求項27に記載の発明は、請求項24に
記載の記憶媒体において、前記テーブルとして、前記要
件に対応させて当該要件を具備する個所の記載に関する
条件を記述しているものを用い、前記重要個所特定工程
は、前記テーブルを参照し対象となる文書中で前記重要
度が比較的大きい前記要件を具備する個所を前記重要個
所として特定し、また、この特定した重要個所から前記
重要度が比較的大きい前記条件に合致する部分を探し、
前記対象となる文書中で前記重要度が比較的小さい前記
要件を具備する部分で前記合致する部分が出現するもの
も前記重要個所として特定する。
According to a twenty-seventh aspect of the present invention, in the storage medium according to the twenty-fourth aspect, the table, which corresponds to the requirement and describes a condition relating to description of a location having the requirement, is used as the table. The important point specifying step includes: referring to the table, specifying a part having the requirement having the relatively high importance in the target document as the important part, and determining the important part from the specified important part. Look for a part that meets the above condition with a relatively large degree,
In the target document, a part where the matching part appears in the document having the requirement with the relatively low importance is also specified as the important part.

【0199】したがって、文書中の重要度が比較的高い
個所の表現を解析し、それによって他の部分の重要度を
判定することで、より重要度の高い部分だけを文書中で
特定することができる。
Therefore, by analyzing the expression of a portion having relatively high importance in the document and determining the importance of the other portions by using the expression, it is possible to specify only the portion having higher importance in the document. it can.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の実施の形態である重要文抽出装置の
機能ブロック図である。
FIG. 1 is a functional block diagram of an important sentence extracting apparatus according to an embodiment of the present invention.

【図2】前記重要文抽出装置の電気的な接続を示すブロ
ック図である。
FIG. 2 is a block diagram showing an electrical connection of the important sentence extracting device.

【図3】この発明の実施の形態1である重要文抽出装置
の文書構造情報重要度テーブルの説明図である。
FIG. 3 is an explanatory diagram of a document structure information importance level table of the important sentence extraction device according to the first embodiment of the present invention;

【図4】前記重要文抽出装置の文書解析部の処理を説明
するフローチャートである。
FIG. 4 is a flowchart illustrating processing of a document analysis unit of the important sentence extraction device.

【図5】この発明の実施の形態2である重要文抽出装置
の文書構造情報重要度テーブルの説明図である。
FIG. 5 is an explanatory diagram of a document structure information importance level table of the important sentence extraction device according to the second embodiment of the present invention;

【図6】前記重要文抽出装置の文書解析部の処理を説明
するフローチャートである。
FIG. 6 is a flowchart illustrating a process of a document analysis unit of the important sentence extraction device.

【図7】この発明の実施の形態3である重要文抽出装置
の文書構造情報重要度テーブルの説明図である。
FIG. 7 is an explanatory diagram of a document structure information importance table of an important sentence extracting apparatus according to Embodiment 3 of the present invention;

【図8】前記重要文抽出装置の文書解析部の処理を説明
するフローチャートである。
FIG. 8 is a flowchart illustrating processing of a document analysis unit of the important sentence extraction device.

【図9】この発明の実施の形態4である重要文抽出装置
の文書構造情報重要度テーブルの説明図である。
FIG. 9 is an explanatory diagram of a document structure information importance table of an important sentence extracting apparatus according to Embodiment 4 of the present invention;

【図10】前記重要文抽出装置の文書解析部の処理を説
明するフローチャートである。
FIG. 10 is a flowchart illustrating processing of a document analysis unit of the important sentence extraction device.

【図11】この発明の実施の形態5である重要文抽出装
置の文書構造情報重要度テーブルの説明図である。
FIG. 11 is an explanatory diagram of a document structure information importance table of an important sentence extracting apparatus according to Embodiment 5 of the present invention;

【図12】この発明の実施の形態6である重要文抽出装
置の文書構造情報重要度テーブルの説明図である。
FIG. 12 is an explanatory diagram of a document structure information importance table of an important sentence extracting apparatus according to Embodiment 6 of the present invention;

【図13】この発明の実施の形態7である重要文抽出装
置の文書構造情報重要度テーブルの説明図である。
FIG. 13 is an explanatory diagram of a document structure information importance table of an important sentence extracting apparatus according to Embodiment 7 of the present invention;

【符号の説明】[Explanation of symbols]

1 重要文抽出装置 2 重要個所特定手段 3 テーブル 13 記憶手段、記憶装置 15 記憶手段、記憶装置 REFERENCE SIGNS LIST 1 important sentence extraction device 2 important location specifying means 3 table 13 storage means, storage device 15 storage means, storage device

Claims (27)

【特許請求の範囲】[Claims] 【請求項1】 文書構造の種類と当該構造を有する文書
中の部分の重要性の有無とを対応付けて記述しているテ
ーブルを記憶する記憶手段と、 前記テーブルを参照して対象となる文書中の重要個所を
特定する重要個所特定手段と、を備えている重要文抽出
装置。
1. A storage means for storing a table in which a type of a document structure is associated with the presence or absence of importance of a part in a document having the structure, and a target document with reference to the table. An important part specifying means for specifying an important part in the important sentence extracting apparatus.
【請求項2】 前記テーブルは、文書構造を明示する表
現の有無を用いて前記文書構造の種類を表現している請
求項1に記載の重要文抽出装置。
2. The important sentence extracting apparatus according to claim 1, wherein the table expresses the type of the document structure by using the presence or absence of an expression that clearly indicates the document structure.
【請求項3】 前記テーブルは、文書の長さを用いて前
記文書構造の種類を表現している請求項1または2に記
載の重要文抽出装置。
3. The important sentence extracting apparatus according to claim 1, wherein the table expresses the type of the document structure using a document length.
【請求項4】 文書のタイプと当該タイプである文書中
の部分の重要性の有無とを対応付けて記述しているテー
ブルを記憶する記憶手段と、 前記テーブルを参照して対象となる文書中の重要個所を
特定する重要個所特定手段と、を備えている重要文抽出
装置。
4. A storage unit for storing a table in which a document type is associated with the presence or absence of importance of a part in a document of the type, and a table in the target document with reference to the table. Important part specifying means for specifying an important part of the sentence.
【請求項5】 前記テーブルは、文書中の非重要個所の
要件を記述していて、 前記重要個所特定手段は、前記テーブルを参照して対象
となる文書中で前記非重要個所の要件に該当する部分以
外の部分を前記重要個所として特定する請求項4に記載
の重要文抽出装置。
5. The table describes requirements of an insignificant place in the document, and the important location specifying means corresponds to the requirement of the insignificant place in a target document by referring to the table. The important sentence extracting apparatus according to claim 4, wherein a part other than the part to be executed is specified as the important part.
【請求項6】 前記テーブルは、文書中の重要個所の要
件を記述し、かつ、この各要件の重要度の大きさを記述
していて、 前記重要個所特定手段は、前記テーブルを参照し前記重
要度の大きさを付して対象となる文書中で前記重要個所
を特定する請求項4に記載の重要文抽出装置。
6. The table describes requirements of important points in a document, and describes the magnitude of importance of each requirement. The important point specifying means refers to the table and refers to the table. The important sentence extracting apparatus according to claim 4, wherein the important part is specified in a target document by assigning a magnitude of importance.
【請求項7】 前記テーブルは、文書中の重要個所の要
件を記述し、かつ、この要件間を関連付けていて、 前記重要個所特定手段は、前記テーブルを参照し対象と
なる文書中で前記関連付けに基づく前記重要個所間の関
連付けを行って前記重要個所を特定する請求項4に記載
の重要文抽出装置。
7. The table describes requirements of important points in a document and associates the requirements with each other, and the important point specifying means refers to the table and performs the association in a target document. The important sentence extracting apparatus according to claim 4, wherein the important points are specified by associating the important points based on the information.
【請求項8】 前記テーブルは、前記関連付けの関係名
を記述していて、 前記重要個所特定手段は、前記関連付けを行って前記重
要個所の特定を行う際に前記関係名も関連付ける請求項
7に記載の重要文抽出装置。
8. The method according to claim 7, wherein the table describes a relation name of the association, and the important location specifying unit also associates the relation name when the association is performed to specify the important location. Significant sentence extraction device.
【請求項9】 前記テーブルは、前記要件に対応させて
当該要件を具備する個所の記載に関する条件を記述して
いて、 前記重要個所特定手段は、前記テーブルを参照し対象と
なる文書中で前記重要度が比較的大きい前記要件を具備
する個所を前記重要個所として特定し、また、この特定
した重要個所から前記重要度が比較的大きい前記条件に
合致する部分を探し、前記対象となる文書中で前記重要
度が比較的小さい前記要件を具備する部分で前記合致す
る部分が出現するものも前記重要個所として特定する請
求項6に記載の重要文抽出装置。
9. The table describes conditions relating to the description of a location having the requirement in association with the requirement, and the important location specifying means refers to the table and writes the condition in a target document. A location having the requirement having a relatively high importance is specified as the important location, and a portion matching the condition with the relatively high importance is searched for from the specified important location, and in the target document, 7. The important sentence extracting apparatus according to claim 6, wherein a part having the requirement having the relatively small importance and having the matching part appearing is also specified as the important part.
【請求項10】 所定の記憶装置に記憶されていて文書
構造の種類と当該構造を有する文書中の部分の重要度と
を対応付けて記述しているテーブルを参照して、対象と
なる文書中の重要個所を特定する重要個所特定工程を含
んでなる重要文抽出方法。
10. Referring to a table stored in a predetermined storage device and describing the type of document structure and the importance of a portion in the document having the structure in association with each other, the target document An important sentence extraction method including an important place specifying step of specifying important places.
【請求項11】 前記テーブルは、文書構造を明示する
表現の有無を用いて前記文書構造の種類を表現している
請求項10に記載の重要文抽出方法。
11. The important sentence extraction method according to claim 10, wherein the table expresses the type of the document structure by using the presence or absence of an expression that clearly indicates the document structure.
【請求項12】 前記テーブルは、文書の長さを用いて
前記文書構造の種類を表現している請求項10または1
1に記載の重要文抽出方法。
12. The table according to claim 10, wherein the table represents the type of the document structure using a document length.
2. The important sentence extraction method according to 1.
【請求項13】 所定の記憶装置に記憶されていて文書
のタイプと当該タイプである文書中の部分の重要性の有
無とを対応付けて記述しているテーブルを参照して、対
象となる文書中の重要個所を特定する重要個所特定工程
を含んでなる重要文抽出方法。
13. A target document is referred to by referring to a table stored in a predetermined storage device and describing the type of the document and the importance of a part in the document of the type in association with each other. An important sentence extraction method including an important point specifying step of specifying important points in a document.
【請求項14】 前記テーブルは、文書中の非重要個所
の要件を記述していて、 前記重要個所特定工程は、前記テーブルを参照して対象
となる文書中で前記非重要個所の要件に該当する部分以
外の部分を前記重要個所として特定する請求項13に記
載の重要文抽出方法。
14. The table describes requirements of a non-important location in a document, and the important location specifying step corresponds to the requirement of the non-important location in a target document by referring to the table. 14. The important sentence extracting method according to claim 13, wherein a part other than the part to be executed is specified as the important part.
【請求項15】 前記テーブルは、文書中の重要個所の
要件を記述し、かつ、この各要件の重要度の大きさを記
述していて、 前記重要個所特定工程は、前記テーブルを参照し前記重
要度の大きさを付して対象となる文書中で前記重要個所
を特定する請求項13に記載の重要文抽出方法。
15. The table describes requirements of important locations in a document, and describes the magnitude of importance of each requirement. The important location specifying step refers to the table and refers to the table. 14. The important sentence extracting method according to claim 13, wherein the important part is specified in the target document by assigning a magnitude of importance.
【請求項16】 前記テーブルは、文書中の重要個所の
要件を記述し、かつ、この要件間を関連付けていて、 前記重要個所特定工程は、前記テーブルを参照し対象と
なる文書中で前記関連付けに基づく前記重要個所間の関
連付けを行って前記重要個所を特定する請求項13に記
載の重要文抽出方法。
16. The table describes requirements of important locations in a document and associates the requirements with each other. The important location specifying step refers to the table and performs the association in a target document. 14. The important sentence extraction method according to claim 13, wherein the important points are specified by associating the important points with each other.
【請求項17】 前記テーブルは、前記関連付けの関係
名を記述していて、前記重要個所特定工程は、前記関連
付けを行って前記重要個所の特定を行う際に前記関係名
も関連付ける請求項16に記載の重要文抽出方法。
17. The method according to claim 16, wherein the table describes the relation name of the association, and the important location specifying step also associates the relation name when the association is performed to specify the important location. Extraction method of important sentence of description.
【請求項18】 前記テーブルは、前記要件に対応させ
て当該要件を具備する個所の記載に関する条件を記述し
ていて、 前記重要個所特定工程は、前記テーブルを参照し対象と
なる文書中で前記重要度が比較的大きい前記要件を具備
する個所を前記重要個所として特定し、また、この特定
した重要個所から前記重要度が比較的大きい前記条件に
合致する部分を探し、前記対象となる文書中で前記重要
度が比較的小さい前記要件を具備する部分で前記合致す
る部分が出現するものも前記重要個所として特定する請
求項15に記載の重要文抽出方法。
18. The table describes conditions relating to the description of a location having the requirement in association with the requirement, and the important location specifying step refers to the table and refers to the condition in a target document. A location having the requirement having a relatively high importance is specified as the important location, and a portion matching the condition with the relatively high importance is searched for from the specified important location, and in the target document, 16. The important sentence extraction method according to claim 15, wherein a part having the requirement with the relatively small importance and in which the matching part appears is also specified as the important part.
【請求項19】 所定の記憶装置に記憶されていて文書
構造の種類と当該構造を有する文書中の部分の重要度と
を対応付けて記述しているテーブルを参照して、対象と
なる文書中の重要個所を特定する重要個所特定工程をコ
ンピュータに実行させるプログラムを記憶したコンピュ
ータに読み取り可能な記憶媒体。
19. Referring to a table stored in a predetermined storage device and describing the type of the document structure and the importance of a part in the document having the structure in association with each other, A computer-readable storage medium storing a program for causing a computer to execute an important part specifying step of specifying an important part.
【請求項20】 前記テーブルとして、文書構造を明示
する表現の有無を用いて前記文書構造の種類を表現して
いるものを用いる請求項19に記載の記憶媒体。
20. The storage medium according to claim 19, wherein a table expressing a type of the document structure by using presence / absence of an expression for explicitly indicating a document structure is used as the table.
【請求項21】 前記テーブルとして、文書の長さを用
いて前記文書構造の種類を表現しているものを用いる請
求項19または20に記載の重要文抽出方法。
21. The important sentence extracting method according to claim 19, wherein a table expressing the type of the document structure using a document length is used as the table.
【請求項22】 所定の記憶装置に記憶されていて文書
のタイプと当該タイプである文書中の部分の重要性の有
無とを対応付けて記述しているテーブルを参照して、対
象となる文書中の重要個所を特定する重要個所特定工程
をコンピュータに実行させるプログラムを記憶したコン
ピュータに読み取り可能な記憶媒体。
22. A target document is referred to by referring to a table stored in a predetermined storage device and describing the type of the document in association with the importance of a portion in the document of the type. A computer-readable storage medium storing a program for causing a computer to execute an important portion specifying step of specifying an important portion in the computer.
【請求項23】 前記テーブルとして、文書中の非重要
個所の要件を記述しているものを用い、 前記重要個所特定工程は、前記テーブルを参照して対象
となる文書中で前記非重要個所の要件に該当する部分以
外の部分を前記重要個所として特定する請求項22に記
載の記憶媒体。
23. A table in which requirements of an insignificant point in a document are described as the table, and the step of identifying an insignificant point includes the step of identifying the insignificant point in the target document by referring to the table. 23. The storage medium according to claim 22, wherein a part other than the part corresponding to the requirement is specified as the important part.
【請求項24】 前記テーブルとして、文書中の重要個
所の要件を記述し、かつ、この各要件の重要度の大きさ
を記述しているものを用い、 前記重要個所特定工程は、前記テーブルを参照し前記重
要度の大きさを付して対象となる文書中で前記重要個所
を特定する請求項22に記載の記憶媒体。
24. As the table, a table describing requirements of important points in a document and describing the magnitude of importance of each requirement is used. 23. The storage medium according to claim 22, wherein the important portion is specified in the target document by referring to and assigning the magnitude of the importance.
【請求項25】 前記テーブルとして、文書中の重要個
所の要件を記述し、かつ、この要件間を関連付けている
ものを用い、 前記重要個所特定工程は、前記テーブルを参照し対象と
なる文書中で前記関連付けに基づく前記重要個所間の関
連付けを行って前記重要個所を特定する請求項22に記
載の記憶媒体。
25. A table which describes requirements of important parts in a document and associates the requirements with each other as the table, and in the important part specifying step, the table refers to the table to be used as a target. 23. The storage medium according to claim 22, wherein the important part is specified by performing the association between the important parts based on the association.
【請求項26】 前記テーブルとして、前記関連付けの
関係名を記述しているものを用い、 前記重要個所特定工程は、前記関連付けを行って前記重
要個所の特定を行う際に前記関係名も関連付ける請求項
25に記載の記憶媒体。
26. A table in which a relation name of the association is described as the table, wherein the important part specifying step associates the relation name when the association is performed to specify the important part. Item 29. The storage medium according to Item 25.
【請求項27】 前記テーブルとして、前記要件に対応
させて当該要件を具備する個所の記載に関する条件を記
述しているものを用い、 前記重要個所特定工程は、前記テーブルを参照し対象と
なる文書中で前記重要度が比較的大きい前記要件を具備
する個所を前記重要個所として特定し、また、この特定
した重要個所から前記重要度が比較的大きい前記条件に
合致する部分を探し、前記対象となる文書中で前記重要
度が比較的小さい前記要件を具備する部分で前記合致す
る部分が出現するものも前記重要個所として特定する請
求項24に記載の記憶媒体。
27. A table in which conditions relating to the description of a location having the requirement are described in correspondence with the requirement, and the important location specifying step refers to the table and refers to a target document. Identify a location having the requirement in which the importance is relatively large as the important location, and search for a portion that satisfies the condition in which the importance is relatively large from the identified important location, and 25. The storage medium according to claim 24, wherein a part of the document having the requirement with the relatively low importance and in which the matching part appears appears as the important part.
JP2000141140A 2000-05-15 2000-05-15 Important sentence extraction device, method therefor and storage medium Pending JP2001325273A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000141140A JP2001325273A (en) 2000-05-15 2000-05-15 Important sentence extraction device, method therefor and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000141140A JP2001325273A (en) 2000-05-15 2000-05-15 Important sentence extraction device, method therefor and storage medium

Publications (1)

Publication Number Publication Date
JP2001325273A true JP2001325273A (en) 2001-11-22

Family

ID=18648300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000141140A Pending JP2001325273A (en) 2000-05-15 2000-05-15 Important sentence extraction device, method therefor and storage medium

Country Status (1)

Country Link
JP (1) JP2001325273A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533817A (en) * 2009-07-22 2012-12-27 ファンデーションアイピー,エルエルシー Method, system and apparatus for sending query results from electronic document collection
JP2019153119A (en) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 Sentence extraction device and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533817A (en) * 2009-07-22 2012-12-27 ファンデーションアイピー,エルエルシー Method, system and apparatus for sending query results from electronic document collection
JP2019153119A (en) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 Sentence extraction device and program

Similar Documents

Publication Publication Date Title
Colina Contrastive rhetoric and text-typological conventions in translation teaching
Zwicky et al. America's national dish: The style of restaurant menus
Fitrisia et al. The naming of acehnese traditional culinary
JP2001325273A (en) Important sentence extraction device, method therefor and storage medium
Yingmin et al. Translation strategies applied in culinary culture-specific items
López Arroyo et al. Differences in wine tasting notes in English and Spanish
Diemer et al. “Like, Pasta, Pizza and Stuff”–New Trends in Online Food Discourse
Mohamad Abdullah et al. Pahang food terminologies: young generations’ understanding and usage
Brown Sex ‘n’shopping: a “Novel” approach to consumer research
Yusufjon Gluttonic (Gastronomic) Discourse: Classification Of Gastronomic Terms And Their Difficulties In Translation
Gade Names for Manihot esculenta: Geographical variations and lexical clarification
Mahmud The translation of the most popular Indonesian food into English in novels
JP2018055605A (en) Innovation creation support program
Imm Exploring the Malaysian English newspaper corpus for lexicographic evidence
TWI756706B (en) Food and beverage pairing scoring system and method thereof
Welch et al. Is wine consumption in Britain democratizing? Communicating class and taste through the Saturday Times wine column (1982–2017)
Lee Singapore hawker centres: A linguistic landscape of identity, diversity, and continuity
Hendra et al. the Lexicon of Majapahit Culinary At Trowulan in the Globalization Era
Abdulrahman Translating Canned & Packed FoodProducts’ Labels from Arabic into English: Problems and Strategies
Wiranadhi et al. Verbal and Non-Verbal Elements Found in Chatime Advertisement and Their Meaning
Ruzaitė Text typology in translation. A case study of menu translations
Malory Legislative Prescriptivism-Exploring the Legislative Enforcement of Minor Linguistic Variants and Its Ramifications for Consumers and the Retail Sector
KHAKIM THE DESIGNING STEPS OF PALEMBANG CULINARY BOOK
Demaecker Wine-tasting metaphors and their translation: A cognitive approach
Rebechi et al. Restaurant reviews in Brazil and the USA: a feast of cultural differencesand their impact on translation

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040928