JPH07219953A - Document summarizing device - Google Patents

Document summarizing device

Info

Publication number
JPH07219953A
JPH07219953A JP6012006A JP1200694A JPH07219953A JP H07219953 A JPH07219953 A JP H07219953A JP 6012006 A JP6012006 A JP 6012006A JP 1200694 A JP1200694 A JP 1200694A JP H07219953 A JPH07219953 A JP H07219953A
Authority
JP
Japan
Prior art keywords
important
concept
document
original document
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6012006A
Other languages
Japanese (ja)
Inventor
Kokui Jiyo
国偉 徐
Akira Ochitani
亮 落谷
Kenji Sugiyama
健司 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6012006A priority Critical patent/JPH07219953A/en
Publication of JPH07219953A publication Critical patent/JPH07219953A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To output contents to be a point of an original document as a summarized document by checking a conception system by using important words extracted from the original document and extracting an important concept node managing many important words from the original document. CONSTITUTION:A conception system 1 for an event or operation is retrieved by using important words (2) extracted from an original document (1) by prescribed technique and how many extracted important words (2) is managed by a concept node (3) for managing previously set individual words to the important words in the system 1 is checked. A concept node (3) capable of managing more important words (2) is selected and extracted as an important concept node (3a) to obtain a point indicating what the original document (1) means. Then work such as the addition of a proper sentence to the concept in the node (3a) is executed to summarize the original document (1).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、入力された原文書か
ら、所定の手法により選定された重要語を用いて、物
事, 又は、動作等の概念を木構造で表現した概念体系を
チェックして、原文書の概念を示している重要概念ノー
ドaを選定し、該選定された重要概念ノ−ドaの概
念を用いて、原文書を要約する文書要約装置に関する。
BACKGROUND OF THE INVENTION The present invention checks the concept system in which the concept of things, actions, etc. is expressed in a tree structure from the input original document by using the important words selected by a predetermined method. The present invention relates to a document summarizing device for selecting an important concept node a indicating the concept of an original document and summarizing the original document using the selected concept of the important concept node a.

【0002】[0002]

【従来の技術】図6は、従来の文書要約装置を説明する
図である。先ず、該原文書を形態素解析部 (入力部)
2 に入力して、原文書の原言語の構文を利用して、該
原文書を形態素に分割し、重要語抽出部 3で、該分割さ
れた形態素から、〜「は」とか, 〜「と」〜「は」等の
助詞の前にある単語を重要語として抽出する。
2. Description of the Related Art FIG. 6 is a diagram for explaining a conventional document summarizing device. First, the original document is converted into a morphological analysis unit (input unit).
2 is input, the original document is divided into morphemes by using the syntax of the original language of the original document, and the important word extraction unit 3 extracts from the divided morphemes, ~ "ha", ... " The words in front of the particle such as "to" are extracted as important words.

【0003】次に、出現頻度解析部 4で、該抽出した重
要語の中で頻度が一番高い重要語(単語) を、最重
要語aとして抽出し、該抽出した最重要語aと重要
語を含む文を、文書要約部 (出力部) 7 で重要文とし
て、文書の要約を行う。
Next, the appearance frequency analysis unit 4 extracts the important word (word) having the highest frequency among the extracted important words as the most important word a, and the extracted most important word a and the important word a. The sentence including the word is treated as an important sentence in the document summarization unit (output unit) 7, and the document is summarized.

【0004】該文書の具体的な、要約方法としては、上
記抽出した最重要語aと、重要語の単なる羅列で要
約文を形成するとか、該抽出した最重要語aに、適切
な加工文を付加して、『原文書は、「〜」に関する文書
である。』といった要約を行う等の方法がある。
As a concrete summarizing method of the document, a summary sentence is formed by the extracted most important word a and a simple enumeration of important words, or a processed sentence suitable for the extracted most important word a. Is added, the "original document is a document regarding" ... ". There is a method such as doing a summary.

【0005】[0005]

【発明が解決しようとする課題】上記、従来の文書要約
装置では、原文書の言語の構文だけを利用して、抽出
された重要語の中から、出現頻度の一番高い単語を、
最重要語aとして選定する。このようにして抽出され
た最重要語aは、単に、原文書の構文といった表層だ
けで重要語を抽出したものであり、重要語を選択する
のに、原文書全体が持つ意味のチェックを行っていな
い。
In the conventional document summarizing apparatus described above, the word having the highest appearance frequency is extracted from the extracted important words by using only the syntax of the language of the original document.
Selected as the most important word a. The most important word a extracted in this way is simply an important word extracted only from the surface layer such as the syntax of the original document. To select the important word, the meaning of the entire original document is checked. Not not.

【0006】従って、上記のようにして抽出された最重
要語aは、適切な最重要語aでないことがある。こ
の適切でない最重要語aを中心に、要約を行った文書
では、原文書に対して適切な要約には、必ずしもなっ
ていないという問題があった。即ち、原文書が何を言
いたいのかのポイントを抽出していないという問題があ
った。
Therefore, the most important word a extracted as described above may not be an appropriate most important word a. There is a problem in that a document that is summarized centering on this unsuitable most important word a is not necessarily an appropriate summary for the original document. That is, there was a problem that the original document did not extract the point of what it meant.

【0007】又、類似の技術として、特開昭63−17
5965号公報「文書処理装置」があり、文書中の用語
の意味内容からキーワードを抽出し、該抽出したキーワ
ードを参照して、文書の内容を表す概念候補を選出し、
これを基に、文書の概念を決定しいる。
A similar technique is disclosed in Japanese Patent Laid-Open No. 63-17.
There is a document processing device in Japanese Patent No. 5965, in which a keyword is extracted from the meaning content of a term in a document, a concept candidate representing the content of the document is selected by referring to the extracted keyword,
Based on this, the concept of the document is decided.

【0008】然し、この特開昭63−175965号公
報「文書処理装置」で開示さている文書要約技術では、
文書の分野、例えば、「採用」「出荷」「送金」といっ
た事務処理の分野に依存して、分野毎に辞書と概念キー
ワードを作成し直す必要があるという問題がある。
However, in the document summarization technique disclosed in Japanese Patent Laid-Open No. 63-175965, "Document Processing Device",
There is a problem in that it is necessary to recreate a dictionary and a concept keyword for each field depending on the field of documents, for example, the field of paperwork such as “employment”, “shipment”, and “remittance”.

【0009】本発明は上記従来の欠点に鑑み、所定の手
法で選定された重要語を用いて、物事, 又は、動作等
の概念を木構造で表現した一般的な、即ち、文書の技術
分野に依存していない概念体系をチェックして、原文書
の言いたいポイントを概念として抽出し、該抽出され
た概念を、前述の最重要語とし、原文書に最も適切な
要約を行う文書要約装置を提供することを目的とするも
のである。
In view of the above-mentioned conventional drawbacks, the present invention is a general or document technical field in which concepts of things, actions, etc. are expressed in a tree structure using important words selected by a predetermined method. A document summarization device that checks a concept system that does not depend on the original document, extracts the point to be said in the original document as a concept, uses the extracted concept as the above-mentioned most important word, and performs the most appropriate summary for the original document. It is intended to provide.

【0010】[0010]

【課題を解決するための手段】図1は、本発明の原理構
成図であり、図2は、本発明で使用される概念体系の例
を示した図である。上記の問題点は下記の如くに構成し
た文書要約装置によって解決される。
FIG. 1 is a principle configuration diagram of the present invention, and FIG. 2 is a diagram showing an example of a concept system used in the present invention. The above problems are solved by the document summarizing device configured as follows.

【0011】(1) 本発明による文書要約装置は、原文書
を入力する入力部 2と、所定の手法で、上記原文書
から、重要語を抽出する重要語抽出部 3と、抽出され
た重要語で、物事, 又は、動作等の概念を木構造で表
現した概念体系 1を検索して、重要概念ノードaを選
定する重要概念ノード選定部 6と、該選定した重要概念
ノードaの概念を用いて、原文書の要約文書を出力
する出力部 7とから構成する。
(1) The document summarizing device according to the present invention includes an input unit 2 for inputting an original document, an important word extracting unit 3 for extracting an important word from the original document by a predetermined method, and an extracted important word. The concept system 1 that represents the concept of things, actions, etc. in terms of words in a tree structure is searched, and the important concept node selection unit 6 that selects the important concept node a and the concept of the selected important concept node a are It is composed of an output unit 7 that outputs a summary document of the original document.

【0012】(2) 上記文書要約装置の重要概念ノード選
定部 6は、一定の個数の単語を支配している上記概念体
系 1上のノードを探索し、それぞれのノードが、上
記重要語を幾つ支配するかをチェックし、より多くの
上記重要語を支配するノードを、重要概念ノード
aとして選定するように構成する。
(2) The important concept node selection unit 6 of the document summarizing device searches for a node on the concept system 1 that controls a certain number of words, and each node extracts the number of important words. It is configured to check whether to dominate and select a node that dominates more important words as the important concept node a.

【0013】(3) 上記文書要約装置の重要概念ノード選
定部 6は、概念体系 1上のノードが支配する重要語
の数が同じである場合、支配している重要語の原文書
での出現頻度をチェックして、出現頻度の高い方の重
要語を支配しているノードを、上記重要概念ノード
aとして選定するように構成する。
(3) When the number of important words governed by the nodes on the concept system 1 is the same, the important concept node selection unit 6 of the document summarizing device causes the dominant words to appear in the original document. The frequency is checked, and the node that controls the important word with the higher appearance frequency is selected as the important concept node a.

【0014】[0014]

【作用】本発明による文書要約装置では、所定の手法
で、原文書から抽出された重要語(単語)を用い
て、物事, 又は、動作等の概念を木構造で表現した概念
体系1を検索し、概念体系 1にある重要語にあたる単語
に対して、予め、設定した個数の単語を木構造の形で支
配する概念ノードが、上記抽出した重要語を幾つ支
配しているかを調べて、より多くの重要語を支配する
概念ノードを、重要概念ノードaとして選定し、こ
の重要概念ノードaを抽出して、原文書が何を言お
うとしているかのポイントを得て、該重要概念ノード
aの概念を用いて、例えば、該概念に、適切な文を付加
するなどの加工をおこなって、該原文書を要約するよ
うにしたものである。
With the document summarizing device according to the present invention, the concept system 1 in which the concept of things, actions, or the like is expressed in a tree structure is searched by using the important word (word) extracted from the original document by a predetermined method. However, for the words that correspond to the important words in Concept System 1, check how many of the extracted important words do the concept nodes that dominate a preset number of words in a tree structure, and A concept node that governs many important words is selected as an important concept node a, this important concept node a is extracted to obtain a point of what the original document is trying to say, and the important concept node a Using the concept, the original document is summarized, for example, by processing such as adding an appropriate sentence to the concept.

【0015】上記、概念体系 1については、例えば、
「“分類語彙表",国立国語研究書資料集6, 国立国語研
究所編, 株式会社秀英出版刊, 昭和39年3月31日, 初版
発行」に、その例が見られるが、図2に示したように、
物事,又は、動作等の概念を木構造で表現したもので、
最上位のノードに、上記物事,又は、動作等があり、
その下位のノードに、該上位の概念を構成している下
位概念が、例えば、木構造の形式で階層構造で表現され
ている。そして、一番下位の層には、それぞれの概念が
支配する単語(重要語)が属している。
Regarding the above concept system 1, for example,
An example can be seen in "Classified Vocabulary Table", National Institute of Japanese Language Books 6, National Institute for Japanese Language Studies, published by Hideei Publishing Co., Ltd., March 31, 1964, first edition issued. As shown in
It is a tree structure that expresses the concept of things or actions.
There are the above things or actions in the highest node,
In the lower node, the lower concept that constitutes the higher concept is represented in a hierarchical structure, for example, in a tree structure format. The words (important words) that each concept governs belong to the lowest layer.

【0016】又、原文書から、重要語(単語)を抽
出する手法として、幾つかの方法が知られているが、例
えば、「“自動抄録法",岩淵保, 荒井幹夫, 藍沢実著,
電気学会通信研究会,CMN-89-23」がある。
There are several known methods for extracting important words (words) from the original document. For example, "" automatic abstraction method ", Yasushi Iwabuchi, Mikio Arai, Minoru Aizawa,
IEICE Communications Research Group, CMN-89-23 ”.

【0017】上記の文献では、1)標題, 副標題を構成し
ている単語を選択する。2)本文中の「は」, 「には」,
「とは」の前の漢字、カナ文字で構成されている単語を
選択する。これは、上記「は」は、主題を述べるときに
使われているからであるとしている。3)上記 2) で抽出
された単語の前に「と」や「や」があると、その前の単
語も、漢字, カナ文字で構成されていると、重要語と
して抽出する。4)上記のようにして抽出された単語が、
一文字であれば、経験則から重要語にはなりえないとし
て削除する。といった手法が示されている。
In the above-mentioned documents, 1) select words constituting the title and subtitle. 2) "ha", "to" in the text,
Select the word consisting of kanji and kana characters before "toha". This is because the above "ha" is used when describing the subject. 3) If there is "to" or "ya" in front of the word extracted in 2) above, if the word before that also consists of Kanji or Kana characters, it is extracted as an important word. 4) The word extracted as above is
If it is a single letter, it is deleted from the rule of thumb as it cannot be an important word. Such a method is shown.

【0018】本願発明による文書要約装置では、原文書
から重要語を抽出する手法については、限定するも
のではないが、例えば、上記の文献に示されているよう
な手法を用いて、重要語を抽出する。
In the document summarizing apparatus according to the present invention, the method of extracting the important word from the original document is not limited, but the important word can be extracted by using the method shown in the above-mentioned document, for example. Extract.

【0019】従って、入力された原文書に対して、何
らかの手法を用いて、重要語を抽出し、該抽出された
重要語を用いて、上記、前持って構築されている、物
事,又は、動作等の概念を木構造で表現した概念体系 1
を検索し、指定された個数の単語を支配するノード
が、上記抽出した重要語をいくつ支配しているかを調
べ、より多くの重要語を支配しているノードを、重
要概念ノードaとして選定することにより、該原文書
の一番のポイントを得て、該原文書を、適切な文書
で要約することができる。
Therefore, with respect to the input original document, the important word is extracted by using some method, and the extracted important word is used for the above-mentioned prebuilt construction, or A concept system that expresses concepts such as actions in a tree structure 1
Is searched to find out how many of the extracted important words are controlled by a node that controls a specified number of words, and a node that controls more important words is selected as an important concept node a. By doing so, the highest point of the original document can be obtained, and the original document can be summarized by an appropriate document.

【0020】[0020]

【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図1が、本発明の原理構成図であり、図2
は、本発明で使用される概念体系の例を示した図であ
り、図3〜図5は、本発明の一実施例を示した図であ
り、図3は、文書要約処理の一実施例を流れ図で示して
おり、図4は、本実施例で使用される概念体系の例を示
しており、図5は、重要概念ノードの選定の例を示して
いる。
Embodiments of the present invention will be described in detail below with reference to the drawings. The above-mentioned FIG. 1 is a block diagram of the principle of the present invention.
FIG. 3 is a diagram showing an example of a concept system used in the present invention, FIGS. 3 to 5 are diagrams showing an embodiment of the present invention, and FIG. 3 is an embodiment of a document summarization process. 4 is a flow chart, FIG. 4 shows an example of a concept system used in this embodiment, and FIG. 5 shows an example of selection of important concept nodes.

【0021】本発明においては、原文書の構文を利用
して、重要語(単語)を抽出し、該抽出した重要語の
中で、最重要語aを選定するのに、物事, 又は、動作
等の概念を木構造で表現した概念体系 1を検索し、一定
の個数の単語を支配するノードを比較して、支配する
重要語の数が一番多い概念ノードを重要概念ノード
aとして選択し、該選択した重要概念ノードaの概
念を用いて、原文書の要約を行う手段が、本発明を実
施するのに必要な手段である。尚、全図を通して同じ符
号は同じ対象物を示している。
In the present invention, by using the syntax of the original document, important words (words) are extracted, and in order to select the most important word a from the extracted important words, things or actions are performed. The concept system 1 in which the concepts such as are expressed in a tree structure are searched, nodes that control a certain number of words are compared, and the concept node with the most number of dominant words is selected as the important concept node a. A means for summarizing an original document using the selected concept of the important concept node a is a means necessary for implementing the present invention. The same reference numerals indicate the same objects throughout the drawings.

【0022】以下、図1,図2を参照しながら、図3〜
図5によって、本発明の文書要約装置の構成と動作を説
明する。図1に示されているように、本発明の文書要約
装置は、原文書を入力する入力部 2と、何らかの手法
で、該原文書中の重要語を抽出する重要語抽出部 3
と、該抽出された重要語を用いて、概念体系 1を検索
し、予め、設定されている数の単語を支配する概念ノー
ドが、上記重要語抽出部 3で抽出された重要語をい
くつ支配するか、又、重要語の出現頻度をチェックし
て、該原文書に対応する重要概念ノードaを選定す
る重要概念ノード選定部 6と、該選定された重要概念ノ
ードaが示す概念を用いて、原文書を要約して出力
する出力部7と、上記概念体系 1とから構成されてい
る。
Hereinafter, referring to FIGS. 1 and 2, FIG.
The configuration and operation of the document summarizing device of the present invention will be described with reference to FIG. As shown in FIG. 1, the document summarizing device of the present invention includes an input unit 2 for inputting an original document and an important word extracting unit 3 for extracting an important word in the original document by some method.
Then, using the extracted important words, the concept system 1 is searched, and the concept nodes that dominate a preset number of words dominate the important words extracted by the important word extracting unit 3. Alternatively, by using the important concept node selecting unit 6 that selects the important concept node a corresponding to the original document by checking the appearance frequency of the important word, and the concept indicated by the selected important concept node a. It consists of an output unit 7 that summarizes and outputs the original document, and the concept system 1 above.

【0023】本実施例において、使用される原文書
は、例えば、「A国のB国向けの繊維の輸出には重い反
ダンピング関税がかけられた場合は採算が合わなくなっ
てしまう。最近は反ダンピング関税を乱発するケースが
増えている。」であるとする。
In the present embodiment, the original document used is, for example, "the profit of the textile export to the country B of the country A is not profitable when a heavy anti-dumping duty is applied. Increasingly, dumping tariffs are increasing. ”

【0024】又、図4は、本実施例で使用される概念体
系 1の一例であり、図2で示したように、木構造の概念
ノードで構成されており、最下位には、その上位の概
念ノードが支配する重要語(単語)が配置されてい
る。
FIG. 4 is an example of the concept system 1 used in this embodiment, which is composed of tree-structured concept nodes as shown in FIG. Important words (words) controlled by the concept node of are arranged.

【0025】図3において、先ず、図1の入力部 2に上
記原文書が入力されると、図1の重要語抽出部 3にお
いて、前述の文献に示されている手法で、上記原文書
から、原文書中の重要語を抽出する。
In FIG. 3, first, when the original document is input to the input unit 2 of FIG. 1, the important word extracting unit 3 of FIG. 1 extracts the original document by the method described in the above-mentioned document. , Extract important words in original document.

【0026】上記の原文書では、例えば、「採算」
(1),「最近」(1),「輸出」(2) が重要語として抽出さ
れる。ここで、( ) 内の数字は、出現頻度である。{図
3の処理ステップ 100参照}次に、図1の重要概念ノー
ド選定部 6において、上記抽出された重要語を用い
て、前述の図4に示した、概念体系 1を検索し、該概念
体系 1から、重要語を含む概念ノードを取出す。図
5(a) は、上記重要語を基に、図4の概念体系 1を検
索して得た、該重要語を支配する概念ノードの例で
ある。
In the above original document, for example, "profitability"
(1), "Recent" (1), and "Export" (2) are extracted as important words. Here, the number in () is the frequency of appearance. {Refer to processing step 100 in FIG. 3} Next, the important concept node selection unit 6 in FIG. 1 searches the concept system 1 shown in FIG. Extract the concept node containing the key word from system 1. FIG. 5A is an example of a concept node that controls the important word obtained by searching the concept system 1 of FIG. 4 based on the important word.

【0027】即ち、単語「輸出」(2) は、概念ノード
「輸出入」(2)(1)に支配されており、該概念ノード「輸
出入」は、上位の概念ノード「取引」(4)(1)に支配され
ている。以下同様にして、単語「最近」(1) は、概念ノ
ード「時」(2)(1)に支配されており、単語「採算」(1)
は、概念ノード「会計」(2)(1)に支配されている。ここ
で、単語「輸出」等の後ろの数字は、重要語の出現頻
度であり、概念ノード「輸出入」等の次の数字は、該
概念ノードが支配する単語の数であり、その右の数字
は、支配する重要語の数である。{図3の処理ステッ
プ 101参照}次に、同じ重要概念ノード選定部 6で、一
定の個数 (例えば、2個)の単語を支配する概念ノード
を比べて、支配する重要語が一番多い概念ノード
を重要概念ノードaとして選定する。上記の例では、
図5(a) に示した例から明らかなように、各単語「輸
出」「最近」「採算」を、それぞれ、支配する概念ノ
ードは「輸出入」「時」「会計」であり、それらが支
配している重要語(単語)の数は“1”個で同じであ
る。
That is, the word "export" (2) is controlled by the concept node "export / import" (2) (1), and the concept node "export / import" is a superordinate concept node "transaction" (4). ) (1). Similarly, the word "recently" (1) is dominated by the concept node "time" (2) (1), and the word "profitable" (1)
Is governed by the concept node "Accounting" (2) (1). Here, the number after the word "export" or the like is the frequency of appearance of important words, and the next number such as the concept node "export / import" is the number of words that the concept node controls, to the right of it. The number is the number of important words that dominate. {Refer to processing step 101 in FIG. 3} Next, in the same important concept node selecting unit 6, a concept node that controls a certain number (for example, 2) of words is compared, and the concept that has the most important words is the most important concept. A node is selected as an important concept node a. In the above example,
As is clear from the example shown in FIG. 5 (a), the concept nodes that control the words “export”, “recent”, and “profit” are “import / export”, “hour”, and “accounting”. The number of dominant important words (words) is “1” and the same.

【0028】この場合には、原文書中での出現頻度の
一番高い重要語(単語)をチェックして、高い方の概
念ノードを、重要概念ノードaとして選定する。本
実施例では、図5(b) に示したように、「輸出入」なる
重要概念ノードaが選定されることになる。{図3の
処理ステップ 103,104参照}図1の出力部 7では、該選
定された重要概念ノードaの概念「輸出入」に、例え
ば、「に関する文書である。」といった文を付加 (文書
の加工) を行って、要約文「“輸出入”に関する文書で
ある。」なる要約文を出力する。
In this case, the important word (word) having the highest appearance frequency in the original document is checked, and the higher concept node is selected as the important concept node a. In this embodiment, as shown in FIG. 5B, the important concept node “export / import” is selected. {Refer to processing steps 103 and 104 in FIG. 3} In the output unit 7 in FIG. 1, for example, a sentence such as "document is related" is added to the concept "export / import" of the selected important concept node a (processing of document). ) Is performed, and the summary sentence “It is a document related to“ import / export ”” is output.

【0029】このように、本発明による文書要約装置
は、入力された原文書から、所定の手法によって選定
された複数個の重要語を用いて、物事, 又は、動作等
の概念を木構造で表現した概念体系を検索し、原文書
中の重要語が属する数の最も多い概念ノードを、重
要概念ノードaとして抽出し、該抽出された重要概念
ノードaの概念により、原文書を要約するようにし
たところに特徴がある。
As described above, the document summarizing apparatus according to the present invention uses a plurality of important words selected by a predetermined method from the input original document to create a tree structure of a concept such as a thing or a motion. By searching the expressed concept system, the concept node having the largest number of important words in the original document is extracted as the important concept node a, and the original document is summarized by the extracted concept of the important concept node a. It is characterized by the fact that it is set.

【0030】[0030]

【発明の効果】以上、詳細に説明したように、本発明の
文書要約装置によれば、原文書から抽出された重要語
を用いて、概念体系をチェックし、原文書中のより
多くの重要語を支配する重要概念ノードaを抽出し
て、該原文書がポイントとしている意味を得ることに
より、該原文書のポイントとなる内容を要約文として
出力することができる効果がある。
As described above in detail, according to the document summarizing apparatus of the present invention, the important words extracted from the original document are used to check the concept system, and more important items in the original document are checked. By extracting the important concept node a that governs a word and obtaining the meaning pointed to by the original document, there is an effect that the content that is the point of the original document can be output as a summary sentence.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理構成図FIG. 1 is a block diagram of the principle of the present invention.

【図2】本発明で使用される概念体系の例を示した図FIG. 2 is a diagram showing an example of a concept system used in the present invention.

【図3】本発明の一実施例を示した図(その1)FIG. 3 is a diagram showing an embodiment of the present invention (No. 1).

【図4】本発明の一実施例を示した図(その2)FIG. 4 is a diagram showing an embodiment of the present invention (part 2).

【図5】本発明の一実施例を示した図(その3)FIG. 5 is a diagram showing an embodiment of the present invention (part 3).

【図6】従来の文書要約装置を説明する図FIG. 6 illustrates a conventional document summarizing device.

【符号の説明】[Explanation of symbols]

1 概念体系 2 入力部,形
態素解析部 3 重要語抽出部 4 出現頻度解
析部 5 文書要約部,出力部 6 重要概念ノ
ード選定部 100 〜105 処理ステップ 原文書 重要語(単語) a 最重要語 概念ノード a 重要概念ノ−ド
1 concept system 2 input part, morpheme analysis part 3 important word extraction part 4 appearance frequency analysis part 5 document summarization part, output part 6 important concept node selection part 100-105 processing steps original document important word (word) a most important word concept Node a Important concept node

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】原文書 () を入力する入力部(2) と、所
定の手法で、上記原文書 () から、重要語 () を抽
出する重要語抽出部(3) と、抽出された重要語 ()
で、物事, 又は、動作等の概念を木構造で表現した概念
体系(1) を検索して、重要概念ノード (a) を選定す
る重要概念ノード選定部(6) と、該選定した重要概念ノ
ード (a) の概念を用いて、原文書 () の要約文書
を出力する出力部(7) とから構成されたことを特徴とす
る文書要約装置。
1. An input section (2) for inputting an original document (), and an important word extraction section (3) for extracting an important word () from the original document () by a predetermined method. Important word ()
Then, a key concept node selection unit (6) that selects a key concept node (a) by searching the concept system (1) that represents the concept of things or actions in a tree structure, and the selected key concept A document summarizing device comprising an output unit (7) for outputting a summarized document of an original document () using the concept of the node (a).
【請求項2】上記文書要約装置の重要概念ノード選定部
(6) は、一定の個数の単語を支配している上記概念体系
(1) 上のノード()を探索し、それぞれのノード
()が、上記重要語 () を幾つ支配するかをチェッ
クし、より多くの上記重要語 () を支配するノード
()を、重要概念ノード (a) として選定すること
を特徴とする請求項1に記載の文書要約装置。
2. An important concept node selecting unit of the document summarizing device.
(6) is the above concept system that controls a certain number of words
(1) Search the above nodes (), check how many each of the nodes () dominates the important word (), and find more nodes () that dominate the important word (). The document summarizing device according to claim 1, wherein the document summarizing device is selected as the concept node (a).
【請求項3】上記文書要約装置の重要概念ノード選定部
(6) は、概念体系(1) 上のノード()が支配する重要
語 () の数が同じである場合、支配している重要語
()の原文書()中の出現頻度をチェックして、出現
頻度の高い方の重要語 ()を支配しているノード
()を、上記重要概念ノード(a)として選定する
ことを特徴とする請求項1,又は2に記載の文書要約装
置。
3. An important concept node selecting unit of the document summarizing device
(6) is the dominant word that is dominant if the number of important words () governed by the node () on the conceptual system (1) is the same
The appearance frequency in the original document () of () is checked, and the node () that controls the important word () with the higher appearance frequency is selected as the important concept node (a). The document summarizing device according to claim 1,
JP6012006A 1994-02-04 1994-02-04 Document summarizing device Withdrawn JPH07219953A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6012006A JPH07219953A (en) 1994-02-04 1994-02-04 Document summarizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6012006A JPH07219953A (en) 1994-02-04 1994-02-04 Document summarizing device

Publications (1)

Publication Number Publication Date
JPH07219953A true JPH07219953A (en) 1995-08-18

Family

ID=11793508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6012006A Withdrawn JPH07219953A (en) 1994-02-04 1994-02-04 Document summarizing device

Country Status (1)

Country Link
JP (1) JPH07219953A (en)

Similar Documents

Publication Publication Date Title
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
Zhang et al. A trainable method for extracting Chinese entity names and their relations
JPH06215035A (en) Text retrieving device
KR102372629B1 (en) Triple Extraction method using Pointer Network and the extraction apparatus
JPH07219953A (en) Document summarizing device
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JPS61248160A (en) Document information registering system
JP2885489B2 (en) Document content search device
JP2902343B2 (en) Language analysis system and method
JPS60193074A (en) Analyzer of japanese language
JPH01266670A (en) Extracting processing system for characteristic vocabulary in japanese object sentence
CN110347804A (en) A kind of sensitive information detection method of linear time complexity
JP2006163723A (en) Document search method
JP2003173338A (en) Dictionary construction support device, dictionary construction support method, and dictionary construction support program
JPH05233689A (en) Automatic document abstracting method
JPH04290158A (en) Document creation device
JPH03248264A (en) Japanese-language sentence elaborating device
JPH06309360A (en) Full-text searching method matching process of negation condition
JPH11238060A (en) Natural language processor
JPH06187329A (en) Natural language processor
Poibeau Content annotation for the Semantic Web
JPH0414168A (en) Word processor
JPH086950A (en) Machine translation apparatus with keyword translation function
JPH0785041A (en) Relational conception extracting device
JPH09190448A (en) Device for retrieving character string and its method

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010508