JPH11250097A - Key word extracting method, device therefor and storage medium stored with key word extracting program - Google Patents

Key word extracting method, device therefor and storage medium stored with key word extracting program

Info

Publication number
JPH11250097A
JPH11250097A JP10053889A JP5388998A JPH11250097A JP H11250097 A JPH11250097 A JP H11250097A JP 10053889 A JP10053889 A JP 10053889A JP 5388998 A JP5388998 A JP 5388998A JP H11250097 A JPH11250097 A JP H11250097A
Authority
JP
Japan
Prior art keywords
word
keyword
importance
extracting
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10053889A
Other languages
Japanese (ja)
Inventor
Naoki Kasahara
直樹 笠原
Shigeto Iwase
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10053889A priority Critical patent/JPH11250097A/en
Publication of JPH11250097A publication Critical patent/JPH11250097A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To securely express an intention expressing a sentence and to generate a key word for new retrieval even in the case of parallel expression in the relation of modification by semantically sorting extracted key words and imparting degree of importance for every sorted key word. SOLUTION: A word importance decision part 101 inputs a syntactic tree after finishing morpheme analysis and semantic analysis and decides the importance of words included in the sentence by referring to a word importance defining rule storing part 102, which stores a rule defining the importance of a sentence pattern and a word. A word extracting part 103 extracts words by using an extracting word meaning defining table storing part 104 defining the meaning of a word to extract. A word sorting part 105 semantically sorts the words extracted by the part 103 by using a thesaurus storing part 106. A key word part 107 outputs key words of the pieces obtained by designating the words stored by the word sorting part in descending order of importance.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、キーワード抽出方
法及び装置及びキーワード抽出プログラムを格納した記
憶媒体に係り、特に、文書を検索するシステムにおい
て、文章から、自動的に重要なキーワードを抽出する業
務を行うためのキーワード抽出方法及び装置及びキーワ
ード抽出プログラムを格納した記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a keyword extracting method and apparatus, and a storage medium storing a keyword extracting program, and more particularly to a business for automatically extracting important keywords from sentences in a document retrieval system. And a storage medium storing a keyword extraction program.

【0002】[0002]

【従来の技術】従来、キーワードを自動的に抽出するシ
ステムでは、統計的手法による頻度情報を元にした方式
が用いられている。
2. Description of the Related Art Conventionally, in a system for automatically extracting a keyword, a method based on frequency information by a statistical method is used.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記の
従来の統計的手法による頻度情報に基づいてキーワード
を抽出する方法には、以下のような問題がある。第1の
問題点は、店舗等で表示される案内文では営業内容を1
00文字程度で簡単に記述した文章のため、同じ意味の
単語は統計的手法が使える程多くは出現しない。しか
し、「レンタルビデオ、ダビング、撮影、編集」のよう
に近い意味の単語は多く出現する。従来の技術では、こ
れらの単語を独立したキーワードとしてしか扱うことが
できない。
However, the method of extracting a keyword based on frequency information by the above-described conventional statistical method has the following problems. The first problem is that the guidance text displayed at stores and the like indicates that
Because the sentence is simply written with about 00 characters, words with the same meaning do not appear so many that statistical methods can be used. However, many words with similar meanings such as “rental video, dubbing, shooting, editing” appear. In the related art, these words can be handled only as independent keywords.

【0004】第2の問題点は、同じ単語でも文中の出現
位置で重要度が異なる。「テレビ、ビデオ、各種電気製
品を扱っております」と「テレビで紹介されたお店で
す」では、「テレビ」の重要度が異なるが、従来の技術
では、同じ重要度として取り扱われる。第3の問題点
は、キーワードに複合語が抽出されたとき、キーワード
とすべき部分を取り出すことができない。例えば、「電
気製品販売」という複合語が抽出されたとき、キーワー
ドは、「電気製品」にすべきであるが、従来の技術で
は、「電気製品販売」全体をキーワードとするか、「電
気」「製品」「販売」と個別に分割してキーワードとす
るため、「電気製品」とは無関係なデータが検索される
場合がある。
[0004] The second problem is that the same word has a different importance depending on the appearance position in the sentence. "We deal in TV, video, and various electrical products" and "Stores featured on TV" have different levels of "TV", but conventional technology treats them as the same. A third problem is that when a compound word is extracted as a keyword, it is not possible to extract a portion to be a keyword. For example, when the compound word “electric product sales” is extracted, the keyword should be “electric product”, but in the conventional technology, the keyword is “electric product sales” as a whole or “electric”. Since “product” and “sales” are individually divided into keywords, data unrelated to “electric products” may be searched.

【0005】第4の問題点は、「各種印刷(年賀状、名
刺、チラシ)」のように係り受けのある並列表現の場
合、従来の方法では、「印刷」「年賀状」「名刺」「チ
ラシ」という個別のキーワードになり、「年賀状印刷」
というキーワードにはならない。本発明は、上記の点に
鑑みなされたもので、文章を表している意図をより的確
に表すことが可能であり、キーワードとして相応しい言
葉が出力可能であると共に、係り受け関係のある並列表
現の場合も、新たに検索のためのキーワードを生成する
ことが可能なキーワード抽出方法及び装置及びキーワー
ド抽出プログラムを格納した記憶媒体を提供することを
目的とする。
[0005] The fourth problem is that in the case of a parallel expression having dependencies such as "various printing (new year's card, business card, flyer)", the conventional method uses "printing", "new year's card", "business card", "flyer". "New Year's card printing"
Is not a keyword. The present invention has been made in view of the above points, and it is possible to more accurately express the intention of expressing a sentence, to output appropriate words as keywords, and to execute parallel expressions having a dependency relationship. Also in this case, it is an object to provide a keyword extraction method and apparatus capable of generating a new keyword for search and a storage medium storing a keyword extraction program.

【0006】[0006]

【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、自然
言語で構成された文章を入力してキーワードを抽出する
キーワード抽出方法において、文章の単語の重要度を判
定し(ステップ1)、単語の品詞と意味によってキーワ
ードを抽出し(ステップ2)、抽出されたキーワードを
意味的に分類して、分類されたキーワード毎に重要度を
付与し(ステップ3)、重要度に応じて、予め指定され
た個数のキーワードを出力する(ステップ4)。
FIG. 1 is a diagram for explaining the principle of the present invention. According to a first aspect of the present invention, in a keyword extraction method for extracting a keyword by inputting a sentence composed of a natural language, the importance of a word of the sentence is determined (step 1), and the keyword is determined based on the part of speech and the meaning of the word. Is extracted (Step 2), the extracted keywords are semantically classified, importance is given to each of the classified keywords (Step 3), and a predetermined number of keywords are assigned according to the importance. Output (Step 4).

【0007】本発明(請求項2)は、重要度を付与する
際に、キーワードに含まれる単語の係り受けパターンと
該単語の関係を記憶した単語重要度定義ルールとを照合
し、該単語の重要度を判定する。本発明(請求項3)
は、キーワードを分類する際に、シソーラスに代表分類
ノードを定義しておき、同じ代表分類に属するキーワー
ド及び事象変換し、同じ代表分類に属するキーワードを
同じ分類のキーワードであると見做す。
According to the present invention (claim 2), when assigning the importance, the dependency pattern of the word included in the keyword is collated with the word importance definition rule storing the relation of the word, and the word importance is defined. Determine importance. The present invention (claim 3)
Defines keywords in the thesaurus when classifying keywords, converts keywords belonging to the same representative class and events, and regards keywords belonging to the same representative class as keywords of the same class.

【0008】本発明(請求項4)は、キーワードを分類
する際に、抽出したキーワードが複合語である場合に、
前方削除または、語尾削除した結果がシソーラスにある
場合には、削除した結果を新たなキーワードと見做し、
削除した部分が動詞の意味を持つ場合に、キーワードを
対で出力する。本発明(請求項5)は、キーワードを抽
出する際に、文章に並列表現と係り受け関係の単語が含
まれている場合には、該並列表現の部分を個々の単語に
分解し、係り受け関係の単語と個々の単語を組み合わせ
て、新しいキーワードとして抽出する。
According to the present invention (claim 4), when a keyword is classified, if the extracted keyword is a compound word,
If the result of the forward deletion or ending removal is in the thesaurus, the deleted result is regarded as a new keyword,
If the deleted part has the meaning of a verb, output keywords in pairs. According to the present invention (claim 5), when extracting a keyword, if a sentence includes a word having a parallel relationship with a dependency relationship, the portion of the parallel expression is decomposed into individual words, and the dependency is changed. The related words and individual words are combined and extracted as new keywords.

【0009】図2は、本発明の原理構成図である。本発
明(請求項6)は、自然言語で構成された文章を入力し
てキーワードを抽出するキーワード抽出装置であって、
文章の単語の重要度を判定する単語重要度判定手段10
1と、単語の品詞と意味によってキーワードを抽出する
単語抽出手段103と、単語抽出手段103により抽出
されたキーワードを意味的に分類して、分類されたキー
ワード毎に重要度を付与する単語分類手段105と、単
語分類手段105で付与された重要度に応じて、予め指
定された個数のキーワードを出力するキーワード出力手
段107とを有する。
FIG. 2 is a diagram showing the principle of the present invention. The present invention (Claim 6) is a keyword extracting apparatus for extracting a keyword by inputting a sentence composed of a natural language,
Word importance determination means 10 for determining the importance of words in a sentence
1, a word extracting unit 103 for extracting a keyword based on the part of speech and meaning of the word, and a word classifying unit for semantically classifying the keyword extracted by the word extracting unit 103 and assigning importance to each classified keyword 105 and a keyword output unit 107 that outputs a predetermined number of keywords according to the degree of importance given by the word classification unit 105.

【0010】本発明(請求項7)は、単語重要度判定手
段101において、単語の関係を記憶した単語重要度定
義ルールと、キーワードに含まれる単語の係り受けパタ
ーンと単語重要度定義ルールとを照合し、該単語の重要
度を判定する手段を含む。本発明(請求項8)は、単語
分類手段105において、シソーラスに代表分類ノード
を定義したシソーラス知識と、シソーラス知識を参照し
て同じ代表分類に属するキーワード及び事象変換し、同
じ代表分類に属するキーワードを同じ分類のキーワード
であると見做す手段を含む。
According to the present invention (claim 7), the word importance determining means 101 determines a word importance definition rule storing a relationship between words, a dependency pattern of a word included in the keyword, and a word importance definition rule. Means for collating and determining the importance of the word. According to the present invention (claim 8), in the word classifying means 105, a keyword belonging to the same representative class and a keyword belonging to the same representative class by referring to the thesaurus knowledge defining the representative class node in the thesaurus and the event belonging to the same representative class are referred to. Are included as keywords of the same classification.

【0011】本発明(請求項9)は、単語分類手段10
5において、抽出したキーワードが複合語である場合
に、前方削除または、語尾削除した結果がシソーラス知
識にある場合には、削除した結果を新たなキーワードと
見做し、削除した部分が動詞の意味を持つ場合に、キー
ワードを対で出力する手段を含む。
According to the present invention (claim 9), the word classification means 10
In step 5, if the extracted keyword is a compound word and the result of forward deletion or ending removal is in thesaurus knowledge, the deleted result is regarded as a new keyword, and the deleted part is the meaning of the verb. Means for outputting keywords in pairs when

【0012】本発明(請求項10)は、単語抽出抽出手
段103において、文章に並列表現と係り受け関係の単
語が含まれている場合には、該並列表現の部分を個々の
単語に分解する手段と、係り受け関係の単語と個々の単
語を組み合わせて、新しいキーワードとして抽出する手
段とを含む。
According to the present invention (claim 10), when a sentence includes a word having a parallel relationship with a dependency relationship, the word extracting / extracting means 103 decomposes the parallel expression portion into individual words. Means, and means for combining a dependency-related word and an individual word and extracting it as a new keyword.

【0013】本発明(請求項11)は、自然言語で構成
された文章を入力してキーワードを抽出するキーワード
抽出プログラムを格納した記憶媒体であって、文章の単
語の重要度を判定する単語重要度判定プロセスと、単語
の品詞と意味によってキーワードを抽出する単語抽出プ
ロセスと、抽出されたキーワードを意味的に分類して、
分類されたキーワード毎に重要度を付与する単語分類プ
ロセスと、重要度に応じて、予め指定された個数のキー
ワードを出力するキーワード出力プロセスとを有する。
[0013] The present invention (Claim 11) is a storage medium storing a keyword extraction program for inputting a sentence composed of a natural language and extracting a keyword, wherein the word importance is determined for judging the importance of the word of the sentence. A degree determination process, a word extraction process of extracting keywords based on the part of speech and meaning of the words, and semantically classifying the extracted keywords.
It has a word classification process of assigning importance to each classified keyword, and a keyword output process of outputting a predetermined number of keywords according to the importance.

【0014】本発明(請求項12)は、単語重要度判定
プロセスにおいて、キーワードに含まれる単語の係り受
けパターンと単語の関係を記憶した単語重要度定義ルー
ルとを照合し、該単語の重要度を判定するプロセスを含
む。本発明(請求項13)は、単語分類プロセスにおい
て、シソーラスに代表分類ノードを定義したシソーラス
知識を参照して同じ代表分類に属するキーワード及び事
象変換し、同じ代表分類に属するキーワードを同じじ分
類のキーワードであると見做すプロセスを含む。
According to the present invention (claim 12), in a word importance determination process, a dependency pattern of a word included in a keyword is collated with a word importance definition rule storing a relation between words, and the importance of the word is determined. The process of determining According to the present invention (claim 13), in the word classification process, the keywords belonging to the same representative classification and the events are converted with reference to thesaurus knowledge defining the representative classification nodes in the thesaurus, and the keywords belonging to the same representative classification are classified into the same classification. Includes processes that are considered keywords.

【0015】本発明(請求項14)は、単語分類プロセ
スにおいて、抽出したキーワードが複合語である場合
に、前方削除または、語尾削除した結果が、シソーラス
に代表分類ノードを定義したシソーラス知識にある場合
には、削除した結果を新たなキーワードと見做し、削除
した部分が動詞の意味を持つ場合に、キーワードを対で
出力するプロセスを含む。
According to the present invention (claim 14), in the word classification process, when the extracted keyword is a compound word, the result of forward deletion or ending deletion is in the thesaurus knowledge defining a representative classification node in the thesaurus. In such a case, a process of considering the deleted result as a new keyword and outputting the keyword as a pair when the deleted portion has the meaning of a verb is included.

【0016】本発明(請求項15)は、単語抽出抽出プ
ロセスにおいて、文章に並列表現と係り受け関係の単語
が含まれている場合には、該並列表現の部分を個々の単
語に分解するプロセスと、係り受け関係の単語と個々の
単語を組み合わせて、新しいキーワードとして抽出する
プロセスとを含む。
According to the present invention (claim 15), in the word extraction and extraction process, when a sentence includes a word having a dependency relation with a parallel expression, a part of the parallel expression is decomposed into individual words. And a process of combining the words of the dependency relationship with individual words and extracting them as new keywords.

【0017】上記のように、本発明では、同じ代表分類
ノードに属する単語は同じものとして扱うことにより、
短い文章でも頻度に基づいてキーワードの重要度を判断
することが可能となる。また、係り受け関係により単語
の重要度を定義できるので、文型より単語の重要度の違
いを判断することが可能となる。
As described above, in the present invention, words belonging to the same representative classification node are treated as the same,
Even for short sentences, it is possible to determine the importance of the keyword based on the frequency. In addition, since the importance of the word can be defined by the dependency relationship, it is possible to determine the difference in the importance of the word from the sentence pattern.

【0018】また、同じ代表分類ノードに属する単語は
同じものとして扱うことにより、短い文章でも頻度に基
づいてキーワードの重要度を判断することが可能とな
る。また、複合語のキーワードから前方削除や語尾削除
をするので、キーワードとして相応しい部分を取り出す
ことができる。また、商品キーワードと動詞キーワード
を対で取り出すので、検索精度を向上させることが可能
となる。
Further, by treating words belonging to the same representative classification node as the same, it is possible to determine the importance of a keyword based on the frequency of a short sentence. In addition, since forward deletion and ending deletion are performed from the keyword of the compound word, a portion suitable as the keyword can be extracted. In addition, since the product keyword and the verb keyword are extracted as a pair, it is possible to improve search accuracy.

【0019】さらに、係り受けのある並列表現の場合、
並列になっている商品と動詞で新たにキーワードを生成
するので、並列でない条件が入力されても検索すること
ができる。
Further, in the case of a dependent parallel expression,
Since a keyword is newly generated with a product and a verb that are arranged in parallel, it is possible to search even if a condition that is not parallel is input.

【0020】[0020]

【発明の実施の形態】図3は、本発明のキーワード抽出
装置の構成を示す。同図に示すキーワード抽出装置は、
単語重要度判定部101、単語重要度定義ルール記憶部
102、単語抽出部103、抽出単語意味定義テーブル
記憶部103、単語分類部105、シソーラス記憶部1
06及びキーワード出力部107から構成される。
FIG. 3 shows the configuration of a keyword extracting apparatus according to the present invention. The keyword extraction device shown in FIG.
Word importance determination unit 101, word importance definition rule storage unit 102, word extraction unit 103, extracted word meaning definition table storage unit 103, word classification unit 105, thesaurus storage unit 1
06 and a keyword output unit 107.

【0021】単語重要度判定部101は、形態素解析・
意味解析を終えた後の構文木を入力として、文に含まれ
る単語の重要度を単語重要度定義ルール記憶部102を
参照して判定する。単語重要度定義ルール記憶部102
は、文型と単語の重要度を定義したルールを記憶してい
る。
The word importance determining unit 101 performs morphological analysis /
Using the syntax tree after the semantic analysis as input, the importance of the words included in the sentence is determined with reference to the word importance definition rule storage unit 102. Word importance definition rule storage unit 102
Stores rules defining sentence patterns and importance of words.

【0022】単語抽出部103は、抽出すべき単語の意
味を定義した抽出単語意味定義テーブル記憶部104を
用いて単語を抽出する。抽出単語意味定義テーブル記憶
部104は、単語毎に意味が定義されている情報を格納
している。単語分類部105は、シソーラス記憶部10
6を用いて、単語抽出部103で抽出された単語を意味
的に分類する。
The word extraction unit 103 extracts words using an extracted word meaning definition table storage unit 104 which defines the meaning of the word to be extracted. The extracted word meaning definition table storage unit 104 stores information in which the meaning is defined for each word. The word classifying unit 105 includes the thesaurus storage unit 10
6, the words extracted by the word extraction unit 103 are semantically classified.

【0023】シソーラス記憶部106は、単語の代表分
類ノードがツリー構造で格納されている。キーワード出
力部107は、単語分類部105で分類された単語を重
要度の高い順に指定した個数のキーワードを出力する。
次に、上記の構成による動作を説明する。
The thesaurus storage unit 106 stores representative classification nodes of words in a tree structure. The keyword output unit 107 outputs a number of keywords in which the words classified by the word classification unit 105 are specified in descending order of importance.
Next, the operation of the above configuration will be described.

【0024】図4は、本発明のキーワード抽出処理の動
作を示すフローチャートである。 ステップ100) 入力された案内文を1文毎に切り出
して、文整形を行う。 ステップ200) 文整形が行われた文に対して形態素
解析を行う。 ステップ300) 形態素解析により単語分割された個
々の単語毎に意味解析を行い、単語の意味及び単語間の
係り受け関係を求める。
FIG. 4 is a flowchart showing the operation of the keyword extracting process according to the present invention. Step 100) The input guide text is cut out for each sentence and the text is formatted. Step 200) A morphological analysis is performed on the sentence that has undergone sentence shaping. Step 300) A semantic analysis is performed for each word divided by the morphological analysis, and the meaning of the word and the dependency relationship between the words are obtained.

【0025】ステップ400) 次に、単語重要度判定
部101において、単語重要定義ルール記憶部102を
参照して、単語の重要度を求める。 ステップ500) 次に、単語抽出部103は、抽出単
語意味定義テーブル記憶部104を参照して、単語の意
味によって抽出する単語を決定する。例えば、お店の案
内文では単語は通常、商品やサービスを表す名詞と動詞
であるので、物や事などの意味を持つ単語を取り出し、
代名詞や接続詞、副詞は取り出さない。
Step 400) Next, the word importance determination unit 101 refers to the word importance definition rule storage unit 102 to determine the importance of the word. (Step 500) Next, the word extraction unit 103 refers to the extracted word meaning definition table storage unit 104 and determines a word to be extracted based on the meaning of the word. For example, in a shop guide, words are usually nouns and verbs representing goods and services, so words that have meanings such as things and things are extracted,
Pronouns, conjunctions and adverbs are not extracted.

【0026】ステップ600) 単語分類部105は、
前方削除、語尾削除を行って、シソーラス記憶部106
にある単語を求める。 ステップ700) 単語分類部105をシソーラス記憶
部106を参照して意味的に同じ単語を持つ単語は一つ
に纏める。例えば、「英語、フランス語、ドイツ毎、そ
の他。留学も可」という文章の場合、「英語」「フラン
ス語」「ドイツ語」は外国語という同じ代表分類ノード
を持つので、頻度は「3」となり、「留学」は別の代表
分類となるので頻度は「1」となる、のように分類する
ことが可能である。
Step 600) The word classifying unit 105
By performing forward deletion and ending deletion, the thesaurus storage unit 106
For a word in. Step 700) The word classifying unit 105 refers to the thesaurus storage unit 106 and combines words having the same meaningful word into one. For example, in the case of the sentence "English, French, German, etc., studying abroad", "English", "French" and "German" have the same representative classification node of foreign language, so the frequency is "3", “Study abroad” is another representative classification, so the frequency can be “1”.

【0027】ステップ800) キーワード出力部10
7において、重要度の高い順に指定された個数のキーワ
ードを出力する。
Step 800) Keyword output unit 10
In step 7, the specified number of keywords are output in descending order of importance.

【0028】[0028]

【実施例】以下、図面と共に本発明の実施例を説明す
る。最初に、単語の重要度の判定処理について説明す
る。前述の図3に示す構成では、単語重要度定義ルール
記憶部102をキーワード抽出装置内部に設けている
が、以下の説明では、単語重要度の判定を行う場合に
(ステップ400)、単語の重要度を係り受け関係によ
り判断する際に、重要度定義ルール記憶部102の内容
を自由に変更可能とするために、外部ファイルとした例
を用いて説明する。
Embodiments of the present invention will be described below with reference to the drawings. First, the process of determining the importance of a word will be described. In the configuration shown in FIG. 3 described above, the word importance definition rule storage unit 102 is provided inside the keyword extraction device. However, in the following description, when determining the word importance (step 400), the importance of the word is determined. An explanation will be given using an example in which an external file is used so that the content of the importance definition rule storage unit 102 can be freely changed when the degree is determined based on the dependency relationship.

【0029】図5は、本発明の一実施例の単語重要度定
義ルールで用いられる記号の意味を示す図であり、図6
は、本発明の一実施例の単語重要度定義ルールの例を示
す。図7は、本発明の一実施例の単語の重要度判定の動
作を示す図である。 ステップ401) 単語重要度判定部101は、単語重
要度定義ルールの照合位置を先頭から最後までずらしな
がら以下の処理を繰り返す。
FIG. 5 is a diagram showing the meaning of the symbols used in the word importance definition rule according to one embodiment of the present invention.
Shows an example of a word importance definition rule according to an embodiment of the present invention. FIG. 7 is a diagram illustrating an operation of determining the importance of a word according to an embodiment of the present invention. Step 401) The word importance determination unit 101 repeats the following processing while shifting the collation position of the word importance definition rule from the beginning to the end.

【0030】ステップ402) 単語重要度定義ルール
からひとつずつルールを取り出す。 ステップ403) 意味解析処理により出力された係り
受け関係を入力として、文の先頭から最後までルールの
照合位置をずらしながら、単語重要度定義ルールにマッ
チするルールがあるかをチェックする。 ステップ404) マッチするルールがあれば、単語の
評価値を記憶する。なお、評価値は単語の頻度に相当す
るもので定義する。評価値「1」が文中の1回出現した
意味をもつ。文の最後までチェックしてマッチするルー
ルがなかった単語は、「1」を記憶する。
Step 402) Rules are extracted one by one from the word importance definition rules. Step 403) With the dependency relation output by the semantic analysis processing as input, it is checked whether there is a rule that matches the word importance definition rule while shifting the matching position of the rule from the beginning to the end of the sentence. Step 404) If there is a matching rule, the evaluation value of the word is stored. Note that the evaluation value is defined as that corresponding to the word frequency. The evaluation value “1” has the meaning of appearing once in the sentence. A word for which there is no matching rule by checking until the end of the sentence is stored as “1”.

【0031】例えば、「和食の老舗で有名だ」という文
の場合は、図6に示すルール502にマッチするので、
「和食」は「2」、「老舗」は「1」、「有名だ」は
「1」となる。また、「テレビに紹介された」という文
の場合は、図6に示すルール502にマッチするので、
「テレビ」は「0」(すなわち、文に出現しなかったこ
とと同じ)、「紹介する」は、「1」になる。
For example, in the case of the sentence "It is famous for a well-established Japanese restaurant", it matches the rule 502 shown in FIG.
“Japanese food” is “2”, “long established” is “1”, and “famous” is “1”. In the case of the sentence “Introduced on TV”, the rule 502 shown in FIG. 6 is matched.
“TV” becomes “0” (that is, the same as not appearing in a sentence), and “introduce” becomes “1”.

【0032】ステップ405) 次のルールを単語重要
度定義ルール記憶部102から取り出す。次に、単語分
類部105における単語分類処理について説明する。単
語分類部105は、シソーラス上に代表分類ノードを定
義し、上位単語が同じ代表分類ノードになる単語、及び
道具と使用目的の関係(例えば、自動車と運転)等の上
下関係以外の関係を表す事象変換テーブルによって変換
したとき、同一の代表分類ノードに属する単語を同一の
分類に属すると見做すものである。
Step 405) The next rule is retrieved from the word importance definition rule storage unit 102. Next, the word classification processing in the word classification unit 105 will be described. The word classification unit 105 defines a representative classification node on the thesaurus, and expresses a word other than the upper / lower relation such as a relation between a tool and a purpose of use (for example, a car and a driving), such as a word having the same representative classification node as an upper word. When converted by the event conversion table, words belonging to the same representative classification node are regarded as belonging to the same classification.

【0033】図8は、本発明の一実施例のシソーラス検
索処理のフローチャートを示し、図9は、本発明の一実
施例のシソーラスの例を示し、図10は、本発明の一実
施例の事象変換テーブルの例を示す。 ステップ601) 単語分類部105は、シソーラス記
憶部106のシソーラスを検索することによりすべての
単語の代表分類ノードを求める。
FIG. 8 shows a flowchart of a thesaurus retrieval process according to an embodiment of the present invention, FIG. 9 shows an example of a thesaurus according to an embodiment of the present invention, and FIG. 4 shows an example of an event conversion table. Step 601) The word classification unit 105 obtains a representative classification node of all words by searching the thesaurus in the thesaurus storage unit 106.

【0034】ステップ602) 次に、代表分類毎に頻
度をカウントする。例えば、「○○自動車学校。自動2
輪、普通車、合宿免許あり。」という文章の場合、図9
のシソーラスによれば、「普通車」の上位は「自動車」
なので、代表分類「自動車」の頻度は「2」になる。 ステップ603) 次に、代表分類が事象変換可能かを
チェックする。
Step 602) Next, the frequency is counted for each representative classification. For example, "XX driving school.
Wheel, regular car, training camp license available. In the case of the sentence "
According to the thesaurus, "normal cars" ranked higher than "automobiles"
Therefore, the frequency of the representative classification “car” is “2”. Step 603) Next, it is checked whether the representative classification can be converted into an event.

【0035】ステップ604) 同じ代表分類に変換さ
れる単語があればそれも併合して頻度をカウントする。
例えば、「免許」は、自動車を運転するのに必要な資格
なので、図10に示す事象変換テーブルを用いて事象変
換した代表分類ノードは同じになる。結局、「普通車」
「自動車」「免許」は同じ代表分類なので、頻度は
「3」となる。
Step 604) If there is a word to be converted into the same representative classification, it is merged and the frequency is counted.
For example, “license” is a qualification necessary for driving a car, and therefore, the representative classification node that has been converted using the event conversion table shown in FIG. 10 is the same. After all, "normal car"
Since "car" and "license" are the same representative classification, the frequency is "3".

【0036】次に、単語分類部105によるシソーラス
検索(ステップ600)において、抽出した単語が複合
語のとき、前方削除や語尾削除を行い、キーワードとす
べき単語を決定する。決定した単語が動詞の意味を持つ
場合、その単語も対で出力することも可能である。図1
1は、本発明の一実施例のシソーラス検索処理において
抽出した単語が複合語である場合の処理の動作を示すフ
ローチャートである。
Next, in the thesaurus search by the word classifying unit 105 (step 600), when the extracted word is a compound word, forward deletion or ending deletion is performed to determine a word to be a keyword. If the determined word has the meaning of a verb, the word can also be output as a pair. FIG.
FIG. 1 is a flowchart showing an operation of a process when a word extracted in a thesaurus search process according to an embodiment of the present invention is a compound word.

【0037】ステップ701) 単語分類部105は、
抽出した単語でシソーラスを検索し、当該単語がシソー
ラスに存在すれば、抽出した単語をそのままキーワード
とする。 ステップ702) シソーラスにない時は、複合語の末
尾が「用品」「情報」等の補助的な意味を表す語尾や
「販売」「レンタル」等のサ変名詞の場合は、削除し
て、シソーラスを検索する(ステップ701に移行す
る)。
Step 701) The word classifying section 105
A thesaurus is searched for the extracted word, and if the word exists in the thesaurus, the extracted word is used as a keyword as it is. Step 702) When the compound word is not in the thesaurus, if the end of the compound word is an ending that indicates an auxiliary meaning such as “supply” or “information”, or if it is an inflected noun such as “sales” or “rental”, delete the compound word Search (move to step 701).

【0038】ステップ703) 削除できる語尾やサ変
名詞がなくなった時は、語尾を元に戻す。 ステップ704) 前方から1単語ずつ削除し、ステッ
プ701に移行し、以降、ステップ701からステップ
703の処理を繰り返す。 ステップ705) 単語がなくなるか、語尾やサ変名詞
のみになった場合は、シソーラスにないので、元々の複
合語をキーワードとする。
Step 703) When there is no longer any ending or noun that can be deleted, the ending is restored. Step 704) Delete one word at a time from the front, shift to step 701, and thereafter repeat the processing from step 701 to step 703. Step 705) If there is no word or only the ending or the noun, it is not in the thesaurus and the original compound word is used as a keyword.

【0039】ステップ706) シソーラスを検索した
結果、シソーラウ上にあった場合には、削除した部分が
動詞の意味を持つかを判定する。 ステップ707) 動詞の意味を持たない場合には、シ
ソーラスにある部分をキーワードとする。 ステップ708) 動詞の意味を持つ場合には、シソー
ラスにある部分と削除した部分の対でキーワードとす
る。
Step 706) If the thesaurus is found on the thesaurus as a result of searching the thesaurus, it is determined whether the deleted portion has the meaning of a verb. Step 707) If the verb has no meaning, the part in the thesaurus is used as a keyword. Step 708) If the verb has a meaning, a pair of the part in the thesaurus and the deleted part is used as a keyword.

【0040】例えば、「各種家電製品修理」という単語
の場合、まず、末尾の「修理」を削除するが、「各種家
電製品」はシソーラスにない。次に、末尾の「修理」を
戻して前方の「各種」を削除し、「家電製品修理」で検
索するが、この複合語もシソーラスにない。次に、末尾
の「修理」も削除して検索すると、「家電製品」がシソ
ーラスに存在するので、キーワードは「家電製品」とな
る。削除した「修理」は、サ変名詞なので、「家電製
品」と対で「修理」もキーワードであることを記憶して
おく。
For example, in the case of the word "repair of various home electric appliances", first, "repair" at the end is deleted, but "the various home electric appliances" is not in the thesaurus. Next, "repair" at the end is returned, "various" ahead is deleted, and "home appliance repair" is searched, but this compound word is not in the thesaurus either. Next, when "repair" at the end is also deleted and searched, the keyword is "home electric appliances" because "home electric appliances" exists in the thesaurus. Since the deleted "repair" is a paranoun, it is remembered that "repair" is also a keyword in combination with "home electric appliances".

【0041】次に、単語抽出部103における単語抽出
処理(ステップ500)において、並列表現に係り受け
関係が有る場合の処理について説明する。並列表現に係
り受け関係が有る場合には、並列にある単語を個々に分
解し、係り受け関係にある単語を付加して新しいキーワ
ードを生成する。図12は、本発明の一実施例の単語抽
出処理において並列表現に係り受け関係がある場合の処
理の動作を示すフローチャートである。
Next, in the word extraction process (step 500) in the word extraction unit 103, a description will be given of a process in a case where there is a dependency relation in the parallel expression. If there is a dependency relationship in the parallel expression, words in parallel are decomposed individually, and words in the dependency relationship are added to generate a new keyword. FIG. 12 is a flowchart showing an operation of the word extraction processing according to the embodiment of the present invention when there is a dependency relation in the parallel expression.

【0042】ステップ501) まず、単語抽出部10
3は、抽出された単語に並列表現があるかを判定する。
並列表現には括弧「各種印刷(ハガキ、チラシ)」や、
句点「ハガキ、チラシ、各種印刷」などがある。 ステップ502) 次に、並列にある単語を個々の単語
に分割する。例えば、「各種」と括弧の間の単語がサ変
名詞である、並列表現の最後が「各種」+サ変名詞であ
ることなどから判断する。
Step 501) First, the word extracting unit 10
3 determines whether the extracted word has a parallel expression.
In parallel expression, parentheses "various printing (postcard, flyer)"
There are punctuation marks such as "postcards, flyers, and various types of printing." Step 502) Next, words in parallel are divided into individual words. For example, the judgment is made based on the fact that the word between “various” and parentheses is a paravariable noun, and that the end of the parallel expression is “various” + variable noun.

【0043】ステップ503) 次に、分解した単語と
サ変名詞を組み合わせて出力する。例の場合、「ハガキ
印刷」「チラシ印刷」となる。上記のような処理を行う
ことにより、並列になっている商品と動詞で新たにキー
ワードを生成することが可能であり、並列でない条件が
入力されてもキーワードを抽出することができる。
Step 503) Next, the decomposed word and the sa-variable noun are combined and output. In the case of the example, "postcard printing" and "flyer printing" are used. By performing the above-described processing, it is possible to generate a new keyword using a product and a verb in parallel, and to extract a keyword even when a non-parallel condition is input.

【0044】また、上記の実施例は、図3の構成要素に
基づいて説明しているが、この例に限定されることな
く、同図に示す構成要素をプログラムとして構築し、当
該キーワード抽出装置として利用されるコンピュータに
接続されるディスク装置や、フロッピーディスク、CD
−ROM等の可搬記憶媒体に格納しておき、本発明を実
施する際に、インストールすることにより容易に本発明
を実現することができる。
Although the above embodiment has been described based on the components shown in FIG. 3, the present invention is not limited to this example. The components shown in FIG. Device, floppy disk, CD connected to computer used as
-The present invention can be easily realized by storing it in a portable storage medium such as a ROM and installing it when implementing the present invention.

【0045】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
It should be noted that the present invention is not limited to the above-described embodiment, but can be variously modified and applied within the scope of the claims.

【0046】[0046]

【発明の効果】上述のように、本発明によれば、文中の
単語の位置や、意味的に近い単語の頻度でキーワードの
重要度を決めるため、文章の表している意図をより的確
に表すことが可能である。その結果、検索精度を向上さ
せることができる。また、複合語に対し、前方削除や語
尾削除を行い、キーワードとしてふさわしい言葉を出力
するので、複合語を個別のキーワードで検索するよりも
検索精度が向上する。
As described above, according to the present invention, the importance of a keyword is determined by the position of a word in a sentence and the frequency of words that are semantically close, so that the intention expressed by the sentence is represented more accurately. It is possible. As a result, search accuracy can be improved. Also, since compound words are subjected to forward deletion and ending deletion, and words suitable as keywords are output, search accuracy is improved as compared to searching for compound words by individual keywords.

【0047】また、削除した語尾が動詞などの重要な意
味を持つ場合もキーワードとして活用できる。また、係
り受け関係のある並列表現の場合も、新たに検索にキー
ワードを生成するので検索精度の向上が期待できる。
Also, when the deleted ending has an important meaning such as a verb, it can be used as a keyword. Also, in the case of a parallel expression having a dependency relationship, a keyword is newly generated for a search, so that improvement in search accuracy can be expected.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明のキーワード抽出装置の構成図である。FIG. 3 is a configuration diagram of a keyword extraction device of the present invention.

【図4】本発明のキーワード抽出処理の動作を示すフロ
ーチャートである。
FIG. 4 is a flowchart illustrating an operation of a keyword extraction process according to the present invention.

【図5】本発明の一実施例の単語重要度定義ルールで用
いられる記号の意味を示す図である。
FIG. 5 is a diagram illustrating meanings of symbols used in a word importance definition rule according to an embodiment of the present invention.

【図6】本発明の一実施例の単語重要度定義ルールの例
である。
FIG. 6 is an example of a word importance definition rule according to an embodiment of the present invention.

【図7】本発明の一実施例の単語の重要度判定の動作を
示すフローチャートである。
FIG. 7 is a flowchart illustrating an operation of determining importance of a word according to an embodiment of the present invention.

【図8】本発明の一実施例のシソーラス検索処理のフロ
ーチャートである。
FIG. 8 is a flowchart of a thesaurus retrieval process according to one embodiment of the present invention.

【図9】本発明の一実施例のシソーラスの例である。FIG. 9 is an example of a thesaurus according to an embodiment of the present invention.

【図10】本発明の一実施例の事象変換テーブルの例で
ある。
FIG. 10 is an example of an event conversion table according to an embodiment of the present invention.

【図11】本発明の一実施例のシソーラス検索処理にお
いて抽出した単語が複合語である場合の処理の動作を示
すフローチャートである。
FIG. 11 is a flowchart illustrating an operation of a process when a word extracted in the thesaurus search process according to an embodiment of the present invention is a compound word.

【図12】本発明の一実施例の単語抽出処理において並
列表現に係り受け関係がある場合の処理の動作を示すフ
ローチャートである。
FIG. 12 is a flowchart illustrating an operation of a process in a case where a parallel expression has a dependency relationship in a word extraction process according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

101 単語重要度判定部、単語重要度判定手段 102 単語重要度定義ルール記憶部 103 単語抽出部、単語抽出手段 104 抽出単語意味定義テーブル記憶部 105 単語分類部、単語分類手段 106 シソーラス記憶部 107 キーワード出力部、キーワード出力手段 DESCRIPTION OF SYMBOLS 101 Word importance determination part, word importance determination means 102 Word importance definition rule storage part 103 Word extraction part, word extraction means 104 Extracted word meaning definition table storage part 105 Word classification part, word classification means 106 Thesaurus storage part 107 Keywords Output unit, keyword output means

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 自然言語で構成された文章を入力してキ
ーワードを抽出するキーワード抽出方法において、 前記文章の単語の重要度を判定し、 前記単語の品詞と意味によってキーワードを抽出し、 抽出されたキーワードを意味的に分類して、分類された
キーワード毎に重要度を付与し、 前記重要度に応じて、予め指定された個数のキーワード
を出力することを特徴とするキーワード抽出方法。
1. A keyword extracting method for extracting a keyword by inputting a sentence composed of a natural language, determining the importance of the word of the sentence, extracting the keyword based on the part of speech and meaning of the word, and extracting the keyword. A keyword extraction method characterized by semantically classifying the classified keywords, assigning importance to each classified keyword, and outputting a predetermined number of keywords in accordance with the importance.
【請求項2】 前記重要度を付与する際に、 前記キーワードに含まれる単語の係り受けパターンと該
単語の関係を記憶した単語重要度定義ルールとを照合
し、該単語の重要度を判定する請求項1記載のキーワー
ド抽出方法。
2. When assigning the importance, a dependency pattern of a word included in the keyword is collated with a word importance definition rule storing a relationship between the words, and the importance of the word is determined. The keyword extraction method according to claim 1.
【請求項3】 前記キーワードを分類する際に、 シソーラスに代表分類ノードを定義しておき、 同じ代表分類に属するキーワード及び事象変換し、同じ
代表分類に属するキーワードを同じ分類のキーワードで
あると見做す請求項1記載のキーワード抽出方法。
3. When classifying the keywords, a representative classification node is defined in a thesaurus, and keywords belonging to the same representative class and events are converted. Keywords belonging to the same representative class are regarded as keywords of the same class. The keyword extraction method according to claim 1, wherein the keyword is extracted.
【請求項4】 前記キーワードを分類する際に、 抽出した前記キーワードが複合語である場合に、前方削
除または、語尾削除した結果がシソーラスにある場合に
は、削除した結果を新たなキーワードと見做し、削除し
た部分が動詞の意味を持つ場合に、キーワードを対で出
力する請求項1記載のキーワード抽出方法。
4. When categorizing the keywords, if the extracted keyword is a compound word, and if the result of forward deletion or ending removal is in a thesaurus, the deleted result is regarded as a new keyword. 2. The keyword extracting method according to claim 1, wherein the keywords are output in pairs when the deleted part has the meaning of a verb.
【請求項5】 前記キーワードを抽出する際に、 前記文章に並列表現と係り受け関係の単語が含まれてい
る場合には、該並列表現の部分を個々の単語に分解し、 前記係り受け関係の単語と個々の単語を組み合わせて、
新しいキーワードとして抽出する請求項1記載のキーワ
ード抽出方法。
5. When extracting the keyword, if the sentence includes a word having a parallel relationship with a dependency relationship, a part of the parallel expression is decomposed into individual words. Combine the word with individual words,
2. The keyword extracting method according to claim 1, wherein the keyword is extracted as a new keyword.
【請求項6】 自然言語で構成された文章を入力してキ
ーワードを抽出するキーワード抽出装置であって、 前記文章の単語の重要度を判定する単語重要度判定手段
と、 前記単語の品詞と意味によってキーワードを抽出する単
語抽出手段と、 抽出されたキーワードを意味的に分類して、分類された
キーワード毎に重要度を付与する単語分類手段と、 前記重要度に応じて、予め指定された個数のキーワード
を出力するキーワード出力手段とを有することを特徴と
するキーワード抽出装置。
6. A keyword extracting device for extracting a keyword by inputting a sentence composed of a natural language, comprising: a word importance judging unit for judging the importance of a word of the sentence; Word extracting means for extracting a keyword by means of: a word classifying means for semantically classifying the extracted keywords and assigning an importance to each of the classified keywords; a number designated in advance according to the importance And a keyword output means for outputting the keyword.
【請求項7】 前記単語重要度判定手段は、 単語の関係を記憶した単語重要度定義ルールと、 前記キーワードに含まれる単語の係り受けパターンと前
記単語重要度定義ルールとを照合し、該単語の重要度を
判定する手段を含む請求項6記載のキーワード抽出装
置。
7. The word importance determining means compares a word importance definition rule storing a relationship between words, a dependency pattern of a word included in the keyword and the word importance definition rule, and 7. The keyword extracting device according to claim 6, further comprising means for determining the importance of the keyword.
【請求項8】 前記単語分類手段は、 シソーラスに代表分類ノードを定義したシソーラス知識
と、 前記シソーラス知識を参照して同じ代表分類に属するキ
ーワード及び事象変換し、同じ代表分類に属するキーワ
ードを同じ分類のキーワードであると見做す手段を含む
請求項6記載のキーワード抽出装置。
8. The word classifying means converts the keywords belonging to the same representative class and the events by referring to the thesaurus knowledge defining the representative class nodes in the thesaurus and the keywords, and classifies the keywords belonging to the same representative class to the same class. 7. The keyword extracting apparatus according to claim 6, further comprising a unit that regards the keyword as a keyword.
【請求項9】 前記単語分類手段は、 抽出した前記キーワードが複合語である場合に、前方削
除または、語尾削除した結果が前記シソーラス知識にあ
る場合には、削除した結果を新たなキーワードと見做
し、削除した部分が動詞の意味を持つ場合に、キーワー
ドを対で出力する手段を含む請求項6及び8記載のキー
ワード抽出装置。
9. The word classification means, when the extracted keyword is a compound word, when the result of forward deletion or ending deletion is in the thesaurus knowledge, the deleted result is regarded as a new keyword. 9. The keyword extracting apparatus according to claim 6, further comprising means for outputting a keyword as a pair when the deleted part has the meaning of a verb.
【請求項10】 前記単語抽出抽出手段は、 前記文章に並列表現と係り受け関係の単語が含まれてい
る場合には、該並列表現の部分を個々の単語に分解する
手段と、 前記係り受け関係の単語と個々の単語を組み合わせて、
新しいキーワードとして抽出する手段とを含む請求項6
記載のキーワード抽出装置。
10. The word extracting / extracting means, when the sentence includes a word having a dependency relationship with a parallel expression, means for decomposing a part of the parallel expression into individual words, Combine related words with individual words,
Means for extracting as a new keyword.
The described keyword extraction device.
【請求項11】 自然言語で構成された文章を入力して
キーワードを抽出するキーワード抽出プログラムを格納
した記憶媒体であって、 前記文章の単語の重要度を判定する単語重要度判定プロ
セスと、 前記単語の品詞と意味によってキーワードを抽出する単
語抽出プロセスと、 抽出されたキーワードを意味的に分類して、分類された
キーワード毎に重要度を付与する単語分類プロセスと、 前記重要度に応じて、予め指定された個数のキーワード
を出力するキーワード出力プロセスとを有することを特
徴とするキーワード抽出プログラムを格納した記憶媒
体。
11. A storage medium storing a keyword extraction program for inputting a sentence composed of a natural language and extracting a keyword, comprising: a word importance determination process for determining importance of a word of the text; A word extraction process of extracting a keyword according to the part of speech and meaning of a word, a word classification process of semantically classifying the extracted keywords, and assigning an importance to each of the classified keywords, A keyword output process for outputting a predetermined number of keywords.
【請求項12】 前記単語重要度判定プロセスは、 前記キーワードに含まれる単語の係り受けパターンと単
語の関係を記憶した単語重要度定義ルールとを照合し、
該単語の重要度を判定するプロセスを含む請求項11記
載のキーワード抽出プログラムを格納した記憶媒体。
12. The word importance determination process, wherein a dependency pattern of a word included in the keyword and a word importance definition rule storing a relationship between words are compared,
12. A storage medium storing the keyword extraction program according to claim 11, including a process of determining the importance of the word.
【請求項13】 前記単語分類プロセスは、 シソーラスに代表分類ノードを定義したシソーラス知識
を参照して同じ代表分類に属するキーワード及び事象変
換し、同じ代表分類に属するキーワードを同じ分類のキ
ーワードであると見做すプロセスを含む請求項11記載
のキーワード抽出プログラムを格納した記憶媒体。
13. The word classification process, wherein keywords belonging to the same representative class and events are converted with reference to a thesaurus knowledge defining a representative classification node in the thesaurus, and keywords belonging to the same representative class are determined to be keywords of the same class. 12. A storage medium storing the keyword extraction program according to claim 11, which includes a process of determining the keyword.
【請求項14】 前記単語分類プロセスは、 抽出した前記キーワードが複合語である場合に、前方削
除または、語尾削除した結果が、シソーラスに代表分類
ノードを定義したシソーラス知識にある場合には、削除
した結果を新たなキーワードと見做し、削除した部分が
動詞の意味を持つ場合に、キーワードを対で出力するプ
ロセスを含む請求項11記載のキーワード抽出プログラ
ムを格納した記憶媒体。
14. The word classification process, wherein when the extracted keyword is a compound word, if the result of forward deletion or ending deletion is in the thesaurus knowledge defining a representative classification node in the thesaurus, the word is deleted. 12. The storage medium storing the keyword extraction program according to claim 11, further comprising a process of considering the result as a new keyword and outputting the keyword as a pair when the deleted portion has the meaning of a verb.
【請求項15】 前記単語抽出抽出プロセスは、 前記文章に並列表現と係り受け関係の単語が含まれてい
る場合には、該並列表現の部分を個々の単語に分解する
プロセスと、 前記係り受け関係の単語と個々の単語を組み合わせて、
新しいキーワードとして抽出するプロセスとを含む請求
項11記載のキーワード抽出プログラムを格納した記憶
媒体。
15. The word extraction and extraction process, wherein, when the sentence includes a word having a dependency relationship with a parallel expression, a process of decomposing the parallel expression portion into individual words, Combine related words with individual words,
12. A storage medium storing a keyword extraction program according to claim 11, further comprising: a process of extracting a keyword as a new keyword.
JP10053889A 1998-03-05 1998-03-05 Key word extracting method, device therefor and storage medium stored with key word extracting program Pending JPH11250097A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10053889A JPH11250097A (en) 1998-03-05 1998-03-05 Key word extracting method, device therefor and storage medium stored with key word extracting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10053889A JPH11250097A (en) 1998-03-05 1998-03-05 Key word extracting method, device therefor and storage medium stored with key word extracting program

Publications (1)

Publication Number Publication Date
JPH11250097A true JPH11250097A (en) 1999-09-17

Family

ID=12955305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10053889A Pending JPH11250097A (en) 1998-03-05 1998-03-05 Key word extracting method, device therefor and storage medium stored with key word extracting program

Country Status (1)

Country Link
JP (1) JPH11250097A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010501927A (en) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション Information terminal equipped with content search system
US7715631B2 (en) 2004-05-12 2010-05-11 Fujitsu Limited Method and apparatus for extracting feature information, and computer product

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132872A (en) * 1989-10-19 1991-06-06 Nippon Telegr & Teleph Corp <Ntt> Index information generating device
JPH06259482A (en) * 1993-03-04 1994-09-16 Omron Corp Data base retrieving device and method
JPH06282572A (en) * 1993-03-29 1994-10-07 Nec Corp Automatic key word extracting device
JPH08161344A (en) * 1994-11-30 1996-06-21 Nippon Steel Corp Method and device for preparing key word data base for controlling file retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132872A (en) * 1989-10-19 1991-06-06 Nippon Telegr & Teleph Corp <Ntt> Index information generating device
JPH06259482A (en) * 1993-03-04 1994-09-16 Omron Corp Data base retrieving device and method
JPH06282572A (en) * 1993-03-29 1994-10-07 Nec Corp Automatic key word extracting device
JPH08161344A (en) * 1994-11-30 1996-06-21 Nippon Steel Corp Method and device for preparing key word data base for controlling file retrieval

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7715631B2 (en) 2004-05-12 2010-05-11 Fujitsu Limited Method and apparatus for extracting feature information, and computer product
JP2010501927A (en) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション Information terminal equipped with content search system

Similar Documents

Publication Publication Date Title
Baldwin et al. Extracting the unextractable: A case study on verb-particles
JP7139728B2 (en) Classification method, device and program
JPH0424869A (en) Document processing system
US20150199609A1 (en) Self-learning system for determining the sentiment conveyed by an input text
JP4426894B2 (en) Document search method, document search program, and document search apparatus for executing the same
US11436278B2 (en) Database creation apparatus and search system
JP3198932B2 (en) Document search device
JP2002007433A (en) Information sorter, information sorting method, computer readable recording medium recorded with information sorting program and information sorting program
JP3594701B2 (en) Key sentence extraction device
JP2004246440A (en) Morphemic analyzing device, natural language processor, and morphemic analyzing method and program
KR20030039575A (en) Method and system for summarizing document
JP2850952B2 (en) Document search method and apparatus
WO2009113289A1 (en) New case generation device, new case generation method, and new case generation program
JP3202381B2 (en) Document search device and document search method
JPH11250097A (en) Key word extracting method, device therefor and storage medium stored with key word extracting program
JP4378106B2 (en) Document search apparatus, document search method and program
JP7131130B2 (en) Classification method, device and program
JPH10149370A (en) Document retrieval method and device using context information
Labidi New combined method to improve Arabic POS tagging
JP2002278963A (en) Example translation device
JP2002366556A (en) Information retrieving method
Yang et al. A study on music mood detection in online digital music database
JP3609252B2 (en) Automatic character string classification apparatus and method
JP3161660B2 (en) Keyword search method
JPH04182871A (en) Similar document retrieval device

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040127