JPH10334102A - Key word extraction device and medium where control program is recorded - Google Patents

Key word extraction device and medium where control program is recorded

Info

Publication number
JPH10334102A
JPH10334102A JP9163257A JP16325797A JPH10334102A JP H10334102 A JPH10334102 A JP H10334102A JP 9163257 A JP9163257 A JP 9163257A JP 16325797 A JP16325797 A JP 16325797A JP H10334102 A JPH10334102 A JP H10334102A
Authority
JP
Japan
Prior art keywords
keyword
primary
word
unnecessary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9163257A
Other languages
Japanese (ja)
Inventor
Mitsuo Shimohata
光夫 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9163257A priority Critical patent/JPH10334102A/en
Publication of JPH10334102A publication Critical patent/JPH10334102A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To acquire a key word without requiring information depending upon a data base. SOLUTION: Information on characters as a predetermined key word is stored in a character kind information part 3. A primary key word segmenting process part 2 extracts a character string as a primary key word from the data base according to the information of the character kind information part 3 and stores it in a primary key word storage part 4. When an arbitrary primary key word stored in the primary key word storage part 4 is a composite word of primary key words, an unnecessary word removing process part 5 removes it as an unnecessary word. Consequently, the composite word is not registered in a key word information storage part 6 and the key words which constitutes the composite word are registered.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データベースから
キーワードを抽出するキーワード抽出装置に関する。
The present invention relates to a keyword extracting device for extracting a keyword from a database.

【0002】[0002]

【従来の技術】従来より、テキストデータからキーワー
ドを抽出する構成が考えられており、例えば、この種の
キーワード抽出の構成としては特開平8−30627号
公報に記載されているもの等があった。このような従来
のキーワード抽出装置では、テキストデータから字種を
基に語を切り出す方法が開示されている。例えば、上記
公報の文献には、テキスト文から字種に着目して文字を
切り出しており、更に、切り出した語を更に細かい字種
により分割し、キーワードの種類を増している。また、
基本語と呼ぶ語の辞書を持っており、基本語と同一の文
字列を削除するという機能も有している。
2. Description of the Related Art Hitherto, a configuration for extracting a keyword from text data has been considered. For example, a configuration of this type of keyword extraction is disclosed in Japanese Patent Application Laid-Open No. H8-30627. . Such a conventional keyword extracting device discloses a method of extracting words from text data based on character types. For example, in the literature of the above publication, characters are cut out from a text sentence by paying attention to character types, and the cut-out words are further divided into finer character types to increase the types of keywords. Also,
It has a dictionary of words called basic words, and has a function of deleting the same character string as the basic words.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来のキーワード抽出装置では、字種による分割でキーワ
ードを切り出しているが、その場合には非常に多くの語
が抽出されてしまう。また、キーワードを削減するため
に基本語を設定し、切り出された語が基本語であれば削
除しているが、この方法では、データベースの内容を考
慮して基本語情報を設定する必要がある上、複数の基本
語が結合してできた語や、基本語に接頭語や接尾語が結
合してできた語を削除することができない。
However, in the above-mentioned conventional keyword extracting apparatus, keywords are cut out by division according to character types, but in that case, a very large number of words are extracted. In addition, basic words are set in order to reduce keywords, and if the extracted words are basic words, they are deleted. However, in this method, it is necessary to set basic word information in consideration of the contents of the database. In addition, words formed by combining a plurality of basic words or words formed by combining a prefix or suffix with a basic word cannot be deleted.

【0004】このような点から、データベースに依存す
る情報を必要とせず、キーワードを獲得することのでき
るキーワード抽出装置の実現が望まれていた。
[0004] In view of the above, it has been desired to realize a keyword extracting apparatus which can acquire a keyword without requiring information depending on a database.

【0005】[0005]

【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。 〈請求項1の構成〉予め決められたキーワードとなる文
字の情報を示す字種情報を有する字種情報部と、字種情
報に基づき、データベースから一次キーワードとなる文
字列を抽出する一次キーワード切出処理部と、一次キー
ワード切出処理部で抽出された一次キーワードを格納す
る一次キーワード格納部と、一次キーワード切出処理部
で抽出された複数の一次キーワードに基づき、一次キー
ワード格納部に格納された一次キーワードから不要な一
次キーワードを除去し、キーワード情報として出力する
不要語除去処理部とを備えたことを特徴とするキーワー
ド抽出装置である。
The present invention employs the following structure to solve the above-mentioned problems. <Structure of Claim 1> A character type information section having character type information indicating information of a character serving as a predetermined keyword, and a primary keyword cutout for extracting a character string serving as a primary keyword from a database based on the character type information An output processing unit; a primary keyword storage unit for storing the primary keywords extracted by the primary keyword extraction processing unit; and a primary keyword storage unit based on the plurality of primary keywords extracted by the primary keyword extraction processing unit. An unnecessary word removal processing unit that removes unnecessary primary keywords from the primary keywords and outputs the same as keyword information.

【0006】〈請求項1の説明〉字種情報部の字種情報
とは、キーワードとなる文字と、そうでない文字との情
報を示す情報である。例えば、非キーワード文字として
は、ひらがなの全部と一部の記号であるが、これ以外の
設定であってもよい。一次キーワード切出処理部では、
データベースから、字種情報のキーワードとなる文字を
一次キーワードとして抽出し、一次キーワード格納部に
格納する。不要語除去処理部では、一次キーワード格納
部に格納された一次キーワードの情報のみで、不要な一
次キーワードを除去し、最終的なキーワードとして出力
する。この除去処理としては、例えば、ある一次キーワ
ードである語が、一次キーワードとして格納されている
複数の語の合成語であった場合に不要な語として除去す
るといった処理であるが、これ以外の除去方法であって
もよい。
<Explanation of Claim 1> The character type information of the character type information part is information indicating information of characters that are keywords and characters that are not. For example, the non-keyword characters are all and some symbols of Hiragana, but other settings may be used. In the primary keyword extraction processing unit,
Characters to be used as keywords of character type information are extracted from the database as primary keywords and stored in the primary keyword storage. The unnecessary word removal processing unit removes unnecessary primary keywords using only the primary keyword information stored in the primary keyword storage unit and outputs the result as a final keyword. The removal process is, for example, a process of removing a word as a primary keyword as an unnecessary word when the word is a composite word of a plurality of words stored as the primary keyword. It may be a method.

【0007】このような構成により、キーワードの抽出
を行う場合にデータベースに依存する情報を利用しない
ため、あらゆる分野のテキストに対して適用できるとい
う効果を備えている。
[0007] With such a configuration, since the information depending on the database is not used when extracting the keyword, it is possible to apply the invention to texts in all fields.

【0008】〈請求項2の構成〉請求項1において、キ
ーワードの文字が1文字である文字列を除いて一次キー
ワードを作成する一次キーワード切出処理部を備えたこ
とを特徴とするキーワード抽出装置である。
<Structure of Claim 2> A keyword extracting device according to Claim 1, further comprising a primary keyword extraction processing unit for creating a primary keyword except for a character string in which the keyword is one character. It is.

【0009】〈請求項2の説明〉キーワードとなる文字
であっても、例えば漢字1文字の場合は、ひらがなが後
に続いて形容詞や動詞を形成することがほとんどであ
り、このような語は検索のキーワードとして余り用いら
れない。また、漢字以外の文字種で1文字の文字列とし
て出現することは少ない。このような観点から、一次キ
ーワードの切出処理において、キーワード文字が1文字
である文字列を除いて一次キーワードを作成する。これ
により、検索に余り有用でない語を除去することができ
る。
<Explanation of Claim 2> In the case of a single character such as a kanji character, for example, a hiragana is followed by an adjective or a verb in most cases. Is not often used as a keyword. In addition, a character type other than a kanji rarely appears as a single character string. From such a viewpoint, in the extraction processing of the primary keyword, the primary keyword is created except for the character string in which the keyword character is one character. As a result, words that are not very useful for the search can be removed.

【0010】〈請求項3の構成〉請求項1または2にお
いて、一次キーワード格納部に格納された一次キーワー
ドのうち、一次キーワード切出処理部で作成された複数
の一次キーワードを結合したキーワードと等しい一次キ
ーワードを不要語として除去する不要語除去処理部を備
えたことを特徴とするキーワード抽出装置である。
<Structure of Claim 3> According to Claim 1 or 2, of the primary keywords stored in the primary keyword storage unit, it is equal to a keyword obtained by combining a plurality of primary keywords created by the primary keyword extraction processing unit. A keyword extraction device comprising an unnecessary word removal processing unit that removes a primary keyword as an unnecessary word.

【0011】〈請求項3の説明〉請求項3の発明は、あ
る一次キーワードである語が、一次キーワードとして格
納されている複数の語の合成語であった場合に不要な語
として除去するようにしたものである。これにより、一
次キーワードの情報のみで、基本語が連結してできる語
を除去することができ、無駄なキーワードを出力するこ
とがないという効果がある。
<Explanation of Claim 3> According to the invention of claim 3, when a word as a certain primary keyword is a compound word of a plurality of words stored as a primary keyword, it is removed as an unnecessary word. It was made. Thus, it is possible to eliminate words formed by connecting basic words with only the information of the primary keywords, and there is an effect that unnecessary keywords are not output.

【0012】〈請求項4の構成〉データベースから、予
め決められた文字のキーワードを抽出する処理と、キー
ワードの抽出処理後、抽出された複数のキーワードに基
づいて、不要となるキーワードを求め、最終的なキーワ
ードを得る処理とをコンピュータで行うことを特徴とす
るキーワード抽出制御プログラムを記録した媒体であ
る。
<Structure of Claim 4> A process of extracting a keyword of a predetermined character from a database, and a process of extracting a keyword, and after the keyword is extracted, an unnecessary keyword is obtained based on a plurality of extracted keywords. A computer-readable storage medium storing a keyword extraction control program in which a process of obtaining a basic keyword is performed by a computer.

【0013】〈請求項4の説明〉請求項4の発明は、請
求項1のキーワード抽出装置をコンピュータ上に実現す
る制御プログラムを記録した媒体に関するものである。
<Explanation of Claim 4> The invention of claim 4 relates to a medium in which a control program for realizing the keyword extracting device of claim 1 on a computer is recorded.

【0014】〈請求項5の構成〉請求項3において、予
め決められた接頭語と接尾語の情報を格納する接頭語・
接尾語情報部と、一次キーワード格納部に格納された一
次キーワードのうち、前記接頭語または接尾語を除いた
文字列に対して不要語除去処理を行う不要語除去処理部
を備えたことを特徴とするキーワード抽出装置である。
<Structure of claim 5> According to claim 3, a prefix or a prefix for storing information of a predetermined prefix and suffix.
A suffix information section; and an unnecessary word removal processing section that performs an unnecessary word removal process on a character string excluding the prefix or the suffix among the primary keywords stored in the primary keyword storage section. Is a keyword extraction device.

【0015】〈請求項5の説明〉請求項5の発明は、請
求項3の発明に加えて、接頭語・接尾語の情報を備え、
一次キーワードから、接頭語や接尾語を除いた語が合成
語であった場合に、これを一次キーワードから除去する
ようにしたものである。これにより、接頭語や接尾語が
一次キーワード中になくても、これらを含む合成語を除
去することができる効果がある。
<Explanation of Claim 5> The invention of claim 5 includes, in addition to the invention of claim 3, information of a prefix / suffix,
When a word obtained by removing a prefix or a suffix from a primary keyword is a compound word, this is removed from the primary keyword. As a result, even if the prefix or the suffix is not included in the primary keyword, it is possible to remove a compound word including the prefix and the suffix.

【0016】〈請求項6の構成〉請求項3において、予
め決められた基本語文字列と、この基本語文字列を修飾
し、かつ、異なる字種で構成された修飾文字列の情報を
格納する部分文字列情報部と、一次キーワード格納部に
格納された一次キーワードのうち、修飾語文字列が、一
次キーワードに存在するキーワードは除去して最終的な
キーワードを出力する不要語除去処理部を備えたことを
特徴とするキーワード抽出装置である。
<Structure of Claim 6> In claim 3, in accordance with Claim 3, information of a predetermined basic character string and a modified character string composed of different character types for modifying the basic character string is stored. A partial character string information section, and an unnecessary word removal processing section for outputting a final keyword by removing a keyword existing in the primary keyword from the primary keywords stored in the primary keyword storage section. It is a keyword extraction device characterized by comprising:

【0017】〈請求項6の説明〉基本語文字列と修飾語
文字列の文字種は、例えば、基本語文字列が「英数字」
や「カタカナ」であり、修飾語文字列が「漢字」である
が、基本語文字列に対して修飾語となる文字列の文字種
であれば、これに限定されない。
<Explanation of Claim 6> The character type of the basic word character string and the modifier word character string is, for example, as follows.
And “Katakana”, and the modifier character string is “Kanji”, but the character type of the character string that is a modifier for the basic character string is not limited to this.

【0018】このような構成により、あるキーワードを
除去するためには、構成する部分文字列が全て一次キー
ワード中に存在する必要はなく、従って、更に検索に有
用なキーワードを出力することができる効果がある。
With such a configuration, in order to remove a certain keyword, it is not necessary that all of the constituent partial character strings exist in the primary keyword, and therefore, it is possible to further output a keyword useful for retrieval. There is.

【0019】〈請求項7の構成〉請求項6において、先
頭文字列が修飾語文字列である一次キーワードは、不要
語として除去しない不要語除去処理部を備えたことを特
徴とするキーワード抽出装置である。
<Structure of claim 7> A keyword extracting apparatus according to claim 6, further comprising an unnecessary word removal processing unit that does not remove a primary keyword whose leading character string is a modifier character string as an unnecessary word. It is.

【0020】〈請求項7の説明〉請求項7の発明は、先
頭に修飾語文字列が存在する場合は文字列全体で有用な
キーワードであることが多いという観点から、このよう
な文字種の並びの場合は除去しないようにしたものであ
る。
<Explanation of Claim 7> The invention of claim 7 is based on the fact that, when a modifier character string is present at the beginning, it is often a useful keyword for the entire character string. In the case of, it is not removed.

【0021】〈請求項8の構成〉請求項6または7にお
いて、基本語文字列の字種は、英文字と数字とカタカナ
であり、修飾語文字列の字種は漢字であることを特徴と
するキーワード抽出装置である。
<Structure of Claim 8> In Claim 6 or 7, the character type of the basic word character string is English letters, numbers and katakana, and the character type of the modifier word character string is Kanji. This is a keyword extraction device.

【0022】〈請求項8の説明〉請求項8の発明は、基
本語文字列と修飾語文字列の字種を指定したものであ
る。これにより、あるキーワードを除去するためは、構
成する部分文字列が全て一次キーワード中に存在する必
要はなく、このような文字種の組み合わせであれば除去
できる。
<Explanation of Claim 8> The invention of claim 8 specifies the character type of the basic character string and the modifier character string. Thus, in order to remove a certain keyword, it is not necessary that all of the constituent character strings are present in the primary keyword, and such a combination of character types can be removed.

【0023】〈請求項9の構成〉請求項3において、予
め決められた不要語の情報を格納する不要語情報部と、
一次キーワードを抽出する場合、不要語情報部に格納さ
れている不要語であった場合は、一次キーワードから除
外する一次キーワード切出処理部と、予め決められた合
成語の情報を格納する合成語情報部と、一次キーワード
格納部に格納された一次キーワードのうち、合成語と等
しい文字列は不要語除去処理しない不要語除去処理部と
を備えたことを特徴とするキーワード抽出装置である。
<Structure of Claim 9> In Claim 3, an unnecessary word information section for storing information of a predetermined unnecessary word,
When extracting a primary keyword, a primary keyword extraction processing unit that excludes an unnecessary word from the primary keyword if it is an unnecessary word stored in the unnecessary word information unit, and a compound word that stores information of a predetermined compound word A keyword extraction device comprising: an information unit; and an unnecessary word removal processing unit that does not perform unnecessary word removal processing on a character string equal to a composite word among primary keywords stored in a primary keyword storage unit.

【0024】〈請求項9の説明〉請求項9の発明は、一
次キーワードとして抽出しない不要語の情報と、不要語
除去処理で、合成語であると判定される語であっても、
合成語としては除去しない合成語情報を備えたものであ
る。これにより、一次キーワードの切出処理の段階で不
要な一次キーワードを除去することができる。また、合
成語であるがキーワードとして登録すべき語を発見し、
保存することができる。
<Description of Claim 9> According to the invention of claim 9, the information of the unnecessary word which is not extracted as the primary keyword and the word which is determined to be a compound word in the unnecessary word removal processing is provided.
It is provided with compound word information which is not removed as a compound word. Thus, unnecessary primary keywords can be removed at the stage of the primary keyword extraction process. In addition, we find a word that is a compound word but should be registered as a keyword,
Can be saved.

【0025】〈請求項10の構成〉請求項9において、
予め決められた合成語としない対象外文字種の情報を格
納する対象外文字種情報部と、一次キーワード格納部に
格納された一次キーワードのうち、一種類の対象外文字
種で構成された文字列の部分は合成部分として処理しな
い不要語除去処理部を備えたことを特徴とするキーワー
ド抽出装置である。
<Structure of Claim 10> In Claim 9,
A non-target character type information section that stores information on non-target character types that are not a predetermined compound word, and a portion of a character string composed of one type of non-target character type among the primary keywords stored in the primary keyword storage section Is a keyword extraction device provided with an unnecessary word removal processing unit that does not process as a synthesis part.

【0026】〈請求項10の説明〉請求項10の発明
は、不要語除去処理で、合成語であると判定される語で
あっても、その合成語が一種類の文字種であれば合成語
としては除去しない文字種の情報を備えたものである。
この文字種としては、例えば、カタカナや英文字であ
る。これにより、一次キーワードに「キー」と「ワー
ド」が存在していても「キーワード」といった語を、キ
ーワードとして出力することができる。
<Explanation of Claim 10> According to the invention of claim 10, even if a word determined to be a compound word in the unnecessary word removing process is a compound word of one kind, the compound word Is provided with character type information that is not removed.
This character type is, for example, katakana or English characters. Thereby, even if the "key" and the "word" exist in the primary keyword, a word such as "keyword" can be output as a keyword.

【0027】〈請求項11の構成〉請求項9または10
において、一次キーワード格納部に格納された一次キー
ワードのうち、不要語除去処理を行う場合は、一次キー
ワード格納部に格納されている一次キーワードと共に、
不要語情報に格納されている不要語を使用する不要語除
去処理部を備えたことを特徴とするキーワード抽出装置
である。
<Structure of Claim 11> Claim 9 or 10
In the case of performing unnecessary word removal processing among the primary keywords stored in the primary keyword storage unit, together with the primary keywords stored in the primary keyword storage unit,
A keyword extraction device comprising an unnecessary word removal processing unit that uses unnecessary words stored in unnecessary word information.

【0028】〈請求項11の説明〉請求項11の発明
は、不要語除去処理において、不要語情報を一次キーワ
ードと同様に利用するようにしたものである。これによ
り、データベース中に存在しない語による合成語を発見
し除去することができる。
<Explanation of Claim 11> In the invention of claim 11, unnecessary word information is used in the unnecessary word removal processing in the same manner as a primary keyword. As a result, it is possible to find and remove a compound word based on a word that does not exist in the database.

【0029】〈請求項12の構成〉請求項3において、
データベース中の各一次キーワードの出現回数を示す統
計情報部と、一次キーワード格納部に格納された一次キ
ーワードのうち、合成語として判定された語が、統計情
報部の一次キーワードとして、予め決められたしきい値
よりも高い出現回数であった場合は、不要語として除去
しない不要語除去処理部とを備えたことを特徴とするキ
ーワード抽出装置である。
<Structure of Claim 12> In Claim 3,
A statistical information part indicating the number of appearances of each primary keyword in the database, and among the primary keywords stored in the primary keyword storage part, a word determined as a composite word is predetermined as a primary keyword of the statistical information part. A keyword extraction device comprising: an unnecessary word removal processing unit that does not remove as an unnecessary word if the number of appearances is higher than a threshold value.

【0030】〈請求項12の説明〉請求項12の発明
は、不要語除去処理において、合成語として判定される
語のデータベース中の出現回数が、ある値以上であれば
キーワードとして出力するようにしたものである。これ
により、キーワードとする価値のある合成語を全て情報
として持つ必要がなく、このような合成語を自動的に判
別し保存することができる。
<Description of Claim 12> According to the invention of claim 12, in the unnecessary word removal processing, if the number of appearances of a word determined as a compound word in the database is equal to or more than a certain value, the word is output as a keyword. It was done. Thus, it is not necessary to have all the valuable composite words as keywords as information, and such composite words can be automatically determined and stored.

【0031】〈請求項13の構成〉請求項3において、
データベースに格納された複数のデータのうち、特定の
一次キーワードを含むデータ数を、一次キーワードに対
応して示す統計情報部と、一次キーワード格納部に格納
された一次キーワードのうち、合成語として判定された
語が、統計情報部の一次キーワードとして、予め決めら
れたしきい値よりも高いデータ数であった場合は、不要
語として除去しない不要語除去処理部とを備えたことを
特徴とするキーワード抽出装置である。
<Structure of Claim 13> In Claim 3,
Among a plurality of data stored in the database, the number of data including a specific primary keyword is determined as a compound word among a statistical information part corresponding to the primary keyword and a primary keyword stored in the primary keyword storage. An unnecessary word removal processing unit that does not remove the word as an unnecessary word as a primary keyword of the statistical information unit when the number of data is higher than a predetermined threshold value. It is a keyword extraction device.

【0032】〈請求項13の説明〉請求項13の発明
は、不要語除去処理において、合成語として判定される
語を有するデータベース中のデータ数が、ある値以上で
あればキーワードとして出力するようにしたものであ
る。即ち、この発明では、語が出現したデータの個数を
利用するようにしたものであり、一つのデータ中に何回
その語が出現するかは問わない。このような構成によ
り、特定のデータに特定の語が多く出現するようなデー
タベースであっても、偏りのないキーワード抽出を行う
ことができる。
<Explanation of Claim 13> According to the invention of claim 13, in the unnecessary word removal processing, if the number of data in a database having a word determined as a compound word is a certain value or more, it is output as a keyword. It was made. That is, in the present invention, the number of data in which a word appears is used, and it does not matter how many times the word appears in one data. With such a configuration, even in a database in which specific words frequently appear in specific data, keyword extraction without bias can be performed.

【0033】〈請求項14の構成〉請求項12または1
3において、しきい値より高い場合とは、合成語として
判定された語の値が、この語を構成する基本語の値より
も高い場合であることを特徴とするキーワード抽出装置
である。
<Structure of Claim 14> Claim 12 or 1
3, the keyword extraction device is characterized in that the case where the value is higher than the threshold value is a case where the value of a word determined as a compound word is higher than the value of a basic word constituting the word.

【0034】〈請求項14の説明〉請求項14の発明
は、例えば、合成語「携帯電話」の出現回数が、基本語
「携帯」と「電話」の出現回数よりも高いといった場合
を、しきい値より高いと定義したものである。これによ
り、キーワードとして有用な語を出力することができ
る。
<Explanation of Claim 14> The invention of claim 14 relates to, for example, a case where the number of appearances of the composite word “mobile phone” is higher than the number of occurrences of the basic words “mobile phone” and “telephone”. It is defined as higher than the threshold. Thereby, a word useful as a keyword can be output.

【0035】[0035]

【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。 《具体例1》具体例1は、データベースのデータから、
先ず一次キーワードを作成し、次に、得られた一次キー
ワードから合成語を削除するようにしたものである。
Embodiments of the present invention will be described below in detail with reference to the drawings. << Specific Example 1 >> Specific example 1 is based on data from a database.
First, a primary keyword is created, and then a compound word is deleted from the obtained primary keyword.

【0036】〈構成〉図1は本発明のキーワード抽出装
置の具体例1を示す構成図である。図の装置は、例えば
マイクロコンピュータ等から構成され、データベース
1、一次キーワード切出処理部2、字種情報部3、一次
キーワード格納部4、不要語除去処理部5、キーワード
情報格納部6からなる。
<Structure> FIG. 1 is a diagram showing a specific example 1 of a keyword extracting apparatus according to the present invention. The apparatus shown in the figure is constituted by, for example, a microcomputer or the like, and comprises a database 1, a primary keyword extraction processing unit 2, a character type information unit 3, a primary keyword storage unit 4, an unnecessary word removal processing unit 5, and a keyword information storage unit 6. .

【0037】データベース1はデータの集合体であり、
ハードディスク等に格納され、各データにはテキスト部
が存在する。
The database 1 is an aggregate of data.
Each data is stored in a hard disk or the like, and each data has a text portion.

【0038】一次キーワード切出処理部2は、データベ
ース1から個々のテキスト部を読み出し、字種情報部3
の字種情報を用いて、キーワードの可能性が高い文字列
(一次キーワード)を抽出する機能を有している。字種
情報部3は、テキストから切り出す文字の種類の情報を
格納している。
The primary keyword extraction processing unit 2 reads out each text part from the database 1 and
Has a function of extracting a character string (primary keyword) that is likely to be a keyword using the character type information. The character type information section 3 stores information on the type of character cut out from the text.

【0039】図2は、字種情報部3の内容説明図であ
る。字種情報部3では、キーワードとなる得る文字と、
そうでない文字との情報を示すものである。ここで、キ
ーワードとなる得る文字をキーワード文字、そうでない
文字を非キーワード文字と呼ぶ。全ての文字は必ずどち
らかだけに属するよう構成されており、字種情報部3で
は、図示のように、非キーワード文字を全て記述してい
る。即ち、非キーワード文字とは、ひらがなの全部と一
部の記号(、。・等)であると定義している。
FIG. 2 is an explanatory diagram of the contents of the character type information section 3. In the character type information section 3, characters that can be keywords are
It indicates information with characters that are not. Here, characters that can be keywords are called keyword characters, and characters that are not are called non-keyword characters. All characters always belong to only one of them, and the character type information section 3 describes all non-keyword characters as shown in the figure. That is, non-keyword characters are defined as all and some symbols (, .., etc.) in Hiragana.

【0040】一次キーワード格納部4は、ハードディス
クやメモリ上に構成され、一次キーワード切出処理部2
で切り出された一次キーワードを格納する格納部であ
る。不要語除去処理部5は、一次キーワード切出処理部
2が、一次キーワード切出処理を終えた信号を受け取っ
てから、一次キーワード格納部4に格納された一次キー
ワードから不要と思われる語を削除して最終的なキーワ
ードを生成する処理部である。また、キーワード情報格
納部6は、ハードディスクやメモリ上に構成され、不要
語除去処理部5から出力されたキーワードを格納する格
納部である。
The primary keyword storage unit 4 is configured on a hard disk or a memory, and includes a primary keyword extraction processing unit 2.
This is a storage unit for storing the primary keywords extracted by. The unnecessary word removal processing unit 5 deletes a word that is considered unnecessary from the primary keywords stored in the primary keyword storage unit 4 after receiving the signal after the primary keyword extraction processing unit 2 has completed the primary keyword extraction processing. The processing unit generates the final keyword. The keyword information storage unit 6 is a storage unit that is configured on a hard disk or a memory and stores the keyword output from the unnecessary word removal processing unit 5.

【0041】〈動作〉先ず、対象となるデータベース1
が次のように構成されているとする。図3は、データベ
ース1の内容説明図である。ここで、データ番号とは、
ひとまとまりのデータに付与されている番号であり、テ
キスト部とは、各データのテキスト部のデータを表して
いる。
<Operation> First, the target database 1
Is configured as follows. FIG. 3 is an explanatory diagram of the contents of the database 1. Here, the data number is
The text part is a number assigned to a group of data, and the text part represents the data of the text part of each data.

【0042】一次キーワード切出処理部2は、データベ
ース1を読み出し、各データのテキスト部に対し、一次
キーワード切出処理を行う。この切出処理とは、字種情
報部3の字種情報に基づき、テキスト中でキーワード文
字から構成される文字列を抽出することで行われる。即
ち、字種情報部3で示されている非キーワード文字以外
の文字からなる文字列を抽出する。この際、キーワード
文字であっても、1文字の文字列は対象としては削除す
る。これは、漢字1文字の場合はひらがなが後に続いて
形容詞や動詞を形成することがほとんどであり、このよ
うな語は検索のキーワードとして余り用いられないこと
による。また、漢字以外の文字種で1文字の文字列とし
て出現することは少ない。この処理により、検索に余り
有用でない語を除去することができる。例えば、図3に
示した例では、データ番号3の「調」「表」「違」がキ
ーワード文字で構成されているが、1文字であるために
一次キーワード格納部4には出力しない。
The primary keyword extracting unit 2 reads the database 1 and performs a primary keyword extracting process on the text part of each data. This extraction processing is performed by extracting a character string composed of keyword characters in the text based on the character type information of the character type information unit 3. That is, a character string composed of characters other than the non-keyword characters indicated in the character type information section 3 is extracted. At this time, even if it is a keyword character, a character string of one character is deleted as a target. This is because in the case of one kanji character, hiragana is followed by an adjective or verb in most cases, and such words are rarely used as search keywords. In addition, a character type other than a kanji rarely appears as a single character string. By this processing, words that are not very useful for the search can be removed. For example, in the example shown in FIG. 3, “key”, “table”, and “difference” of data number 3 are composed of keyword characters, but are not output to the primary keyword storage unit 4 because they are one character.

【0043】図4は、一次キーワード切出処理部2によ
って抽出された一次キーワードを示す説明図である。図
示のように、字種情報部3に示された非キーワード文字
と、1文字の文字列以外の文字列が、各データ番号毎に
一次キーワードとして抽出されている。
FIG. 4 is an explanatory diagram showing primary keywords extracted by the primary keyword extraction processing unit 2. As shown in the figure, the non-keyword characters shown in the character type information section 3 and character strings other than one character string are extracted as primary keywords for each data number.

【0044】不要語除去処理部5では、このようにして
得られた一次キーワードから不要な語を除去する。この
処理では、複数の一次キーワードを結合させてできる文
字列と等しい一次キーワードを除去する。ここで、複数
の一次キーワードを結合させてできる文字列を合成語と
いう。即ち、合成語とは、「意味のある自立した最小単
位の語(=基本語)を複数連結することにより構成され
る語」である。
The unnecessary word removing section 5 removes unnecessary words from the primary keywords obtained in this way. In this process, a primary keyword equal to a character string formed by combining a plurality of primary keywords is removed. Here, a character string formed by combining a plurality of primary keywords is called a composite word. That is, a compound word is a "word formed by connecting a plurality of meaningful and independent minimum unit words (= basic words)".

【0045】図5は、不要語除去処理のフローチャート
である。図中、check(w[1,n])とは、対象
となるn文字の一次キーワードw[1,n]が除去文字
列(除去される合成語)であるかを判定する処理であ
る。尚、w[x,y]とは、対象文字列のx文字からy
文字までの部分文字列を表す。例えば、対象文字列とし
て、一次キーワード格納部4に格納されている「開発コ
スト」を例として説明する。従って、この場合は、ch
eck(w[1,5])となる。
FIG. 5 is a flowchart of the unnecessary word removing process. In the figure, check (w [1, n]) is a process of determining whether the primary keyword w [1, n] of the target n characters is a removed character string (a compound word to be removed). Note that w [x, y] is obtained from the x character of the target character string to y.
Represents a substring up to the character. For example, “development cost” stored in the primary keyword storage unit 4 will be described as an example of the target character string. Therefore, in this case, ch
eck (w [1,5]).

【0046】このような不要語除去処理では、先ず、i
=1とする(ステップS1)。即ち、1文字目から処理
を開始する。そして、対象文字列は2文字以上であるか
ら、iの値を+1して2文字目までを対象とし(ステッ
プS2)、次のステップS3でi=nであるかを判定す
る。即ち、対象文字列が2文字のみであるかを判定す
る。このステップS3において、対象文字列が2文字の
みであった場合は、falseとなり、その語をそのま
ま残す。これは、上述したように、1文字はキーワード
として対象外であるため、1文字2個の合成語も存在し
ないことになるためである。
In such unnecessary word removal processing, first, i
= 1 (step S1). That is, the process starts from the first character. Then, since the target character string is two or more characters, the value of i is incremented by 1 and the second character is targeted (step S2), and it is determined in the next step S3 whether i = n. That is, it is determined whether the target character string is only two characters. In this step S3, if the target character string is only two characters, it becomes false and the word is left as it is. This is because, as described above, since one character is not a target as a keyword, there is no compound word of two characters.

【0047】一方、ステップS3において、i=nでな
かった場合、即ち、「開発コスト」のように、対象文字
列が3文字以上であった場合は、ステップS4に進み、
w[1,i]が一次キーワードに存在するかを判定す
る。この場合は、「開発」が判定対象となり、データ番
号3に一次キーワード「開発」が存在するため、ステッ
プS5に進み、i=nかを判定する。このステップS5
において、i=nではないため、ステップS6に進む。
また、ステップS4において、w[1,i]が一次キー
ワードに存在しない場合は、ステップS2に戻る。
On the other hand, if i = n is not satisfied in step S3, that is, if the target character string is three or more characters like "development cost", the process proceeds to step S4.
It is determined whether w [1, i] exists in the primary keyword. In this case, since “development” is to be determined and the primary keyword “development” exists in data number 3, the process proceeds to step S5, and it is determined whether i = n. This step S5
Since i is not equal to n, the process proceeds to step S6.
If w [1, i] does not exist in the primary keyword in step S4, the process returns to step S2.

【0048】ステップS6では、check(w[i+
1,n])を行う。この例では、3文字目から5文字目
の「コスト」が一次キーワードに存在するかを判定す
る。この場合の処理は、上記の処理と同様に、3文字の
文字列が一次キーワードに存在するかを判定する。その
結果、データ番号2に“コスト”が存在することから、
ステップS4からステップS5に進み、ステップS5に
おいて、i=nとなるため、結果がtrueとなり、そ
の語「開発コスト」を一次キーワードから削除する。
In step S6, check (w [i +
1, n]). In this example, it is determined whether the “cost” of the third to fifth characters exists in the primary keyword. In this case, similarly to the above-described process, it is determined whether a three-character character string exists in the primary keyword. As a result, since "cost" exists in data number 2,
The process proceeds from step S4 to step S5. Since i = n in step S5, the result is true, and the word “development cost” is deleted from the primary keyword.

【0049】このような処理を全ての一次キーワードに
施すことで、合成語の除去が行われる。例えば、上記の
例として挙げたように、データ番号1の一次キーワード
「開発コスト」は、データ番号3の「開発」とデータ番
号2の「コスト」の合成語である。また、データ番号4
の「売上動向」は、データ番号2の「売上」とデータ番
号1の「動向」の合成語である。従って、これら二つの
語はキーワードとして除去される。図6は、最終的に得
られたキーワードの説明図である。
By applying such processing to all the primary keywords, the compound word is removed. For example, as described above, the primary keyword “development cost” of data number 1 is a composite word of “development” of data number 3 and “cost” of data number 2. Also, data number 4
“Sales trend” is a composite word of “sales” of data number 2 and “trend” of data number 1. Therefore, these two words are removed as keywords. FIG. 6 is an explanatory diagram of the finally obtained keyword.

【0050】〈効果〉以上のように、具体例1では、テ
キスト部を含むデータからキーワードを自動的に付与す
ることが可能となる。しかも、基本語が連結してできる
語を除去することができるという効果を有している。更
に、このようなキーワードの抽出を行う場合に、データ
ベースに依存する情報を利用しないため、あらゆる分野
のテキストに対して本具体例を適用することが可能であ
る。
<Effect> As described above, in the first embodiment, it is possible to automatically assign a keyword from data including a text portion. In addition, there is an effect that words formed by connecting basic words can be removed. Further, in extracting such a keyword, since the information depending on the database is not used, the present specific example can be applied to texts in all fields.

【0051】《具体例2》具体例2は、具体例1の構成
に加えて、接頭語・接尾語情報を備え、この接頭語・接
尾語情報に基づき不要語除去処理を行うようにしたもの
である。
<< Specific Example 2 >> In the specific example 2, in addition to the configuration of the specific example 1, prefix / suffix information is provided, and unnecessary word removal processing is performed based on the prefix / suffix information. It is.

【0052】〈構成〉図7は、本発明のキーワード抽出
装置の具体例2の構成図である。図の装置は、データベ
ース1、一次キーワード切出処理部2、字種情報部3、
一次キーワード格納部4、不要語除去処理部5a、キー
ワード情報格納部6、接頭語・接尾語情報部7からな
る。ここで、データベース1〜キーワード情報格納部6
のうち、不要語除去処理部5aを除く構成は、具体例1
と同様であるため、これらの説明は省略する。
<Structure> FIG. 7 is a diagram showing the structure of a second embodiment of the keyword extracting apparatus according to the present invention. The apparatus shown in the figure includes a database 1, a primary keyword extraction processing unit 2, a character type information unit 3,
It comprises a primary keyword storage unit 4, an unnecessary word removal processing unit 5a, a keyword information storage unit 6, and a prefix / suffix information unit 7. Here, database 1 to keyword information storage unit 6
Among them, the configuration excluding the unnecessary word removal processing unit 5a is the specific example 1.
The description is omitted here.

【0053】接頭語・接尾語情報部7は、予め決められ
た接頭語と接尾語の情報格納部であり、例えば次のよう
に構成されている。図8は、接頭語・接尾語情報部7の
内容説明図である。
The prefix / suffix information section 7 is an information storage section for a predetermined prefix and suffix, and is configured as follows, for example. FIG. 8 is an explanatory diagram of the contents of the prefix / suffix information section 7.

【0054】また、不要語除去処理部5aは、具体例1
の機能に加えて、一次キーワード格納部4に格納された
一次キーワードのうち、接頭語・接尾語情報部7に格納
された接頭語または接尾語のうち少なくとも一方の接辞
を除いた文字列に対して不要語除去処理を行う機能を有
している。即ち、一次キーワードのうち、接頭語または
接尾語を除いた部分文字列が既に一次キーワード格納部
4に一次キーワードとして存在する一次キーワードを除
去する機能を有している。
Further, the unnecessary word removal processing section 5a has a specific example 1.
In addition to the functions described above, among the primary keywords stored in the primary keyword storage unit 4, for the character string excluding at least one of the prefix or suffix stored in the prefix / suffix information unit 7 And has a function of performing unnecessary word removal processing. That is, the primary keyword has a function of removing a primary keyword whose partial character string excluding the prefix or suffix already exists as the primary keyword in the primary keyword storage unit 4.

【0055】〈動作〉ここでは、具体例1と共通する動
作の説明は省略し、具体例2の特徴的な動作のみを説明
する。
<Operation> The description of the operation common to the first embodiment will be omitted, and only the characteristic operation of the second embodiment will be described.

【0056】不要語除去処理部5aによる不要語の除去
処理は、以下の手順で行う。 1.対象となる一次キーワードの先頭の文字列が接頭語
と一致した場合は、その接頭語部分を削除する。 2.対象となる一次キーワードの末尾の文字列が接尾語
と一致した場合は、その接尾語部分を削除する。 3.接頭語、接尾語を削除して残った文字列が一次キー
ワードとして存在するかを判定する。存在すれば対象と
なった一次キーワードを削除する。
The unnecessary word removal processing by the unnecessary word removal processing section 5a is performed in the following procedure. 1. If the first character string of the target primary keyword matches the prefix, the prefix is deleted. 2. If the character string at the end of the target primary keyword matches the suffix, the suffix part is deleted. 3. It is determined whether the character string remaining after removing the prefix and suffix exists as a primary keyword. If it exists, delete the target primary keyword.

【0057】上記の処理を全ての一次キーワードに対し
て行うことで、不要語の除去処理を行うことができる。
例えば、具体例1の例を用いて説明すると、先ず、対象
とするデータベース1が図3に示すように与えられてい
るとすると、一次キーワードの切出処理によって生成さ
れる一次キーワードは図4のようになる。ここで、デー
タ番号2の「各メーカー」は接頭語・接尾語情報部7に
定義されている接頭語「各」を持ち、この接頭語「各」
を除いた文字列「メーカー」は一次キーワードに存在し
ている。従って、除去条件に適合するので、「各メーカ
ー」は、一次キーワードから除去する。また、データ番
号3の「メーカー別」も接尾語「別」を持ち、かつ接尾
語「別」を除いた文字列「メーカー」が、一次キーワー
ドに存在する。従って、「メーカー別」も除去される。
同様にして、全一次キーワードについてこの処理を施
し、最終的なキーワードを獲得する。
By performing the above processing for all the primary keywords, it is possible to remove unnecessary words.
For example, to explain using the example of the specific example 1, first, assuming that the target database 1 is given as shown in FIG. 3, the primary keyword generated by the extraction processing of the primary keyword is shown in FIG. Become like Here, "each manufacturer" of the data number 2 has a prefix "each" defined in the prefix / suffix information part 7, and this prefix "each".
The character string "maker" excluding is present in the primary keyword. Therefore, since each of the conditions matches the removal condition, “each maker” removes the primary keyword. Also, “manufacturer-specific” of data number 3 also has the suffix “other”, and a character string “maker” excluding the suffix “other” exists in the primary keyword. Therefore, “by manufacturer” is also eliminated.
Similarly, this process is performed for all primary keywords to obtain a final keyword.

【0058】図9に、このようにして抽出されたキーワ
ードを示す。上記の接頭語・接尾語に基づく不要語除去
処理を行うため、例えば、図6で示した具体例1のキー
ワードに比べて、データ番号2の「各メーカー」とデー
タ番号3の「メーカー別」が除去されている。
FIG. 9 shows the keywords extracted in this way. In order to perform the unnecessary word removal processing based on the prefix / suffix, for example, as compared with the keyword of the specific example 1 shown in FIG. 6, “each manufacturer” of data number 2 and “by manufacturer” of data number 3 Has been removed.

【0059】〈効果〉以上のように、具体例2によれ
ば、具体例1に加えて次のような効果がある。即ち、具
体例1では、あるキーワードを除去するためには、構成
する部分文字列が全て一次キーワード中に存在しなけれ
ばならなかった。これに対し、具体例2では、基本語に
接頭語や接尾語が付属して一次キーワードとして切り出
された場合に、接頭語や接尾語が一次キーワード中に存
在しなくても除去できるという効果がある。
<Effects> As described above, according to the specific example 2, the following effects are obtained in addition to the specific example 1. That is, in the first specific example, in order to remove a certain keyword, all of the constituent partial character strings had to be present in the primary keyword. On the other hand, in the specific example 2, when a prefix or a suffix is attached to a basic word and cut out as a primary keyword, the effect that the prefix or the suffix can be removed even if it does not exist in the primary keyword is obtained. is there.

【0060】《具体例3》具体例3は、具体例1の構成
に加えて、予め決められた基本語文字列の字種と、この
基本語文字列を修飾し、かつ、異なる字種で構成された
修飾文字列の情報を格納する部分文字列情報を備え、こ
の部分文字列情報に基づいて不要語除去処理を行うよう
にしたものである。尚、基本語文字列とは、キーワード
として有効な文字列を指している。
<< Specific Example 3 >> In the specific example 3, in addition to the structure of the specific example 1, the character type of the predetermined basic word character string, the basic character string is modified, and the character type is different. The apparatus is provided with partial character string information for storing information on the composed decoration character string, and performs an unnecessary word removal process based on the partial character string information. The basic word character string indicates a character string that is valid as a keyword.

【0061】〈構成〉図10は、本発明のキーワード抽
出装置の具体例3の構成図である。図の装置は、データ
ベース1、一次キーワード切出処理部2、字種情報部
3、一次キーワード格納部4、不要語除去処理部5b、
キーワード情報格納部6、部分文字列情報部8からな
る。ここで、データベース1〜キーワード情報格納部6
のうち、不要語除去処理部5bを除く構成は、具体例1
と同様であるため、これらの説明は省略する。
<Structure> FIG. 10 is a diagram showing the structure of a third embodiment of the keyword extracting apparatus according to the present invention. The apparatus shown in the figure includes a database 1, a primary keyword extraction processing unit 2, a character type information unit 3, a primary keyword storage unit 4, an unnecessary word removal processing unit 5b,
A keyword information storage unit 6 and a partial character string information unit 8 are provided. Here, database 1 to keyword information storage unit 6
Among them, the configuration excluding the unnecessary word removal processing unit 5b is the specific example 1.
The description is omitted here.

【0062】本具体例では、キーワードとして有効な文
字列(=基本語文字列)に修飾語的な文字列が連結して
できた文字列を除去することを目的としている。ここ
で、キーワードとして有効な文字列の文字種を基本語文
字種、修飾語的な文字列の文字種を修飾語文字種と呼
ぶ。このため、部分文字列情報部8には、英文字、数
字、カタカナを基本語文字種に、漢字を修飾語文字種と
したルールが記述されている。
The purpose of this specific example is to remove a character string formed by connecting a character string effective as a keyword (= basic word character string) with a modifier character string. Here, the character type of a character string valid as a keyword is called a basic word character type, and the character type of a modifier-like character string is called a modifier character type. For this reason, the partial character string information section 8 describes rules in which English characters, numbers, and katakana are used as basic word character types, and kanji are used as modifier word character types.

【0063】不要語除去処理部5bは、このような部分
文字列情報部8のルールに基づき、一次キーワード格納
部4の一次キーワードのうち、字種が「英文字or数字
orカタカナ」+「漢字」で構成されている文字列は、
「英文字or数字orカタカナ」と「漢字」とに分割
し、「漢字」の部分が一次キーワードとして存在してい
た場合は、その一次キーワードを削除する。また、先頭
に修飾語文字列が存在する場合は、文字列全体で有用な
キーワードであることが多いことから、このような字種
の並びの場合は除去しない。
The unnecessary word removal processing unit 5b, based on the rules of the partial character string information unit 8, sets the character type of the primary keyword in the primary keyword storage unit 4 to “English character or number or katakana” + “Kanji”. Is a string consisting of
It is divided into “English characters or numbers or katakana” and “Kanji”, and if the “Kanji” part exists as a primary keyword, the primary keyword is deleted. Also, if a modifier character string is present at the beginning, it is often a useful keyword for the entire character string. Therefore, such a character type arrangement is not removed.

【0064】〈動作〉図11は、本具体例の不要語除去
処理のフローチャートである。また、図12は、本具体
例における一次キーワードの説明図である。
<Operation> FIG. 11 is a flowchart of the unnecessary word removing process of this embodiment. FIG. 12 is an explanatory diagram of a primary keyword in this specific example.

【0065】不要語除去処理部5bは、先ず、部分文字
列情報部8の情報に基づき、一次キーワードを、基本語
文字列と修飾語文字列に分割する(ステップS1)。例
えば、図12に示すデータ番号1の「コンピュータ産
業」や「新型メモリ」およびデータ番号2の「EC首
脳」は、字種が「カタカナ+漢字」であるため分割対象
となり、「コンピュータ」と「産業」、「新型」と「メ
モリ」および「EC」と「首脳」に分割される。
The unnecessary word removal processing section 5b first divides the primary keyword into a basic word character string and a modifier word character string based on the information of the partial character string information section 8 (step S1). For example, “computer industry” and “new memory” of data number 1 and “EC leader” of data number 2 shown in FIG. 12 are subject to division because the character type is “Katakana + Kanji”, and “computer” and “ It is divided into "Industry", "New" and "Memory" and "EC" and "Leader".

【0066】次に、ステップS2では、最初の部分文字
列が基本語文字列であるかを判定する。ここで、「コン
ピュータ」「産業」と「EC」「首脳」は最初の部分文
字列が基本語文字列であるため、次のステップS3に進
むが、「新型」「メモリ」は、最初の部分文字列が修飾
語文字列であるため、除去条件には適合せず、ステップ
S5に移行して「Return」となる。
Next, in step S2, it is determined whether or not the first partial character string is a basic word character string. Here, since the first partial character string of “computer”, “industry”, “EC”, and “leader” is the basic word character string, the process proceeds to the next step S3. Since the character string is a modifier character string, the character string does not satisfy the removal condition, and the process proceeds to step S5 to be “Return”.

【0067】ステップS3では、全ての修飾語文字列
が、一次キーワードとして存在するかを判定する。例え
ば、「コンピュータ」「産業」は、修飾語文字列「産
業」が一次キーワードに存在するため、ステップS4に
進み、「コンピュータ産業」を除去し、「Retur
n」となる(ステップS)。また、「EC」「首脳」
も、修飾語文字列「首脳」が一次キーワードに存在する
ため、「EC首脳」も除去される。このような処理を全
一次キーワードについて施すことにより、最終的なキー
ワードを獲得する。図13は、最終的に得られたキーワ
ードの説明図である。
In step S3, it is determined whether all the modifier character strings exist as primary keywords. For example, in the case of “computer” and “industry”, since the modifier character string “industry” exists in the primary keyword, the process proceeds to step S4, in which “computer industry” is removed, and “Retur” is removed.
n ”(step S). In addition, "EC""leaders"
Also, since the modifier character string “leader” exists in the primary keyword, “EC leader” is also removed. By performing such processing for all primary keywords, a final keyword is obtained. FIG. 13 is an explanatory diagram of keywords finally obtained.

【0068】〈効果〉以上のように具体例3によれば、
具体例1の効果に加えて次のような効果がある。即ち、
具体例1では、あるキーワードを除去するためには、構
成する部分文字列が全て一次キーワード中に存在しなけ
ればならなかったが、本具体例では、字種が異なる基本
語が結合して切り出された場合に、漢字の文字列が一次
キーワードとして存在すれば、このような語を除去する
ことができるという効果を備えている。
<Effects> As described above, according to the third embodiment,
The following effects are obtained in addition to the effects of the first embodiment. That is,
In the first specific example, in order to remove a certain keyword, all of the constituent character strings must exist in the primary keyword, but in this specific example, basic words having different character types are combined and cut out. If a kanji character string exists as a primary keyword in such a case, such a word can be eliminated.

【0069】しかも、具体例2でも、基本語に修飾語的
な語が結合した語の除去を行っているが、具体例2で
は、修飾語的な語を具体的に記述する必要があるのに対
し、本具体例ではその必要がなく、効率的な不要語除去
を行うことができる。
Moreover, even in the specific example 2, the word in which the modifier word is combined with the basic word is removed, but in the specific example 2, the modifier word needs to be specifically described. On the other hand, in this specific example, this is not necessary, and efficient unnecessary word removal can be performed.

【0070】《具体例4》具体例4は、一次キーワード
を切り出す場合に、一次キーワードとして除去するため
の不要語を示す不要語情報と、不要語除去処理で残す合
成語を示す合成語情報と、不要語除去処理で除去しない
文字列の字種の情報を示す対象外文字種情報と備えたも
のである。
<< Example 4 >> In Example 4, when extracting a primary keyword, unnecessary word information indicating an unnecessary word to be removed as a primary keyword, and synthetic word information indicating a synthetic word to be left in the unnecessary word removal processing And non-target character type information indicating character type information of a character string that is not removed by the unnecessary word removal processing.

【0071】〈構成〉図14は、本発明のキーワード抽
出装置の具体例4の構成図である。図の装置は、データ
ベース1、一次キーワード切出処理部2、字種情報部
3、一次キーワード格納部4、不要語除去処理部5c、
キーワード情報格納部6、不要語情報部9、合成語情報
部10、対象外文字種情報部11からなる。ここで、デ
ータベース1〜キーワード情報格納部6のうち、一次キ
ーワード切出処理部2aと不要語除去処理部5cを除く
構成は、具体例1と同様であるため、これらの説明は省
略する。
<Structure> FIG. 14 is a diagram showing the structure of a fourth embodiment of the keyword extracting apparatus according to the present invention. The apparatus shown in the figure includes a database 1, a primary keyword extraction processing unit 2, a character type information unit 3, a primary keyword storage unit 4, an unnecessary word removal processing unit 5c,
It comprises a keyword information storage section 6, an unnecessary word information section 9, a composite word information section 10, and a non-target character type information section 11. Here, the configuration of the database 1 to the keyword information storage unit 6 except for the primary keyword extraction processing unit 2a and the unnecessary word removal processing unit 5c is the same as that of the first embodiment, and thus the description thereof is omitted.

【0072】不要語情報部9は、キーワード文字の1文
字以上から構成される文字列ではあるが、キーワードと
して不要な語を示す情報の格納部である。図15は不要
語情報部9の内容説明図である。
The unnecessary word information section 9 is a storage section for information indicating a word which is a character string composed of one or more keyword characters but is unnecessary as a keyword. FIG. 15 is an explanatory diagram of the contents of the unnecessary word information section 9.

【0073】一次キーワード切出処理部2aは、データ
ベース1より切り出した文字列が不要語情報部9にある
語と一致した場合は、その語を一次キーワード格納部4
に出力しないよう構成されている。また、不要語情報部
9に示された不要語は、不要語除去処理部5cにおい
て、具体例1で述べた合成語の除去処理を行う際、一次
キーワードと同等の語として扱う。
When the character string extracted from the database 1 matches a word in the unnecessary word information section 9, the primary keyword extraction processing section 2a stores the word in the primary keyword storage section 4.
Is configured not to output. The unnecessary words shown in the unnecessary word information section 9 are treated as words equivalent to the primary keywords when the unnecessary word removal processing section 5c performs the composite word removal processing described in the first specific example.

【0074】合成語情報部10は、複数の一次キーワー
ドまたは不要語情報部9に示されている不要語が結合し
てできる可能性のある文字列の中で、独立したキーワー
ドとして抽出する文字列を格納している。
The synthesized word information section 10 extracts a character string to be extracted as an independent keyword from a plurality of primary keywords or a character string which may be formed by combining unnecessary words indicated in the unnecessary word information section 9. Is stored.

【0075】図16は、合成語情報部10の内容説明図
である。図示のように、合成語情報部10に記述されて
いる語は、「携帯電話」のように二つの語が組み合わさ
れて固有の意味を持つ語である。
FIG. 16 is an explanatory diagram of the contents of the composite word information section 10. As shown in the figure, the words described in the composite word information section 10 are words having a unique meaning in which two words are combined, such as “mobile phone”.

【0076】対象外文字種情報部11には、不要語除去
処理部5cにおける不要語除去処理において、複数の一
次キーワードが連結されている場合でも、それが全て同
一文字種であれば、合成語とはしない文字種の情報が格
納されている。ここでは、その文字種として、英文字、
数字、カタカナが指定されている。
In the non-target character type information section 11, even when a plurality of primary keywords are connected in the unnecessary word removal processing in the unnecessary word removal processing section 5c, if all of the primary keywords are of the same character type, the word is not a composite word. The information of the character type not to be stored is stored. Here, the character types are English characters,
Numbers and katakana are specified.

【0077】不要語除去処理部5cは、合成語の除去処
理を行う際、上述したように、不要語情報部9に示され
た語を一次キーワードと同等の語として扱うが、合成語
情報部10に示されている語および対象外文字種情報部
11で指定されている文字種の語は、合成語としては対
象外として処理するよう構成されている。
The unnecessary word removal processing unit 5c treats the word indicated in the unnecessary word information unit 9 as a word equivalent to the primary keyword as described above when performing the compound word removal process. The word shown in 10 and the word of the character type specified in the non-target character type information section 11 are configured to be processed as non-target words as composite words.

【0078】〈動作〉本具体例では、例えば、一次キー
ワード切出処理部2aが切り出す対象テキストを「携帯
電話の急激な普及増加は電話のあり方を一変させた」と
する。
<Operation> In this specific example, for example, it is assumed that the text to be extracted by the primary keyword extraction processing unit 2a is "a sudden increase in the use of mobile phones has completely changed the way of telephones".

【0079】先ず、一次キーワード切出処理部2aで
は、対象テキストを、具体例1〜3の場合と同様に、キ
ーワード文字で分割し、その中から2文字以上で構成さ
れる文字列を抽出する。その結果、(携帯電話、急激、
普及増加、電話、一変)という語が抽出される。このう
ち、「急激」は、不要語情報部9に示されているので
(図15参照)、一次キーワードとしては除去される。
従って、一次キーワード格納部4に格納された一次キー
ワードは、(携帯電話、普及増加、電話、一変)とな
る。
First, the primary keyword extraction processing section 2a divides the target text into keyword characters, as in the first to third examples, and extracts a character string composed of two or more characters from the text. . As a result, (mobile, sudden,
(Increase in popularity, telephone, change). Of these, "rapid" is indicated in the unnecessary word information section 9 (see FIG. 15), and thus is removed as a primary keyword.
Therefore, the primary keyword stored in the primary keyword storage unit 4 is (mobile phone, increase in spread, telephone, change).

【0080】不要語除去処理部5では、先ず、一次キー
ワードそれぞれについて、合成語情報部10に記載され
ていないかをチェックする。もし、合成語情報部10に
記載されていれば、その語をキーワード情報格納部6に
出力する。例えば、「携帯電話」は合成語情報部10に
記載されているので、合成語判定をスキップし、キーワ
ード情報格納部6に出力される。一方、一次キーワード
で合成語情報部10に記載されていないものについては
次のような不要語除去処理を行う。
The unnecessary word removal processing section 5 first checks whether or not each primary keyword is described in the composite word information section 10. If the word is described in the composite word information section 10, the word is output to the keyword information storage section 6. For example, since “mobile phone” is described in the composite word information section 10, the composite word determination is skipped and output to the keyword information storage section 6. On the other hand, for primary keywords that are not described in the composite word information section 10, the following unnecessary word removal processing is performed.

【0081】図17は、不要語除去処理のフローチャー
トである。図中、check(w[1,n])とは、図
5に示した具体例1と同様に、対象となるn文字の一次
キーワードw[1,n]が除去文字列(除去される合成
語)であるかを判定する処理である。
FIG. 17 is a flowchart of the unnecessary word removing process. In the figure, check (w [1, n]) is a character string in which the primary keyword w [1, n] of the target n characters is a removed character string (synthesized to be removed), as in the specific example 1 shown in FIG. Word).

【0082】不要語除去処理では、具体例1の動作と同
様に、ステップS1でi=1およびct=0とし、ステ
ップS2において、iの値を+1する。尚、ステップS
1におけるctとは文字種を示し、ct=0とは文字種
の情報をリセットすることを表している。次に、ステッ
プS3でi=nであるかを判定する。即ち、対象文字列
が2文字のみであるかを判定する。このステップS3に
おいて、対象文字列が2文字のみであった場合は、fa
lseとなり、その語をそのまま残す。これは、具体例
1と同様に、1文字2個の合成語は存在しないことによ
るからである。
In the unnecessary word removing process, i = 1 and ct = 0 in step S1, and the value of i is incremented by one in step S2, as in the operation of the first embodiment. Step S
Ct in 1 indicates a character type, and ct = 0 indicates that information on the character type is reset. Next, it is determined in step S3 whether i = n. That is, it is determined whether the target character string is only two characters. In this step S3, if the target character string is only two characters, fa
1se, and leave the word as it is. This is because, as in the first embodiment, there is no compound word of two characters.

【0083】一方、ステップS3において、i=nでな
かった場合、例えば「普及増加」のように、対象文字列
が3文字以上であった場合は、ステップS4に進み、w
[1,i]が一次キーワードまたは不要語情報部9に存
在するかを判定する。この場合、「普及」が判定対象と
なり、この語は不要語情報部9に存在するため、次のス
テップS5に進む。
On the other hand, if i = n is not satisfied in step S3, for example, if the target character string has three or more characters, such as "increase in spread", the process proceeds to step S4, where w
It is determined whether [1, i] exists in the primary keyword or unnecessary word information section 9. In this case, “spread” is a determination target, and since this word exists in the unnecessary word information section 9, the process proceeds to the next step S5.

【0084】ステップS5では、対象となる語が対象外
文字種情報部11に記載されている文字種であるかを判
定する。この場合は、対象外文字種ではないためステッ
プS8に進み、i=nかを判定する。ステップS8で
は、i=nではないためステップS9に進み、chec
k(w[i+1,n])を行う。「増加」も不要語情報
部9に記載されているため、結果はtrueとなり、合
成語と判定される。従って、キーワード情報格納部6に
は出力されない。
In step S5, it is determined whether the target word is a character type described in the non-target character type information section 11. In this case, since the character type is not a non-target character type, the process proceeds to step S8 to determine whether i = n. In step S8, since i = n is not satisfied, the process proceeds to step S9, where check
k (w [i + 1, n]) is performed. Since “increase” is also described in the unnecessary word information section 9, the result is true, and it is determined that the word is a composite word. Therefore, it is not output to the keyword information storage 6.

【0085】また、ステップS5〜ステップS7のは、
次のような処理を行うために設けられている。即ち、合
成語除去処理の際、特定の文字種の語は対象外とする
と、キーワード抽出の精度が向上することがある。例え
ば、英数字、カタカナ等から構成される語は偶然に合成
語であったり、合成語であっても重要な語であることが
多い。例えば、「in」+「put」=「input」
や、「キー」+「ワード」=「キーワード」等である。
従って、対象外文字種情報部11に、このような文字種
を指定することで、これらの文字種による合成語は、除
去対象の合成語としないことができる。
Steps S5 to S7 are as follows:
It is provided to perform the following processing. That is, when words of a specific character type are excluded from the target in the compound word removal process, the accuracy of keyword extraction may be improved. For example, words composed of alphanumeric characters, katakana, and the like are accidentally compound words, and even compound words are important words in many cases. For example, “in” + “put” = “input”
Or “key” + “word” = “keyword”.
Therefore, by specifying such a character type in the non-target character type information unit 11, a compound word based on these character types can be excluded from the compound words to be removed.

【0086】例えば、一次キーワードに「キー」「ワー
ド」「キーワード」が存在していたとする。不要語除去
処理において、「キーワード」という語が対象になった
とすると、先ず、「キー」という部分文字列で基本語が
発見される(ステップS1〜ステップS4)。そして、
ステップS5において、「キーワード」は一種類の対象
外文字種であるから、ステップS6に進む。ステップS
6では、ctとw[1,i]の文字種が同じであるかを
判定するが、ctはステップS1でリセットされている
ため文字種が異なると判定され、ステップS7に進み、
ctにカタカナという情報を格納する。
For example, it is assumed that “key”, “word”, and “keyword” exist as primary keywords. Assuming that the word "keyword" is targeted in the unnecessary word removal processing, first, a basic word is found in a partial character string "key" (steps S1 to S4). And
In step S5, since the "keyword" is one kind of non-target character type, the process proceeds to step S6. Step S
In 6, it is determined whether the character type of ct and w [1, i] are the same. However, since ct has been reset in step S1, it is determined that the character type is different, and the process proceeds to step S7.
The information called katakana is stored in ct.

【0087】残った「ワード」という文字列について
も、一次キーワードに存在するが、「ワード」はカタカ
ナであり、ctと同じ文字種であると判定されるため、
ステップS6からステップS2に戻り、文字列はもう残
っていないため、最終的にステップS3からfalse
となる。
The remaining character string “word” also exists in the primary keyword, but “word” is katakana and is determined to be the same character type as ct.
Returning from step S6 to step S2, since no more character strings remain, finally, from step S3 false
Becomes

【0088】これ以外で、例えば「NGシーン」「N
G」「シーン」という語が一次キーワードとして存在し
た場合を考える。この場合は、「NG」も「シーン」も
対象外文字種であるが、「NG」は英文字であり、「シ
ーン」はカタカナであるため、ステップS6において、
ctとw[3,5]の字種が一致せず、ステップS8に
進む。ここで、文字列はもう残っていないため、最終的
にtrueとなり、「NGシーン」は合成語と判定さ
れ、キーワード情報格納部6には出力されない。
Other than this, for example, “NG scene”, “N
Consider the case where the words "G" and "scene" exist as primary keywords. In this case, both “NG” and “scene” are non-target character types, but “NG” is an English character and “scene” is katakana.
Since the character types of ct and w [3,5] do not match, the process proceeds to step S8. Here, since the character string no longer remains, it is finally true, and the “NG scene” is determined to be a composite word, and is not output to the keyword information storage unit 6.

【0089】このような処理により、上記テキスト「携
帯電話の急激な普及増加は電話のあり方を一変させた」
の最終的なキーワードは、(携帯電話、電話、一変)と
なる。
With the above processing, the above-mentioned text "The rapid increase in the use of mobile phones has completely changed the way telephones work."
Will be (mobile phone, phone, all-in-one).

【0090】〈効果〉以上のように具体例4によれば、
具体例1の効果に加えて次のような効果がある。即ち、
不要語情報部9を備えることにより、一次キーワード切
出処理の段階で不要語を除去することが可能である。ま
た、不要語情報部9を利用して合成語の分解を行うこと
から、データベース1中に存在しない語による合成語を
発見し、除去することができる。更に、合成語情報部1
0により、合成語であるが、キーワードとして登録すべ
き語を発見し、保存することができるという効果を備え
ている。
<Effects> As described above, according to the fourth embodiment,
The following effects are obtained in addition to the effects of the first embodiment. That is,
By providing the unnecessary word information section 9, unnecessary words can be removed at the stage of the primary keyword extraction processing. Further, since the compound word is decomposed using the unnecessary word information section 9, it is possible to find and remove a compound word by a word that does not exist in the database 1. Further, the compound word information section 1
0 has the effect that a word that is a compound word but should be registered as a keyword can be found and stored.

【0091】《具体例5》具体例5は、一次キーワード
の統計値を求め、この統計値を利用して不要語除去処理
を行うようにしたものである。
<< Example 5 >> In Example 5, a statistical value of a primary keyword is obtained, and unnecessary word removal processing is performed using the statistical value.

【0092】〈構成〉図18は、本発明のキーワード抽
出装置の具体例5の構成図である。図の装置は、データ
ベース1、一次キーワード切出処理部2b、字種情報部
3、一次キーワード格納部4、不要語除去処理部5d、
キーワード情報格納部6、統計情報部12からなる。こ
こで、データベース1〜キーワード情報格納部6のう
ち、一次キーワード切出処理部2bと不要語除去処理部
5dを除く構成は、具体例1と同様であるため、これら
の説明は省略する。
<Structure> FIG. 18 is a diagram showing the structure of a fifth embodiment of the keyword extracting apparatus according to the present invention. The apparatus shown in the figure includes a database 1, a primary keyword extraction processing unit 2b, a character type information unit 3, a primary keyword storage unit 4, an unnecessary word removal processing unit 5d,
It comprises a keyword information storage section 6 and a statistical information section 12. Here, the configuration of the database 1 to the keyword information storage unit 6 except for the primary keyword extraction processing unit 2b and the unnecessary word removal processing unit 5d is the same as that of the first embodiment, and thus the description thereof is omitted.

【0093】一次キーワード切出処理部2bは、上記各
具体例と同様に、データベース1から一次キーワードを
抽出し、これを一次キーワード格納部4に格納すると共
に、統計情報部12に出力するよう構成されている。ま
た、統計情報部12は、一次キーワード切出処理部2b
からの情報に基づき、データベース1中の一次キーワー
ドに関する統計情報(統計的指標)を記録する格納部で
ある。この統計情報としては、一次キーワードのデータ
ベース1中の出現回数とする。
The primary keyword extraction processing unit 2b extracts primary keywords from the database 1, stores them in the primary keyword storage unit 4, and outputs them to the statistical information unit 12, as in the above specific examples. Have been. Further, the statistical information section 12 includes a primary keyword cutout processing section 2b.
This is a storage unit for recording statistical information (statistical index) related to the primary keyword in the database 1 based on the information from. The statistical information is the number of appearances of the primary keyword in the database 1.

【0094】図19は、統計情報の説明図である。この
統計情報は、一次キーワードを見出しとし、各見出しに
対応した整数変数を、データベース1中の出現回数とし
ている。
FIG. 19 is an explanatory diagram of statistical information. In this statistical information, a primary keyword is used as a heading, and an integer variable corresponding to each heading is used as the number of appearances in the database 1.

【0095】不要語除去処理部5dは、合成語の除去処
理を行う際、このような統計情報部12に示された統計
情報を使用し、一次キーワード格納部4に格納された一
次キーワードのうち、合成語として判定された語が、予
め決められたしきい値よりも高い出現回数であった場合
は、不要語として除去しないよう構成されている。
The unnecessary word removing section 5d uses the statistical information shown in the statistical information section 12 when performing the compound word removing processing, and uses the statistical information stored in the primary keyword storing section 4 for the primary keyword. When a word determined as a compound word has a higher number of appearances than a predetermined threshold, the word is not removed as an unnecessary word.

【0096】〈動作〉一次キーワード切出処理部2bで
は、データベース1から一次キーワードを抽出すると、
この一次キーワードを一次キーワード格納部4に格納す
ると共に、統計情報部12に出力する。統計情報部12
では、入力された語をインデックスとする整数変数を1
増加させる。入力された語をインデックスとする整数変
数が存在しなかった場合は、新たにその語をインデック
スとする整数変数を作成し、初期値として1を代入す
る。従って、一次キーワード抽出処理が終了した時点で
は、統計情報部12には、一次キーワードと、各一次キ
ーワードのデータベース1中の出現回数が組になって格
納されている。
<Operation> In the primary keyword extraction processing unit 2b, when the primary keyword is extracted from the database 1,
This primary keyword is stored in the primary keyword storage unit 4 and output to the statistical information unit 12. Statistical information section 12
Then, an integer variable whose index is the input word is 1
increase. If there is no integer variable with the input word as an index, a new integer variable with the word as an index is created and 1 is substituted as an initial value. Therefore, when the primary keyword extraction processing is completed, the statistical information section 12 stores the primary keywords and the number of appearances of each primary keyword in the database 1 as a set.

【0097】尚、統計情報部12では、上記の出現回数
の代わりに出現データ数を用いてもよい。出現データ数
とは、データベース1中に複数のデータがあった場合
に、語が出現したデータの個数を指し、一つのデータ中
に何回その語が出現するかは問わない。特定のデータに
特定の語が多く出現するようなデータベースの場合、デ
ータ中の出現回数では不都合が生じることが多い。この
ような性質を持つデータベースに対しては出現データ数
を用いる方がよい。
In the statistical information section 12, the number of appearance data may be used instead of the number of appearances. The number of appearing data refers to the number of data in which a word appears when there are a plurality of data in the database 1, and it does not matter how many times the word appears in one data. In the case of a database in which specific words frequently appear in specific data, inconvenience often occurs in the number of appearances in the data. For a database having such properties, it is better to use the number of occurrence data.

【0098】次に、不要語除去処理部5dでは、統計情
報部12の統計情報を基に不要な合成語の除去を行う。
この除去処理は、先ず、各一次キーワードに対し、図5
で示した具体例1の不要語の判定処理を行い、合成語で
あるかをチェックする。次に、合成語であると判定され
た一次キーワードと、この合成語である一次キーワード
を構成する基本語の統計情報を統計情報部12から取り
出す。そして、合成語と基本語の統計情報を比較し、合
成語が有用であると判定した場合は、この一次キーワー
ドをキーワード情報格納部6に出力する。ここで、合成
語を有用と判定する基準としては、合成語の出現回数
が、構成するどの基本語の出現回数よりも多い場合が考
えられる。
Next, the unnecessary word removing section 5d removes unnecessary compound words based on the statistical information of the statistical information section 12.
In this removal process, first, for each primary keyword, FIG.
The unnecessary word determination process of the specific example 1 shown in (1) is performed to check whether the word is a compound word. Next, the statistical information of the primary keyword determined to be a compound word and the basic word constituting the primary keyword as the compound word is extracted from the statistical information unit 12. Then, the statistical information of the compound word and the basic word is compared, and when it is determined that the compound word is useful, the primary keyword is output to the keyword information storage unit 6. Here, as a criterion for determining that a compound word is useful, it is conceivable that the number of appearances of the compound word is larger than the number of occurrences of any of the constituent basic words.

【0099】例えば、データベース1から一次キーワー
ドを抽出した結果の統計情報部12が図19に示すよう
な状態であった場合、「携帯電話」は、基本語の「携
帯」と「電話」の合成語であるが、これらの基本語の出
現回数よりも多いため、有用な語であると判定し、最終
的なキーワードとして出力する。
For example, when the statistical information section 12 resulting from the extraction of the primary keyword from the database 1 is in a state as shown in FIG. 19, “mobile phone” is a combination of the basic words “mobile” and “phone”. Although these words are more than the number of appearances of these basic words, they are determined to be useful words and are output as final keywords.

【0100】〈効果〉以上のように具体例5によれば、
具体例1の効果に加えて次のような効果がある。即ち、
具体例4では、キーワードとする価値のある合成語は全
て情報として持っていなければならないが、本具体例で
は、このような合成語を自動的に判別し保存することが
できるという効果を備えている。
<Effects> As described above, according to the fifth embodiment,
The following effects are obtained in addition to the effects of the first embodiment. That is,
In the specific example 4, all the compound words having a value as a keyword must be held as information, but in this specific example, such a compound word can be automatically determined and stored. I have.

【0101】尚、上記各具体例では、最終的なキーワー
ドはキーワード情報格納部6に格納するようにしたが、
得られたキーワードは、データベース1に付加情報とし
て付け加えることで統合してもよい。
In each of the above specific examples, the final keyword is stored in the keyword information storage unit 6.
The obtained keywords may be integrated by adding them to the database 1 as additional information.

【0102】また、上記各具体例の全ての動作は、キー
ワード抽出装置の役割を行うコンピュータのプログラム
による制御で実現することができる。従って、そのプロ
グラムをフロッピーディスクやCD−ROM等の記録媒
体に記録してから、コンピュータにインストールした
り、あるいはネットワークからダウンロードしてインス
トールするといった方法や、そのプログラムをハードデ
ィスク等に予めインストールするといった方法によっ
て、本発明のキーワード抽出装置を実現することができ
る。
Further, all the operations of each of the above specific examples can be realized by control by a program of a computer serving as a keyword extracting device. Therefore, a method of recording the program on a recording medium such as a floppy disk or a CD-ROM and then installing the program on a computer, or downloading and installing the program from a network, or a method of previously installing the program on a hard disk or the like Thereby, the keyword extracting device of the present invention can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明のキーワード抽出装置の具体例1の構成
図である。
FIG. 1 is a configuration diagram of a specific example 1 of a keyword extraction device of the present invention.

【図2】本発明のキーワード抽出装置における字種情報
部の内容説明図である。
FIG. 2 is an explanatory diagram of the contents of a character type information section in the keyword extraction device of the present invention.

【図3】本発明のキーワード抽出装置の具体例1におけ
るデータベースの内容説明図である。
FIG. 3 is an explanatory diagram of the contents of a database in a specific example 1 of the keyword extracting device of the present invention.

【図4】本発明のキーワード抽出装置の具体例1におけ
る抽出された一次キーワードの説明図である。
FIG. 4 is an explanatory diagram of an extracted primary keyword in a specific example 1 of the keyword extraction device of the present invention.

【図5】本発明のキーワード抽出装置の具体例1におけ
る不要語除去処理のフローチャートである。
FIG. 5 is a flowchart of an unnecessary word removing process in the specific example 1 of the keyword extracting device of the present invention.

【図6】本発明のキーワード抽出装置の具体例1で獲得
されたキーワードの説明図である。
FIG. 6 is an explanatory diagram of a keyword obtained in a specific example 1 of the keyword extracting device of the present invention.

【図7】本発明のキーワード抽出装置の具体例2の構成
図である。
FIG. 7 is a configuration diagram of a specific example 2 of the keyword extraction device of the present invention.

【図8】本発明のキーワード抽出装置の具体例2におけ
る接頭語・接尾語情報部の内容説明図である。
FIG. 8 is a diagram illustrating the contents of a prefix / suffix information section in a specific example 2 of the keyword extracting device of the present invention.

【図9】本発明のキーワード抽出装置の具体例2で獲得
されたキーワードの説明図である。
FIG. 9 is an explanatory diagram of keywords acquired in a specific example 2 of the keyword extracting device of the present invention.

【図10】本発明のキーワード抽出装置の具体例3の構
成図である。
FIG. 10 is a configuration diagram of Example 3 of the keyword extraction device of the present invention.

【図11】本発明のキーワード抽出装置の具体例3にお
ける不要語除去処理のフローチャートである。
FIG. 11 is a flowchart of an unnecessary word removing process in a specific example 3 of the keyword extracting device of the present invention.

【図12】本発明のキーワード抽出装置の具体例3にお
ける一次キーワードの説明図である。
FIG. 12 is an explanatory diagram of a primary keyword in a specific example 3 of the keyword extraction device of the present invention.

【図13】本発明のキーワード抽出装置の具体例3で獲
得されたキーワードの説明図である。
FIG. 13 is an explanatory diagram of a keyword obtained in a specific example 3 of the keyword extracting device of the present invention.

【図14】本発明のキーワード抽出装置の具体例4の構
成図である。
FIG. 14 is a configuration diagram of a specific example 4 of the keyword extraction device of the present invention.

【図15】本発明のキーワード抽出装置の具体例4にお
ける不要語情報部の内容説明図である。
FIG. 15 is an explanatory diagram of the contents of an unnecessary word information section in a specific example 4 of the keyword extracting device of the present invention.

【図16】本発明のキーワード抽出装置の具体例4にお
ける合成語情報部の内容説明図である。
FIG. 16 is an explanatory diagram of the contents of a compound word information part in a specific example 4 of the keyword extracting device of the present invention.

【図17】本発明のキーワード抽出装置の具体例4にお
ける不要語除去処理のフローチャートである。
FIG. 17 is a flowchart of an unnecessary word removing process in a specific example 4 of the keyword extracting device of the present invention.

【図18】本発明のキーワード抽出装置の具体例5の構
成図である。
FIG. 18 is a configuration diagram of a specific example 5 of the keyword extraction device of the present invention.

【図19】本発明のキーワード抽出装置の具体例5にお
ける統計情報の説明図である。
FIG. 19 is an explanatory diagram of statistical information in a specific example 5 of the keyword extraction device of the present invention.

【符号の説明】[Explanation of symbols]

1 データベース 2、2a、2b 一次キーワード切出処理部 3 字種情報部 4 一次キーワード格納部 5、5a、5b、5c、5d 不要語除去処理部 6 キーワード情報格納部 7 接頭語・接尾語情報部 8 部分文字列情報部 9 不要語情報部 10 合成語情報部 11 対象外文字種情報部 12 統計情報部 DESCRIPTION OF SYMBOLS 1 Database 2, 2a, 2b Primary keyword extraction processing part 3 Character type information part 4 Primary keyword storage part 5, 5a, 5b, 5c, 5d Unnecessary word removal processing part 6 Keyword information storage part 7 Prefix / suffix information part 8 Partial character string information part 9 Unnecessary word information part 10 Compound word information part 11 Non-target character type information part 12 Statistical information part

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 予め決められたキーワードとなる文字の
情報を示す字種情報を有する字種情報部と、 前記字種情報に基づき、データベースから一次キーワー
ドとなる文字列を抽出する一次キーワード切出処理部
と、 前記一次キーワード切出処理部で抽出された一次キーワ
ードを格納する一次キーワード格納部と、 前記一次キーワード切出処理部で抽出された複数の一次
キーワードに基づき、前記一次キーワード格納部に格納
された一次キーワードから不要な一次キーワードを除去
し、キーワード情報として出力する不要語除去処理部と
を備えたことを特徴とするキーワード抽出装置。
1. A character type information section having character type information indicating information of a character serving as a predetermined keyword, and a primary keyword extraction for extracting a character string serving as a primary keyword from a database based on the character type information. A processing unit, a primary keyword storage unit that stores the primary keywords extracted by the primary keyword extraction processing unit, and a plurality of primary keywords extracted by the primary keyword extraction processing unit, based on the primary keyword storage unit A keyword extraction device comprising: an unnecessary word removal processing unit that removes unnecessary primary keywords from stored primary keywords and outputs the same as keyword information.
【請求項2】 請求項1において、 キーワードの文字が1文字である文字列を除いて一次キ
ーワードを作成する一次キーワード切出処理部を備えた
ことを特徴とするキーワード抽出装置。
2. The keyword extraction device according to claim 1, further comprising a primary keyword extraction processing unit that creates a primary keyword except for a character string in which the keyword character is one character.
【請求項3】 請求項1または2において、 一次キーワード格納部に格納された一次キーワードのう
ち、一次キーワード切出処理部で作成された複数の一次
キーワードを結合したキーワードと等しい一次キーワー
ドを不要語として除去する不要語除去処理部を備えたこ
とを特徴とするキーワード抽出装置。
3. The unnecessary keyword according to claim 1, wherein, among the primary keywords stored in the primary keyword storage, a primary keyword equal to a keyword obtained by combining a plurality of primary keywords created by the primary keyword extraction processing unit is used. A keyword extraction device comprising an unnecessary word removal processing unit for removing a keyword.
【請求項4】 データベースから、予め決められた文字
のキーワードを抽出する処理と、 前記キーワードの抽出処理後、抽出された複数のキーワ
ードに基づいて、不要となるキーワードを求め、最終的
なキーワードを得る処理とをコンピュータで行うことを
特徴とするキーワード抽出制御プログラムを記録した媒
体。
4. A process of extracting a keyword of a predetermined character from a database, and after the keyword extraction process, an unnecessary keyword is obtained based on a plurality of extracted keywords, and a final keyword is determined. A medium on which a keyword extraction control program is recorded, wherein the processing for obtaining is performed by a computer.
【請求項5】 請求項3において、 予め決められた接頭語と接尾語の情報を格納する接頭語
・接尾語情報部と、 一次キーワード格納部に格納された一次キーワードのう
ち、前記接頭語または接尾語を除いた文字列に対して不
要語除去処理を行う不要語除去処理部を備えたことを特
徴とするキーワード抽出装置。
5. The prefix or suffix information unit for storing information of a predetermined prefix and suffix, and the prefix or suffix of the primary keywords stored in the primary keyword storage unit. A keyword extraction device comprising an unnecessary word removal processing unit for performing unnecessary word removal processing on a character string excluding a suffix.
【請求項6】 請求項3において、 予め決められた基本語文字列と、この基本語文字列を修
飾し、かつ、異なる字種で構成された修飾文字列の情報
を格納する部分文字列情報部と、 一次キーワード格納部に格納された一次キーワードのう
ち、前記修飾語文字列が、一次キーワードに存在するキ
ーワードは除去して最終的なキーワードを出力する不要
語除去処理部を備えたことを特徴とするキーワード抽出
装置。
6. The partial character string information according to claim 3, wherein a predetermined basic word character string and a modified character string composed of different character types for modifying the basic word character string are stored. And an unnecessary word removal processing unit that outputs the final keyword by removing the keyword existing in the primary keyword from the primary keyword stored in the primary keyword storage unit. Keyword extraction device featuring.
【請求項7】 請求項6において、 先頭文字列が修飾語文字列である一次キーワードは、不
要語として除去しない不要語除去処理部を備えたことを
特徴とするキーワード抽出装置。
7. The keyword extracting device according to claim 6, further comprising an unnecessary word removal processing unit that does not remove a primary keyword whose first character string is a modifier character string as an unnecessary word.
【請求項8】 請求項6または7において、 基本語文字列の字種は、英文字と数字とカタカナであ
り、修飾語文字列の字種は漢字であることを特徴とする
キーワード抽出装置。
8. The keyword extracting device according to claim 6, wherein the character types of the basic character string are English characters, numbers, and katakana characters, and the character type of the modifier character string is a Chinese character.
【請求項9】 請求項3において、 予め決められた不要語の情報を格納する不要語情報部
と、 一次キーワードを抽出する場合、前記不要語情報部に格
納されている不要語であった場合は、一次キーワードか
ら除外する一次キーワード切出処理部と、 予め決められた合成語の情報を格納する合成語情報部
と、 一次キーワード格納部に格納された一次キーワードのう
ち、前記合成語と等しい文字列は不要語除去処理しない
不要語除去処理部とを備えたことを特徴とするキーワー
ド抽出装置。
9. The unnecessary word information section for storing information of a predetermined unnecessary word, and a case where a primary keyword is extracted, wherein the unnecessary word is stored in the unnecessary word information section. Is a primary keyword extraction processing unit to be excluded from the primary keyword, a composite word information unit that stores information of a predetermined composite word, and is equal to the composite word among the primary keywords stored in the primary keyword storage unit. A keyword extraction device comprising: an unnecessary word removal processing unit that does not perform unnecessary word removal processing on a character string.
【請求項10】 請求項9において、 予め決められた合成語としない対象外文字種の情報を格
納する対象外文字種情報部と、 一次キーワード格納部に格納された一次キーワードのう
ち、一種類の前記対象外文字種で構成された文字列の部
分は合成部分として処理しない不要語除去処理部を備え
たことを特徴とするキーワード抽出装置。
10. The non-target character type information section for storing information on a non-target character type that is not a predetermined compound word and a primary keyword stored in a primary keyword storage section according to claim 9, wherein A keyword extraction device comprising an unnecessary word removal processing unit that does not process a character string portion composed of a non-target character type as a combined portion.
【請求項11】 請求項9または10において、 一次キーワード格納部に格納された一次キーワードのう
ち、前記不要語除去処理を行う場合は、一次キーワード
格納部に格納されている一次キーワードと共に、不要語
情報に格納されている不要語を使用する不要語除去処理
部を備えたことを特徴とするキーワード抽出装置。
11. The unnecessary keyword along with the primary keyword stored in the primary keyword storage unit when performing the unnecessary word removal processing among the primary keywords stored in the primary keyword storage unit. A keyword extraction device comprising an unnecessary word removal processing unit that uses unnecessary words stored in information.
【請求項12】 請求項3において、 データベース中の各一次キーワードの出現回数を示す統
計情報部と、 一次キーワード格納部に格納された一次キーワードのう
ち、合成語として判定された語が、前記統計情報部の一
次キーワードとして、予め決められたしきい値よりも高
い出現回数であった場合は、不要語として除去しない不
要語除去処理部とを備えたことを特徴とするキーワード
抽出装置。
12. The statistical information section according to claim 3, wherein a statistical information section indicating the number of appearances of each primary keyword in the database, and a primary keyword stored in the primary keyword storage section, wherein the word determined as a compound word is the statistical keyword. A keyword extracting device, comprising: an unnecessary word removal processing unit that does not remove, as a primary keyword of an information part, an unnecessary word when the number of appearances is higher than a predetermined threshold value.
【請求項13】 請求項3において、 データベースに格納された複数のデータのうち、特定の
一次キーワードを含むデータ数を、当該一次キーワード
に対応して示す統計情報部と、 一次キーワード格納部に格納された一次キーワードのう
ち、合成語として判定された語が、前記統計情報部の一
次キーワードとして、予め決められたしきい値よりも高
いデータ数であった場合は、不要語として除去しない不
要語除去処理部とを備えたことを特徴とするキーワード
抽出装置。
13. The statistical information section according to claim 3, wherein the number of data including a specific primary keyword among a plurality of data stored in the database is stored in a primary keyword storage section corresponding to the primary keyword. In the case where the word determined as a compound word among the primary keywords thus determined has a data count higher than a predetermined threshold value as the primary keyword of the statistical information section, the unnecessary word not removed as an unnecessary word A keyword extraction device comprising a removal processing unit.
【請求項14】 請求項12または13において、 しきい値より高い場合とは、合成語として判定された語
の値が、この語を構成する基本語の値よりも高い場合で
あることを特徴とするキーワード抽出装置。
14. The method according to claim 12, wherein the case where the value is higher than the threshold value is a case where a value of a word determined as a compound word is higher than a value of a basic word constituting the word. Keyword extraction device.
JP9163257A 1997-06-04 1997-06-04 Key word extraction device and medium where control program is recorded Pending JPH10334102A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9163257A JPH10334102A (en) 1997-06-04 1997-06-04 Key word extraction device and medium where control program is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9163257A JPH10334102A (en) 1997-06-04 1997-06-04 Key word extraction device and medium where control program is recorded

Publications (1)

Publication Number Publication Date
JPH10334102A true JPH10334102A (en) 1998-12-18

Family

ID=15770367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9163257A Pending JPH10334102A (en) 1997-06-04 1997-06-04 Key word extraction device and medium where control program is recorded

Country Status (1)

Country Link
JP (1) JPH10334102A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015158833A (en) * 2014-02-25 2015-09-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Information processing device, method and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015158833A (en) * 2014-02-25 2015-09-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Information processing device, method and program
US9785726B2 (en) 2014-02-25 2017-10-10 International Business Machines Corporation Pattern matching based character string retrieval
US9916397B2 (en) 2014-02-25 2018-03-13 International Business Machines Corporation Pattern matching based character string retrieval
US9946812B2 (en) 2014-02-25 2018-04-17 International Business Machines Corporation Pattern matching based character string retrieval
US10007740B2 (en) 2014-02-25 2018-06-26 International Business Machines Corporation Pattern matching based character string retrieval
US10176274B2 (en) 2014-02-25 2019-01-08 International Business Machines Corporation Pattern matching based character string retrieval

Similar Documents

Publication Publication Date Title
JP4676181B2 (en) Full-form lexicon with tagged data and method for constructing and using tagged data
US9195738B2 (en) Tokenization platform
US5523945A (en) Related information presentation method in document processing system
JPH08272826A (en) Method and device for working document
KR100597513B1 (en) File processing method, data processing device and storage medium
JP2008108274A (en) Computer program for parsing text within corpus and recording medium therefor
JP3372532B2 (en) Computer-readable recording medium for emotion information extraction method and emotion information extraction program
JP2022069790A (en) Information processor, information processing method, and program
JP2007286742A (en) Document retrieval device
JP2002259363A (en) Method and device for working document cipher, document cipher working processing program and recording medium therefor
JPH09204437A (en) Document retrieval device
JPH10334102A (en) Key word extraction device and medium where control program is recorded
JP4116434B2 (en) Text processing method and calculation unit in calculation unit
JP4378106B2 (en) Document search apparatus, document search method and program
KR100452024B1 (en) Searching engine and searching method
JP2006004283A (en) Method and system for extracting/narrowing keyword from text information source
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP2002092017A (en) Concept dictionary extending method and its device and recording medium with concept dictionary extending program recorded thereon
JPH08190571A (en) Document retrieval method
JPH07134720A (en) Method and device for presenting relative information in sentence preparing system
JP3511724B2 (en) Document search method
JP2004152041A (en) Program, recording medium and apparatus for extracting key phrase
JP3627445B2 (en) Document search apparatus and storage medium storing document search program
JP2000305938A (en) Document information retrieving device and computer readable recording medium for allowing computer to have function of information retrieving device
JP2006106907A (en) Structured document management system, method for constructing index, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061226