JP2010040020A - Keyword extraction device, method, and program - Google Patents
Keyword extraction device, method, and program Download PDFInfo
- Publication number
- JP2010040020A JP2010040020A JP2008205896A JP2008205896A JP2010040020A JP 2010040020 A JP2010040020 A JP 2010040020A JP 2008205896 A JP2008205896 A JP 2008205896A JP 2008205896 A JP2008205896 A JP 2008205896A JP 2010040020 A JP2010040020 A JP 2010040020A
- Authority
- JP
- Japan
- Prior art keywords
- noun
- score
- keyword
- text
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、キーワード抽出装置、方法及びプログラムに関する。さらに、詳細には、データベースに蓄積されたデータあるいはインターネットを介して取得されるデータなど、様々な文書データの分類に有効なキーワードの効率的な抽出を可能としたキーワード抽出装置,方法及びプログラムに関する。 The present invention relates to a keyword extraction apparatus, method, and program. More particularly, the present invention relates to a keyword extraction apparatus, method, and program capable of efficiently extracting keywords effective for classification of various document data such as data stored in a database or data acquired via the Internet. .
パソコンやインターネットの普及、あるいは電子ファイリング技術の発展等に伴い、電子化された大量の文書データを利用可能な環境が整いつつあるが、一方で膨大な情報の中から重要なキーワードを自動的に抽出するシステムの必要性が生じている。 With the spread of personal computers and the Internet, and the development of electronic filing technology, an environment where a large amount of digitized document data can be used is being prepared. On the other hand, important keywords are automatically selected from a vast amount of information. There is a need for a system to extract.
データベースに蓄積された文書データあるいはインターネットを介して取得される文書データなどを分類する手法として、これまでに、様々な手法が提案されている。例えば、文書データに含まれる特徴となる複数のキーワードを選択し、その分布や出現位置などを解析し、この解析結果に基づいて分類を行う手法が広く知られている。 Various methods have been proposed so far to classify document data stored in a database or document data acquired via the Internet. For example, a technique is widely known in which a plurality of keywords that are features included in document data are selected, their distribution and appearance positions are analyzed, and classification is performed based on the analysis results.
文書データの分類処理を行う際に重要なのが、「分類を行うのに有効な単語」、すなわち、キーワードの選定である。従来から知られるキーワード選定手法を大きく分類すると、以下の(1)〜(3)の3つの手法に分類される。 What is important when performing document data classification processing is selection of “words effective for classification”, that is, keyword selection. Conventional keyword selection methods can be broadly classified into the following three methods (1) to (3).
(1)辞書データを用いるキーワード選定手法
辞書データを用いるキーワード選定手法は、あらかじめ文書データの分類に有効と考えられる単語群を辞書データとして登録し、登録された単語をキーワードとして用いる手法である。この辞書データをキーワードとして利用する手法は、例えば特許文献1、特許文献2に記載されている。
(1) Keyword selection method using dictionary data The keyword selection method using dictionary data is a method in which word groups that are considered to be effective for classifying document data are registered in advance as dictionary data, and the registered words are used as keywords. A method of using this dictionary data as a keyword is described in
(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法
分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法は、分類対象の文書データに含まれる文書の文法に基づいた形態素解析、あるいは独自の文法ルールによる解析を行い、その結果として抽出される単語をキーワードまたはその候補として用いる手法である。この手法は、例えば特許文献3、特許文献4に記載されている。
(2) Keyword selection method by grammatical analysis of documents included in document data to be classified The keyword selection method by grammatical analysis of documents included in document data to be classified is based on the grammar of documents included in the document data to be classified. Morphological analysis or analysis based on original grammatical rules, and a word extracted as a result is used as a keyword or a candidate thereof. This technique is described in Patent Document 3 and
(3)分類対象の文書データの総比較によるキーワード選定手法
分類対象の文書データの総比較によるキーワード選定手法は、分類対象とる様々な文書データ各々の総比較を行い、様々な単語の出現頻度やその組み合わせデータを解析し、その解析結果に基づいてキーワードまたはキーワード候補を抽出する手法である。この手法は、例えば特許文献5に記載されている。
(3) Keyword selection method based on total comparison of classification target document data The keyword selection method based on total comparison of classification target document data performs a total comparison of various document data to be classified, This is a method of analyzing the combination data and extracting keywords or keyword candidates based on the analysis result. This technique is described in
上述したように、キーワードの抽出手法としては、様々な手法が既に提案されている。しかし、例えば上述の「(1)辞書データを用いるキーワード選定手法」は、前提となる辞書を作成するのに専門的な知識と時間がかかる上に、作成された辞書は、想定外の分野の文章に関しては十分な効果をあげないという問題がある。例えば特定の専門分野、例えば医療や金融といった専門分野の文書の分類に有効なキーワードが不十分となったり、あるいは、新しく出現してきた単語に対する対応ができないといった問題がある。 As described above, various methods have already been proposed as keyword extraction methods. However, for example, the above-mentioned “(1) Keyword selection method using dictionary data” takes specialized knowledge and time to create a prerequisite dictionary, and the created dictionary is in an unexpected field. There is a problem that the text is not effective enough. For example, there are problems that keywords that are effective for classification of documents in a specific specialized field such as medical care and finance are insufficient, or that new words that appear cannot be handled.
また、「(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法」は、文法ルールを定型処理化するのに専門的な知識が必要である上に、想定外の言語や、文法的に成立しない自由形式の文章に対して十分な効果をあげないという問題点がある。 In addition, “(2) Keyword selection method by grammatical analysis of documents included in document data to be classified” requires specialized knowledge to standardize grammar rules, and it is not possible to There is a problem that it does not have a sufficient effect on free-form sentences that are not grammatically established.
さらに、「(3)分類対象の文書データの総比較によるキーワード選定手法」は、処理対象となる文書データ量が増えると、その比較の処理にかかる時間が指数的に増え、処理効率が低下するという問題があり、また、日本語であれば文書中に頻出する「です」「ます」など、分類に有効な単語以外の語句が抽出されてしまうといという問題点がある。
この問題点を解決しようとするアルゴリズムに、tf・idf(Term Frequency − Inverse Document Frequency、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズム)がある(後述する)。
Furthermore, in “(3) Keyword selection method based on total comparison of document data to be classified”, when the amount of document data to be processed increases, the time required for the comparison processing increases exponentially and processing efficiency decreases. In addition, there is a problem that phrases other than words that are effective for classification are extracted, such as “is” and “mass” that appear frequently in documents in Japanese.
As an algorithm for solving this problem, there is tf · idf (Term Frequency-Inverse Document Frequency, an algorithm for extracting characteristic words (words regarded as important) in a sentence) (described later).
本発明は、このような状況に鑑みてなされたものであり、上述した従来のキーワード抽
出手法における問題点を解決したキーワード抽出装置、方法及びプログラムを提供することを目的とする。
The present invention has been made in view of such a situation, and an object of the present invention is to provide a keyword extraction apparatus, method, and program that solve the problems in the conventional keyword extraction method described above.
具体的には、前提となる知識(辞書、文法データ)を使用せず、自由形式(含、多言語)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することを可能としたキーワード抽出サーバ及び方法及びプログラムを提供することを目的とする。 Specifically, it does not use prerequisite knowledge (dictionary, grammar data), can handle free-form (including multilingual) sentences, is capable of high-speed processing, and is effective for classification It is an object of the present invention to provide a keyword extraction server, method, and program capable of extracting only the keyword.
(1)入力されたテキストを句読点で分割する分割手段と、
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算手段と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断手段と、を備えることを特徴とするキーワード抽出装置。
(1) dividing means for dividing the input text by punctuation marks;
Morpheme extraction means for extracting morphemes from the divided parts divided by the dividing means;
Determining a part of speech for the morpheme extracted by the morpheme extraction unit, and extracting a morpheme determined to be a noun;
About the noun extracted by the noun extraction means, the number of characters of the noun, the appearance frequency of the noun in the text, the total number of sentences in the text, and how many sentences the noun appears over Calculating means for calculating a score as a keyword of the noun based on a ratio to the appearance frequency indicating
A keyword extracting device comprising: a determination unit that determines whether or not the noun is a keyword based on the score that is a result of the calculation.
(1)に係る発明によれば、入力されたテキストから名詞を抽出し、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの(テキスト中の)文に跨って出現したかを示す出現頻度との比を基にキーワードの判断を実行する。 According to the invention according to (1), a noun is extracted from the input text, the number of characters of the noun, the frequency of appearance of the noun in the text, the total number of sentences in the text and the number of nouns The keyword is determined based on the ratio to the appearance frequency indicating whether it has appeared across sentences (in the text).
このようにして、(1)に係る発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。 In this way, according to the invention according to (1), it is possible to handle free-form (including multilingual) sentences without using the prerequisite knowledge (dictionary, grammar data), and high-speed processing. Only words that are possible and effective for classification can be extracted.
すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。 That is, it is possible to quickly extract only keywords that are important clues for elucidating the problem and understanding the contents, and that are effective as words used as clues for information retrieval.
(2)前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記スコアとすることを特徴とする(1)に記載のキーワード抽出装置。 (2) The calculation means includes the number of characters of the noun or a logarithm calculation value around the number of characters of the noun, the appearance frequency of the noun in the text, the total number of sentences in the text, and how many nouns the sentence includes (1) The keyword extracting device according to (1), wherein a value obtained by multiplying a ratio with an appearance frequency indicating whether or not it has appeared or a logarithm operation value of a number before and after the ratio is used as the score.
(2)に係る発明によれば、(1)において抽出した名詞について、名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を基にキーワードの判断を実行する。 According to the invention according to (2), for the noun extracted in (1), the number of characters of the noun or the logarithm calculation value before and after the number of characters of the noun, the appearance frequency of the noun in the text, the sentence in the text The determination of the keyword is executed based on a value obtained by multiplying the ratio between the total number and the appearance frequency indicating how many sentences the noun appears over or the logarithm operation values of the numbers before and after the ratio.
このようにして、(2)に係る発明によれば、文字数、対数演算、テキスト中での名詞の出現頻度、文の総数および比の演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。 In this way, according to the invention according to (2), the calculation method is a simple calculation of calculating the number of characters, logarithmic calculation, noun appearance frequency in the text, total number of sentences, and ratio, and having a small number of calculations. Since keywords can be extracted based on this, a keyword extraction server that can handle free-form (including multilingual) sentences without using the prerequisite knowledge (dictionary, grammar data), and provides high-speed processing is provided. It becomes possible to do.
(3)インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
前記判断手段によって前記キーワードであると判断された前記名詞の中で最も前記スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(1)または(2)に記載のキーワード抽出装置。
(3) a character information database storing character information transmitted and received on the Internet;
Selecting means for selecting a maximum score noun with the highest score among the nouns determined to be the keyword by the determining means;
The maximum score noun and the noun are searched in the character information database, and the search number of the maximum score noun, the search number of the noun, and the search number including both the maximum score noun and the noun are searched and investigated. Search means to
A correction coefficient calculating means for calculating a correction coefficient based on the search number of the maximum score noun, the search number of the noun and the search number including both the maximum score noun and the noun;
Correction score calculation means for calculating a correction score based on the correction coefficient and the score calculated by the calculation means;
The keyword extracting device according to (1) or (2), wherein the determining means determines whether or not the noun is a keyword based on the correction score.
(3)に係る発明によれば、前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し、それらの検索件数に基づいて、(1)に係わるキーワード候補となった名詞について補正を実行する。 According to the invention according to (3), the maximum score noun and the noun are searched in the character information database, the search number of the maximum score noun, the search number of the noun, and both the maximum score noun and the noun Are searched, and nouns that have become keyword candidates related to (1) are corrected based on the number of searches.
このようにして、(3)に係る発明によれば、補正係数(スコアB)の効果(スコア(スコアA)の値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数(スコアB)が大きくなり、スコアAの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数(スコアB)が小さくなる。)によって、キーワード性が低い語は、補正スコア(スコアC)が小さな値となり、キーワードとして判断されないように適切に演算処理されることが可能となる。 Thus, according to the invention according to (3), the effect of the correction coefficient (score B) (if the relevance with the maximum score noun with the largest score (score A) value is high, the correction coefficient ( If the score B) is large and the relevance to the largest score noun with the largest value of score A is small, the correction coefficient (score B) is small. The score C) becomes a small value and can be appropriately calculated so as not to be determined as a keyword.
(4)前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
前記判断手段は、前記補正スコアと前記スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(3)に記載のキーワード抽出装置。
(4) The correction coefficient calculation means performs a division operation on the number of searches including both the maximum score noun and the noun by a square root of a multiplication calculation value of the search number of the maximum score noun and the search number of the noun. The value is the corrected score,
The keyword extraction device according to (3), wherein the determination unit determines whether or not the noun is a keyword based on a multiplication operation value of the correction score and the score.
(4)に係る発明によれば、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値に基づいて前記名詞をキーワードとするか否かを判断することを実行する。 According to the invention of (4), the number of searches including both the maximum score noun and the noun is divided by the square root of the multiplication value of the search number of the maximum score noun and the search number of the noun. Based on the value, it is determined whether or not to use the noun as a keyword.
このようにして、(4)に係る発明によれば、検索件数と検索件数文字数、乗算演算、平方根演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。 Thus, according to the invention according to (4), keywords can be extracted based on a calculation method that is a simple calculation such as the number of searches, the number of search characters, the multiplication operation, and the square root operation, and the number of operations is small. Therefore, it is possible to provide a keyword extraction server that can handle free-form (including multilingual) sentences without using knowledge (dictionary, grammar data).
(5)入力されたテキストを句読点で分割する分割工程と、
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算工程と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断工程と、を備えることを特徴とするキーワード抽出方法。
(5) a dividing step of dividing the input text with punctuation marks;
A morpheme extraction step of extracting morphemes of the divided parts divided in the division step;
Determining a part of speech for the morpheme extracted in the morpheme extraction step, and extracting a morpheme determined as a noun;
About the noun extracted in the noun extraction step, the number of characters of the noun, the appearance frequency of the noun in the text, and the total number of sentences in the text and how many sentences the noun appears over A calculation step of calculating a score as a keyword of the noun based on a ratio with an appearance frequency indicating:
And a determination step of determining whether or not to use the noun as a keyword based on the score that is a result of the calculation.
(1)に係る発明によれば、入力されたテキストから名詞を抽出し、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの(テキスト中の)文に跨って出現したかを示す出現頻度との比を基にキーワードの判断を実行する。 According to the invention according to (1), a noun is extracted from the input text, the number of characters of the noun, the frequency of appearance of the noun in the text, the total number of sentences in the text and the number of nouns The keyword is determined based on the ratio to the appearance frequency indicating whether it has appeared across sentences (in the text).
このようにして、(1)に係る発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。 In this way, according to the invention according to (1), it is possible to handle free-form (including multilingual) sentences without using the prerequisite knowledge (dictionary, grammar data), and high-speed processing. Only words that are possible and effective for classification can be extracted.
すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。 That is, it is possible to quickly extract only keywords that are important clues for elucidating the problem and understanding the contents, and that are effective as words used as clues for information retrieval.
(6)(5)に記載の方法をコンピュータに実行させることを特徴とするプログラム。 (6) A program that causes a computer to execute the method according to (5).
このような構成によれば、当該プログラムをコンピュータに実行させることにより、(5)と同様の効果が期待できる。 According to such a configuration, the same effect as in (5) can be expected by causing the computer to execute the program.
本発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。 According to the present invention, premise knowledge (dictionary, grammar data) is not used, it is possible to deal with free-form (including multilingual) sentences, high-speed processing is possible, and effective for classification. Only words can be extracted. That is, it is possible to quickly extract only keywords that are important clues for elucidating the problem and understanding the contents, and that are effective as words used as clues for information retrieval.
以下、本発明の実施形態について図を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[システム全体構成]
図1には、本実施形態に係るキーワード抽出サーバ10と、ユーザ端末30とから構成される情報処理システム1を示す。なお、図1においては、情報処理システム1は、キーワード抽出サーバ10と、ユーザ端末30とがそれぞれ一つずつで示されているが、これに限られず、それぞれ複数台で構成されていても良い。
[Entire system configuration]
FIG. 1 shows an
キーワード抽出サーバ10は、図2に示すように、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されても良い)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。なお、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
As shown in FIG. 2, the
制御部300は、キーワード抽出サーバ10を統括的に制御する部分であり、ハードディスク370に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The
通信I/F330は、キーワード抽出サーバ10が、ネットワークを介してユーザ端末30等の他の装置と情報を送受信する場合のネットワーク・アダプタである。
The communication I /
BIOS350は、キーワード抽出サーバ10の起動時にCPU310が実行するブートプログラムや、キーワード抽出サーバ10のハードウェアに依存するプログラム等を記録する。
The
I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。
A
ハードディスク370は、本ハードウェアをキーワード抽出サーバ10として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル等を記憶する。なお、キーワード抽出サーバ10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
The
光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラム又はデータを読み取り、I/Oコントローラ360を介してメインメモリ340又はハードディスク370に提供することもできる。
As the
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、キーワード抽出サーバ10は、記憶装置410、制御部300等を備えた情報処理装置により構成される。
The computer in the present invention refers to an information processing apparatus including a storage device, a control unit, and the like, and the
また、本発明に係るキーワード抽出サーバ10は、上述のような構成を有することにより、ユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有している。
In addition, the
ここで、当該機能を発揮するための構成について、図3に示す機能ブロック図を用いて説明する。キーワード抽出サーバ10は、分割部11と、形態素抽出部12と、名詞抽出部13と、判断部15と、選択部16と、検索部17と、補正係数演算部18、補正スコア演算部19と、文字情報データベース(DB)20とを備える。
Here, a configuration for exhibiting the function will be described with reference to a functional block diagram shown in FIG. The
分割部11は、ユーザ端末30から直接入力されたテキスト、文字情報データベース20に既に記憶されているテキスト、放送局(図示せず)において放送された番組の中で発せられた音声情報に基づいて作成された文字情報としてのテキスト、音声情報として入力された情報を音声分析して文字情報化したテキスト、画像情報から作成されたテキスト(OCR等含む)等のテキスト(英語、日本語等の言語の種類には限定されない)を句読点等の区切り記号で分割する機能を有する。
The dividing
形態素抽出部12は、分割部11により分割された分割部分について形態素を抽出する。形態素の抽出には形態素解析手法を利用する。例えば、tf・idf(Term Frequency − Inverse Document Frequency、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズム)の一部のアルゴリズムを利用して文字情報から複数の形態素を抽出する機能を有する。
The
名詞抽出部13は、形態素抽出部12により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する機能を有する。
The
判断部15は、名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する機能を有する。
For the noun extracted by the noun extracting means, the
具体的には、名詞wに関するスコアAをスコアA(w)とすると
演算部14は式(1)に基づいてスコアAを演算する。
Specifically, if the score A for the noun w is the score A (w)
The
判断部15は、演算部14における式(1)演算の結果であるスコアAに基づいて、名詞wをキーワードとするか否かを判断する機能を有する。
判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能である。
The
The determination criterion can be set in advance to an arbitrary value. An arbitrary value can be determined by repeating trial and error.
ここで抽出するキーワードは、問題の解明や内容を理解する上で、重要な手がかりとなる語である。また、情報検索においては検索の手がかりとして使用する語句となるものである。 The keywords extracted here are important clues for elucidating the problem and understanding the contents. Also, in information retrieval, it is a phrase used as a clue for retrieval.
選択部16は、判断部15によってキーワードであると判断された名詞の中で最もスコアが大きい最大スコア名詞を選択する機能を有する。
The
検索部17は、最大スコア名詞と名詞抽出部13において抽出された名詞とをキーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず)において検索し、最大スコア名詞の検索件数、名詞の検索件数および最大スコア名詞および名詞の両方が含まれる検索件数とを検索し調査する機能を有する。
The
補正係数演算部18は、最大スコア名詞の検索件数、名詞の検索件数および最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する機能を有する。
The correction
具体的には、名詞wに関する補正係数BをスコアB(w)とすると
補正スコア演算部19は、補正係数と演算部14において演算されたスコアとに基づいて、補正スコアを演算する機能を有する。
The correction
具体的には、名詞wに関するスコアAをスコアA(w)、名詞wに関する補正係数BをスコアB(w)、名詞wに関する補正スコアを補正スコアC(w)とすると、
判断部15は、補正スコアに基づいて、前記名詞をキーワードとするか否かを判断する。判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能であり、以下に記述する本実施形態では、一例として10を基準に10よりも大きいスコアAを持つ名詞をキーワードと判断することも可能である。
Based on the corrected score, the
このような構成によれば、本発明に関わるキーワード抽出サーバ10はユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数(検索によってヒットした件数)による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。
According to such a configuration, the
すなわち、従来技術の一例であるtf・idfと比較した場合に、tf・idfではキーワード性が高い単語であっても、他の記事によく出現すればキーワード候補の名詞としてのスコアが小さくなってしまうというtf・idfの欠点を本発明では効率よく補正することができるという有利な効果がある。 That is, when compared with tf · idf, which is an example of the prior art, even if a word has high keyword characteristics in tf · idf, if it appears frequently in other articles, the score as a keyword candidate noun will decrease. The present invention has an advantageous effect that the defect of tf · idf can be corrected efficiently.
また、従来技術の一例であるtf・idfと比較した場合に、tf・idfではキーワード性が低くなってしまう名詞であっても、他の記事にあまり出現しなければスコアが大きくなってしまうというtf・idfの欠点を本発明では効率よく補正することができるという有利な効果がある。 In addition, when compared with tf · idf, which is an example of the prior art, even if a noun has low keyword characteristics in tf · idf, the score will increase unless it appears in other articles. In the present invention, there is an advantageous effect that the defect of tf · idf can be corrected efficiently.
[処理手順]
ここで、本発明を適用した場合において実現され得る具体的な処理手順について、図4に示すフローチャートを参照して説明する。なお、以下に示す処理手順は、一例であってこれ以外にも実現され得る処理手順は無数に存在する。
[Processing procedure]
Here, a specific processing procedure that can be realized when the present invention is applied will be described with reference to a flowchart shown in FIG. The processing procedure shown below is an example, and there are innumerable processing procedures that can be realized in addition to this.
ステップS1において、キーワード抽出サーバ10の分割部11は、ユーザ端末30から直接入力されたテキスト、文字情報データベース20に既に記憶されているテキスト、その他外部機器(図示せず)から入力されたテキスト(英語、日本語等の言語の種類には限定されない)を句読点等の区切り記号で分割する。
In step S <b> 1, the dividing
ステップS2において、キーワード抽出サーバ10の形態素抽出部12は分割部11により分割された分割部分から意味をもった最小の音形である形態素を抽出する。
In step S <b> 2, the
ステップS3において、キーワード抽出サーバ10の名詞抽出部13は、形態素抽出部12によって抽出された形態素についてその形態素が名詞であるか否かを判定し、名詞であると判定された形態素を抽出する。
In step S3, the
ステップS4において、キーワード抽出サーバ10の演算部14は、ステップS3において抽出された名詞である形態素についてキーワードになり得るかの判断基準を示すスコアAを演算する。
In step S4, the
スコアAは上述した式(1)に基づいて演算される。 The score A is calculated based on the above-described equation (1).
ステップS5において、ステップS4において演算されたスコアAが予め定められた値よりも大きい場合には、キーワード抽出サーバ10の判断部15は、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断する。一例として、スコアAの値が10前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断することが可能である。
In step S5, when the score A calculated in step S4 is larger than a predetermined value, the
ステップS6において、キーワード抽出サーバ10の選択部16は、ステップS5において判断されたキーワードの中で最もスコアAの値が大きい最大スコア名詞を選択する。
In step S6, the
ステップS7において、キーワード抽出サーバ10の検索部17は、ステップS6において選択された最大スコア名詞について、文字情報データベース20において検索を実行し、ヒット件数を最大スコア名詞の検索件数(|WmaxA|)とする。また、他のキーワード候補の名詞(W)について、文字情報データベース20において検索を実行し、ヒット件数をキーワード候補名詞の検索件数(|W|)とする
In step S7, the
さらに、キーワード抽出サーバ10の検索部17は、最大スコア名詞および他のキーワード候補名詞の両方が含まれる情報を文字情報データベース20において検索し、ヒットする検索件数(|WmaxA&W|)を求める。
Further, the
ステップS8において、キーワード抽出サーバ10の補正係数演算部18は、ステップS7において検索された|WmaxA|、|W|および|WmaxA&W|に基づいてスコアAの補正係数(スコアB(w))を演算する。補正係数(スコアB(w))は上述した式(2)に基づいて演算される。
In step S8, the correction
ステップS9において、キーワード抽出サーバ10の補正スコア演算部19は、ステップS8において演算された補正係数(スコアB(w))とステップS4において演算されたスコアA(w)とに基づいて、名詞wに関する補正スコアである補正スコアC(w)を演算する。
In step S9, the correction
ステップS10において、キーワード抽出サーバ10の判断部15は、ステップS9において演算された名詞wに関する補正スコアC(w)が予め定められた値よりも大きい場合には、その補正スコアC(w)の値を示すワード(名詞)をキーワードと判断する。一例として、補正スコアC(w)の値が10前後よりも大きい場合に、その補正スコアC(w)の値を示すワード(名詞)をキーワードと判断することが可能である。
In step S10, when the correction score C (w) regarding the noun w calculated in step S9 is larger than a predetermined value, the
このような構成によれば、本発明に関わるキーワード抽出サーバ10はユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数(検索によってヒットした件数)による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。
According to such a configuration, the
[キーワードの特定方法]
また、キーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図5に示されるように以下の文章の場合に名詞抽出部13で抽出された名詞「デジカメ」、「カメラ」、「大写し」および「グニャン」について本実施形態による補正スコアC(w)、スコアA(w)、スコアB(w)および従来技術の一例であるtf・idfスコアについて演算過程を図6に示し、演算結果を図7に示し説明する。
[Keyword identification method]
An example of a keyword specifying method will be described below. For example, when the input text is the following sentence as shown in FIG. 5, the nouns “digital camera”, “camera”, “large copy”, and “Gunyan” extracted by the
以上の入力されたテキストからキーワード抽出サーバ10が、キーワード候補として判断した名詞が「デジカメ」、「カメラ」、「大写し」および「グニャン」である場合について演算過程を示した図6を参照しつつ説明する。
With reference to FIG. 6 showing the calculation process in the case where the nouns determined by the
キーワード候補として判断した名詞が「デジカメ」の場合に、スコアA(w)を求めようとする場合には、log(|デジカメ|+1)*tf(デジカメ)*log(N/(sf(デジカメ)+1))を演算する必要がある(式(1)より)。 When the noun determined as the keyword candidate is “digital camera”, if the score A (w) is to be obtained, log (| digital camera | +1) * tf (digital camera) * log (N / (sf (digital camera) +1)) must be calculated (from equation (1)).
式中、|デジカメ|は単語デジカメの文字数であるので、上記入力されたテキストから4となり、log(|デジカメ|+1)はlog(5)となる。 In the equation, | digital camera | is the number of characters of the word digital camera, so it becomes 4 from the input text, and log (| digital camera | +1) becomes log (5).
また、tf(デジカメ)は単語デジカメのテキスト中での出現頻度(テキスト中に何回出現したかを示す)ので、上記入力されたテキストから4となり、tf(デジカメ)は4となる。 Also, tf (digital camera) is the frequency of appearance of the word digital camera in the text (indicating how many times it appears in the text), so it becomes 4 from the input text, and tf (digital camera) becomes 4.
さらに、sf(デジカメ)は単語デジカメの文中での出現頻度(いくつの文に跨って出現したかを示す)を示すので、上記入力されたテキストからsf(デジカメ)は4となる。また、Nはテキスト中の文の総数を示すので、上記入力されたテキストからNは22となる。 Furthermore, since sf (digital camera) indicates the appearance frequency in the sentence of the word digital camera (indicating how many sentences have appeared), sf (digital camera) is 4 from the input text. Since N indicates the total number of sentences in the text, N is 22 from the input text.
したがって、log(デジカメ/(sf(デジカメ)+1))は、log(22/(4)+1))となる。 Therefore, log (digital camera / (sf (digital camera) +1)) becomes log (22 / (4) +1)).
以上の結果、スコアA(デジカメ)の値は12.0502になる。一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、デジカメは上記入力されたテキストのキーワードとすることができる。 As a result, the value of score A (digital camera) is 12.0502. As an example, if the value of score A is greater than around 6, if a word (noun) that is a morpheme indicating the value of score A is determined as a keyword, the digital camera may be a keyword of the input text. it can.
次に、キーワード候補として判断した名詞が「グニャン」の場合に、スコアA(w)を求めようとする場合には、デジカメの場合と同様にlog(|グニャン|+1)*tf(グニャン)*log(N/(sf(グニャン)+1))を演算する必要がある(式(1)より)。 Next, in the case where the noun determined as the keyword candidate is “Gunyan” and the score A (w) is to be obtained, log (| Gunyan | +1) * tf (Gunyan) * as in the case of the digital camera. log (N / (sf (Gnyan) +1)) needs to be calculated (from equation (1)).
式中、|グニャン|は単語デジカメの文字数であるので、上記入力されたテキストから4となり、log(|グニャン|+1)はlog(5)となる。 In the formula, | Gunyan | is the number of characters of the word digital camera, so it becomes 4 from the input text, and log (| Gunyan | +1) becomes log (5).
また、tf(グニャン)は単語デジカメのテキスト中での出現頻度(テキスト中に何回出現したかを示す)ので、上記入力されたテキストから2となり、tf(グニャン)は2となる。 Also, tf (Gunyan) is the frequency of appearance of the word digital camera in the text (indicating how many times it appears in the text), so it becomes 2 from the input text, and tf (Gunyan) becomes 2.
さらに、sf(グニャン)は単語デジカメの文中での出現頻度(いくつの文に跨って出現したかを示す)を示すので、上記入力されたテキストからsf(グニャン)は1となる。また、Nはテキスト中の文の総数を示すので、上記入力されたテキストからNは22となる。 Furthermore, since sf (Gunyan) indicates the appearance frequency in the sentence of the word digital camera (indicating how many sentences have appeared), sf (Gunyan) is 1 from the input text. Since N indicates the total number of sentences in the text, N is 22 from the input text.
したがって、log(グニャン/(sf(グニャン)+1))は、log(22/(1)+1))となる。 Therefore, log (Gnyan / (sf (Gnyan) +1)) becomes log (22 / (1) +1)).
以上の結果、スコアA(グニャン)の値は10.0928になる。一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、グニャンは上記入力されたテキストのキーワードとすることができる。 As a result, the value of score A (Gunyan) is 10.0928. As an example, if the score A is greater than about 6, and if a word (noun) that is a morpheme indicating the value of the score A is determined as a keyword, Gunyan may be used as a keyword for the input text. it can.
同様に、キーワード候補として判断した名詞が「カメラ」の場合には、スコアA(カメラ)の値は6.8896になり、キーワード候補として判断した名詞が「大写し」の場合には、スコアA(大写し)の値は4.3467になる。 Similarly, when the noun determined as the keyword candidate is “camera”, the value of the score A (camera) is 6.8896, and when the noun determined as the keyword candidate is “large copy”, the score A ( The value of (large copy) is 4.3467.
一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、「カメラ」および「大写し」は上記入力されたテキストのキーワードとはなりにくい。 As an example, if the value of score A is greater than about 6, and if a word (noun) that is a morpheme indicating the value of score A is determined as a keyword, “camera” and “large copy” are the texts input above It's hard to be a keyword.
また、スコアAだけの場合であっても、「デジカメ」のスコアAの値が、「グニャン」のスコアAの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。 Even in the case of only score A, the value of score A of “digital camera” is larger than the value of score A of “Gunyan”, and “digital camera” is easily determined as an appropriate keyword. Yes.
次に、名詞「デジカメ」および名詞「グニャン」の補正係数(スコアB)を演算する。 Next, the correction coefficient (score B) of the noun “digital camera” and the noun “Gunyan” is calculated.
スコアB(w)は|WmaxA&W|と(|WmaxA|*|W|)1/2との除算演算によって求められる((式2)より)。 The score B (w) is obtained by a division operation of | WmaxA & W | and (| WmaxA | * | W |) 1/2 (from (Equation 2)).
式中、WmaxAはスコアAが最も大きい名詞「デジカメ」を示し、|WmaxA&W|は「デジカメ」と名詞「デジカメ」または名詞「グニャン」とのAND検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|WmaxA|は名詞「デジカメ」の単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|W|は名詞「デジカメ」または名詞「グニャン」の単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示す。
In the formula, WmaxA indicates the noun “digital camera” having the highest score A, and | WmaxA & W | indicates an AND search of “digital camera” and the noun “digital camera” or the noun “Gunyan” (character information database (DB ) 20 or the number of hits in the external character information DB (not shown), and | WmaxA | is a single search for the noun “digital camera” (from the character information database (DB) 20 with the
名詞「デジカメ」の場合には、|WmaxA&W|と(|WmaxA|*|W|)1/2とは同じ値となるので、スコアB(デジカメ)は1となる(図6および図7参照)。 In the case of the noun “digital camera”, | WmaxA & W | and (| WmaxA | * | W |) 1/2 have the same value, so the score B (digital camera) is 1 (see FIGS. 6 and 7). .
名詞「グニャン」の場合には、|WmaxA&W|すなわち|デジカメ&グニャン|が24件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|グニャン|が727件ヒットした。 In the case of the noun “Gunyan”, | WmaxA & W |, ie | digital camera & Gunyan |, 24 hits, | WmaxA |, | digital camera |, 113,000,000 hits, | W | Hit.
その結果、名詞「グニャン」のスコアB(グニャン)は24/(113,000,000*727)1/2となり、おおよそ0.0001となる(図6および7参照)。 As a result, the score B (Gunyan) of the noun “Gunyang” is 24 / (113,000,000 * 727) 1/2 , which is approximately 0.0001 (see FIGS. 6 and 7).
同様に名詞「カメラ」の場合には、|WmaxA&W|すなわち|デジカメ&カメラ|が40,8000,000件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|カメラ|が310,000,000件ヒットした。 Similarly, in the case of the noun “camera”, | WmaxA & W |, ie | digital camera & camera |, hits 408,000,000, | WmaxA |, ie | digital camera | hits 113,000,000, and | W | That is, | camera | was hit 310,000,000.
その結果名詞「カメラ」のスコアB(カメラ)は40,800,000/(113,000,000*310,000,000)1/2となり、おおよそ0.2141となる(図6および図7参照)。 As a result, the score B (camera) of the noun “camera” is 40,800,000 / (113,000,000 * 310,000,000) 1/2 , which is approximately 0.2141 (see FIGS. 6 and 7). ).
同様に名詞「大写し」の場合には、|WmaxA&W|すなわち|デジカメ&大写し|が32,800件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|大写し|が333,000件ヒットした。 Similarly, in the case of the noun “large copy”, | WmaxA & W |, ie, | digital camera & large copy | hits 32,800 hits, | WmaxA |, ie | digital camera | hits 113,000,000, and | W | Large photo | has hit 333,000 hits.
その結果名詞「大写し」のスコアB(カメラ)は32,800/(113,000,000*333,000)1/2となり、おおよそ0.0056となる(図6および図7参照)。 As a result, the score B (camera) of the noun “large copy” is 32,800 / (113,000,000 * 333,000) 1/2 , which is approximately 0.0056 (see FIGS. 6 and 7).
次に、これらの結果から、補正スコア(スコアC)を演算する。 Next, a corrected score (score C) is calculated from these results.
補正スコア(スコアC)は式(3)で示されるように、補正係数(スコアB)とスコアAとを乗算演算した値であるので、名詞「デジカメ」の補正スコア(スコアC(デジカメ))は、12.0502*1=12.0502となり、名詞「カメラ」の補正スコア(スコアC(カメラ))は、6.8896*0.2141=1.4751となり、名詞「大写し」の補正スコア(スコアC(大写し))は、4.3467*0.0056=0.0243となり、名詞「グニャン」の補正スコア(スコアC(グニャン))は、10.0928*0.0001=0.001となる(図6及び図7参照)。 Since the correction score (score C) is a value obtained by multiplying the correction coefficient (score B) and the score A as shown in the equation (3), the correction score of the noun “digital camera” (score C (digital camera)) Is 12.0502 * 1 = 12.0502, and the correction score (score C (camera)) of the noun “camera” is 6.8896 * 0.2141 = 1.4751 and the correction score of the noun “large copy” ( The score C (large copy)) is 4.3467 * 0.0056 = 0.0243, and the correction score (score C (Gunyan)) of the noun “Gunyang” is 10.0928 * 0.0001 = 0.001. (See FIGS. 6 and 7).
これらの結果、スコアA単独の値でキーワードを判断しようとした場合には、名詞「デジタルカメラ」のスコアA(デジタルカメラ)値と名詞「グニャン」のスコアA(グニャン)値は大きな値(例えば10以上)となるので、名詞「デジタルカメラ」と名詞「グニャン」とがキーワードとして判断される可能性があった。 As a result, when trying to determine a keyword based on the value of the score A alone, the score A (digital camera) value of the noun “digital camera” and the score A (gunyan) value of the noun “Gunyan” are large values (for example, Therefore, there is a possibility that the noun “digital camera” and the noun “Gunyan” are judged as keywords.
しかし、補正係数(スコアB)によれば、名詞「グニャン」のスコアB(グニャン)値は、0.0001と非常に小さくなり、キーワードとしては不適切であることを補正係数(スコアB)によって、数字で的確に示すことが可能となった。 However, according to the correction coefficient (score B), the score B (Gunyan) value of the noun “Gunyang” is as very small as 0.0001, and the correction coefficient (score B) indicates that it is inappropriate as a keyword. , It became possible to indicate accurately with numbers.
この結果、補正スコア(スコアC)によって、キーワードとして適切と考えられる名詞「デジカメ」の補正スコア(スコアC)値が大きな値(例えば10以上)となる。したがって、数式と検索による高速な処理が可能となる補正スコア(スコアC)によって、分類に有効な名詞(キーワード)のみを容易に抽出することができるキーワード抽出サーバ及び方法及びプログラムを提供することができる。 As a result, the correction score (score C) has a large correction score (score C) value (for example, 10 or more) for the noun “digital camera” that is considered appropriate as a keyword. Therefore, it is possible to provide a keyword extraction server, method, and program capable of easily extracting only nouns (keywords) effective for classification using a correction score (score C) that enables high-speed processing by mathematical formulas and search. it can.
また、tf(Term Frequency)・idf(Inverse Document Frequency)の値を図7に参考として示す。 Further, values of tf (Term Frequency) · idf (Inverse Document Frequency) are shown in FIG. 7 for reference.
tfは、あるターム(本実施形態においては、名詞「デジカメ」、「カメラ」、「大写し」、「グニャン」を示す)が文書に高い頻度で出現すればそのタームはその文書を特徴付ける単語と考えられることからtfの値は大きくなる(その文書中での出現頻度を示す。) tf is considered to be a word that characterizes the term if a certain term (in this embodiment, the nouns “digital camera”, “camera”, “large copy”, “Gunyan”) appear in the document at a high frequency. Therefore, the value of tf becomes large (indicating the appearance frequency in the document).
また、idfは、文書の頻度を示す。前述のtfが大きければそのタームが重要な意味を持つが、例えば「こと」というような名詞は文書中に比較的に高頻度で出現するが特定の文書を特徴付けることにはならない。従って、複数の文書におけるそのタームの出現頻度df(Document Frequency)の逆数(idf)をとって、dfの値が小さいもの(文書を特徴付けるタームである可能性が高い)ほどidfが大きくなるようにし、文書を特徴付ける単語を抽出するようにする。 Idf indicates the frequency of the document. If tf is large, the term has an important meaning. For example, a noun such as “ko” appears relatively frequently in a document but does not characterize a specific document. Therefore, by taking the reciprocal (idf) of the appearance frequency df (Document Frequency) of the term in a plurality of documents, the smaller the value of df (the more likely the term characterizing the document), the larger the idf. Extract words that characterize the document.
具体的には、下記式(4)で演算される。
ここで、名詞「デジカメ」の場合にはtf(デジカメ)が4となり、df(デジカメ)が97,200,000となり、Nが19,200,000,000(Web文書の総数とみなされる数)となるので、tf・idf値は21.1638になる。 Here, in the case of the noun “digital camera”, tf (digital camera) is 4, df (digital camera) is 97,200,000, and N is 19,200,000,000 (the number considered as the total number of Web documents). Therefore, the tf · idf value is 21.1638.
また、名詞「グニャン」の場合にはtf(グニャン)が2となり、df(グニャン)が727となり、Nが19,200,000,000(Web文書の総数とみなされる数))となるので、tf・idf値は34.1785になる。 In the case of the noun “Gunyang”, tf (Gunyan) is 2, df (Gunyan) is 727, and N is 19,200,000,000 (the number considered as the total number of Web documents)). The tf · idf value is 34.1785.
同様に、名詞「大写し」の場合にはtf・idf値は10.5224になり、名詞「カメラ」の場合にはtf・idf値は8.5419となる。 Similarly, in the case of the noun “large copy”, the tf · idf value is 10.5224, and in the case of the noun “camera”, the tf · idf value is 8.5419.
ここで、「カメラ」と「大写し」とを比較すると、tf・idfでは、「カメラ」のようにキーワード性が高い語であっても、他の記事(文書)によく出現するために、低いスコア(値)になっていることがわかる。 Here, when “camera” and “large copy” are compared, tf · idf is low because even if it is a word with high keyword characteristics such as “camera”, it frequently appears in other articles (documents). It turns out that it is a score (value).
また、tf・idfでは、「大写し」のようにキーワード性が低い語であっても、他の記事(文書)にはあまり出現しないために、高いスコア(値)になっていることがわかる。 In addition, in tf · idf, even a word with low keywordity such as “large copy” does not appear so much in other articles (documents), so it can be seen that it has a high score (value).
しかし、本実施形態では、「カメラ」と「大写し」を比較した場合には、「カメラ」の方が高いスコア(「カメラ」の補正スコア(スコアC(カメラ)は8.54、「大写し」の補正スコア(スコアC(大写し)は0.02)となっていて、キーワード候補が適切に判断されていることが確認される。 However, in this embodiment, when “camera” and “large copy” are compared, the score of “camera” is higher (the correction score of “camera” (score C (camera) is 8.54, “large copy”). The correction score (score C (large copy) is 0.02) is confirmed, and it is confirmed that the keyword candidates are appropriately determined.
さらに、tf・idfでは、「グニャン」のようにキーワード性が低い語であっても、他の記事(文書)にあまり出現しないために、高いスコア(値)になっていることがわかる。 Furthermore, it can be seen that tf · idf has a high score (value) because it does not appear much in other articles (documents) even if it is a low keyword word such as “Gunyan”.
しかし、本実施形態では、補正係数(スコアB)の効果(スコアAの値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数(スコアB)が大きくなり、スコアAの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数(スコアB)が小さくなる。)によって、「グニャン」のようにキーワード性が低い語は、補正スコア(スコアC)が小さな値となって、キーワードとして判断されないように適切に演算処理される。 However, in the present embodiment, the effect of the correction coefficient (score B) (when the relevance with the largest score noun with the highest score A value is high, the correction coefficient (score B) increases and the value of the score A When the relevance to the maximum score noun with the largest is small, the correction coefficient (score B) is small.) As a result, a word with low keywordity such as “Gunyan” has a small correction score (score C). A value is appropriately calculated so as not to be determined as a keyword.
また、スコアAだけの場合であっても、「デジカメ」のスコアAの値が、「グニャン」のスコアAの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。
[他のキーワードの特定方法]
Even in the case of only score A, the value of score A of “digital camera” is larger than the value of score A of “Gunyan”, and “digital camera” is easily determined as an appropriate keyword. Yes.
[How to identify other keywords]
さらに、他のキーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図8に示される文章の場合に名詞抽出部13で抽出された名詞「地震」、「災害」、「震度」および「余震」について本実施形態によるスコアA(w)、補正係数であるスコアB(w)、補正スコアであるスコアC(w)について演算し、その演算結果について説明する。
Furthermore, an example of another keyword specifying method will be described below. For example, in the case where the input text is the sentence shown in FIG. 8, the score A (w) according to the present embodiment for the nouns “earthquake”, “disaster”, “seismic intensity”, and “aftershock” extracted by the
キーワード候補として判断した名詞が「災害」の場合には、スコアA(w)は3.54、補正係数(スコアB)は0.29、補正スコア(スコアC)は1.03となる。 When the noun determined as the keyword candidate is “disaster”, the score A (w) is 3.54, the correction coefficient (score B) is 0.29, and the correction score (score C) is 1.03.
また、キーワード候補として判断した名詞が「地震」の場合には、スコアA(w)は7.24、補正係数(スコアB)は1.0、補正スコア(スコアC)は7.24となる。 When the noun determined as the keyword candidate is “earthquake”, the score A (w) is 7.24, the correction coefficient (score B) is 1.0, and the correction score (score C) is 7.24. .
また、キーワード候補として判断した名詞が「震度」の場合には、スコアA(w)は3.54、補正係数(スコアB)は0.27、補正スコア(スコアC)は0.94となる。 When the noun determined as the keyword candidate is “seismic intensity”, the score A (w) is 3.54, the correction coefficient (score B) is 0.27, and the correction score (score C) is 0.94. .
また、キーワード候補として判断した名詞が「余震」の場合には、スコアA(w)は4.28、補正係数(スコアB)は0.15、補正スコア(スコアC)は0.66となる。 When the noun determined as the keyword candidate is “aftershock”, the score A (w) is 4.28, the correction coefficient (score B) is 0.15, and the correction score (score C) is 0.66. .
以上のキーワード候補とした名詞「地震」、「災害」、「震度」および「余震」についてスコアA(w)を演算すると、「地震」が最も大きな値となる。 When the score A (w) is calculated for the nouns “earthquake”, “disaster”, “seismic intensity”, and “aftershock” as the keyword candidates, “earthquake” has the largest value.
「地震」という名詞は、地震が発生した場合など、特別な場合に使用されることが多いため専門性の高い語だと言える。従って、「地震」はキーワード候補としてふさわしい名詞と考えられる。 The term “earthquake” is a highly specialized word because it is often used in special cases, such as when an earthquake occurs. Therefore, “earthquake” is considered as a noun suitable as a keyword candidate.
補正係数であるスコアB(w)は、スコアA(w)が最も大きな値を有する名詞に基づいて演算されるので、「地震」という名詞と共起する「災害」、「震度」、「余震」に対して、スコアB(w)のスコア値が高くなる。 The score B (w), which is a correction coefficient, is calculated based on the noun having the largest value of the score A (w), so that “disaster”, “seismic intensity”, “aftershock” co-occurs with the noun “earthquake”. ", The score value of the score B (w) becomes higher.
さらに、補正スコアであるスコアC(w)は補正係数であるスコアB(w)の演算結果を利用するので(式(3)参照)、「災害」、「震度」、「余震」の補正スコア値は大きな値となり、専門性の高い語からキーワードを適切に抽出することが可能であることが示される。 Furthermore, since the score C (w) as the correction score uses the calculation result of the score B (w) as the correction coefficient (see Equation (3)), the correction scores for “disaster”, “seismic intensity”, and “aftershock” are used. The value becomes a large value, which indicates that it is possible to appropriately extract keywords from highly specialized words.
以上、この例を分析すると、スコアAの計算により、スコアAが最も大きい単語が「地震」となる。「地震」という語は、地震が起こったときなど、特別な場合に使われることが多いため、専門性が高い語だといえる。そのため、スコアBの計算により、地震とよく共起する「災害」、「震度」、「余震」に高いスコアが付く。スコアCの計算では、スコアBの計算結果を利用するため、「災害」、「震度」、「余震」に高いスコアが付くことがわかる。 As described above, when this example is analyzed, the word having the highest score A is “earthquake” by the calculation of the score A. The term “earthquake” is highly specialized because it is often used in special cases, such as when an earthquake occurs. Therefore, by calculating the score B, high scores are given to “disaster”, “seismic intensity”, and “aftershock” that often co-occur with earthquakes. In the calculation of score C, since the calculation result of score B is used, it is understood that “disaster”, “seismic intensity”, and “aftershock” have high scores.
[変形例]
新聞記事、雑誌記事、あるいはニュース情報等の情報源からキーワードを抽出したい場合がある。この場合にも、新聞記事、雑誌記事、あるいはニュース情報等の情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によってキーワードを抽出することができる。キーワードはスコアA、またはスコアCの値が高い値から選択することができる。
[Modification]
There are cases where it is desired to extract keywords from information sources such as newspaper articles, magazine articles, or news information. Also in this case, by extracting information such as newspaper articles, magazine articles, or news information into text, the
また、静止画または動画等の画像情報に関連したキーワードを抽出したい場合がある。 In some cases, it is desired to extract keywords related to image information such as still images or moving images.
この場合には対象となる画像情報のURLをキーワード抽出サーバ10が検索し、検索結果の上位の記事情報(タイトルおよびスニペットを含む。)をテキストとしてキーワード抽出サーバ10が取得する。
In this case, the
対象となる画像情報のURLを紹介している記事の周辺には、関連するワードも出現していることが考えられるためである。 This is because it is considered that related words also appear around the article introducing the URL of the target image information.
キーワード抽出サーバ10が検索し、取得した検索結果の上位の記事情報(タイトルおよびスニペットを含む。)から、キーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によって画像情報のキーワードを抽出することができる。キーワードはスコアA、またはスコアCの値が高い値から選択することができる。
The
また、記事情報に検索インデックスを付与したい場合がある。この場合にも、記事情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によってキーワードを抽出することができる。
In some cases, it is desired to add a search index to article information. Also in this case, by converting the article information into text, the
この場合、検索インデックスとするキーワードは複数選択することができ、スコアA、またはスコアCの値が高いワードから順番に検索インデックスとすることができる。 In this case, a plurality of keywords can be selected as the search index, and the search index can be set in order from the word having the highest score A or score C value.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
なお、本実施形態においては、サーバ10は、ハードディスク370及び光ディスクドライブ380を有する構成として説明したが、これに限られず、これらの駆動系を有さない構成、いわゆるゼロスピンドルによる構成であっても良い。このような構成の場合には、ハードディスク370に記憶される内容は、大容量の半導体メモリ390に記憶される。
In the present embodiment, the
1 情報処理システム
10 キーワード抽出サーバ
11 分割部
12 形態素抽出部
13 名詞抽出部
14 演算部
15 判断部
16 選択部
17 検索部
18 補正係数演算部
19 補正スコア演算部
20 文字情報データベース(DB)
30 ユーザ端末
DESCRIPTION OF
30 User terminal
Claims (6)
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算手段と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断手段と、を備えることを特徴とするキーワード抽出装置。 A dividing means for dividing the input text by punctuation marks;
Morpheme extraction means for extracting morphemes from the divided parts divided by the dividing means;
Determining a part of speech for the morpheme extracted by the morpheme extraction unit, and extracting a morpheme determined to be a noun;
About the noun extracted by the noun extraction means, the number of characters of the noun, the appearance frequency of the noun in the text, the total number of sentences in the text, and how many sentences the noun appears over Calculating means for calculating a score as a keyword of the noun based on a ratio to the appearance frequency indicating
A keyword extracting device comprising: a determination unit that determines whether or not the noun is a keyword based on the score that is a result of the calculation.
前記判断手段によって前記キーワードであると判断された前記名詞の中で最も前記スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする請求項1または2に記載のキーワード抽出装置。 A character information database storing character information transmitted and received on the Internet;
Selecting means for selecting a maximum score noun with the highest score among the nouns determined to be the keyword by the determining means;
The maximum score noun and the noun are searched in the character information database, and the search number of the maximum score noun, the search number of the noun, and the search number including both the maximum score noun and the noun are searched and investigated. Search means to
A correction coefficient calculating means for calculating a correction coefficient based on the search number of the maximum score noun, the search number of the noun and the search number including both the maximum score noun and the noun;
Correction score calculation means for calculating a correction score based on the correction coefficient and the score calculated by the calculation means;
The keyword extracting apparatus according to claim 1, wherein the determining unit determines whether or not the noun is a keyword based on the correction score.
前記判断手段は、前記補正スコアと前記スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする請求項3に記載のキーワード抽出装置。 The correction coefficient calculating means divides the number of searches including both the maximum score noun and the noun by the square root of the multiplication calculation value of the search number of the maximum score noun and the search number of the noun. As a correction score,
4. The keyword extracting apparatus according to claim 3, wherein the determining means determines whether or not the noun is a keyword based on a multiplication operation value of the correction score and the score.
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算工程と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断工程と、を備えることを特徴とするキーワード抽出方法。 A splitting process that splits the input text with punctuation marks;
A morpheme extraction step of extracting morphemes of the divided parts divided in the division step;
Determining a part of speech for the morpheme extracted in the morpheme extraction step, and extracting a morpheme determined as a noun;
About the noun extracted in the noun extraction step, the number of characters of the noun, the appearance frequency of the noun in the text, and the total number of sentences in the text and how many sentences the noun appears over A calculation step of calculating a score as a keyword of the noun based on a ratio with an appearance frequency indicating:
And a determination step of determining whether or not to use the noun as a keyword based on the score that is a result of the calculation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205896A JP4934115B2 (en) | 2008-08-08 | 2008-08-08 | Keyword extraction apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205896A JP4934115B2 (en) | 2008-08-08 | 2008-08-08 | Keyword extraction apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010040020A true JP2010040020A (en) | 2010-02-18 |
JP4934115B2 JP4934115B2 (en) | 2012-05-16 |
Family
ID=42012454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008205896A Expired - Fee Related JP4934115B2 (en) | 2008-08-08 | 2008-08-08 | Keyword extraction apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4934115B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079309A (en) * | 2010-09-30 | 2012-04-19 | Nhn Corp | Method and apparatus for extracting keyword of document based on document relationship score of word and graph structure |
CN104573055A (en) * | 2015-01-21 | 2015-04-29 | 南京烽火星空通信发展有限公司 | Word segmentation method for rapidly searching network account number |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0648998A (en) * | 1991-07-12 | 1994-02-22 | Hoechst Ag | Production of pure 3,3',4,4'-tetraaminobiphenyl |
JP2003162540A (en) * | 2001-11-28 | 2003-06-06 | Seiko Epson Corp | Data retrieval device and data retrieval method |
JP2003281159A (en) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | Document processor, document processing method and document processing program |
JP2006065387A (en) * | 2004-08-24 | 2006-03-09 | Fuji Xerox Co Ltd | Text sentence search device, method, and program |
-
2008
- 2008-08-08 JP JP2008205896A patent/JP4934115B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0648998A (en) * | 1991-07-12 | 1994-02-22 | Hoechst Ag | Production of pure 3,3',4,4'-tetraaminobiphenyl |
JP2003162540A (en) * | 2001-11-28 | 2003-06-06 | Seiko Epson Corp | Data retrieval device and data retrieval method |
JP2003281159A (en) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | Document processor, document processing method and document processing program |
JP2006065387A (en) * | 2004-08-24 | 2006-03-09 | Fuji Xerox Co Ltd | Text sentence search device, method, and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079309A (en) * | 2010-09-30 | 2012-04-19 | Nhn Corp | Method and apparatus for extracting keyword of document based on document relationship score of word and graph structure |
CN104573055A (en) * | 2015-01-21 | 2015-04-29 | 南京烽火星空通信发展有限公司 | Word segmentation method for rapidly searching network account number |
Also Published As
Publication number | Publication date |
---|---|
JP4934115B2 (en) | 2012-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI536181B (en) | Language identification in multilingual text | |
KR101548096B1 (en) | Method and server for automatically summarizing documents | |
JP5497048B2 (en) | Transliteration of proper expressions using comparable corpus | |
JP2006252382A (en) | Question answering system, data retrieval method and computer program | |
JP2005251206A (en) | Word collection method and system for use in word segmentation | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
US8204736B2 (en) | Access to multilingual textual resources | |
JP2011118689A (en) | Retrieval method and system | |
US20120078907A1 (en) | Keyword presentation apparatus and method | |
JP2007241764A (en) | Syntax analysis program, syntax analysis method, syntax analysis device, and computer readable recording medium recorded with syntax analysis program | |
Silveira et al. | Combining a double clustering approach with sentence simplification to produce highly informative multi-document summaries | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP5718405B2 (en) | Utterance selection apparatus, method and program, dialogue apparatus and method | |
CN115794995A (en) | Target answer obtaining method and related device, electronic equipment and storage medium | |
JP2006065387A (en) | Text sentence search device, method, and program | |
CN113743090B (en) | Keyword extraction method and device | |
Magdy et al. | An efficient method for using machine translation technologies in cross-language patent search | |
JP2004334766A (en) | Word classifying device, word classifying method and word classifying program | |
JP4934115B2 (en) | Keyword extraction apparatus, method and program | |
JP6106489B2 (en) | Semantic analyzer and program | |
JP2007164635A (en) | Method, device and program for acquiring synonymous vocabulary | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Mohd et al. | Sumdoc: a unified approach for automatic text summarization | |
JP2007172179A (en) | Opinion extraction device, opinion extraction method and opinion extraction program | |
JP2006004366A (en) | Machine translation system and computer program for it |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111025 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4934115 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A072 | Dismissal of procedure |
Free format text: JAPANESE INTERMEDIATE CODE: A072 Effective date: 20120710 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |