JP2010040020A - Keyword extraction device, method, and program - Google Patents

Keyword extraction device, method, and program Download PDF

Info

Publication number
JP2010040020A
JP2010040020A JP2008205896A JP2008205896A JP2010040020A JP 2010040020 A JP2010040020 A JP 2010040020A JP 2008205896 A JP2008205896 A JP 2008205896A JP 2008205896 A JP2008205896 A JP 2008205896A JP 2010040020 A JP2010040020 A JP 2010040020A
Authority
JP
Japan
Prior art keywords
noun
score
keyword
text
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008205896A
Other languages
Japanese (ja)
Other versions
JP4934115B2 (en
Inventor
Takeshi Masuyama
毅司 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008205896A priority Critical patent/JP4934115B2/en
Publication of JP2010040020A publication Critical patent/JP2010040020A/en
Application granted granted Critical
Publication of JP4934115B2 publication Critical patent/JP4934115B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a keyword extraction server, a method and a program capable coping with the text of a free form (including multilingual), by which high speed processing is made possible, and which can extract only a word effective for classification. <P>SOLUTION: The keyword extraction device is provided with: a division part 11 which divides an input text with punctuation; a morpheme extraction part 12 which extracts morpheme from divided division parts; a noun extraction part 13 which decides parts of speech for the extracted morpheme to extract the morpheme decided to be the noun; an arithmetic operation part 14 which calculates the score of the noun as a keyword on the basis of the number of characters of the noun, appearance frequency of the noun in the text, and a ratio of the total number of sentences in the text to the appearance frequency indicating over how many sentences the noun appears, about the extracted noun; and a decision part 15 which decides whether or not the noun is considered as the keyword on the basis of the score as the result of the arithmetic operation. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、キーワード抽出装置、方法及びプログラムに関する。さらに、詳細には、データベースに蓄積されたデータあるいはインターネットを介して取得されるデータなど、様々な文書データの分類に有効なキーワードの効率的な抽出を可能としたキーワード抽出装置,方法及びプログラムに関する。   The present invention relates to a keyword extraction apparatus, method, and program. More particularly, the present invention relates to a keyword extraction apparatus, method, and program capable of efficiently extracting keywords effective for classification of various document data such as data stored in a database or data acquired via the Internet. .

パソコンやインターネットの普及、あるいは電子ファイリング技術の発展等に伴い、電子化された大量の文書データを利用可能な環境が整いつつあるが、一方で膨大な情報の中から重要なキーワードを自動的に抽出するシステムの必要性が生じている。   With the spread of personal computers and the Internet, and the development of electronic filing technology, an environment where a large amount of digitized document data can be used is being prepared. On the other hand, important keywords are automatically selected from a vast amount of information. There is a need for a system to extract.

データベースに蓄積された文書データあるいはインターネットを介して取得される文書データなどを分類する手法として、これまでに、様々な手法が提案されている。例えば、文書データに含まれる特徴となる複数のキーワードを選択し、その分布や出現位置などを解析し、この解析結果に基づいて分類を行う手法が広く知られている。   Various methods have been proposed so far to classify document data stored in a database or document data acquired via the Internet. For example, a technique is widely known in which a plurality of keywords that are features included in document data are selected, their distribution and appearance positions are analyzed, and classification is performed based on the analysis results.

文書データの分類処理を行う際に重要なのが、「分類を行うのに有効な単語」、すなわち、キーワードの選定である。従来から知られるキーワード選定手法を大きく分類すると、以下の(1)〜(3)の3つの手法に分類される。   What is important when performing document data classification processing is selection of “words effective for classification”, that is, keyword selection. Conventional keyword selection methods can be broadly classified into the following three methods (1) to (3).

(1)辞書データを用いるキーワード選定手法
辞書データを用いるキーワード選定手法は、あらかじめ文書データの分類に有効と考えられる単語群を辞書データとして登録し、登録された単語をキーワードとして用いる手法である。この辞書データをキーワードとして利用する手法は、例えば特許文献1、特許文献2に記載されている。
(1) Keyword selection method using dictionary data The keyword selection method using dictionary data is a method in which word groups that are considered to be effective for classifying document data are registered in advance as dictionary data, and the registered words are used as keywords. A method of using this dictionary data as a keyword is described in Patent Document 1 and Patent Document 2, for example.

(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法
分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法は、分類対象の文書データに含まれる文書の文法に基づいた形態素解析、あるいは独自の文法ルールによる解析を行い、その結果として抽出される単語をキーワードまたはその候補として用いる手法である。この手法は、例えば特許文献3、特許文献4に記載されている。
(2) Keyword selection method by grammatical analysis of documents included in document data to be classified The keyword selection method by grammatical analysis of documents included in document data to be classified is based on the grammar of documents included in the document data to be classified. Morphological analysis or analysis based on original grammatical rules, and a word extracted as a result is used as a keyword or a candidate thereof. This technique is described in Patent Document 3 and Patent Document 4, for example.

(3)分類対象の文書データの総比較によるキーワード選定手法
分類対象の文書データの総比較によるキーワード選定手法は、分類対象とる様々な文書データ各々の総比較を行い、様々な単語の出現頻度やその組み合わせデータを解析し、その解析結果に基づいてキーワードまたはキーワード候補を抽出する手法である。この手法は、例えば特許文献5に記載されている。
(3) Keyword selection method based on total comparison of classification target document data The keyword selection method based on total comparison of classification target document data performs a total comparison of various document data to be classified, This is a method of analyzing the combination data and extracting keywords or keyword candidates based on the analysis result. This technique is described in Patent Document 5, for example.

上述したように、キーワードの抽出手法としては、様々な手法が既に提案されている。しかし、例えば上述の「(1)辞書データを用いるキーワード選定手法」は、前提となる辞書を作成するのに専門的な知識と時間がかかる上に、作成された辞書は、想定外の分野の文章に関しては十分な効果をあげないという問題がある。例えば特定の専門分野、例えば医療や金融といった専門分野の文書の分類に有効なキーワードが不十分となったり、あるいは、新しく出現してきた単語に対する対応ができないといった問題がある。   As described above, various methods have already been proposed as keyword extraction methods. However, for example, the above-mentioned “(1) Keyword selection method using dictionary data” takes specialized knowledge and time to create a prerequisite dictionary, and the created dictionary is in an unexpected field. There is a problem that the text is not effective enough. For example, there are problems that keywords that are effective for classification of documents in a specific specialized field such as medical care and finance are insufficient, or that new words that appear cannot be handled.

また、「(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法」は、文法ルールを定型処理化するのに専門的な知識が必要である上に、想定外の言語や、文法的に成立しない自由形式の文章に対して十分な効果をあげないという問題点がある。   In addition, “(2) Keyword selection method by grammatical analysis of documents included in document data to be classified” requires specialized knowledge to standardize grammar rules, and it is not possible to There is a problem that it does not have a sufficient effect on free-form sentences that are not grammatically established.

さらに、「(3)分類対象の文書データの総比較によるキーワード選定手法」は、処理対象となる文書データ量が増えると、その比較の処理にかかる時間が指数的に増え、処理効率が低下するという問題があり、また、日本語であれば文書中に頻出する「です」「ます」など、分類に有効な単語以外の語句が抽出されてしまうといという問題点がある。
この問題点を解決しようとするアルゴリズムに、tf・idf(Term Frequency − Inverse Document Frequency、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズム)がある(後述する)。
Furthermore, in “(3) Keyword selection method based on total comparison of document data to be classified”, when the amount of document data to be processed increases, the time required for the comparison processing increases exponentially and processing efficiency decreases. In addition, there is a problem that phrases other than words that are effective for classification are extracted, such as “is” and “mass” that appear frequently in documents in Japanese.
As an algorithm for solving this problem, there is tf · idf (Term Frequency-Inverse Document Frequency, an algorithm for extracting characteristic words (words regarded as important) in a sentence) (described later).

特開2002−215647号公報JP 2002-215647 A 特開2002−108888号公報JP 2002-108888 A 特開2003−36261号公報JP 2003-36261 A 特開2002−245061号公報JP 2002-245061 A 特開2001−22752号公報Japanese Patent Laid-Open No. 2001-22752

本発明は、このような状況に鑑みてなされたものであり、上述した従来のキーワード抽
出手法における問題点を解決したキーワード抽出装置、方法及びプログラムを提供することを目的とする。
The present invention has been made in view of such a situation, and an object of the present invention is to provide a keyword extraction apparatus, method, and program that solve the problems in the conventional keyword extraction method described above.

具体的には、前提となる知識(辞書、文法データ)を使用せず、自由形式(含、多言語)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することを可能としたキーワード抽出サーバ及び方法及びプログラムを提供することを目的とする。   Specifically, it does not use prerequisite knowledge (dictionary, grammar data), can handle free-form (including multilingual) sentences, is capable of high-speed processing, and is effective for classification It is an object of the present invention to provide a keyword extraction server, method, and program capable of extracting only the keyword.

(1)入力されたテキストを句読点で分割する分割手段と、
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算手段と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断手段と、を備えることを特徴とするキーワード抽出装置。
(1) dividing means for dividing the input text by punctuation marks;
Morpheme extraction means for extracting morphemes from the divided parts divided by the dividing means;
Determining a part of speech for the morpheme extracted by the morpheme extraction unit, and extracting a morpheme determined to be a noun;
About the noun extracted by the noun extraction means, the number of characters of the noun, the appearance frequency of the noun in the text, the total number of sentences in the text, and how many sentences the noun appears over Calculating means for calculating a score as a keyword of the noun based on a ratio to the appearance frequency indicating
A keyword extracting device comprising: a determination unit that determines whether or not the noun is a keyword based on the score that is a result of the calculation.

(1)に係る発明によれば、入力されたテキストから名詞を抽出し、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの(テキスト中の)文に跨って出現したかを示す出現頻度との比を基にキーワードの判断を実行する。   According to the invention according to (1), a noun is extracted from the input text, the number of characters of the noun, the frequency of appearance of the noun in the text, the total number of sentences in the text and the number of nouns The keyword is determined based on the ratio to the appearance frequency indicating whether it has appeared across sentences (in the text).

このようにして、(1)に係る発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。   In this way, according to the invention according to (1), it is possible to handle free-form (including multilingual) sentences without using the prerequisite knowledge (dictionary, grammar data), and high-speed processing. Only words that are possible and effective for classification can be extracted.

すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。   That is, it is possible to quickly extract only keywords that are important clues for elucidating the problem and understanding the contents, and that are effective as words used as clues for information retrieval.

(2)前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記スコアとすることを特徴とする(1)に記載のキーワード抽出装置。   (2) The calculation means includes the number of characters of the noun or a logarithm calculation value around the number of characters of the noun, the appearance frequency of the noun in the text, the total number of sentences in the text, and how many nouns the sentence includes (1) The keyword extracting device according to (1), wherein a value obtained by multiplying a ratio with an appearance frequency indicating whether or not it has appeared or a logarithm operation value of a number before and after the ratio is used as the score.

(2)に係る発明によれば、(1)において抽出した名詞について、名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を基にキーワードの判断を実行する。   According to the invention according to (2), for the noun extracted in (1), the number of characters of the noun or the logarithm calculation value before and after the number of characters of the noun, the appearance frequency of the noun in the text, the sentence in the text The determination of the keyword is executed based on a value obtained by multiplying the ratio between the total number and the appearance frequency indicating how many sentences the noun appears over or the logarithm operation values of the numbers before and after the ratio.

このようにして、(2)に係る発明によれば、文字数、対数演算、テキスト中での名詞の出現頻度、文の総数および比の演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。   In this way, according to the invention according to (2), the calculation method is a simple calculation of calculating the number of characters, logarithmic calculation, noun appearance frequency in the text, total number of sentences, and ratio, and having a small number of calculations. Since keywords can be extracted based on this, a keyword extraction server that can handle free-form (including multilingual) sentences without using the prerequisite knowledge (dictionary, grammar data), and provides high-speed processing is provided. It becomes possible to do.

(3)インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
前記判断手段によって前記キーワードであると判断された前記名詞の中で最も前記スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(1)または(2)に記載のキーワード抽出装置。
(3) a character information database storing character information transmitted and received on the Internet;
Selecting means for selecting a maximum score noun with the highest score among the nouns determined to be the keyword by the determining means;
The maximum score noun and the noun are searched in the character information database, and the search number of the maximum score noun, the search number of the noun, and the search number including both the maximum score noun and the noun are searched and investigated. Search means to
A correction coefficient calculating means for calculating a correction coefficient based on the search number of the maximum score noun, the search number of the noun and the search number including both the maximum score noun and the noun;
Correction score calculation means for calculating a correction score based on the correction coefficient and the score calculated by the calculation means;
The keyword extracting device according to (1) or (2), wherein the determining means determines whether or not the noun is a keyword based on the correction score.

(3)に係る発明によれば、前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し、それらの検索件数に基づいて、(1)に係わるキーワード候補となった名詞について補正を実行する。   According to the invention according to (3), the maximum score noun and the noun are searched in the character information database, the search number of the maximum score noun, the search number of the noun, and both the maximum score noun and the noun Are searched, and nouns that have become keyword candidates related to (1) are corrected based on the number of searches.

このようにして、(3)に係る発明によれば、補正係数(スコアB)の効果(スコア(スコアA)の値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数(スコアB)が大きくなり、スコアAの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数(スコアB)が小さくなる。)によって、キーワード性が低い語は、補正スコア(スコアC)が小さな値となり、キーワードとして判断されないように適切に演算処理されることが可能となる。   Thus, according to the invention according to (3), the effect of the correction coefficient (score B) (if the relevance with the maximum score noun with the largest score (score A) value is high, the correction coefficient ( If the score B) is large and the relevance to the largest score noun with the largest value of score A is small, the correction coefficient (score B) is small. The score C) becomes a small value and can be appropriately calculated so as not to be determined as a keyword.

(4)前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
前記判断手段は、前記補正スコアと前記スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする(3)に記載のキーワード抽出装置。
(4) The correction coefficient calculation means performs a division operation on the number of searches including both the maximum score noun and the noun by a square root of a multiplication calculation value of the search number of the maximum score noun and the search number of the noun. The value is the corrected score,
The keyword extraction device according to (3), wherein the determination unit determines whether or not the noun is a keyword based on a multiplication operation value of the correction score and the score.

(4)に係る発明によれば、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値に基づいて前記名詞をキーワードとするか否かを判断することを実行する。   According to the invention of (4), the number of searches including both the maximum score noun and the noun is divided by the square root of the multiplication value of the search number of the maximum score noun and the search number of the noun. Based on the value, it is determined whether or not to use the noun as a keyword.

このようにして、(4)に係る発明によれば、検索件数と検索件数文字数、乗算演算、平方根演算という簡易な演算であって演算回数が少ない演算方法に基づいてキーワードが抽出できるので、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能なキーワード抽出サーバを提供することが可能になる。   Thus, according to the invention according to (4), keywords can be extracted based on a calculation method that is a simple calculation such as the number of searches, the number of search characters, the multiplication operation, and the square root operation, and the number of operations is small. Therefore, it is possible to provide a keyword extraction server that can handle free-form (including multilingual) sentences without using knowledge (dictionary, grammar data).

(5)入力されたテキストを句読点で分割する分割工程と、
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算工程と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断工程と、を備えることを特徴とするキーワード抽出方法。
(5) a dividing step of dividing the input text with punctuation marks;
A morpheme extraction step of extracting morphemes of the divided parts divided in the division step;
Determining a part of speech for the morpheme extracted in the morpheme extraction step, and extracting a morpheme determined as a noun;
About the noun extracted in the noun extraction step, the number of characters of the noun, the appearance frequency of the noun in the text, and the total number of sentences in the text and how many sentences the noun appears over A calculation step of calculating a score as a keyword of the noun based on a ratio with an appearance frequency indicating:
And a determination step of determining whether or not to use the noun as a keyword based on the score that is a result of the calculation.

(1)に係る発明によれば、入力されたテキストから名詞を抽出し、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの(テキスト中の)文に跨って出現したかを示す出現頻度との比を基にキーワードの判断を実行する。   According to the invention according to (1), a noun is extracted from the input text, the number of characters of the noun, the frequency of appearance of the noun in the text, the total number of sentences in the text and the number of nouns The keyword is determined based on the ratio to the appearance frequency indicating whether it has appeared across sentences (in the text).

このようにして、(1)に係る発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。   In this way, according to the invention according to (1), it is possible to handle free-form (including multilingual) sentences without using the prerequisite knowledge (dictionary, grammar data), and high-speed processing. Only words that are possible and effective for classification can be extracted.

すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。   That is, it is possible to quickly extract only keywords that are important clues for elucidating the problem and understanding the contents, and that are effective as words used as clues for information retrieval.

(6)(5)に記載の方法をコンピュータに実行させることを特徴とするプログラム。   (6) A program that causes a computer to execute the method according to (5).

このような構成によれば、当該プログラムをコンピュータに実行させることにより、(5)と同様の効果が期待できる。   According to such a configuration, the same effect as in (5) can be expected by causing the computer to execute the program.

本発明によれば、前提となる知識(辞書、文法データ)を使用せず、自由形式(多言語を含む)の文章に対応可能であり、高速な処理が可能であって、分類に有効な単語のみを抽出することができる。すなわち、問題の解明や内容の理解の上で、重要な手掛かりとなる語であって、情報検索において検索の手掛かりとして使用する語として有効なキーワードのみを高速に抽出することが可能となる。   According to the present invention, premise knowledge (dictionary, grammar data) is not used, it is possible to deal with free-form (including multilingual) sentences, high-speed processing is possible, and effective for classification. Only words can be extracted. That is, it is possible to quickly extract only keywords that are important clues for elucidating the problem and understanding the contents, and that are effective as words used as clues for information retrieval.

以下、本発明の実施形態について図を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[システム全体構成]
図1には、本実施形態に係るキーワード抽出サーバ10と、ユーザ端末30とから構成される情報処理システム1を示す。なお、図1においては、情報処理システム1は、キーワード抽出サーバ10と、ユーザ端末30とがそれぞれ一つずつで示されているが、これに限られず、それぞれ複数台で構成されていても良い。
[Entire system configuration]
FIG. 1 shows an information processing system 1 including a keyword extraction server 10 and a user terminal 30 according to the present embodiment. In FIG. 1, the information processing system 1 shows the keyword extraction server 10 and the user terminal 30 one by one. However, the information processing system 1 is not limited to this, and may be configured by a plurality of units. .

キーワード抽出サーバ10は、図2に示すように、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されても良い)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。なお、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。   As shown in FIG. 2, the keyword extraction server 10 includes a CPU (Central Processing Unit) 310 (a plurality of CPUs such as a CPU 320 may be added in a multiprocessor configuration), a bus line 200, and a communication I. / F (I / F: interface) 330, main memory 340, BIOS (Basic Input Output System) 350, I / O controller 360, hard disk 370, optical disk drive 380, and semiconductor memory 390. The hard disk 370, the optical disk drive 380, and the semiconductor memory 390 are collectively referred to as a storage device 410.

制御部300は、キーワード抽出サーバ10を統括的に制御する部分であり、ハードディスク370に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The control unit 300 is a part that controls the keyword extraction server 10 in an integrated manner. By appropriately reading and executing various programs stored in the hard disk 370, the control unit 300 cooperates with the hardware described above, and performs various types according to the present invention. The function is realized.

通信I/F330は、キーワード抽出サーバ10が、ネットワークを介してユーザ端末30等の他の装置と情報を送受信する場合のネットワーク・アダプタである。   The communication I / F 330 is a network adapter when the keyword extraction server 10 transmits / receives information to / from other devices such as the user terminal 30 via the network.

BIOS350は、キーワード抽出サーバ10の起動時にCPU310が実行するブートプログラムや、キーワード抽出サーバ10のハードウェアに依存するプログラム等を記録する。   The BIOS 350 records a boot program executed by the CPU 310 when the keyword extraction server 10 is activated, a program depending on the hardware of the keyword extraction server 10, and the like.

I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。   A storage device 410 such as a hard disk 370, an optical disk drive 380, and a semiconductor memory 390 can be connected to the I / O controller 360.

ハードディスク370は、本ハードウェアをキーワード抽出サーバ10として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル等を記憶する。なお、キーワード抽出サーバ10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。   The hard disk 370 stores various programs for causing the hardware to function as the keyword extraction server 10, a program for executing the functions of the present invention, a table to be described later, and the like. The keyword extraction server 10 can also use an external hard disk (not shown) as an external storage device.

光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラム又はデータを読み取り、I/Oコントローラ360を介してメインメモリ340又はハードディスク370に提供することもできる。   As the optical disk drive 380, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, or a CD-RAM drive can be used. In this case, the optical disk 400 corresponding to each drive is used. A program or data can be read from the optical disk 400 by the optical disk drive 380 and provided to the main memory 340 or the hard disk 370 via the I / O controller 360.

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、キーワード抽出サーバ10は、記憶装置410、制御部300等を備えた情報処理装置により構成される。   The computer in the present invention refers to an information processing apparatus including a storage device, a control unit, and the like, and the keyword extraction server 10 includes an information processing device including a storage device 410, a control unit 300, and the like.

また、本発明に係るキーワード抽出サーバ10は、上述のような構成を有することにより、ユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有している。   In addition, the keyword extraction server 10 according to the present invention has the above-described configuration, so that morphological analysis is performed on text input from the user terminal 30, and nouns are extracted from the input text. It has a function of calculating a score as a keyword and determining whether or not to make a keyword based on the score.

ここで、当該機能を発揮するための構成について、図3に示す機能ブロック図を用いて説明する。キーワード抽出サーバ10は、分割部11と、形態素抽出部12と、名詞抽出部13と、判断部15と、選択部16と、検索部17と、補正係数演算部18、補正スコア演算部19と、文字情報データベース(DB)20とを備える。   Here, a configuration for exhibiting the function will be described with reference to a functional block diagram shown in FIG. The keyword extraction server 10 includes a division unit 11, a morpheme extraction unit 12, a noun extraction unit 13, a determination unit 15, a selection unit 16, a search unit 17, a correction coefficient calculation unit 18, and a correction score calculation unit 19. And a character information database (DB) 20.

分割部11は、ユーザ端末30から直接入力されたテキスト、文字情報データベース20に既に記憶されているテキスト、放送局(図示せず)において放送された番組の中で発せられた音声情報に基づいて作成された文字情報としてのテキスト、音声情報として入力された情報を音声分析して文字情報化したテキスト、画像情報から作成されたテキスト(OCR等含む)等のテキスト(英語、日本語等の言語の種類には限定されない)を句読点等の区切り記号で分割する機能を有する。   The dividing unit 11 is based on text directly input from the user terminal 30, text already stored in the character information database 20, and audio information generated in a program broadcast in a broadcasting station (not shown). Text (English, Japanese, etc.) such as text as created text information, text obtained by voice analysis of information input as voice information, text (including OCR) created from image information, etc. Is not limited to this type), and has a function of dividing by a delimiter such as a punctuation mark.

形態素抽出部12は、分割部11により分割された分割部分について形態素を抽出する。形態素の抽出には形態素解析手法を利用する。例えば、tf・idf(Term Frequency − Inverse Document Frequency、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズム)の一部のアルゴリズムを利用して文字情報から複数の形態素を抽出する機能を有する。   The morpheme extraction unit 12 extracts morphemes from the divided parts divided by the division unit 11. A morpheme analysis method is used to extract morphemes. For example, tf.idf (Term Frequency-Inverse Document Frequency, an algorithm for extracting characteristic words (words regarded as important) in a sentence) using a part of an algorithm, a plurality of morphemes are obtained from character information. Has a function to extract.

名詞抽出部13は、形態素抽出部12により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する機能を有する。   The noun extraction unit 13 has a function of determining the part of speech of the morpheme extracted by the morpheme extraction unit 12 and extracting the morpheme determined to be a noun.

判断部15は、名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する機能を有する。   For the noun extracted by the noun extracting means, the determination unit 15 determines the number of characters of the noun, the frequency of appearance of the noun in the text, the total number of sentences in the text, and the number of nouns across the sentences. The score as a keyword of the noun is calculated based on the ratio with the appearance frequency indicating whether or not it has appeared.

具体的には、名詞wに関するスコアAをスコアA(w)とすると

Figure 2010040020
で示され、式中、|w|は単語wの文字数であり、tf(w)は単語wのテキスト中での出現頻度(テキスト中に何回出現したかを示す)、sf(w)は単語wの文中での出現頻度(いくつの文に跨って出現したかを示す)、Nはテキスト中の文の総数を示す。
演算部14は式(1)に基づいてスコアAを演算する。 Specifically, if the score A for the noun w is the score A (w)
Figure 2010040020
Where | w | is the number of characters of the word w, tf (w) is the frequency of appearance of the word w in the text (shows how many times it appears in the text), and sf (w) is Appearance frequency of the word w in the sentence (indicating how many sentences have appeared), N indicates the total number of sentences in the text.
The calculation unit 14 calculates the score A based on the formula (1).

判断部15は、演算部14における式(1)演算の結果であるスコアAに基づいて、名詞wをキーワードとするか否かを判断する機能を有する。
判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能である。
The determination unit 15 has a function of determining whether or not the noun w is a keyword based on the score A that is the result of the calculation of the expression (1) in the calculation unit 14.
The determination criterion can be set in advance to an arbitrary value. An arbitrary value can be determined by repeating trial and error.

ここで抽出するキーワードは、問題の解明や内容を理解する上で、重要な手がかりとなる語である。また、情報検索においては検索の手がかりとして使用する語句となるものである。   The keywords extracted here are important clues for elucidating the problem and understanding the contents. Also, in information retrieval, it is a phrase used as a clue for retrieval.

選択部16は、判断部15によってキーワードであると判断された名詞の中で最もスコアが大きい最大スコア名詞を選択する機能を有する。   The selection unit 16 has a function of selecting the maximum score noun having the highest score among the nouns determined by the determination unit 15 as keywords.

検索部17は、最大スコア名詞と名詞抽出部13において抽出された名詞とをキーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず)において検索し、最大スコア名詞の検索件数、名詞の検索件数および最大スコア名詞および名詞の両方が含まれる検索件数とを検索し調査する機能を有する。   The retrieval unit 17 retrieves the maximum score noun and the noun extracted by the noun extraction unit 13 from a character information database (DB) 20 provided in the keyword extraction server 10 or in an external character information DB (not shown). It has a function of searching and investigating the search number of score nouns, the search number of nouns, and the search number including both the maximum score nouns and nouns.

補正係数演算部18は、最大スコア名詞の検索件数、名詞の検索件数および最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する機能を有する。   The correction coefficient calculation unit 18 has a function of calculating a correction coefficient based on the maximum score noun search number, the noun search number, the maximum score noun, and the search number including both of the nouns.

具体的には、名詞wに関する補正係数BをスコアB(w)とすると

Figure 2010040020
で示され、式中、WmaxAはスコアAが最も大きい名詞を示し、|WmaxA&W|は|WmaxA|と名詞wとのAND検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|WmaxA|は名詞WmaxAの単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|W|は名詞Wの単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示す。 Specifically, when the correction coefficient B for the noun w is a score B (w)
Figure 2010040020
Where WmaxA indicates the noun with the highest score A, and | WmaxA & W | is an AND search between | WmaxA | and the noun w (from the character information database (DB) 20 with the keyword extraction server 10 or externally). Indicates the number of hits in the character information DB (not shown), and | WmaxA | is a single search for the noun WmaxA (from the character information database (DB) 20 with the keyword extraction server 10 or external character information DB (not shown)). )) Indicates the number of hits, and | W | indicates the number of hits in a single search for the noun W (from the character information database (DB) 20 with the keyword extraction server 10 or in an external character information DB (not shown)). Show.

補正スコア演算部19は、補正係数と演算部14において演算されたスコアとに基づいて、補正スコアを演算する機能を有する。   The correction score calculation unit 19 has a function of calculating a correction score based on the correction coefficient and the score calculated by the calculation unit 14.

具体的には、名詞wに関するスコアAをスコアA(w)、名詞wに関する補正係数BをスコアB(w)、名詞wに関する補正スコアを補正スコアC(w)とすると、

Figure 2010040020
で示される。 Specifically, if the score A for the noun w is score A (w), the correction coefficient B for the noun w is score B (w), and the correction score for the noun w is correction score C (w),
Figure 2010040020
Indicated by

判断部15は、補正スコアに基づいて、前記名詞をキーワードとするか否かを判断する。判断基準は任意の値に予め設定しておくことが可能である。任意の値は試行錯誤を繰り返しながら決定することが可能であり、以下に記述する本実施形態では、一例として10を基準に10よりも大きいスコアAを持つ名詞をキーワードと判断することも可能である。   Based on the corrected score, the determination unit 15 determines whether or not the noun is a keyword. The determination criterion can be set in advance to an arbitrary value. An arbitrary value can be determined while repeating trial and error. In the present embodiment described below, a noun having a score A greater than 10 can be determined as a keyword based on 10 as an example. is there.

このような構成によれば、本発明に関わるキーワード抽出サーバ10はユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとしてするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数(検索によってヒットした件数)による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。   According to such a configuration, the keyword extraction server 10 according to the present invention performs morphological analysis on text input from the user terminal 30, extracts nouns from the input text, and scores the extracted nouns as keywords. In addition to having the function of determining whether or not to use as a keyword based on the score, the relationship between the noun as a keyword candidate and the maximum score noun is the number of hits in the database with other articles (search By correcting the relevance based on the number of hits, the nouns that should be truly keywords can be extracted appropriately.

すなわち、従来技術の一例であるtf・idfと比較した場合に、tf・idfではキーワード性が高い単語であっても、他の記事によく出現すればキーワード候補の名詞としてのスコアが小さくなってしまうというtf・idfの欠点を本発明では効率よく補正することができるという有利な効果がある。   That is, when compared with tf · idf, which is an example of the prior art, even if a word has high keyword characteristics in tf · idf, if it appears frequently in other articles, the score as a keyword candidate noun will decrease. The present invention has an advantageous effect that the defect of tf · idf can be corrected efficiently.

また、従来技術の一例であるtf・idfと比較した場合に、tf・idfではキーワード性が低くなってしまう名詞であっても、他の記事にあまり出現しなければスコアが大きくなってしまうというtf・idfの欠点を本発明では効率よく補正することができるという有利な効果がある。   In addition, when compared with tf · idf, which is an example of the prior art, even if a noun has low keyword characteristics in tf · idf, the score will increase unless it appears in other articles. In the present invention, there is an advantageous effect that the defect of tf · idf can be corrected efficiently.

[処理手順]
ここで、本発明を適用した場合において実現され得る具体的な処理手順について、図4に示すフローチャートを参照して説明する。なお、以下に示す処理手順は、一例であってこれ以外にも実現され得る処理手順は無数に存在する。
[Processing procedure]
Here, a specific processing procedure that can be realized when the present invention is applied will be described with reference to a flowchart shown in FIG. The processing procedure shown below is an example, and there are innumerable processing procedures that can be realized in addition to this.

ステップS1において、キーワード抽出サーバ10の分割部11は、ユーザ端末30から直接入力されたテキスト、文字情報データベース20に既に記憶されているテキスト、その他外部機器(図示せず)から入力されたテキスト(英語、日本語等の言語の種類には限定されない)を句読点等の区切り記号で分割する。   In step S <b> 1, the dividing unit 11 of the keyword extraction server 10 includes text directly input from the user terminal 30, text already stored in the character information database 20, text input from other external devices (not shown) ( (It is not limited to language types such as English, Japanese, etc.).

ステップS2において、キーワード抽出サーバ10の形態素抽出部12は分割部11により分割された分割部分から意味をもった最小の音形である形態素を抽出する。   In step S <b> 2, the morpheme extraction unit 12 of the keyword extraction server 10 extracts a morpheme that is a minimum sound shape having a meaning from the divided parts divided by the division unit 11.

ステップS3において、キーワード抽出サーバ10の名詞抽出部13は、形態素抽出部12によって抽出された形態素についてその形態素が名詞であるか否かを判定し、名詞であると判定された形態素を抽出する。   In step S3, the noun extraction unit 13 of the keyword extraction server 10 determines whether or not the morpheme extracted by the morpheme extraction unit 12 is a noun, and extracts the morpheme determined to be a noun.

ステップS4において、キーワード抽出サーバ10の演算部14は、ステップS3において抽出された名詞である形態素についてキーワードになり得るかの判断基準を示すスコアAを演算する。   In step S4, the calculation unit 14 of the keyword extraction server 10 calculates a score A indicating a criterion for determining whether or not the morpheme that is the noun extracted in step S3 can be a keyword.

スコアAは上述した式(1)に基づいて演算される。   The score A is calculated based on the above-described equation (1).

ステップS5において、ステップS4において演算されたスコアAが予め定められた値よりも大きい場合には、キーワード抽出サーバ10の判断部15は、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断する。一例として、スコアAの値が10前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断することが可能である。   In step S5, when the score A calculated in step S4 is larger than a predetermined value, the determination unit 15 of the keyword extraction server 10 selects a word (noun) that is a morpheme indicating the value of the score A. Judged as a keyword. As an example, when the value of score A is greater than about 10, it is possible to determine a word (noun) that is a morpheme indicating the value of score A as a keyword.

ステップS6において、キーワード抽出サーバ10の選択部16は、ステップS5において判断されたキーワードの中で最もスコアAの値が大きい最大スコア名詞を選択する。   In step S6, the selection unit 16 of the keyword extraction server 10 selects the maximum score noun having the largest score A among the keywords determined in step S5.

ステップS7において、キーワード抽出サーバ10の検索部17は、ステップS6において選択された最大スコア名詞について、文字情報データベース20において検索を実行し、ヒット件数を最大スコア名詞の検索件数(|WmaxA|)とする。また、他のキーワード候補の名詞(W)について、文字情報データベース20において検索を実行し、ヒット件数をキーワード候補名詞の検索件数(|W|)とする   In step S7, the search unit 17 of the keyword extraction server 10 searches the character information database 20 for the maximum score noun selected in step S6, and the number of hits is the maximum score noun search number (| WmaxA |). To do. In addition, a search is performed in the character information database 20 for other keyword candidate nouns (W), and the number of hits is set as the number of keyword candidate noun searches (| W |).

さらに、キーワード抽出サーバ10の検索部17は、最大スコア名詞および他のキーワード候補名詞の両方が含まれる情報を文字情報データベース20において検索し、ヒットする検索件数(|WmaxA&W|)を求める。   Further, the search unit 17 of the keyword extraction server 10 searches the character information database 20 for information including both the maximum score noun and other keyword candidate nouns, and obtains the number of search hits (| WmaxA & W |).

ステップS8において、キーワード抽出サーバ10の補正係数演算部18は、ステップS7において検索された|WmaxA|、|W|および|WmaxA&W|に基づいてスコアAの補正係数(スコアB(w))を演算する。補正係数(スコアB(w))は上述した式(2)に基づいて演算される。   In step S8, the correction coefficient calculation unit 18 of the keyword extraction server 10 calculates a correction coefficient for score A (score B (w)) based on | WmaxA |, | W | and | WmaxA & W | searched in step S7. To do. The correction coefficient (score B (w)) is calculated based on the above-described equation (2).

ステップS9において、キーワード抽出サーバ10の補正スコア演算部19は、ステップS8において演算された補正係数(スコアB(w))とステップS4において演算されたスコアA(w)とに基づいて、名詞wに関する補正スコアである補正スコアC(w)を演算する。   In step S9, the correction score calculation unit 19 of the keyword extraction server 10 determines the noun w based on the correction coefficient (score B (w)) calculated in step S8 and the score A (w) calculated in step S4. A correction score C (w), which is a correction score for, is calculated.

ステップS10において、キーワード抽出サーバ10の判断部15は、ステップS9において演算された名詞wに関する補正スコアC(w)が予め定められた値よりも大きい場合には、その補正スコアC(w)の値を示すワード(名詞)をキーワードと判断する。一例として、補正スコアC(w)の値が10前後よりも大きい場合に、その補正スコアC(w)の値を示すワード(名詞)をキーワードと判断することが可能である。   In step S10, when the correction score C (w) regarding the noun w calculated in step S9 is larger than a predetermined value, the determination unit 15 of the keyword extraction server 10 determines the correction score C (w). A word (noun) indicating a value is determined as a keyword. As an example, when the value of the correction score C (w) is larger than about 10, it is possible to determine a word (noun) indicating the value of the correction score C (w) as a keyword.

このような構成によれば、本発明に関わるキーワード抽出サーバ10はユーザ端末30から入力されたテキスト等を形態素解析し、入力されたテキストから名詞を抽出し、抽出された名詞についてキーワードとしてのスコアを演算し、スコアに基づいてキーワードとするか否かを判断する機能を有するばかりではなく、キーワード候補としての名詞について、最大スコア名詞との関係を他の記事とのデータベースでのヒット数(検索によってヒットした件数)による関連性で補正することにより、真にキーワードとするべき名詞を適切に抽出することが可能となった。   According to such a configuration, the keyword extraction server 10 according to the present invention performs morphological analysis on text input from the user terminal 30, extracts nouns from the input text, and scores the extracted nouns as keywords. In addition to having the function of determining whether or not to use a keyword based on the score, the noun as a keyword candidate is related to the maximum score noun and the number of hits in the database with other articles (search By correcting the relevance based on the number of hits, the nouns that should be truly keywords can be extracted appropriately.

[キーワードの特定方法]
また、キーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図5に示されるように以下の文章の場合に名詞抽出部13で抽出された名詞「デジカメ」、「カメラ」、「大写し」および「グニャン」について本実施形態による補正スコアC(w)、スコアA(w)、スコアB(w)および従来技術の一例であるtf・idfスコアについて演算過程を図6に示し、演算結果を図7に示し説明する。
[Keyword identification method]
An example of a keyword specifying method will be described below. For example, when the input text is the following sentence as shown in FIG. 5, the nouns “digital camera”, “camera”, “large copy”, and “Gunyan” extracted by the noun extraction unit 13 are corrected according to this embodiment. FIG. 6 shows the calculation process for the score C (w), the score A (w), the score B (w), and the tf · idf score which is an example of the prior art, and the calculation result is shown in FIG.

以上の入力されたテキストからキーワード抽出サーバ10が、キーワード候補として判断した名詞が「デジカメ」、「カメラ」、「大写し」および「グニャン」である場合について演算過程を示した図6を参照しつつ説明する。   With reference to FIG. 6 showing the calculation process in the case where the nouns determined by the keyword extraction server 10 as keyword candidates from the input text are “digital camera”, “camera”, “large copy”, and “Gunyan”. explain.

キーワード候補として判断した名詞が「デジカメ」の場合に、スコアA(w)を求めようとする場合には、log(|デジカメ|+1)*tf(デジカメ)*log(N/(sf(デジカメ)+1))を演算する必要がある(式(1)より)。   When the noun determined as the keyword candidate is “digital camera”, if the score A (w) is to be obtained, log (| digital camera | +1) * tf (digital camera) * log (N / (sf (digital camera) +1)) must be calculated (from equation (1)).

式中、|デジカメ|は単語デジカメの文字数であるので、上記入力されたテキストから4となり、log(|デジカメ|+1)はlog(5)となる。 In the equation, | digital camera | is the number of characters of the word digital camera, so it becomes 4 from the input text, and log (| digital camera | +1) becomes log (5).

また、tf(デジカメ)は単語デジカメのテキスト中での出現頻度(テキスト中に何回出現したかを示す)ので、上記入力されたテキストから4となり、tf(デジカメ)は4となる。   Also, tf (digital camera) is the frequency of appearance of the word digital camera in the text (indicating how many times it appears in the text), so it becomes 4 from the input text, and tf (digital camera) becomes 4.

さらに、sf(デジカメ)は単語デジカメの文中での出現頻度(いくつの文に跨って出現したかを示す)を示すので、上記入力されたテキストからsf(デジカメ)は4となる。また、Nはテキスト中の文の総数を示すので、上記入力されたテキストからNは22となる。   Furthermore, since sf (digital camera) indicates the appearance frequency in the sentence of the word digital camera (indicating how many sentences have appeared), sf (digital camera) is 4 from the input text. Since N indicates the total number of sentences in the text, N is 22 from the input text.

したがって、log(デジカメ/(sf(デジカメ)+1))は、log(22/(4)+1))となる。   Therefore, log (digital camera / (sf (digital camera) +1)) becomes log (22 / (4) +1)).

以上の結果、スコアA(デジカメ)の値は12.0502になる。一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、デジカメは上記入力されたテキストのキーワードとすることができる。   As a result, the value of score A (digital camera) is 12.0502. As an example, if the value of score A is greater than around 6, if a word (noun) that is a morpheme indicating the value of score A is determined as a keyword, the digital camera may be a keyword of the input text. it can.

次に、キーワード候補として判断した名詞が「グニャン」の場合に、スコアA(w)を求めようとする場合には、デジカメの場合と同様にlog(|グニャン|+1)*tf(グニャン)*log(N/(sf(グニャン)+1))を演算する必要がある(式(1)より)。   Next, in the case where the noun determined as the keyword candidate is “Gunyan” and the score A (w) is to be obtained, log (| Gunyan | +1) * tf (Gunyan) * as in the case of the digital camera. log (N / (sf (Gnyan) +1)) needs to be calculated (from equation (1)).

式中、|グニャン|は単語デジカメの文字数であるので、上記入力されたテキストから4となり、log(|グニャン|+1)はlog(5)となる。 In the formula, | Gunyan | is the number of characters of the word digital camera, so it becomes 4 from the input text, and log (| Gunyan | +1) becomes log (5).

また、tf(グニャン)は単語デジカメのテキスト中での出現頻度(テキスト中に何回出現したかを示す)ので、上記入力されたテキストから2となり、tf(グニャン)は2となる。   Also, tf (Gunyan) is the frequency of appearance of the word digital camera in the text (indicating how many times it appears in the text), so it becomes 2 from the input text, and tf (Gunyan) becomes 2.

さらに、sf(グニャン)は単語デジカメの文中での出現頻度(いくつの文に跨って出現したかを示す)を示すので、上記入力されたテキストからsf(グニャン)は1となる。また、Nはテキスト中の文の総数を示すので、上記入力されたテキストからNは22となる。   Furthermore, since sf (Gunyan) indicates the appearance frequency in the sentence of the word digital camera (indicating how many sentences have appeared), sf (Gunyan) is 1 from the input text. Since N indicates the total number of sentences in the text, N is 22 from the input text.

したがって、log(グニャン/(sf(グニャン)+1))は、log(22/(1)+1))となる。   Therefore, log (Gnyan / (sf (Gnyan) +1)) becomes log (22 / (1) +1)).

以上の結果、スコアA(グニャン)の値は10.0928になる。一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、グニャンは上記入力されたテキストのキーワードとすることができる。   As a result, the value of score A (Gunyan) is 10.0928. As an example, if the score A is greater than about 6, and if a word (noun) that is a morpheme indicating the value of the score A is determined as a keyword, Gunyan may be used as a keyword for the input text. it can.

同様に、キーワード候補として判断した名詞が「カメラ」の場合には、スコアA(カメラ)の値は6.8896になり、キーワード候補として判断した名詞が「大写し」の場合には、スコアA(大写し)の値は4.3467になる。   Similarly, when the noun determined as the keyword candidate is “camera”, the value of the score A (camera) is 6.8896, and when the noun determined as the keyword candidate is “large copy”, the score A ( The value of (large copy) is 4.3467.

一例として、スコアAの値が6前後よりも大きい場合に、そのスコアAの値を示す形態素であるワード(名詞)をキーワードと判断すれば、「カメラ」および「大写し」は上記入力されたテキストのキーワードとはなりにくい。   As an example, if the value of score A is greater than about 6, and if a word (noun) that is a morpheme indicating the value of score A is determined as a keyword, “camera” and “large copy” are the texts input above It's hard to be a keyword.

また、スコアAだけの場合であっても、「デジカメ」のスコアAの値が、「グニャン」のスコアAの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。   Even in the case of only score A, the value of score A of “digital camera” is larger than the value of score A of “Gunyan”, and “digital camera” is easily determined as an appropriate keyword. Yes.

次に、名詞「デジカメ」および名詞「グニャン」の補正係数(スコアB)を演算する。   Next, the correction coefficient (score B) of the noun “digital camera” and the noun “Gunyan” is calculated.

スコアB(w)は|WmaxA&W|と(|WmaxA|*|W|)1/2との除算演算によって求められる((式2)より)。 The score B (w) is obtained by a division operation of | WmaxA & W | and (| WmaxA | * | W |) 1/2 (from (Equation 2)).

式中、WmaxAはスコアAが最も大きい名詞「デジカメ」を示し、|WmaxA&W|は「デジカメ」と名詞「デジカメ」または名詞「グニャン」とのAND検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|WmaxA|は名詞「デジカメ」の単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示し、|W|は名詞「デジカメ」または名詞「グニャン」の単独検索(キーワード抽出サーバ10のある文字情報データベース(DB)20からまたは外部の文字情報DB(図示せず))でのヒット件数を示す。   In the formula, WmaxA indicates the noun “digital camera” having the highest score A, and | WmaxA & W | indicates an AND search of “digital camera” and the noun “digital camera” or the noun “Gunyan” (character information database (DB ) 20 or the number of hits in the external character information DB (not shown), and | WmaxA | is a single search for the noun “digital camera” (from the character information database (DB) 20 with the keyword extraction server 10 or external) Indicates the number of hits in the character information DB (not shown), and | W | is a single search for the noun “digital camera” or the noun “Gunyan” (from the character information database (DB) 20 with the keyword extraction server 10 or externally) The number of hits in the character information DB (not shown).

名詞「デジカメ」の場合には、|WmaxA&W|と(|WmaxA|*|W|)1/2とは同じ値となるので、スコアB(デジカメ)は1となる(図6および図7参照)。 In the case of the noun “digital camera”, | WmaxA & W | and (| WmaxA | * | W |) 1/2 have the same value, so the score B (digital camera) is 1 (see FIGS. 6 and 7). .

名詞「グニャン」の場合には、|WmaxA&W|すなわち|デジカメ&グニャン|が24件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|グニャン|が727件ヒットした。   In the case of the noun “Gunyan”, | WmaxA & W |, ie | digital camera & Gunyan |, 24 hits, | WmaxA |, | digital camera |, 113,000,000 hits, | W | Hit.

その結果、名詞「グニャン」のスコアB(グニャン)は24/(113,000,000*727)1/2となり、おおよそ0.0001となる(図6および7参照)。 As a result, the score B (Gunyan) of the noun “Gunyang” is 24 / (113,000,000 * 727) 1/2 , which is approximately 0.0001 (see FIGS. 6 and 7).

同様に名詞「カメラ」の場合には、|WmaxA&W|すなわち|デジカメ&カメラ|が40,8000,000件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|カメラ|が310,000,000件ヒットした。   Similarly, in the case of the noun “camera”, | WmaxA & W |, ie | digital camera & camera |, hits 408,000,000, | WmaxA |, ie | digital camera | hits 113,000,000, and | W | That is, | camera | was hit 310,000,000.

その結果名詞「カメラ」のスコアB(カメラ)は40,800,000/(113,000,000*310,000,000)1/2となり、おおよそ0.2141となる(図6および図7参照)。 As a result, the score B (camera) of the noun “camera” is 40,800,000 / (113,000,000 * 310,000,000) 1/2 , which is approximately 0.2141 (see FIGS. 6 and 7). ).

同様に名詞「大写し」の場合には、|WmaxA&W|すなわち|デジカメ&大写し|が32,800件ヒットし、|WmaxA|すなわち|デジカメ|が113,000,000件ヒットし、|W|すなわち|大写し|が333,000件ヒットした。   Similarly, in the case of the noun “large copy”, | WmaxA & W |, ie, | digital camera & large copy | hits 32,800 hits, | WmaxA |, ie | digital camera | hits 113,000,000, and | W | Large photo | has hit 333,000 hits.

その結果名詞「大写し」のスコアB(カメラ)は32,800/(113,000,000*333,000)1/2となり、おおよそ0.0056となる(図6および図7参照)。 As a result, the score B (camera) of the noun “large copy” is 32,800 / (113,000,000 * 333,000) 1/2 , which is approximately 0.0056 (see FIGS. 6 and 7).

次に、これらの結果から、補正スコア(スコアC)を演算する。   Next, a corrected score (score C) is calculated from these results.

補正スコア(スコアC)は式(3)で示されるように、補正係数(スコアB)とスコアAとを乗算演算した値であるので、名詞「デジカメ」の補正スコア(スコアC(デジカメ))は、12.0502*1=12.0502となり、名詞「カメラ」の補正スコア(スコアC(カメラ))は、6.8896*0.2141=1.4751となり、名詞「大写し」の補正スコア(スコアC(大写し))は、4.3467*0.0056=0.0243となり、名詞「グニャン」の補正スコア(スコアC(グニャン))は、10.0928*0.0001=0.001となる(図6及び図7参照)。   Since the correction score (score C) is a value obtained by multiplying the correction coefficient (score B) and the score A as shown in the equation (3), the correction score of the noun “digital camera” (score C (digital camera)) Is 12.0502 * 1 = 12.0502, and the correction score (score C (camera)) of the noun “camera” is 6.8896 * 0.2141 = 1.4751 and the correction score of the noun “large copy” ( The score C (large copy)) is 4.3467 * 0.0056 = 0.0243, and the correction score (score C (Gunyan)) of the noun “Gunyang” is 10.0928 * 0.0001 = 0.001. (See FIGS. 6 and 7).

これらの結果、スコアA単独の値でキーワードを判断しようとした場合には、名詞「デジタルカメラ」のスコアA(デジタルカメラ)値と名詞「グニャン」のスコアA(グニャン)値は大きな値(例えば10以上)となるので、名詞「デジタルカメラ」と名詞「グニャン」とがキーワードとして判断される可能性があった。   As a result, when trying to determine a keyword based on the value of the score A alone, the score A (digital camera) value of the noun “digital camera” and the score A (gunyan) value of the noun “Gunyan” are large values (for example, Therefore, there is a possibility that the noun “digital camera” and the noun “Gunyan” are judged as keywords.

しかし、補正係数(スコアB)によれば、名詞「グニャン」のスコアB(グニャン)値は、0.0001と非常に小さくなり、キーワードとしては不適切であることを補正係数(スコアB)によって、数字で的確に示すことが可能となった。   However, according to the correction coefficient (score B), the score B (Gunyan) value of the noun “Gunyang” is as very small as 0.0001, and the correction coefficient (score B) indicates that it is inappropriate as a keyword. , It became possible to indicate accurately with numbers.

この結果、補正スコア(スコアC)によって、キーワードとして適切と考えられる名詞「デジカメ」の補正スコア(スコアC)値が大きな値(例えば10以上)となる。したがって、数式と検索による高速な処理が可能となる補正スコア(スコアC)によって、分類に有効な名詞(キーワード)のみを容易に抽出することができるキーワード抽出サーバ及び方法及びプログラムを提供することができる。   As a result, the correction score (score C) has a large correction score (score C) value (for example, 10 or more) for the noun “digital camera” that is considered appropriate as a keyword. Therefore, it is possible to provide a keyword extraction server, method, and program capable of easily extracting only nouns (keywords) effective for classification using a correction score (score C) that enables high-speed processing by mathematical formulas and search. it can.

また、tf(Term Frequency)・idf(Inverse Document Frequency)の値を図7に参考として示す。   Further, values of tf (Term Frequency) · idf (Inverse Document Frequency) are shown in FIG. 7 for reference.

tfは、あるターム(本実施形態においては、名詞「デジカメ」、「カメラ」、「大写し」、「グニャン」を示す)が文書に高い頻度で出現すればそのタームはその文書を特徴付ける単語と考えられることからtfの値は大きくなる(その文書中での出現頻度を示す。)   tf is considered to be a word that characterizes the term if a certain term (in this embodiment, the nouns “digital camera”, “camera”, “large copy”, “Gunyan”) appear in the document at a high frequency. Therefore, the value of tf becomes large (indicating the appearance frequency in the document).

また、idfは、文書の頻度を示す。前述のtfが大きければそのタームが重要な意味を持つが、例えば「こと」というような名詞は文書中に比較的に高頻度で出現するが特定の文書を特徴付けることにはならない。従って、複数の文書におけるそのタームの出現頻度df(Document Frequency)の逆数(idf)をとって、dfの値が小さいもの(文書を特徴付けるタームである可能性が高い)ほどidfが大きくなるようにし、文書を特徴付ける単語を抽出するようにする。   Idf indicates the frequency of the document. If tf is large, the term has an important meaning. For example, a noun such as “ko” appears relatively frequently in a document but does not characterize a specific document. Therefore, by taking the reciprocal (idf) of the appearance frequency df (Document Frequency) of the term in a plurality of documents, the smaller the value of df (the more likely the term characterizing the document), the larger the idf. Extract words that characterize the document.

具体的には、下記式(4)で演算される。

Figure 2010040020
で示され、式中、tf(w)は単語wのテキスト中での出現頻度(テキスト中に何回出現したかを示す)、df(w)は単語wの文書集合中での出現頻度(いくつの文書に出現したかを示す)、Nは文書集合に含まれる文書の総数を示す。 Specifically, it is calculated by the following equation (4).
Figure 2010040020
Where tf (w) is the appearance frequency of the word w in the text (shows how many times it appears in the text), and df (w) is the appearance frequency of the word w in the document set ( N indicates the total number of documents included in the document set.

ここで、名詞「デジカメ」の場合にはtf(デジカメ)が4となり、df(デジカメ)が97,200,000となり、Nが19,200,000,000(Web文書の総数とみなされる数)となるので、tf・idf値は21.1638になる。   Here, in the case of the noun “digital camera”, tf (digital camera) is 4, df (digital camera) is 97,200,000, and N is 19,200,000,000 (the number considered as the total number of Web documents). Therefore, the tf · idf value is 21.1638.

また、名詞「グニャン」の場合にはtf(グニャン)が2となり、df(グニャン)が727となり、Nが19,200,000,000(Web文書の総数とみなされる数))となるので、tf・idf値は34.1785になる。   In the case of the noun “Gunyang”, tf (Gunyan) is 2, df (Gunyan) is 727, and N is 19,200,000,000 (the number considered as the total number of Web documents)). The tf · idf value is 34.1785.

同様に、名詞「大写し」の場合にはtf・idf値は10.5224になり、名詞「カメラ」の場合にはtf・idf値は8.5419となる。   Similarly, in the case of the noun “large copy”, the tf · idf value is 10.5224, and in the case of the noun “camera”, the tf · idf value is 8.5419.

ここで、「カメラ」と「大写し」とを比較すると、tf・idfでは、「カメラ」のようにキーワード性が高い語であっても、他の記事(文書)によく出現するために、低いスコア(値)になっていることがわかる。   Here, when “camera” and “large copy” are compared, tf · idf is low because even if it is a word with high keyword characteristics such as “camera”, it frequently appears in other articles (documents). It turns out that it is a score (value).

また、tf・idfでは、「大写し」のようにキーワード性が低い語であっても、他の記事(文書)にはあまり出現しないために、高いスコア(値)になっていることがわかる。   In addition, in tf · idf, even a word with low keywordity such as “large copy” does not appear so much in other articles (documents), so it can be seen that it has a high score (value).

しかし、本実施形態では、「カメラ」と「大写し」を比較した場合には、「カメラ」の方が高いスコア(「カメラ」の補正スコア(スコアC(カメラ)は8.54、「大写し」の補正スコア(スコアC(大写し)は0.02)となっていて、キーワード候補が適切に判断されていることが確認される。   However, in this embodiment, when “camera” and “large copy” are compared, the score of “camera” is higher (the correction score of “camera” (score C (camera) is 8.54, “large copy”). The correction score (score C (large copy) is 0.02) is confirmed, and it is confirmed that the keyword candidates are appropriately determined.

さらに、tf・idfでは、「グニャン」のようにキーワード性が低い語であっても、他の記事(文書)にあまり出現しないために、高いスコア(値)になっていることがわかる。   Furthermore, it can be seen that tf · idf has a high score (value) because it does not appear much in other articles (documents) even if it is a low keyword word such as “Gunyan”.

しかし、本実施形態では、補正係数(スコアB)の効果(スコアAの値が最も大きい最大スコア名詞との関連性が高い場合には、補正係数(スコアB)が大きくなり、スコアAの値が最も大きい最大スコア名詞との関連性が小さい場合には、補正係数(スコアB)が小さくなる。)によって、「グニャン」のようにキーワード性が低い語は、補正スコア(スコアC)が小さな値となって、キーワードとして判断されないように適切に演算処理される。   However, in the present embodiment, the effect of the correction coefficient (score B) (when the relevance with the largest score noun with the highest score A value is high, the correction coefficient (score B) increases and the value of the score A When the relevance to the maximum score noun with the largest is small, the correction coefficient (score B) is small.) As a result, a word with low keywordity such as “Gunyan” has a small correction score (score C). A value is appropriately calculated so as not to be determined as a keyword.

また、スコアAだけの場合であっても、「デジカメ」のスコアAの値が、「グニャン」のスコアAの値よりも大きくなっており、「デジカメ」が適切なキーワードとして判断されやすくなっている。
[他のキーワードの特定方法]
Even in the case of only score A, the value of score A of “digital camera” is larger than the value of score A of “Gunyan”, and “digital camera” is easily determined as an appropriate keyword. Yes.
[How to identify other keywords]

さらに、他のキーワードの特定方法の一例について以下に説明する。例えば、入力されたテキストが図8に示される文章の場合に名詞抽出部13で抽出された名詞「地震」、「災害」、「震度」および「余震」について本実施形態によるスコアA(w)、補正係数であるスコアB(w)、補正スコアであるスコアC(w)について演算し、その演算結果について説明する。   Furthermore, an example of another keyword specifying method will be described below. For example, in the case where the input text is the sentence shown in FIG. 8, the score A (w) according to the present embodiment for the nouns “earthquake”, “disaster”, “seismic intensity”, and “aftershock” extracted by the noun extraction unit 13. , The score B (w) as the correction coefficient and the score C (w) as the correction score are calculated, and the calculation result will be described.

キーワード候補として判断した名詞が「災害」の場合には、スコアA(w)は3.54、補正係数(スコアB)は0.29、補正スコア(スコアC)は1.03となる。   When the noun determined as the keyword candidate is “disaster”, the score A (w) is 3.54, the correction coefficient (score B) is 0.29, and the correction score (score C) is 1.03.

また、キーワード候補として判断した名詞が「地震」の場合には、スコアA(w)は7.24、補正係数(スコアB)は1.0、補正スコア(スコアC)は7.24となる。   When the noun determined as the keyword candidate is “earthquake”, the score A (w) is 7.24, the correction coefficient (score B) is 1.0, and the correction score (score C) is 7.24. .

また、キーワード候補として判断した名詞が「震度」の場合には、スコアA(w)は3.54、補正係数(スコアB)は0.27、補正スコア(スコアC)は0.94となる。   When the noun determined as the keyword candidate is “seismic intensity”, the score A (w) is 3.54, the correction coefficient (score B) is 0.27, and the correction score (score C) is 0.94. .

また、キーワード候補として判断した名詞が「余震」の場合には、スコアA(w)は4.28、補正係数(スコアB)は0.15、補正スコア(スコアC)は0.66となる。   When the noun determined as the keyword candidate is “aftershock”, the score A (w) is 4.28, the correction coefficient (score B) is 0.15, and the correction score (score C) is 0.66. .

以上のキーワード候補とした名詞「地震」、「災害」、「震度」および「余震」についてスコアA(w)を演算すると、「地震」が最も大きな値となる。   When the score A (w) is calculated for the nouns “earthquake”, “disaster”, “seismic intensity”, and “aftershock” as the keyword candidates, “earthquake” has the largest value.

「地震」という名詞は、地震が発生した場合など、特別な場合に使用されることが多いため専門性の高い語だと言える。従って、「地震」はキーワード候補としてふさわしい名詞と考えられる。   The term “earthquake” is a highly specialized word because it is often used in special cases, such as when an earthquake occurs. Therefore, “earthquake” is considered as a noun suitable as a keyword candidate.

補正係数であるスコアB(w)は、スコアA(w)が最も大きな値を有する名詞に基づいて演算されるので、「地震」という名詞と共起する「災害」、「震度」、「余震」に対して、スコアB(w)のスコア値が高くなる。   The score B (w), which is a correction coefficient, is calculated based on the noun having the largest value of the score A (w), so that “disaster”, “seismic intensity”, “aftershock” co-occurs with the noun “earthquake”. ", The score value of the score B (w) becomes higher.

さらに、補正スコアであるスコアC(w)は補正係数であるスコアB(w)の演算結果を利用するので(式(3)参照)、「災害」、「震度」、「余震」の補正スコア値は大きな値となり、専門性の高い語からキーワードを適切に抽出することが可能であることが示される。   Furthermore, since the score C (w) as the correction score uses the calculation result of the score B (w) as the correction coefficient (see Equation (3)), the correction scores for “disaster”, “seismic intensity”, and “aftershock” are used. The value becomes a large value, which indicates that it is possible to appropriately extract keywords from highly specialized words.

以上、この例を分析すると、スコアAの計算により、スコアAが最も大きい単語が「地震」となる。「地震」という語は、地震が起こったときなど、特別な場合に使われることが多いため、専門性が高い語だといえる。そのため、スコアBの計算により、地震とよく共起する「災害」、「震度」、「余震」に高いスコアが付く。スコアCの計算では、スコアBの計算結果を利用するため、「災害」、「震度」、「余震」に高いスコアが付くことがわかる。   As described above, when this example is analyzed, the word having the highest score A is “earthquake” by the calculation of the score A. The term “earthquake” is highly specialized because it is often used in special cases, such as when an earthquake occurs. Therefore, by calculating the score B, high scores are given to “disaster”, “seismic intensity”, and “aftershock” that often co-occur with earthquakes. In the calculation of score C, since the calculation result of score B is used, it is understood that “disaster”, “seismic intensity”, and “aftershock” have high scores.

[変形例]
新聞記事、雑誌記事、あるいはニュース情報等の情報源からキーワードを抽出したい場合がある。この場合にも、新聞記事、雑誌記事、あるいはニュース情報等の情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によってキーワードを抽出することができる。キーワードはスコアA、またはスコアCの値が高い値から選択することができる。
[Modification]
There are cases where it is desired to extract keywords from information sources such as newspaper articles, magazine articles, or news information. Also in this case, by extracting information such as newspaper articles, magazine articles, or news information into text, the keyword extraction server 10 according to the present embodiment extracts keywords by calculation using the score A, score B, and score C. can do. The keyword can be selected from a score A or a value having a high score C.

また、静止画または動画等の画像情報に関連したキーワードを抽出したい場合がある。   In some cases, it is desired to extract keywords related to image information such as still images or moving images.

この場合には対象となる画像情報のURLをキーワード抽出サーバ10が検索し、検索結果の上位の記事情報(タイトルおよびスニペットを含む。)をテキストとしてキーワード抽出サーバ10が取得する。   In this case, the keyword extraction server 10 searches the URL of the target image information, and the keyword extraction server 10 acquires the article information (including the title and snippet) at the top of the search result as text.

対象となる画像情報のURLを紹介している記事の周辺には、関連するワードも出現していることが考えられるためである。   This is because it is considered that related words also appear around the article introducing the URL of the target image information.

キーワード抽出サーバ10が検索し、取得した検索結果の上位の記事情報(タイトルおよびスニペットを含む。)から、キーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によって画像情報のキーワードを抽出することができる。キーワードはスコアA、またはスコアCの値が高い値から選択することができる。   The keyword extraction server 10 searches and acquires the keyword of the image information from the top article information (including title and snippet) of the acquired search result by the calculation using the score A, score B, and score C in the keyword extraction server 10. Can be extracted. The keyword can be selected from a value having a high score A or score C.

また、記事情報に検索インデックスを付与したい場合がある。この場合にも、記事情報をテキスト化しておくことによって、本実施形態によるキーワード抽出サーバ10においてスコアA、スコアB、スコアCを使用した演算によってキーワードを抽出することができる。   In some cases, it is desired to add a search index to article information. Also in this case, by converting the article information into text, the keyword extraction server 10 according to the present embodiment can extract the keyword by calculation using the score A, score B, and score C.

この場合、検索インデックスとするキーワードは複数選択することができ、スコアA、またはスコアCの値が高いワードから順番に検索インデックスとすることができる。   In this case, a plurality of keywords can be selected as the search index, and the search index can be set in order from the word having the highest score A or score C value.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

なお、本実施形態においては、サーバ10は、ハードディスク370及び光ディスクドライブ380を有する構成として説明したが、これに限られず、これらの駆動系を有さない構成、いわゆるゼロスピンドルによる構成であっても良い。このような構成の場合には、ハードディスク370に記憶される内容は、大容量の半導体メモリ390に記憶される。   In the present embodiment, the server 10 has been described as having a hard disk 370 and an optical disk drive 380. However, the present invention is not limited to this, and the server 10 may have a structure without these drive systems, that is, a so-called zero spindle. good. In the case of such a configuration, the contents stored in the hard disk 370 are stored in the large-capacity semiconductor memory 390.

本実施形態に係るサーバと、ユーザ端末とから構成される情報処理システムを示す図である。It is a figure which shows the information processing system comprised from the server which concerns on this embodiment, and a user terminal. 本発明に係るサーバの構成を示すブロック図である。It is a block diagram which shows the structure of the server which concerns on this invention. 本実施形態に係るサーバの機能的な構成を示す機能ブロック図である。It is a functional block diagram which shows the functional structure of the server which concerns on this embodiment. 本実施形態に係るサーバによる処理手順についての説明に供するフローチャートである。It is a flowchart with which it uses for description about the process sequence by the server which concerns on this embodiment. 本実施形態に係る入力テキストの一例を示す図である。It is a figure which shows an example of the input text which concerns on this embodiment. 本実施形態に係るスコアの演算例を示す図である。It is a figure which shows the calculation example of the score which concerns on this embodiment. 本実施形態に係るスコアの演算結果例を示す図である。It is a figure which shows the example of a calculation result of the score which concerns on this embodiment. 本実施形態に係る他の入力テキストの一例を示す図である。It is a figure which shows an example of the other input text which concerns on this embodiment.

符号の説明Explanation of symbols

1 情報処理システム
10 キーワード抽出サーバ
11 分割部
12 形態素抽出部
13 名詞抽出部
14 演算部
15 判断部
16 選択部
17 検索部
18 補正係数演算部
19 補正スコア演算部
20 文字情報データベース(DB)
30 ユーザ端末
DESCRIPTION OF SYMBOLS 1 Information processing system 10 Keyword extraction server 11 Division | segmentation part 12 Morphological extraction part 13 Noun extraction part 14 Operation part 15 Judgment part 16 Selection part 17 Search part 18 Correction coefficient calculation part 19 Correction score calculation part 20 Character information database (DB)
30 User terminal

Claims (6)

入力されたテキストを句読点で分割する分割手段と、
前記分割手段により分割された分割部分から形態素を抽出する形態素抽出手段と、
前記形態素抽出手段により抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出手段と、
前記名詞抽出手段により抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算手段と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断手段と、を備えることを特徴とするキーワード抽出装置。
A dividing means for dividing the input text by punctuation marks;
Morpheme extraction means for extracting morphemes from the divided parts divided by the dividing means;
Determining a part of speech for the morpheme extracted by the morpheme extraction unit, and extracting a morpheme determined to be a noun;
About the noun extracted by the noun extraction means, the number of characters of the noun, the appearance frequency of the noun in the text, the total number of sentences in the text, and how many sentences the noun appears over Calculating means for calculating a score as a keyword of the noun based on a ratio to the appearance frequency indicating
A keyword extracting device comprising: a determination unit that determines whether or not the noun is a keyword based on the score that is a result of the calculation.
前記演算手段は、前記名詞の文字数または前記名詞の文字数前後の対数演算値、前記名詞の前記テキスト中での出現頻度、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比または当該比前後の数の対数演算値とを乗算演算した値を前記スコアとすることを特徴とする請求項1に記載のキーワード抽出装置。   The calculation means includes the number of characters of the noun or a logarithm calculation value around the number of characters of the noun, the appearance frequency of the noun in the text, the total number of sentences in the text, and the number of nouns appearing over the number of the sentences The keyword extraction device according to claim 1, wherein a value obtained by multiplying a ratio with an appearance frequency indicating whether or not or a logarithm calculation value of a number before and after the ratio is used as the score. インターネットにおいて送受信された文字情報を記憶した文字情報データベースと、
前記判断手段によって前記キーワードであると判断された前記名詞の中で最も前記スコアが大きい最大スコア名詞を選択する選択手段と、
前記最大スコア名詞と前記名詞とを前記文字情報データベースにおいて検索し、前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞および前記名詞の両方が含まれる検索件数とを検索し調査する検索手段と、
前記最大スコア名詞の検索件数、前記名詞の検索件数および前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数に基づいて補正係数を演算する補正係数演算手段と、
前記補正係数と前記演算手段によって演算された前記スコアとに基づいて、補正スコアを演算する補正スコア演算手段とを備え、
前記判断手段は、前記補正スコアに基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする請求項1または2に記載のキーワード抽出装置。
A character information database storing character information transmitted and received on the Internet;
Selecting means for selecting a maximum score noun with the highest score among the nouns determined to be the keyword by the determining means;
The maximum score noun and the noun are searched in the character information database, and the search number of the maximum score noun, the search number of the noun, and the search number including both the maximum score noun and the noun are searched and investigated. Search means to
A correction coefficient calculating means for calculating a correction coefficient based on the search number of the maximum score noun, the search number of the noun and the search number including both the maximum score noun and the noun;
Correction score calculation means for calculating a correction score based on the correction coefficient and the score calculated by the calculation means;
The keyword extracting apparatus according to claim 1, wherein the determining unit determines whether or not the noun is a keyword based on the correction score.
前記補正係数演算手段は、前記最大スコア名詞並びに前記名詞の両方が含まれる検索件数を、前記最大スコア名詞の検索件数と前記名詞の検索件数との乗算演算値の平方根で除算演算した値を前記補正スコアとし、
前記判断手段は、前記補正スコアと前記スコアとの乗算演算値に基づいて、前記名詞をキーワードとするか否かを判断することを特徴とする請求項3に記載のキーワード抽出装置。
The correction coefficient calculating means divides the number of searches including both the maximum score noun and the noun by the square root of the multiplication calculation value of the search number of the maximum score noun and the search number of the noun. As a correction score,
4. The keyword extracting apparatus according to claim 3, wherein the determining means determines whether or not the noun is a keyword based on a multiplication operation value of the correction score and the score.
入力されたテキストを句読点で分割する分割工程と、
前記分割工程において分割された分割部分の形態素を抽出する形態素抽出工程と、
前記形態素抽出工程において抽出された形態素について品詞を判断し、名詞と判断された形態素を抽出する名詞抽出工程と、
前記名詞抽出工程において抽出された前記名詞について、前記名詞の文字数、前記名詞の前記テキスト中での出現頻度および、前記テキスト中の文の総数と前記名詞がいくつの前記文に跨って出現したかを示す出現頻度との比に基づいて前記名詞のキーワードとしてのスコアを演算する演算工程と、
前記演算の結果である前記スコアに基づいて、前記名詞をキーワードとするか否かを判断する判断工程と、を備えることを特徴とするキーワード抽出方法。
A splitting process that splits the input text with punctuation marks;
A morpheme extraction step of extracting morphemes of the divided parts divided in the division step;
Determining a part of speech for the morpheme extracted in the morpheme extraction step, and extracting a morpheme determined as a noun;
About the noun extracted in the noun extraction step, the number of characters of the noun, the appearance frequency of the noun in the text, and the total number of sentences in the text and how many sentences the noun appears over A calculation step of calculating a score as a keyword of the noun based on a ratio with an appearance frequency indicating:
And a determination step of determining whether or not to use the noun as a keyword based on the score that is a result of the calculation.
請求項5に記載の方法をコンピュータに実行させることを特徴とするプログラム。   A program for causing a computer to execute the method according to claim 5.
JP2008205896A 2008-08-08 2008-08-08 Keyword extraction apparatus, method and program Expired - Fee Related JP4934115B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008205896A JP4934115B2 (en) 2008-08-08 2008-08-08 Keyword extraction apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008205896A JP4934115B2 (en) 2008-08-08 2008-08-08 Keyword extraction apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2010040020A true JP2010040020A (en) 2010-02-18
JP4934115B2 JP4934115B2 (en) 2012-05-16

Family

ID=42012454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008205896A Expired - Fee Related JP4934115B2 (en) 2008-08-08 2008-08-08 Keyword extraction apparatus, method and program

Country Status (1)

Country Link
JP (1) JP4934115B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079309A (en) * 2010-09-30 2012-04-19 Nhn Corp Method and apparatus for extracting keyword of document based on document relationship score of word and graph structure
CN104573055A (en) * 2015-01-21 2015-04-29 南京烽火星空通信发展有限公司 Word segmentation method for rapidly searching network account number

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0648998A (en) * 1991-07-12 1994-02-22 Hoechst Ag Production of pure 3,3',4,4'-tetraaminobiphenyl
JP2003162540A (en) * 2001-11-28 2003-06-06 Seiko Epson Corp Data retrieval device and data retrieval method
JP2003281159A (en) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd Document processor, document processing method and document processing program
JP2006065387A (en) * 2004-08-24 2006-03-09 Fuji Xerox Co Ltd Text sentence search device, method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0648998A (en) * 1991-07-12 1994-02-22 Hoechst Ag Production of pure 3,3',4,4'-tetraaminobiphenyl
JP2003162540A (en) * 2001-11-28 2003-06-06 Seiko Epson Corp Data retrieval device and data retrieval method
JP2003281159A (en) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd Document processor, document processing method and document processing program
JP2006065387A (en) * 2004-08-24 2006-03-09 Fuji Xerox Co Ltd Text sentence search device, method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079309A (en) * 2010-09-30 2012-04-19 Nhn Corp Method and apparatus for extracting keyword of document based on document relationship score of word and graph structure
CN104573055A (en) * 2015-01-21 2015-04-29 南京烽火星空通信发展有限公司 Word segmentation method for rapidly searching network account number

Also Published As

Publication number Publication date
JP4934115B2 (en) 2012-05-16

Similar Documents

Publication Publication Date Title
TWI536181B (en) Language identification in multilingual text
KR101548096B1 (en) Method and server for automatically summarizing documents
JP5497048B2 (en) Transliteration of proper expressions using comparable corpus
JP2006252382A (en) Question answering system, data retrieval method and computer program
JP2005251206A (en) Word collection method and system for use in word segmentation
JP5710581B2 (en) Question answering apparatus, method, and program
US8204736B2 (en) Access to multilingual textual resources
JP2011118689A (en) Retrieval method and system
US20120078907A1 (en) Keyword presentation apparatus and method
JP2007241764A (en) Syntax analysis program, syntax analysis method, syntax analysis device, and computer readable recording medium recorded with syntax analysis program
Silveira et al. Combining a double clustering approach with sentence simplification to produce highly informative multi-document summaries
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
CN115794995A (en) Target answer obtaining method and related device, electronic equipment and storage medium
JP2006065387A (en) Text sentence search device, method, and program
CN113743090B (en) Keyword extraction method and device
Magdy et al. An efficient method for using machine translation technologies in cross-language patent search
JP2004334766A (en) Word classifying device, word classifying method and word classifying program
JP4934115B2 (en) Keyword extraction apparatus, method and program
JP6106489B2 (en) Semantic analyzer and program
JP2007164635A (en) Method, device and program for acquiring synonymous vocabulary
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Mohd et al. Sumdoc: a unified approach for automatic text summarization
JP2007172179A (en) Opinion extraction device, opinion extraction method and opinion extraction program
JP2006004366A (en) Machine translation system and computer program for it

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120217

R150 Certificate of patent or registration of utility model

Ref document number: 4934115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A072 Dismissal of procedure

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20120710

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350