JP2005135311A - Category-classified new feature word ranking method, apparatus and program, and computer readable storage medium recorded with category-classified new feature word ranking program - Google Patents
Category-classified new feature word ranking method, apparatus and program, and computer readable storage medium recorded with category-classified new feature word ranking program Download PDFInfo
- Publication number
- JP2005135311A JP2005135311A JP2003372996A JP2003372996A JP2005135311A JP 2005135311 A JP2005135311 A JP 2005135311A JP 2003372996 A JP2003372996 A JP 2003372996A JP 2003372996 A JP2003372996 A JP 2003372996A JP 2005135311 A JP2005135311 A JP 2005135311A
- Authority
- JP
- Japan
- Prior art keywords
- category
- word
- appearance
- document
- ranking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体に係り、特に、新たに作成された文書を対象として、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体に関する。 The present invention relates to a category-specific new feature word ranking method and apparatus, a program, and a computer-readable storage medium in which a category-specific new feature word ranking program is recorded. The present invention also relates to a category-specific new feature word ranking method and apparatus and a program for ranking new feature words, and a computer-readable storage medium storing the category-specific new feature word ranking program.
現在から数時間〜数日前以降に作成された文書は、現在の世間の流行や関心事、新着情報など、タイムリーな情報を含んでいる可能性が高い。従って、作成時刻の新しい文書を数多く収集して解析すれば、最近のトレンドやタイムリーな出来事を把握することができる。情報の更新が早いインターネット上の文書では、時々刻々と新しい情報が追加されるため、この傾向はなおさらである。 Documents created several hours to several days ago from now are likely to contain timely information such as current trends, interests, and new arrival information. Therefore, by collecting and analyzing many documents with new creation times, it is possible to grasp recent trends and timely events. This is especially true for documents on the Internet that are updated quickly because new information is added from time to time.
新着情報を入手するため、続々と送られる文字情報から、更新部分のみを選択して提示することでタイムリーな情報の継続的な入手を支援する技術がある(例えば、特許文献1参照)。しかしながら、以前に受信した文書と新しく受信した文書の一部が重複しているような情報ソースを対象とする技術であり、数時間〜数日程度前までの期間に作成された文書を対象としてトレンドやタイムリーな出来事を抽出するのは不可能である。 In order to obtain new arrival information, there is a technology that supports continuous acquisition of timely information by selecting and presenting only updated portions from text information that is sent one after another (see, for example, Patent Document 1). However, it is a technology that targets information sources in which a previously received document and a part of a newly received document overlap, and targets documents created in the period of several hours to several days ago. It is impossible to extract trends and timely events.
また、単語の出現頻度を集計し、出現頻度の高い単語はトレンドを表す語であるとしてリストアップする技術がある(例えば、特許文献2参照)。現在から数時間〜数日前以降に作成された文書をこの技術の入力とすれば最近のトレンドを表す語をリストアップすることは可能になるが、文章の中で出現頻度の高い単語は一般性の高い単語である場合が多く、必ずしもトレンドを表す語ばかりがリストアップされるわけではない。 Further, there is a technique of counting up the appearance frequencies of words and listing up words having high appearance frequencies as words representing trends (for example, see Patent Document 2). If a document created several hours to several days ago is used as an input for this technology, it will be possible to list words that represent recent trends, but words that appear frequently in sentences are general. In many cases, it is a high word, and not only the word indicating the trend is necessarily listed.
一方、自然言語処理の分野では、語句の出現頻度の文書間での相関関係を解析し、各文書内で特徴的な語句を抽出する技術がある。これは、ある文書での出現頻度が高くて他の文書での出現頻度が少ない語句に大きな重みを与え、多くの文書に出現する一般性の高い語句の重みを小さくすることで、語句の評価を行うものである。この技術を、予め内容に応じて複数のカテゴリに分類した文書に対して適用すれば、「各カテゴリ内で特徴的な語」を抽出することが可能である。さらに、最近作成された文書に対して処理を行えば、最近のトレンドを表す語句の抽出は可能である。しかし、最近作成された文書に出現し、あるカテゴリに特徴的であり、かつごく最近登場するようになったタイムリーな話題を選択して抽出するのは非常に難しい。
上記のように、従来の技術では、最近になって作成された文書から新しい概念やタイムリーな事件、出来事を表す語句を抽出するのは困難であった。 As described above, with the conventional technology, it has been difficult to extract new concepts, timely incidents, and phrases that represent events from recently created documents.
本発明は、上記の点に鑑みなされたもので、複数のカテゴリ別に収集された多数の文書からカテゴリ毎の新着特徴語を容易に抽出し、現在のトレンドを支援することが可能なカテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。 The present invention has been made in view of the above points. A new category-by-category capable of easily extracting new feature words for each category from a large number of documents collected by a plurality of categories and supporting current trends. It is an object of the present invention to provide a computer-readable storage medium in which an outgoing feature word ranking method, apparatus, program, and category-specific new feature word ranking program are recorded.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
上記の目的を達成するために、本発明は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法において、
語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と該語句に関する語句付随情報を集計する語句集計ステップ(ステップ1)と、
カテゴリ関連度評価手段が、語句の語句付随情報を利用し、該語句が出現するカテゴリへの関連度を、各語句について算出するカテゴリ関連度評価ステップ(ステップ2)と、からなり、
語句集計ステップ(ステップ1)は、
語句付随情報として語句の出現カテゴリ数、ならびに、該語句の文書内出現回数に、作成時刻がより新しい文書ほど大きな重みを掛けながらカテゴリ内の全文書について加算して得られたカテゴリ別時間傾斜出現量とを記憶手段に記録し、
カテゴリ関連度評価ステップ(ステップ2)は、
語句の出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する。
To achieve the above object, the present invention provides a category-specific new feature word ranking method for ranking new feature words by category.
When a document with creation time information classified into a plurality of categories is input from the database, the word totaling unit analyzes the document and totals the words that appear in the document and the word-related information related to the word Counting step (step 1);
The category relevance evaluation means comprises a category relevance evaluation step (step 2) for calculating the relevance to the category in which the phrase appears, using the phrase accompanying information of the word, and for each word.
The word counting step (Step 1)
The number of appearance categories of the phrase as the phrase accompanying information, and the time-gradual appearance by category obtained by adding all the documents in the category while adding a greater weight to the number of occurrences of the phrase in the document with a newer creation time Record the amount in the storage means,
The category relevance evaluation step (Step 2)
The category of the phrase is calculated by calculating a category relevance composed of an appearance category number element determined based on the number of appearance categories of the phrase and an appearance amount element determined based on the time-gradient appearance amount by category. Create another ranking.
また、本発明は、語句集計ステップ(ステップ1)において、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間とを記憶手段に記録し、
カテゴリ関連度評価ステップ(ステップ2)において、
出現カテゴリ数要素、出現量要素に加え、語句出現期間に基づく寿命要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する。
Further, the present invention provides a phrase totaling step (step 1):
In addition to the number of appearance categories of the phrase and the time-gradient appearance amount by category as the phrase accompanying information, the phrase appearance period based on the creation time of the document in which the phrase appears is recorded in the storage means,
In the category relevance evaluation step (step 2),
By calculating the category relevance composed of the life element based on the word appearance period in addition to the appearance category number element and the appearance amount element, the ranking of the word by category is created.
また、本発明は、語句集計ステップ(ステップ1)において、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数とを記憶手段に記録し、
カテゴリ関連度評価ステップ(ステップ2)において、
出現カテゴリ数要素、出現量要素に加え、カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う。
Further, the present invention provides a phrase totaling step (step 1):
In addition to the number of appearance categories of words and the amount of time-gradient appearance of each category as word-accompanying information, the number of documents that appear in each category and the number of documents in which the words appear in each category are recorded in the storage means,
In the category relevance evaluation step (step 2),
The category ranking of words is performed by calculating the category relevance composed of the number of appearance document elements based on the number of appearance words of each category in addition to the appearance category number element and the appearance amount element.
また、本発明は、語句集計ステップ(ステップ1)において、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を記憶手段に記録し、
カテゴリ関連度評価ステップ(ステップ2)において、
出現カテゴリ数要素、出現量要素に加え、語句出現期間に基づく寿命要素と、カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う。
Further, the present invention provides a phrase totaling step (step 1):
In addition to the number of appearance categories of words and the time-graded appearance amount by category as word-accompanying information, the word appearance period based on the creation time of the document in which the word appears and the number of documents in which the word appears in each category Record the number of words appearing in the storage means,
In the category relevance evaluation step (step 2),
In addition to the appearance category number element and the appearance amount element, the ranking of each word by category is calculated by calculating the category relevance that is composed of the lifetime element based on the word appearance period and the appearance document number element based on the word appearance document number by category. I do.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング装置であって、
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と該語句に関する語句付随情報を集計する語句集計手段13と、
語句の語句付随情報を利用し、該語句が出現するカテゴリへの関連度を、各語句について算出するカテゴリ関連度評価手段14と、を有し、
語句集計手段13は、
語句付随情報として語句の出現カテゴリ数、ならびに、該語句の文書内出現回数に、作成時刻がより新しい文書ほど大きな重みを掛けながらカテゴリ内の全文書について加算して得られたカテゴリ別時間傾斜出現量とを記憶手段に記録する手段を含み、
カテゴリ関連度評価手段14は、
語句の出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する手段を含む。
The present invention is a category-specific new feature word ranking device for ranking new feature words by category,
When a document with creation time information classified into a plurality of categories is input from the database, the
Category relevance evaluation means 14 for calculating the relevance to the category in which the word appears, using the word accompanying information of the word;
The phrase totalization means 13
The number of appearance categories of the phrase as the phrase accompanying information, and the time-gradual appearance by category obtained by adding all the documents in the category while adding a greater weight to the number of occurrences of the phrase in the document with a newer creation time Means for recording the quantity in a storage means,
The category relevance evaluation means 14
The category of the phrase is calculated by calculating a category relevance composed of an appearance category number element determined based on the number of appearance categories of the phrase and an appearance amount element determined based on the time-gradient appearance amount by category. A means for creating another ranking is included.
また、本発明の語句集計手段13は、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間とを記憶手段に記録する手段を含み、
カテゴリ関連度評価手段14は、
出現カテゴリ数要素、出現量要素に加え、語句出現期間に基づく寿命要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する手段を含む。
Moreover, the word totalizing means 13 of the present invention
Means for recording in the storage means the word appearance period based on the creation time of the document in which the word appears, in addition to the number of appearance categories of the word and the time gradient appearance amount by category as the word accompanying information,
The category relevance evaluation means 14
In addition to the appearance category number element and the appearance amount element, it includes means for creating a category ranking of words by calculating the category relevance composed of life elements based on the word appearance period.
また、本発明の語句集計手段13は、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数とを記憶手段に記録する手段を含み、
カテゴリ関連度評価手段14は、
出現カテゴリ数要素、出現量要素に加え、カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う手段を含む。
Moreover, the word totalizing means 13 of the present invention
Means for recording in the storage means, in addition to the number of appearance categories of words and the amount of time-gradient appearance of each category as word-accompanying information, the number of documents that appear in each category and the number of documents in which the words appear in each category;
The category relevance evaluation means 14
Means for ranking the phrases by category by calculating the category relevance composed of the appearance document number elements based on the number of appearance word count documents by category in addition to the appearance category number element and the appearance amount element.
また、本発明の語句集計手段13は、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を記憶手段に記録する手段を含み、
カテゴリ関連度評価手段14は、
出現カテゴリ数要素、出現量要素に加え、語句出現期間に基づく寿命要素と、カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う手段を含む。
Moreover, the word totalizing means 13 of the present invention
In addition to the number of appearance categories of words and the time-graded appearance amount by category as word-accompanying information, the word appearance period based on the creation time of the document in which the word appears and the number of documents in which the word appears in each category Means for recording the number of word appearance documents in the storage means,
The category relevance evaluation means 14
In addition to the appearance category number element and the appearance amount element, the ranking of each word by category is calculated by calculating the category relevance that is composed of the lifetime element based on the word appearance period and the appearance document number element based on the word appearance document number by category. Means for performing.
本発明は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキングプログラムであって、
コンピュータを、
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と該語句に関する語句付随情報を集計する語句集計手段と、
カテゴリ関連度評価手段が、語句の語句付随情報を利用し、該語句が出現するカテゴリへの関連度を、各語句について算出するカテゴリ関連度評価手段として機能させるプログラムであり、
語句集計手段は、
語句付随情報として語句の出現カテゴリ数、ならびに、該語句の文書内出現回数に、作成時刻がより新しい文書ほど大きな重みを掛けながらカテゴリ内の全文書について加算して得られたカテゴリ別時間傾斜出現量とを記憶手段に記録し、
カテゴリ関連度評価手段は、
語句の出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する。
The present invention is a category-specific new feature word ranking program for ranking new feature words by category,
Computer
When a document with creation time information classified into a plurality of categories is input from the database, the document is analyzed, and a phrase totaling unit that totals the phrases that appear in the document and the phrase-accompanying information related to the phrases;
The category relevance evaluation means is a program that uses the phrase accompanying information of a word and functions as a category relevance evaluation means for calculating the relevance to the category in which the word appears for each word,
The word aggregation means is
The number of appearance categories of the phrase as the phrase accompanying information, and the time-gradual appearance by category obtained by adding all the documents in the category while adding a greater weight to the number of occurrences of the phrase in the document with a newer creation time Record the amount in the storage means,
Category relevance evaluation means
The category of the phrase is calculated by calculating a category relevance composed of an appearance category number element determined based on the number of appearance categories of the phrase and an appearance amount element determined based on the time-gradient appearance amount by category. Create another ranking.
また、本発明のカテゴリ別新出特徴語ランキングプログラムは、語句集計手段において、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間とを記憶手段に記録し、
カテゴリ関連度評価手段において、
出現カテゴリ数要素、出現量要素に加え、語句出現期間に基づく寿命要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する。
In addition, the category-specific new feature word ranking program of the present invention is a phrase totaling means,
In addition to the number of appearance categories of the phrase and the time-gradient appearance amount by category as the phrase accompanying information, the phrase appearance period based on the creation time of the document in which the phrase appears is recorded in the storage means,
In category relevance evaluation means,
By calculating the category relevance composed of the life element based on the word appearance period in addition to the appearance category number element and the appearance amount element, the ranking of the word by category is created.
また、本発明のカテゴリ別新出特徴語ランキングプログラムは、語句集計手段において、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数とを記憶手段に記録し、
カテゴリ関連度評価手段において、
出現カテゴリ数要素、出現量要素に加え、カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う。
In addition, the category-specific new feature word ranking program of the present invention is a phrase totaling means,
In addition to the number of appearance categories of words and the amount of time-gradient appearance of each category as word-accompanying information, the number of documents that appear in each category and the number of documents in which the words appear in each category are recorded in the storage means,
In category relevance evaluation means,
The category ranking of words is performed by calculating the category relevance composed of the number of appearance document elements based on the number of appearance words of each category in addition to the appearance category number element and the appearance amount element.
また、本発明のカテゴリ別新出特徴語ランキングプログラムは、語句集計手段において、
語句付随情報として語句の出現カテゴリ数とカテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を記憶手段に記録し、
カテゴリ関連度評価手段において、
出現カテゴリ数要素、出現量要素に加え、語句出現期間に基づく寿命要素と、カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う。
In addition, the category-specific new feature word ranking program of the present invention is a phrase totaling means,
In addition to the number of appearance categories of words and the time-graded appearance amount by category as word-accompanying information, the word appearance period based on the creation time of the document in which the word appears and the number of documents in which the word appears in each category Record the number of words appearing in the storage means,
In category relevance evaluation means,
In addition to the appearance category number element and the appearance amount element, the ranking of each word by category is calculated by calculating the category relevance that is composed of the lifetime element based on the word appearance period and the appearance document number element based on the word appearance document number by category. I do.
本発明は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体であって、上記のカテゴリ別新出特徴語ランキングプログラムを記録する。 The present invention is a computer-readable storage medium storing a category-specific new feature word ranking program for ranking new feature words by category, and records the category-specific new feature word ranking program. .
本発明によれば、多数の文書から、最近になって登場したタイムリーな話題を表す語句であって、かつ、各カテゴリに特徴的な語句を自動的に抽出することにより、各々の文章に目を通さなくても抽出語句を概観するだけでトレンドを把握することができる。 According to the present invention, words that represent timely topics that have recently appeared from a large number of documents and that are characteristic for each category are automatically extracted, so that each sentence can be extracted. You can grasp the trend just by looking at the extracted words without looking through.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング装置の構成を示す。 FIG. 3 shows a configuration of a category-specific new feature word ranking apparatus according to an embodiment of the present invention.
カテゴリ別新出特徴語ランキング装置11には、収集文書データベース12と関連度ランキングデータベース15が接続されている。
A collected
カテゴリ別新出特徴語ランキング装置11は、語句集計部とカテゴリ関連度評価部14から構成され、複数のカテゴリに分類された作成時刻情報付きの収集文書群を収集文書データベースから12から入力し、カテゴリ別の語句関連度ランキングを関連度ランキングデータベース15に出力する。
The category-specific new feature
語句集計部13は、形態素解析部131、出現カテゴリ数集計部132、カテゴリ別時間傾斜出現量集計部133、出現期間集計部134、カテゴリ別出現文書数集計部135から構成される。
The
カテゴリ関連評価部14は、出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144及びカテゴリ関連度算出部145から構成される。
The category
語句集計部13は、収集文書データベース12に蓄積されている収集文書を形態素解析部131で形態素に分解し、名詞のみを切り出す。
The
出現カテゴリ数集計部132、カテゴリ別時間傾斜出現量集計部133、出現期間集計部134、カテゴリ別出現文書数集計部135は、カテゴリ分類された各文書から抽出された名詞のそれぞれについて、関連度評価に用いる付随情報を集計し、メモリ等の記憶手段に一時的に記録する。
The appearance category number totaling unit 132, the category-specific time gradient appearance
カテゴリ関連度評価部14の出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144及びカテゴリ関連度算出部145は、メモリ等の記憶手段に記録されている各語句付随情報を用いてカテゴリ関連度を算出し、カテゴリ別に語句の関連度ランキング15として出力する。
The appearance category number
以下、具体例を用いて説明する。 Hereinafter, a specific example will be described.
本発明のカテゴリ別新出特徴語ランキング装置11の入力となる収集文書データベース12の収集文書データの例を図4に示す。収集文書データベース12には、カテゴリ1〜カテゴリNの全Nカテゴリのいずれかに分類された収集文書データが、作成時刻情報付きで保存されている。
FIG. 4 shows an example of collected document data in the collected
図5は、本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング方法の全体の流れを表すフローチャートである。 FIG. 5 is a flowchart showing the overall flow of the category-specific new feature word ranking method according to the embodiment of the present invention.
ステップ301)図4の収集文書データベース12から収集文書が語句集計部13の形態素解析部131に入力される。形態素解析部131は、入力された文書データを品詞情報を付けて品詞毎に分解し、ランキング作成の対象となる品詞のみを出力する。本実施の形態では、名詞のみを対象品詞としてランキングを作成するものとして説明する。
Step 301) The collected document is input from the collected
ステップ302)上記の処理を、収集文書全てについて終了するまで繰り返す。 Step 302) The above processing is repeated for all the collected documents.
ステップ303)次に、出現カテゴリ集計部132、カテゴリ別時間傾斜出現量集計部133、出現期間集計部134、カテゴリ別出現文書数集計部135のそれぞれが、語句の付随情報を集計する。以下の各々集計部132〜135の動作を示す。
Step 303) Next, each of the appearance category totaling unit 132, the category-specific time gradient appearance
出現カテゴリ集計部132は、ある語句wがカテゴリ内の文書中に1度でも登場すればそれをカテゴリ内での出現とみなし、語句wが出現するカテゴリ数CF(w)を集計する。 The appearance category totaling unit 132 considers that a certain phrase w appears once in the document in the category as an occurrence in the category, and totals the number of categories CF (w) in which the phrase w appears.
カテゴリ別時間傾斜出現量集計部133は、カテゴリ内の全文書について、各文書内の語句の出現回数に、文書作成時刻に関連する重みを付けて加算する。
The category-specific time-gradient appearance
新出語を選出する本発明のカテゴリ別新出特徴語ランキング装置においては、文書の作成時刻が新しいほどその文書内での語句出現回数の影響が大きく、古いほど影響が小さくなるように重みを設定する必要があり、例えば、図6のように、作成時刻が最も新しい文書で重みが1、最も古い文書で0になるように直線的に設定する方法がある。カテゴリC内の文書dにおける語句wの出現回数がTF(d、w)で、文書dの作成時刻がt(d)であったとすると、出現回数TF(d、w)に図6から決定される重みW(t(d))を掛けた値をカテゴリC内の全文書について加算し、カテゴリCにおける語句wのカテゴリ別時間傾斜出現量TA(C,w)とする(式(1))。 In the category-specific new feature word ranking device of the present invention for selecting new words, weights are given so that the newer the creation time of a document, the greater the influence of the number of occurrences of the phrase in the document, and the smaller the older the influence is. For example, as shown in FIG. 6, there is a method of linearly setting the weight so that the weight is 1 for the newest document and 0 for the oldest document. If the number of occurrences of the word w in the document d in the category C is TF (d, w) and the creation time of the document d is t (d), the number of appearances TF (d, w) is determined from FIG. A value multiplied by the weight W (t (d)) is added to all the documents in category C to obtain a category-specific time gradient appearance amount TA (C, w) of phrase w in category C (formula (1)). .
出現期間集計部134は、ある語句wが1カテゴリ内の文書にどの程度の期間出現するか、すなわち語句の寿命とも言える期間を集計する。カテゴリ内の文書をその作成時刻によって、例えば、図7のように15分間隔で分類し、各期間に作成された文書群中に一度でも語句wが存在すれば、その期間に出現したとみなす。図7の例では、15分間隔の全7区間のうち、4区間について語句が出現しているため、カテゴリCにおける語句wの出現期間L(C,w)は4となる。
The appearance
カテゴリ別出現文書集計部135は、カテゴリC内の全文書のうち、語句wが一度でも出現する文書数DF(C,w)を集計する。
The category-specific appearance
ステップ304)以上で集計した語句の付随情報を用いて、カテゴリ関連度評価部14の出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144が必要な各要素を算出し、カテゴリ関連度算出部145に送出し、カテゴリ関連度算出部145がこれらの要素に基づいて語句のカテゴリ関連度を算出する。
Step 304) Using the accompanying information of the words and phrases compiled above, the appearance category number
出現カテゴリ数要素算出部141は、出現カテゴリ数集計部132が集計した語句wの出現カテゴリ数CF(w)を用いて、特徴語の評価に必要な出現カテゴリ数要素を決定する。一般的な語句は多くのカテゴリに出現する可能性が高く、カテゴリに特徴的な語句は出現カテゴリ数が少ないと考えれば、出現カテゴリ数が少ないほど値が大きくなるように出現カテゴリ数要素を与えるのが望ましい。
The appearance category number
例えば、Nをカテゴリ総数とした時、Nを語句wの出現カテゴリ数CF(w)で割った値の対数値(式(2))を出現カテゴリ数要素Category(w)とすれば、全カテゴリに出現する語句(出現カテゴリ数がNである語句)では出現カテゴリ数要素が最小値0となり、図8に示すように、出現カテゴリが少なくなるほど大きな値をとる評価式が実現できる。 For example, when N is the total number of categories, and the logarithmic value (formula (2)) of N divided by the number of appearance categories CF (w) of the phrase w is an appearance category number element Category (w), all categories In terms of words that appear in (words whose number of appearance categories is N), the number-of-appearance category element has a minimum value of 0, and as shown in FIG. 8, an evaluation expression that takes a larger value as the number of appearance categories decreases can be realized.
本実施の形態では、カテゴリ別時間傾斜出現量集計部133が集計するカテゴリ別時間傾斜出現量TA(C,w)をそのまま出現量要素Appearance(C,w)として扱うものとして説明する(式(3))。
In the present embodiment, it is assumed that the category-specific time gradient appearance amount TA (C, w) counted by the category-specific time gradient appearance
出現文書数要素算出部144は、カテゴリ別出現文書数集計部135の出力を利用して、カテゴリ内における語句の出現文書数に基づく要素を出力する。出現文書数が多い語句ほどそのカテゴリに特徴的であり、例えば、カテゴリ別出現文書数DF(C,w)をそのまま出現文書数要素Documents(C,w)として用いる(式(5))。
The appearance document number
ステップ306)カテゴリ関連度算出部145は、出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144の各産出要素算出部の出力結果に乗じてカテゴリ関連度を算出し(式(7))、カテゴリ関連度によって語句をカテゴリ別にソートしたリストを関連度ランキングデータとして図11のように出力する。「カテゴリ1」は、『政治』のカテゴリのランキング例であり、ランクの最上位には「小泉総裁」という語句とカテゴリ関連度Relation(“政治”、“小泉総裁”)=17.368が出力されている。
Step 306) The category relevance calculation unit 145 multiplies the output results of the output element calculation units of the appearance category number
なお、上記のカテゴリ別新出特徴語ランキング装置の各構成要素をプログラムとして構築し、ネットワークを介して流通させる、または、カテゴリ別新出特徴語ランキング装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行するようにしてもよい。 Each component of the category-specific new feature word ranking device is constructed as a program and distributed via a network, or installed in a computer used as a category-specific new feature word ranking device, CPU, etc. It may be executed by the control means.
また、構築されたプログラムを、カテゴリ別新出特徴語ランキング装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、CD−ROM等のコンピュータ読み取り可能な記憶媒体に格納することも可能である。 The constructed program can also be stored in a computer-readable storage medium such as a hard disk, a flexible disk, or a CD-ROM connected to a computer used as a category-specific new feature word ranking device. .
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、新着情報等の文書からタイムリー性があり、出来事を表す語句を抽出する技術に適用可能である。 The present invention is applicable to a technique for extracting a word / phrase indicating an event from a document such as newly arrived information.
11 カテゴリ別新出特徴語ランキング装置
12 収集文書データベース
13 語句集計手段、語句集計部
14 カテゴリ関連度評価手段、カテゴリ関連度評価部
15 関連度ランキングデータベース
131 形態素解析部
132 出現カテゴリ数集計部
133 カテゴリ別時間傾斜出現量集計部
134 出現期間集計部
135 カテゴリ別出現文書数集計部
141 出現カテゴリ数要素算出部
142 出現量要素算出部
143 寿命要素算出部
144 出現文書数要素算出部
145 カテゴリ関連度算出部
11 New feature word ranking device by
Claims (13)
語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と該語句に関する語句付随情報を集計する語句集計ステップと、
カテゴリ関連度評価手段が、語句の前記語句付随情報を利用し、該語句が出現するカテゴリへの関連度を、各語句について算出するカテゴリ関連度評価ステップと、からなり、
前記語句集計ステップは、
前記語句付随情報として前記語句の出現カテゴリ数、ならびに、該語句の文書内出現回数に、作成時刻がより新しい文書ほど大きな重みを掛けながらカテゴリ内の全文書について加算して得られたカテゴリ別時間傾斜出現量とを記憶手段に記録し、
前記カテゴリ関連度評価ステップは、
語句の前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する、ことを特徴とするカテゴリ別新出特徴語ランキング方法。 In the category-specific new feature word ranking method for ranking new feature words by category,
When a document with creation time information classified into a plurality of categories is input from the database, the word totaling unit analyzes the document and totals the words that appear in the document and the word-related information related to the word An aggregation step;
The category relevance evaluation means comprises a category relevance evaluation step for calculating the relevance to the category in which the word appears using the word accompanying information of the word, and for each word.
The phrase aggregation step includes:
Category-specific time obtained by adding the number of occurrence categories of the word as the word-accompanying information and the number of appearances of the word in the document to all the documents in the category while applying a greater weight to a document with a newer creation time Record the amount of slant appearance in the storage means,
The category relevance evaluation step includes:
By calculating a category relevance composed of an appearance category number element determined based on the number of appearance categories of a word and an appearance amount element determined based on the time-gradient appearance amount by category, A category-specific new feature word ranking method characterized by creating a category-specific ranking.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間とを前記記憶手段に記録し、
前記カテゴリ関連度評価ステップにおいて、
前記出現カテゴリ数要素、前記出現量要素に加え、前記語句出現期間に基づく寿命要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する請求項1記載のカテゴリ別新出特徴語ランキング方法。 In the phrase aggregation step,
In addition to the number of appearance categories of the phrase and the time gradient appearance amount by category as the phrase accompanying information, the phrase appearance period based on the creation time of the document in which the phrase appears is recorded in the storage unit,
In the category relevance evaluation step,
2. The new category-specific ranking according to claim 1, wherein a category-related ranking is created by calculating a category relevance composed of a lifetime element based on the word appearance period in addition to the appearance category number element and the appearance amount element. Outgoing feature word ranking method.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数とを前記記憶手段に記録し、
前記カテゴリ関連度評価ステップにおいて、
前記出現カテゴリ数要素、前記出現量要素に加え、前記カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う請求項1記載のカテゴリ別特徴語ランキング方法。 In the phrase aggregation step,
In addition to the number of appearance categories of the word and the time-gradient appearance amount of each category as the word-accompanying information, record the number of word-by-category appearance documents representing the number of documents in which the word appears in each category in the storage unit,
In the category relevance evaluation step,
2. The ranking of words by category is performed by calculating a category relevance composed of appearance document number elements based on the number of appearance words of each category in addition to the appearance category number element and the appearance amount element. Category feature word ranking method.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数とを前記記憶手段に記録し、
前記カテゴリ関連度評価ステップにおいて、
前記出現カテゴリ数要素、前記出現量要素に加え、前記語句出現期間に基づく寿命要素と、前記カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う請求項1記載のカテゴリ別特徴語ランキング方法。 In the phrase aggregation step,
In addition to the number of appearance categories and the time-gradient appearance amount of each word as the word-accompanying information, the word appearance period based on the creation time of the document in which the word appears, and the number of documents in which the word appears in each category The category-specific phrase occurrence document number to be recorded in the storage means,
In the category relevance evaluation step,
In addition to the appearance category number element and the appearance amount element, calculating a category relevance composed of a lifetime element based on the word appearance period and an appearance document number element based on the number of word appearance documents by category, The category-specific feature word ranking method according to claim 1, wherein ranking by category is performed.
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と該語句に関する語句付随情報を集計する語句集計手段と、
語句の前記語句付随情報を利用し、該語句が出現するカテゴリへの関連度を、各語句について算出するカテゴリ関連度評価手段と、を有し、
前記語句集計手段は、
前記語句付随情報として前記語句の出現カテゴリ数、ならびに、該語句の文書内出現回数に、作成時刻がより新しい文書ほど大きな重みを掛けながらカテゴリ内の全文書について加算して得られたカテゴリ別時間傾斜出現量とを記憶手段に記録する手段を含み、
前記カテゴリ関連度評価手段は、
語句の前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する手段を含む、ことを特徴とするカテゴリ別新出特徴語ランキング装置。 A category-specific new feature word ranking device for ranking new feature words by category,
When a document with creation time information classified into a plurality of categories is input from the database, the document is analyzed, and a phrase totaling unit that totals the phrases that appear in the document and the phrase-accompanying information related to the phrases;
Category relevance evaluation means for calculating the relevance to the category in which the word appears, using the word accompanying information of the word;
The word aggregation means is:
Category-specific time obtained by adding the number of occurrence categories of the word as the word-accompanying information and the number of appearances of the word in the document to all the documents in the category while applying a greater weight to a document with a newer creation time Means for recording the slope appearance amount in the storage means;
The category relevance evaluation means includes:
By calculating a category relevance composed of an appearance category number element determined based on the number of appearance categories of a word and an appearance amount element determined based on the time-gradient appearance amount by category, A category-specific new feature word ranking device, characterized by comprising means for creating a category-specific ranking.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間とを前記記憶手段に記録する手段を含み、
前記カテゴリ関連度評価手段は、
前記出現カテゴリ数要素、前記出現量要素に加え、前記語句出現期間に基づく寿命要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する手段を含む請求項5記載のカテゴリ別新出特徴語ランキング装置。 The word aggregation means is:
Means for recording, in the storage means, a word appearance period based on the creation time of a document in which the word appears, in addition to the number of appearance categories of the word and the time gradient appearance amount by category as the word accompanying information,
The category relevance evaluation means includes:
6. The means according to claim 5, further comprising means for creating a category ranking of words by calculating a category relevance composed of life elements based on the word appearance period in addition to the appearance category number element and the appearance amount element. New feature word ranking device by category.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数とを前記記憶手段に記録する手段を含み、
前記カテゴリ関連度評価手段は、
前記出現カテゴリ数要素、前記出現量要素に加え、前記カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う手段を含む請求項5記載のカテゴリ別特徴語ランキング装置。 The word aggregation means is:
Means for recording, in the storage means, the number of appearance words of each phrase representing the number of documents in which the word appears in each category in addition to the number of appearance categories of the word and the time gradient appearance amount of each category as the word accompanying information Including
The category relevance evaluation means includes:
A means for ranking the phrases by category by calculating a category relevance composed of the appearance document number elements based on the number of appearance words of each category in addition to the appearance category number element and the appearance amount element; Item-specific feature word ranking device according to Item 5.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を前記記憶手段に記録する手段を含み、
前記カテゴリ関連度評価手段は、
前記出現カテゴリ数要素、前記出現量要素に加え、前記語句出現期間に基づく寿命要素と、前記カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う手段を含む請求項5記載のカテゴリ別特徴語ランキング装置。 The word aggregation means is:
In addition to the number of appearance categories and the time-gradient appearance amount of each word as the word-accompanying information, the word appearance period based on the creation time of the document in which the word appears, and the number of documents in which the word appears in each category Means for recording the category-specific phrase occurrence document number to be represented in the storage means,
The category relevance evaluation means includes:
In addition to the appearance category number element and the appearance amount element, calculating a category relevance composed of a lifetime element based on the word appearance period and an appearance document number element based on the number of word appearance documents by category, The category characteristic word ranking apparatus according to claim 5, further comprising means for performing category ranking.
コンピュータを、
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と該語句に関する語句付随情報を集計する語句集計手段と、
カテゴリ関連度評価手段が、語句の前記語句付随情報を利用し、該語句が出現するカテゴリへの関連度を、各語句について算出するカテゴリ関連度評価手段として機能させるプログラムであり、
前記語句集計手段は、
前記語句付随情報として前記語句の出現カテゴリ数、ならびに、該語句の文書内出現回数に、作成時刻がより新しい文書ほど大きな重みを掛けながらカテゴリ内の全文書について加算して得られたカテゴリ別時間傾斜出現量とを記憶手段に記録し、
前記カテゴリ関連度評価手段は、
語句の前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する、ことを特徴とするカテゴリ別新出特徴語ランキングプログラム。 A category-specific new feature word ranking program for ranking new feature words by category,
Computer
When a document with creation time information classified into a plurality of categories is input from the database, the document is analyzed, and a phrase totaling unit that totals the phrases that appear in the document and the phrase-accompanying information related to the phrases;
A category relevance evaluation means is a program that uses the phrase accompanying information of a word and functions as a category relevance evaluation means for calculating the relevance to a category in which the word appears for each word,
The word aggregation means is:
Category-specific time obtained by adding the number of occurrence categories of the word as the word-accompanying information and the number of appearances of the word in the document to all the documents in the category while applying a greater weight to a document with a newer creation time Record the amount of slant appearance in the storage means,
The category relevance evaluation means includes:
By calculating a category relevance composed of an appearance category number element determined based on the number of appearance categories of a word and an appearance amount element determined based on the time-gradient appearance amount by category, A category-specific new feature word ranking program characterized by creating category rankings.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間とを前記記憶手段に記録し、
前記カテゴリ関連度評価手段において、
前記出現カテゴリ数要素、前記出現量要素に加え、前記語句出現期間に基づく寿命要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを作成する請求項9記載のカテゴリ別新出特徴語ランキングプログラム。 In the word counting means,
In addition to the number of appearance categories of the phrase and the time gradient appearance amount by category as the phrase accompanying information, the phrase appearance period based on the creation time of the document in which the phrase appears is recorded in the storage unit,
In the category relevance evaluation means,
The category-specific ranking according to claim 9, wherein a category-related ranking is created by calculating a category relevance composed of a lifetime element based on the word appearance period in addition to the appearance category number element and the appearance amount element. Outgoing feature word ranking program.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数とを前記記憶手段に記録し、
前記カテゴリ関連度評価手段において、
前記出現カテゴリ数要素、前記出現量要素に加え、前記カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う請求項9記載のカテゴリ別特徴語ランキングプログラム。 In the word counting means,
In addition to the number of appearance categories of the word and the time-gradient appearance amount of each category as the word-accompanying information, record the number of word-by-category appearance documents representing the number of documents in which the word appears in each category in the storage unit,
In the category relevance evaluation means,
10. The ranking of words according to category is performed by calculating a category relevance composed of appearance document number elements based on the number of appearance words of each category in addition to the appearance category number element and the appearance amount element. Category-specific feature word ranking program.
前記語句付随情報として語句の前記出現カテゴリ数と前記カテゴリ別時間傾斜出現量に加え、該語句が出現する文書の作成時刻に基づく語句出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を前記記憶手段に記録し、
前記カテゴリ関連度評価手段において、
前記出現カテゴリ数要素、前記出現量要素に加え、前記語句出現期間に基づく寿命要素と、前記カテゴリ別語句出現文書数に基づく出現文書数要素から構成されるカテゴリ関連度を算出することで、語句のカテゴリ別ランキングを行う請求項9記載のカテゴリ別特徴語ランキングプログラム。 In the word counting means,
In addition to the number of appearance categories and the time-gradient appearance amount of each word as the word-accompanying information, the word appearance period based on the creation time of the document in which the word appears, and the number of documents in which the word appears in each category A category-specific word appearance document number to be recorded in the storage means,
In the category relevance evaluation means,
In addition to the appearance category number element and the appearance amount element, calculating a category relevance composed of a lifetime element based on the word appearance period and an appearance document number element based on the number of word appearance documents by category, The category-specific feature word ranking program according to claim 9, wherein ranking by category is performed.
前記請求項9から前記請求項12の少なくともいずれか1項記載のプログラムを記録したことを特徴とする、カテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium storing a category-specific new feature word ranking program for ranking new feature words by category,
A computer-readable storage medium recording a category-specific new feature word ranking program, wherein the program according to at least one of claims 9 to 12 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003372996A JP4192760B2 (en) | 2003-10-31 | 2003-10-31 | Category-specific new feature word ranking method, apparatus and program, and category-specific new feature word ranking program recording computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003372996A JP4192760B2 (en) | 2003-10-31 | 2003-10-31 | Category-specific new feature word ranking method, apparatus and program, and category-specific new feature word ranking program recording computer-readable storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005135311A true JP2005135311A (en) | 2005-05-26 |
JP4192760B2 JP4192760B2 (en) | 2008-12-10 |
Family
ID=34649216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003372996A Expired - Fee Related JP4192760B2 (en) | 2003-10-31 | 2003-10-31 | Category-specific new feature word ranking method, apparatus and program, and category-specific new feature word ranking program recording computer-readable storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4192760B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011521325A (en) * | 2008-05-01 | 2011-07-21 | スウィーニー,ピーター | Method, system, and computer program for dynamic generation of user-driven semantic networks and media integration |
JP5415550B2 (en) * | 2009-10-05 | 2014-02-12 | 株式会社東芝 | Similar content search apparatus and program |
CN105956158A (en) * | 2016-05-17 | 2016-09-21 | 清华大学 | Automatic extraction method of network neologism on the basis of mass microblog texts and use information |
-
2003
- 2003-10-31 JP JP2003372996A patent/JP4192760B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011521325A (en) * | 2008-05-01 | 2011-07-21 | スウィーニー,ピーター | Method, system, and computer program for dynamic generation of user-driven semantic networks and media integration |
US8676722B2 (en) | 2008-05-01 | 2014-03-18 | Primal Fusion Inc. | Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis |
JP2014132507A (en) * | 2008-05-01 | 2014-07-17 | Primal Fusion Inc | Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis |
US11868903B2 (en) | 2008-05-01 | 2024-01-09 | Primal Fusion Inc. | Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis |
JP5415550B2 (en) * | 2009-10-05 | 2014-02-12 | 株式会社東芝 | Similar content search apparatus and program |
US8904437B2 (en) | 2009-10-05 | 2014-12-02 | Kabushiki Kaisha Toshiba | Similar content search device and computer-readable storage medium |
CN105956158A (en) * | 2016-05-17 | 2016-09-21 | 清华大学 | Automatic extraction method of network neologism on the basis of mass microblog texts and use information |
Also Published As
Publication number | Publication date |
---|---|
JP4192760B2 (en) | 2008-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101063364B1 (en) | System and method for prioritizing websites during the web crawling process | |
Vaughan et al. | Web search volume as a predictor of academic fame: An exploration of G oogle trends | |
CN108027763B (en) | Relational database adjusting device and method | |
Taşkın | Forecasting the future of library and information science and its sub-fields | |
JP5895052B2 (en) | Information analysis system and information analysis method | |
JP5729308B2 (en) | Reputation analysis apparatus, reputation analysis method, and reputation analysis program | |
JP2007219929A (en) | Sensitivity evaluation system and method | |
JP4569380B2 (en) | Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program | |
JP2007011604A (en) | Fault diagnostic system and program | |
US8037403B2 (en) | Apparatus, method, and computer program product for extracting structured document | |
JP4466334B2 (en) | Information classification method and apparatus, program, and storage medium storing program | |
JP5964149B2 (en) | Apparatus and program for identifying co-occurrence words | |
KR102413961B1 (en) | Method for providing news analysis service using robotic process automation monitoring | |
JP4192760B2 (en) | Category-specific new feature word ranking method, apparatus and program, and category-specific new feature word ranking program recording computer-readable storage medium | |
JP4539616B2 (en) | Opinion collection and analysis apparatus, opinion collection and analysis method used therefor, and program thereof | |
Lindemann et al. | Building corpus-based frequency lemma lists | |
Sun et al. | A tale of four cities: A semantic analysis comparing the newspaper coverage of air pollution in Hong Kong, London, Pittsburgh, and Tianjin from 2014 to 2017 | |
CN109033133A (en) | Event detection and tracking based on Feature item weighting growth trend | |
JP5389683B2 (en) | Important keyword extraction apparatus, method and program | |
JP2002278982A (en) | Information extracting method and information retrieving method | |
JP2010218216A (en) | Similar document retrieval system, method and program | |
Gjerstad et al. | Negation and Climate Change in French Blog Posts | |
US20100287136A1 (en) | Method and system for the recognition and tracking of entities as they become famous | |
JP2015118415A (en) | Information filtering system and filtering method | |
JP2006285499A (en) | Data mining device, data mining method and its program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080908 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |