JP2006318398A - Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein - Google Patents

Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein Download PDF

Info

Publication number
JP2006318398A
JP2006318398A JP2005142909A JP2005142909A JP2006318398A JP 2006318398 A JP2006318398 A JP 2006318398A JP 2005142909 A JP2005142909 A JP 2005142909A JP 2005142909 A JP2005142909 A JP 2005142909A JP 2006318398 A JP2006318398 A JP 2006318398A
Authority
JP
Japan
Prior art keywords
word
category
search
text
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005142909A
Other languages
Japanese (ja)
Other versions
JP4569380B2 (en
Inventor
Harumi Kawashima
晴美 川島
Yoshihide Sato
吉秀 佐藤
Tsutomu Sasaki
努 佐々木
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005142909A priority Critical patent/JP4569380B2/en
Publication of JP2006318398A publication Critical patent/JP2006318398A/en
Application granted granted Critical
Publication of JP4569380B2 publication Critical patent/JP4569380B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To generate a vector for precisely classifying articles wherein individual experiences and thoughts are written, such as a blog. <P>SOLUTION: Texts for study are acquired, and words are extracted from each text, and a word set including stored retrieval words is extracted, and degrees of importance of kernel words in the word set are calculated by using evaluation values by which a higher degree of importance is given for a higher rank of the retrieval words, and a feature vector of each category is calculated and stored, and a list of words constituting the feature vector is stored. Furthermore, a word included in the list of words is extracted from an inputted classification object text being in an unknown category and is converted to a vector, and similarities between this vector and stored feature vectors of respective categories are obtained, and a category having a similarity equal to or higher than a prescribed threshold is given to the classification object text. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体に係り、ネットワーク上に公開されている最新の文書情報を、効率的に分類する情報分類手法に関し、特に、検索サイトに入力された検索語を含むベクトルを生成することにより、最新のテキストを効率的にカテゴリ分類することのできるベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体に関する。   The present invention relates to a vector generation method and apparatus, an information classification method and apparatus, a program and a computer-readable storage medium storing the program, and information for efficiently classifying the latest document information published on a network. In particular, a vector generation method and apparatus, an information classification method, an apparatus and a program capable of efficiently classifying the latest text by generating a vector including a search term input to a search site. The present invention relates to a computer-readable storage medium storing a program.

近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された文書情報が発信され続けている。ネットワーク利用者は、従来からの掲示板に加えて、ブログサービスを利用して自分の興味のある事柄に対して感想や意見を発信することが容易に行えるようになってきた。ニュース記事は、例えば、「社会」、「国際」、「IT」など、カテゴリ分けして記事を提供しており、ニュース記事のカテゴリは複数のニュースサイトにおいてほぼ同じである。そのため、記事に付与されたカテゴリ情報に基づいて情報を分類することが可能である。   In recent years, with the development of computer networks such as the Internet, a large amount of electronic document information has been transmitted. In addition to the conventional bulletin board, network users can easily send their opinions and opinions on matters of their interest using a blog service. For example, news articles are classified into categories such as “society”, “international”, and “IT”, and the categories of news articles are almost the same in a plurality of news sites. Therefore, it is possible to classify information based on category information given to articles.

しかし、ブログサービスにおいては、情報発信者がそれぞれの観点で記事を分類するカテゴリを選択したり、自分で新たなカテゴリを設定する場合も多いことから、記事に付与されたカテゴリ情報に基づいて記事を分類することが困難である。   However, in blog services, there are many cases where information senders select categories that classify articles from their respective viewpoints or set new categories by themselves, so articles based on the category information given to articles Is difficult to classify.

さらに、ホームページの情報などカテゴリ情報が付与されていない記事がほとんどである。   Furthermore, most articles do not have category information such as homepage information.

従来、自然言語処理や情報検索技術分野において、電子化されたテキストをテキスト内で出現する単語のベクトルで表し、カテゴリの特徴を現すベクトルとの向きを比較することにより、カテゴリ分類する技術がある。   Conventionally, in the field of natural language processing and information retrieval technology, there is a technology for classifying a computer by representing digitized text as a vector of words appearing in the text and comparing the direction with a vector representing the characteristics of the category. .

例えば、特定のカテゴリに重要な単語は、特定のカテゴリにおける出現テキスト件数が多く、他のカテゴリに出現しない単語であるとし、学習用テキスト集合の総カテゴリ数のうち特定の単語が出現するカテゴリ数の逆数に基づくカテゴリ頻度係数を算出し、特定のカテゴリに出現する単語の出現件数と当該カテゴリ頻度係数との乗算により学習用テキスト中の単語毎の重要度を算出する。この単語毎の重要度をベクトルの要素とするベクトルを生成し、カテゴリ分類を行う方法がある(例えば、特許文献1参照)。   For example, a word that is important for a specific category is a word that has a large number of occurrences of text in a specific category and does not appear in other categories, and the number of categories in which the specific word appears in the total number of categories in the learning text set. A category frequency coefficient based on the reciprocal of the number of words is calculated, and the importance for each word in the learning text is calculated by multiplying the number of occurrences of words appearing in a specific category by the category frequency coefficient. There is a method of generating a vector having the importance for each word as a vector element and performing category classification (see, for example, Patent Document 1).

以下、この方法を詳しく説明する。   Hereinafter, this method will be described in detail.

学習用テキストはカテゴリが明らかな(複数のカテゴリに帰属する場合も含む)テキストの集合であり、新聞記事データベースから、あるいはカテゴリが明らかなWebページ(ポータルサイトのディレクトリサービス)などから収集している。近年では、新聞社のホームページよりカテゴリ分類された記事が収集可能であり、常に新しい情報を学習させたい場合などに利用されている。   The learning text is a collection of texts with clear categories (including cases where they belong to multiple categories), and is collected from newspaper article databases or from Web pages with clear categories (portal site directory services). . In recent years, articles classified into categories can be collected from newspaper company homepages, which are used for constantly learning new information.

例えば、映画に関するカテゴリを生成しようとした場合を考える。映画のニュース記事を収集し、各記事にカテゴリとして「映画」を付与して蓄積する。蓄積された映画ニュースにのみ頻出する重要な単語としては、「監督」、「脚本」、「出演」などが抽出される。これらの語は、公開された映画の情報を正確に伝えるために映画ニュースの記事には頻繁に出現している。映画のタイトルは映画毎に異なるため、「監督」、「脚本」、「出演」などの単語と比較すると出現数は小さい。   For example, consider a case where a category related to a movie is to be generated. Collect news articles of movies, and give each article a “movie” as a category and store it. “Director”, “Screenplay”, “Appearance”, and the like are extracted as important words that frequently appear only in the accumulated movie news. These words frequently appear in movie news articles in order to accurately convey information about the released movie. Since movie titles differ from movie to movie, the number of appearances is small compared to words such as “director”, “screenplay”, and “appearance”.

また、最近になって注目され始めたような単語についても、学習用テキスト内での出現数は小さい。   Also, the number of occurrences in the learning text is small for words that have recently started to attract attention.

学習用テキスト集合から各カテゴリを特徴付ける特徴ベクトルを生成する。   A feature vector characterizing each category is generated from the learning text set.

カテゴリC(j=1〜M)の特徴ベクトルは、例えば次式で表すことができる。 The feature vector of the category C j (j = 1 to M) can be expressed by the following equation, for example.

Figure 2006318398
ここで、W(Ci,w)は、カテゴリCにおける単語wの重要度であり、カテゴリCiにおける単語wの出現文書数に、
Figure 2006318398
Here, W (C i, w) is the importance of the word w in category C i, the appearance number of documents of the word w in category C i,

Figure 2006318398
を乗算した値をとる。つまり、特定のカテゴリにおける出現文書数が多い単語で、他のカテゴリに出現しない単語の重要度が高くなっている。
Figure 2006318398
Takes the value multiplied by. In other words, words that have a large number of appearing documents in a specific category and that do not appear in other categories have a higher importance.

そこで、カテゴリAにおいて重要度が高い単語を多く含むような未分類テキストは、カテゴリAの特徴ベクトルと類似するため(テキストのベクトルとカテゴリの特徴ベクトルの類似度が所定範囲内になる)、カテゴリAを付与される。
特許第3488063
Therefore, uncategorized text that contains many words of high importance in category A is similar to the feature vector of category A (the similarity between the text vector and the category feature vector falls within a predetermined range). A is given.
Patent No. 3488063

しかしながら、映画を見た感想などを個人がブログ等で記事にする場合、映画のタイトルや役者の名前、主人公の名前などを入れて記事を書くのが大半である。映画の批評を継続して発信しているユーザは、「監督」、「脚本」などの単語を使い、映画の情報をより正確に読者に伝えようとするかもしれない。   However, when an individual makes an article about his / her impression of a movie on a blog or the like, the article is usually written with the title of the movie, the name of the actor, the name of the main character, and the like. A user who continues to send a critique of a movie may use words such as “director” or “screenplay” to more accurately convey information about the movie to the reader.

上記の従来技術においては、後者の映画の批評を継続して発信しているユーザの記事は、学習用テキストから生成した映画カテゴリの特徴ベクトルと類似するため、映画カテゴリに分類されるが、前者の映画のタイトルや役者の名前、主人公の名前などから構成された記事は、ベクトルが映画カテゴリの特徴ベクトルと類似しないと判断され(類似度が所定範囲外になる)、映画カテゴリに分類することができないという問題がある。   In the above prior art, the article of the user who continues to send critiques of the latter movie is similar to the feature vector of the movie category generated from the learning text, so it is classified into the movie category. Articles made up of movie titles, actor names, protagonist names, etc. are judged to have vectors not similar to the feature vectors of the movie category (similarity falls outside the predetermined range) and classified into movie categories There is a problem that can not be.

また、映画のタイトルが複数の単語で構成されている場合は、テキストから単語を抽出した際に、映画のタイトルが複数の単語に分割されてしまう。さらに、分割された単語が、別のカテゴリでも良く使われる単語(例えば、「世界」、「野球」)である場合、単語が出現するカテゴリ数が大きくなり単語の重要度を低くなってしまう。その結果、映画のタイトルを含んでいても映画カテゴリに分類することができないという問題がある。   If the movie title is composed of a plurality of words, the movie title is divided into a plurality of words when the words are extracted from the text. Furthermore, when the divided word is a word that is frequently used in another category (for example, “world”, “baseball”), the number of categories in which the word appears increases and the importance of the word decreases. As a result, there is a problem that even if a movie title is included, it cannot be classified into a movie category.

さらに、最近注目されるようになった単語を含む未分類テキストは、注目されている単語を含んでいても他にカテゴリを特徴付ける重要度の高い単語が含まれなければ、カテゴリを付与することができないという問題がある。   In addition, uncategorized text that includes words that have recently attracted attention may be given a category if it contains a word that has received attention but does not contain any other high-importance words that characterize the category. There is a problem that you can not.

本発明は、上記の点に鑑みなされたもので、ブログなどの個人の体験や感想が書かれた記事を精度よく分類するためのベクトルを生成することが可能なベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。   The present invention has been made in view of the above points, and a vector generation method and apparatus capable of generating a vector for accurately classifying articles in which personal experiences and impressions such as blogs are written, and information classification It is an object to provide a method, an apparatus, a program, and a computer-readable storage medium storing the program.

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明(請求項1)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、ベクトル変換手段と、を有するベクトル生成装置における、ベクトル生成方法において、
単語抽出手段において、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段からある期間の検索語を抽出し(ステップ1)、学習用テキストが蓄積された学習用テキスト蓄積手段から単語を抽出し、また、入力された分類対象テキストから単語を抽出する(ステップ2)単語抽出ステップと、
ベクトル変換手段において、単語抽出ステップで学習用テキスト及び分類対象テキストから抽出された単語を検索語を含むベクトルに変換する変換ステップ(ステップ3)と、を行う。
The present invention (Claim 1) provides a search word storage means, a learning text storage means, a word for classifying arbitrary text published on a network into one or more categories to which the text belongs. In the vector generation method in the vector generation device having the extraction means and the vector conversion means,
In the word extraction means, a search word for a certain period is extracted from the search word accumulation means in which a search word ranked in a certain period and a ranking set of the search word are accumulated (step 1), and the learning text is accumulated. A word is extracted from the learning text storage means, and a word is extracted from the input classification target text (step 2), a word extraction step;
In the vector conversion means, a conversion step (step 3) is performed in which the word extracted from the learning text and the classification target text in the word extraction step is converted into a vector including the search word.

本発明(請求項2)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
単語抽出手段において、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段からある期間の検索語を抽出し、学習用テキストが格納された学習用テキスト蓄積手段から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出ステップと、
重要度算出手段において、単語集合の各単語の重要度を、前記検索語に付与されたカテゴリにおいてのみ該検索語の重要度を高くする評価値を用いて算出し、ベクトルに変換するする重要度算出ステップと、を行う。
The present invention (Claim 2) provides a search word storage means, a learning text storage means, a word for classifying an arbitrary text published on a network into one or a plurality of categories to which the text belongs. In the vector generation method in the vector generation apparatus having the extraction means and the importance calculation means,
In the word extracting means, a search word storage means for extracting a search word for a certain period from a search word storage means for storing a set of search words ranked in a certain period and the ranking of the search word, and storing a learning text A word extraction step of extracting a word from the means and extracting a word set including the search word;
Importance for calculating the importance of each word in the word set using an evaluation value that increases the importance of the search word only in the category assigned to the search word and converting it into a vector in the importance calculation means And a calculation step.

本発明(請求項3)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
単語抽出手段において、カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段からある期間の検索語を抽出し、予めカテゴリが付与された学習用テキストが蓄積された学習用テキスト蓄積手段から単語集合を抽出する単語抽出ステップと、
重要度算出手段において、各カテゴリにおける単語の重要度を、検索語に付与されたカテゴリにおいてのみ該検索語の重要度を高くする評価値を用いて算出し、ベクトルに変換する重要度算出ステップと、を行う。
The present invention (Claim 3) provides a search word storage means, a learning text storage means, a word for classifying an arbitrary text published on a network into one or a plurality of categories to which the text belongs. In the vector generation method in the vector generation device having the extraction means and the importance degree calculation means,
In the word extraction means, a category is assigned, and a search word for a certain period is extracted from the search word accumulation means in which a set of search words ranked in a certain period and the ranking of the search word is accumulated, and a category is assigned in advance. A word extraction step of extracting a word set from the learning text storage means in which the learning text is stored;
An importance level calculating step of calculating the importance level of each word in each category using an evaluation value that increases the importance level of the search word only in the category assigned to the search word, and converting it into a vector; ,I do.

本発明(請求項4)は、任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、重要度算出手段、ベクトル変換手段、カテゴリ決定手段と、を有するカテゴリ分類装置における、カテゴリ分類方法において、
単語抽出手段において、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段からある期間の検索語を抽出し、学習用テキスト集合が格納された学習用テキスト蓄積手段から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出ステップと、
重要度算出手段において、単語集合の重要度を、検索語の重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを生成する重要度算出ステップと、
ベクトル変換手段において、入力されたカテゴリが未知の分類対象テキストをベクトルに変換するベクトル変換ステップと、
カテゴリ決定手段において、ベクトルとカテゴリ毎の特徴ベクトルの類似度を算出し、分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、を行う。
The present invention (Claim 4) provides a search word storage means, a learning text storage means, a word extraction means, and an importance calculation means for classifying an arbitrary text into one or a plurality of categories to which the text belongs. In the category classification method in the category classification device having the vector conversion means and the category determination means,
In the word extraction means, the search text for a certain period is extracted from the search word storage means for storing the search terms ranked in a certain period and the rankings of the search terms, and the learning text in which the learning text set is stored A word extraction step of extracting a word from the storage means and extracting a set of words including the search term;
In the importance calculation means, the importance calculation step of calculating the importance of the word set using an evaluation value that increases the importance of the search word, and generating a feature vector for each category;
In the vector conversion means, a vector conversion step for converting the classification target text whose input category is unknown to a vector;
The category determining means calculates a similarity between the vector and the feature vector for each category, and performs a category determining step of assigning a category to the classification target text.

本発明(請求項5)は、任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、重要度算出手段、ベクトル変換手段、カテゴリ決定手段と、を有するカテゴリ分類装置における、カテゴリ分類方法において、
単語抽出手段において、カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段からある期間の検索語を抽出し、予めカテゴリが付与された学習用テキスト集合が格納された学習用テキスト蓄積手段から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出ステップと、
重要度算出手段において、記単語集合の重要度を、記検索語に付与されたカテゴリにおいてのみ該検索語の重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを生成する重要度算出ステップと、
ベクトル変換手段において、入力されたカテゴリが未知の分類対象テキストをベクトルに変換するベクトル変換ステップと、
カテゴリ決定手段において、ベクトルとカテゴリ毎の特徴ベクトルの類似度を算出し、分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、を行う。
The present invention (Claim 5) provides search word storage means, learning text storage means, word extraction means, importance calculation means for classifying an arbitrary text into one or a plurality of categories to which the text belongs. In the category classification method in the category classification device having the vector conversion means and the category determination means,
In the word extraction means, a category is assigned, and a search word for a certain period is extracted from the search word accumulation means in which a set of search words ranked in a certain period and the ranking of the search word is accumulated, and a category is assigned in advance. A word extracting step of extracting a word from the learning text storage means in which the learning text set is stored, and extracting a word set including the search word;
In the importance calculation means, the importance of the written word set is calculated using an evaluation value that increases the importance of the search word only in the category assigned to the written search word, and the feature vector for each category is generated. A degree calculation step;
In the vector conversion means, a vector conversion step for converting the classification target text whose input category is unknown to a vector;
The category determining means calculates a similarity between the vector and the feature vector for each category, and performs a category determining step of assigning a category to the classification target text.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項6)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段30と、
ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段20と、
学習用テキスト蓄積手段30から学習用テキストを取得し、各学習用テキストから単語を抽出し、検索語蓄積手段20に蓄積された検索語を含む単語集合を抽出する単語抽出手段11と、
単語集合の各単語の重要度を、検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段13に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段14に蓄積する重要度算出手段12と、を有する。
The present invention (Claim 6) is a vector generation device for classifying arbitrary text published on a network into one or more categories to which the text belongs,
Learning text storage means 30 in which learning text to which a category has been assigned is stored;
A search word storage means 20 in which a search word ranked in a certain period and a set of search word rankings are stored;
A word extraction unit 11 that acquires a learning text from the learning text storage unit 30, extracts a word from each learning text, and extracts a word set including a search word stored in the search word storage unit 20;
The importance level of each word in the word set is calculated using an evaluation value that increases the importance level as the ranking of the search word is higher. And an importance level calculation means 12 for storing a list of words constituting the feature vector in the word list storage means 14.

本発明(請求項7)は、上記の請求項6において、検索語蓄積手段20の検索語ランキングは、検索エンジンにおいて前回受け取った検索語ランキングと、今回受け取った検索語ランキングとを比較することにより求められた上昇度に基づいて決定され、
重要度算出手段12は、
1つのカテゴリに含まれる単語について、カテゴリ内の単語出現数とカテゴリ内単語出現率を算出する手段と、
カテゴリ内の単語出現数とカテゴリ内単語出現率に基づいて、あるカテゴリによく出現し、他のカテゴリにあまり出現せず、上昇度が高い値ほど高い値をとる重要度を求める手段を含む。
According to the present invention (Claim 7), in the above Claim 6, the search word ranking of the search word storage means 20 is performed by comparing the search word ranking received last time in the search engine with the search word ranking received this time. Determined based on the required rise,
The importance calculation means 12
Means for calculating the number of word occurrences in a category and the word appearance rate in the category for words included in one category;
Based on the number of words in the category and the word appearance rate in the category, a means for obtaining an importance level that frequently appears in a certain category and does not appear much in other categories and takes a higher value as the degree of increase is higher.

本発明(請求項8)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段30と、
カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段20と、
検索語蓄積手段20からある期間の検索語を抽出し、学習用テキスト蓄積手段30から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出手段11と、
各カテゴリにおける単語の重要度を、記検索語に付与されたカテゴリにおいてのみ該検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出手段12と、を有する。
The present invention (Claim 8) is a vector generation device for classifying arbitrary text published on a network into one or more categories to which the text belongs,
Learning text storage means 30 in which learning text to which a category has been assigned is stored;
A search word storage means 20 in which a category is assigned and a set of search words ranked in a certain period and the ranking of the search words is stored;
A word extraction unit 11 that extracts a search term for a certain period from the search word storage unit 20, extracts a word from the learning text storage unit 30, and extracts a word set including the search term;
The importance of the word in each category is calculated using an evaluation value that increases the importance of the search word as the ranking of the search word is higher only in the category assigned to the written search word, and the feature vector for each category is calculated and the feature is calculated. And an importance level calculation means 12 for storing the list of words constituting the feature vector in the word list storage means as well as in the vector storage means.

本発明(請求項9)は、請求項8において、検索語蓄積手段20の検索語ランキングは、検索エンジンにおいて前回受け取った検索語ランキングと、今回受け取った検索語ランキングとを比較することにより求められたカテゴリ毎の上昇度に基づいて決定され、
重要度算出手段12は、
検索語がカテゴリに分類されているときには、検索語のカテゴリ内における上昇度順位をとり、該検索語がカテゴリに分類されていないときには、カテゴリ内の総検索語数をとる評価値を用いて、あるカテゴリによく出現し、他のカテゴリにはあまり出現せず、カテゴリにおける検索語のカテゴリ内の上昇度順位が高いほど高い値を取る重要度を求める。
According to the present invention (claim 9), in claim 8, the search word ranking of the search word storage means 20 is obtained by comparing the search word ranking received last time in the search engine with the search word ranking received this time. Determined based on the degree of increase for each category,
The importance calculation means 12
When the search term is classified into a category, the rank of increase in the category of the search term is taken, and when the search term is not classified into the category, there is an evaluation value that takes the total number of search terms in the category. The degree of importance that takes a higher value is obtained as the degree of increase in the category of the search word in the category is higher, which frequently appears in the category and does not appear much in the other categories.

本発明(請求項10)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するため情報分類装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段30と、
ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段20と、
学習用テキスト蓄積手段30から学習用テキストを取得し、各学習用テキストから単語を抽出し、検索語蓄積手段20に蓄積された検索語を含む単語集合を抽出する単語抽出手段11と、
単語集合の各単語の重要度を、検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段13に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段14に蓄積する重要度算出手段11と、
入力されたカテゴリが未知の分類対象テキストから、単語リスト蓄積手段14に含まれる単語を抽出し、ベクトルに変換するベクトル変換手段41と、
ベクトル変換手段41で生成されたベクトルと特徴ベクトル蓄積手段13に蓄積されている各カテゴリの特徴ベクトルとの類似度を求め、所定の閾値以上の類似度を持つカテゴリを分類対象テキストに付与するカテゴリ決定手段42と、を有する。
The present invention (Claim 10) is an information classification apparatus for classifying arbitrary text published on a network into one or more categories to which the text belongs,
Learning text storage means 30 in which learning text to which a category has been assigned is stored;
A search word storage means 20 in which a search word ranked in a certain period and a set of search word rankings are stored;
A word extraction unit 11 that acquires a learning text from the learning text storage unit 30, extracts a word from each learning text, and extracts a word set including a search word stored in the search word storage unit 20;
The importance of each word in the word set is calculated using an evaluation value that increases the importance as the ranking of the search word is higher, the feature vector for each category is calculated and stored in the feature vector storage means 13, Importance calculation means 11 for storing a list of words constituting the feature vector in the word list storage means 14;
A vector conversion unit 41 that extracts words included in the word list storage unit 14 from the input classification target text whose category is unknown, and converts the extracted word into a vector;
A category for determining the similarity between the vector generated by the vector conversion unit 41 and the feature vector of each category stored in the feature vector storage unit 13 and adding a category having a similarity equal to or higher than a predetermined threshold to the classification target text Determining means 42.

本発明(請求項11)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための情報分類生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段30と、
カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段20と、
学習用テキスト蓄積手段30からカテゴリが付与された学習用テキストを取得し、各学習用テキストから単語集合を抽出する単語抽出手段11と、
各カテゴリにおける前記単語集合の各単語の重要度を、検索語に付与されたカテゴリにおいてのみ該検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段13に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段14に蓄積する重要度算出手段11と、
入力されたカテゴリが未知の分類対象テキストから、単語リスト蓄積手段14に含まれる単語を抽出し、ベクトルに変換するベクトル変換手段41と、
ベクトル変換手段41で生成されたベクトルと特徴ベクトル蓄積手段13に蓄積されている各カテゴリの特徴ベクトルとの類似度を求め、所定の閾値以上の類似度を持つカテゴリを分類対象テキストに付与するカテゴリ決定手段42と、を有する。
The present invention (Claim 11) is an information classification generation apparatus for classifying an arbitrary text published on a network into one or a plurality of categories to which the text belongs.
Learning text storage means 30 in which learning text to which a category has been assigned is stored;
A search word storage means 20 in which a category is assigned and a set of search words ranked in a certain period and the ranking of the search words is stored;
A word extraction unit 11 that acquires a learning text to which a category is assigned from the learning text storage unit 30 and extracts a word set from each learning text;
The importance of each word of the word set in each category is calculated using an evaluation value that increases the importance as the search word ranking is higher only in the category assigned to the search word, and a feature vector for each category is calculated. Importance level calculating means 11 for calculating and storing in the feature vector storage means 13 and storing a list of words constituting the feature vector in the word list storage means 14;
A vector conversion unit 41 that extracts words included in the word list storage unit 14 from the input classification target text whose category is unknown, and converts the extracted word into a vector;
A category for determining the similarity between the vector generated by the vector conversion unit 41 and the feature vector of each category stored in the feature vector storage unit 13 and adding a category having a similarity equal to or higher than a predetermined threshold to the classification target text Determining means 42.

本発明(請求項12)は、請求項10または、11において、ベクトル変換手段41は、
分類対象テキストの単語と単語リスト蓄積手段に蓄積されている単語と一致する単語毎に出現数を算出し、該出現数に基づいてベクトルを生成する手段を含み、
カテゴリ決定手段42は、
ベクトル変換手段41で生成されたベクトルと、特徴ベクトル蓄積手段13に蓄積されているカテゴリ毎の特徴ベクトルの距離を求め、該距離が所定の閾値より大きい場合、分類対象テキストにカテゴリを付与する手段を含む。
According to the present invention (Claim 12), in Claim 10 or 11, the vector conversion means 41 includes:
Means for calculating the number of occurrences for each word that matches the words of the text to be classified and the words stored in the word list storage unit, and generating a vector based on the number of occurrences;
The category determination means 42
Means for obtaining a distance between a vector generated by the vector conversion means 41 and a feature vector for each category accumulated in the feature vector accumulation means 13 and assigning a category to the classification target text if the distance is greater than a predetermined threshold including.

本発明(請求項13)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのプログラムであって、
記憶手段上に、少なくとも、学習用テキストが蓄積されている学習用テキスト蓄積手段と、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段とを有するコンピュータに、請求項6乃至12記載の各手段を実行させるプログラムである。
The present invention (Claim 13) is a program for classifying arbitrary text published on a network into one or more categories to which the text belongs,
A computer having at least learning text storage means in which learning text is stored on the storage means, and search word storage means in which a set of search terms ranked in a certain period and rankings of the search terms are stored A program for executing the respective means according to claims 6 to 12.

本発明(請求項14)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのプログラムを格納したコンピュータ読み取り可能な記憶媒体であって、
記憶手段上に、少なくとも、学習用テキストが蓄積されている学習用テキスト蓄積手段と、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段とを有するコンピュータを、請求項6乃至12記載の各手段を有するベクトル生成装置または情報分類装置として機能させるプログラムを格納したコンピュータ読み取り可能な記憶媒体である。
The present invention (Claim 14) is a computer-readable storage medium storing a program for classifying any text published on a network into one or more categories to which the text belongs. ,
A computer having at least learning text storage means in which learning text is stored on the storage means, and search word storage means in which a set of search terms ranked in a certain period and rankings of the search terms are stored Is a computer-readable storage medium storing a program that functions as a vector generation device or an information classification device having each means according to claims 6 to 12.

上述のように、本発明では、ある期間における検索語ランキングを取得し、学習用テキスト集合から検索語の重要度を要素として含むカテゴリの特徴ベクトルを生成することができるため、従来一単語として扱うことができなかった検索語を含む記事を精度よく分類するためのベクトルを生成することができる。   As described above, in the present invention, a search term ranking in a certain period can be acquired, and a feature vector of a category including the importance of the search term as an element can be generated from the learning text set, so that it is conventionally treated as one word. It is possible to generate a vector for accurately classifying articles including search terms that could not be obtained.

また、検索語の重要度をランキングに応じて高くすることにより、ブログなどの個人の体験や感想が書かれた記事を精度よく分類するためのベクトルを生成することができる。   Further, by increasing the importance of the search word according to the ranking, it is possible to generate a vector for accurately classifying articles in which personal experiences and impressions such as blogs are written.

また、最近注目されるようになった(検索ランキングが急上昇した)単語を含む記事を適切なカテゴリに分類するためのベクトルを生成することができる。   Further, it is possible to generate a vector for classifying articles including words that have recently attracted attention (search rankings have rapidly increased) into appropriate categories.

さらに、生成したベクトルを用いて、検索語を含むカテゴリが未知のテキストを精度よく分類することができる。   Furthermore, using the generated vector, it is possible to accurately classify text whose category including the search term is unknown.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[第1の実施の形態]
図3は、本発明の第1の実施の形態における情報分類装置の構成を示す。
[First Embodiment]
FIG. 3 shows the configuration of the information classification apparatus in the first embodiment of the present invention.

同図に示す情報分類装置は、検索語取得部200、学習用テキスト取得部300、特徴ベクトル生成部10、分類部40から構成される。   The information classification apparatus shown in FIG. 1 includes a search word acquisition unit 200, a learning text acquisition unit 300, a feature vector generation unit 10, and a classification unit 40.

検索語取得部200は、検索語収集部21、注目検索語ランキング部22、検索語蓄積部20から構成される。   The search word acquisition unit 200 includes a search word collection unit 21, an attention search word ranking unit 22, and a search word storage unit 20.

検索語収集部21は、ある期間において集計・ランク付けされた検索語ランキングを検索語収集先記憶部23に設定された収集先から取得し、注目検索語ランキング部22に検索語ランキングを送る。ここで、検索語収集先記憶部23には、検索語ランキング(検索語と順位)のデータが格納されているマシン名とディレクトリが格納されているものとし、マシン名とディレクトリに基づいて、当該マシンにアクセスして検索語ランキングを取得するものとする。なお、この方法に限定されることなく、検索語収集先記憶部23にURLを保持しておき、検索語ランキングをインターネットなどで公開しているWebページのURLにアクセスして取得する方法もある。また、検索語ランキングは、検索語と検索語の順位が対になったデータであり、HTML文書やテキスト、データファイルなどの形態で取得する。検索語ランキングは、検索サイト利用者が入力した検索語をある期間で集計し、入力回数の多い検索語から降順に1位から順位付けされている。ランキング上位の検索語は、「2ちゃんねる」、「yahoo」、「楽天」、「ドコモ」など、サイトを探すために入力された検索語が多く、常に入力回数が多いため上位を占めている。最近流行ってきた情報に関する検索語の順位は高くなく、入力回数が急に増えている傾向にある。そこで、注目検索語ランキング部22では最近入力回数が急に増えている注目キーワードを抽出する。   The search word collection unit 21 acquires the search word rankings aggregated and ranked in a certain period from the collection destination set in the search word collection destination storage unit 23 and sends the search word ranking to the attention search word ranking unit 22. Here, it is assumed that the search term collection destination storage unit 23 stores a machine name and a directory in which search term ranking data (search terms and ranks) is stored. Assume that the search term ranking is obtained by accessing the machine. However, the present invention is not limited to this method, and there is a method in which the URL is stored in the search word collection destination storage unit 23 and the search word ranking is accessed and obtained from the URL of a Web page published on the Internet or the like. . The search term ranking is data in which the search term and the search term are paired, and is acquired in the form of an HTML document, text, data file, or the like. In the search term ranking, the search terms input by the search site user are totaled in a certain period, and the search terms are ranked from the top in descending order from the search terms with the highest number of inputs. The search terms in the top ranking are “2 Channel”, “yahoo”, “Rakuten”, “DoCoMo”, etc., and there are many search terms entered to search for the site, and the number of times of entry is always large, so it occupies the top. The ranking of search terms related to information that has become popular recently is not high, and the number of inputs tends to increase rapidly. Accordingly, the attention search word ranking unit 22 extracts attention keywords whose number of input has been increased rapidly recently.

注目検索語ランキング部22は、検索語収集部21から検索語ランキングを受け取り、今回受け取った検索語の所定順位以上の検索語に対して、前回受け取り、メモリに保存されている検索語ランキングと比較することにより、上昇度(例えば、今回の検索語順位から前回の検索語順位を減算した値)を求め、上昇度の高い検索語から降順に1位から順位付けを行う。以下、上昇度の高い順に付与された順位を上昇度順位と呼ぶ。上昇度順位が付与された検索語は、検索語蓄積部20に蓄積される。ここで、前回の順位を検索する検索語は、所定順位以上の検索語としているが、これは、今回の順位があまり低い検索語は注目している人の数が少ないと考えられ、より多くの人々に注目されている検索語を抽出するためである。   The attention search word ranking unit 22 receives the search word ranking from the search word collection unit 21 and compares it with the search word ranking received in the previous time and stored in the memory with respect to the search words higher than the predetermined rank of the search word received this time. Thus, the degree of increase (for example, a value obtained by subtracting the previous search word rank from the current search word rank) is obtained, and ranking is performed from the first place in descending order from the search word having the highest rise degree. Hereinafter, the ranking given in descending order of the degree of increase is referred to as the degree of increase rank. The search terms to which the increase rank is assigned are stored in the search term storage unit 20. Here, the search term for searching the previous ranking is a search term of a predetermined ranking or higher, but this is because the number of people who are interested in the search term with a low ranking this time is considered to be larger. This is to extract search terms that are attracting attention from people.

例えば、検索語収集部21において、1ヶ月単位の検索語ランキングを取得する場合、注目検索語ランキング部22では、最新の検索語ランキングが所定順位以上の検索語に対して前回の処理で受け取った1ヶ月前の検索語ランキングと比較して上昇度を算出し、検索語蓄積部20に蓄積する。   For example, when the search word ranking is acquired in the search word collection unit 21 in one month, the attention search word ranking unit 22 receives the latest search word ranking for the search words having a predetermined rank or more in the previous process. The degree of increase is calculated in comparison with the search word ranking of one month ago and stored in the search word storage unit 20.

また、検索サイトにおいて、検索語の上昇度を算出し順位付けしているサイトも存在する。検索語収集部21において上昇度順位が既に付与された検索語を取得する場合には、注目検索語ランキング部22の処理を省いて、検索語蓄積部20に上昇度順位が付与された検索語を蓄積するものとする。   In addition, there are sites that calculate and rank search word rises in search sites. When the search word collection unit 21 obtains a search word with an increase degree ranking already assigned, the search word ranking unit 22 is omitted, and the search word accumulation unit 20 is given a rise degree rank. Shall be accumulated.

学習用テキスト取得部300は、学習用テキスト収集部31と学習用テキスト蓄積部30から構成される。   The learning text acquisition unit 300 includes a learning text collection unit 31 and a learning text storage unit 30.

学習用テキスト収集部31は、カテゴリ毎に収集先リストを格納した学習用収集先リスト32をメモリ内に持ち、定期的に学習用収集先リスト32に設定されている収集先からテキストをネットワーク(図示せず)等を介して収集する。収集したテキストは、収集先、カテゴリと対応付けられて学習用テキスト蓄積部30に蓄積される。   The learning text collection unit 31 has a learning collection destination list 32 in which a collection destination list is stored for each category in a memory, and periodically sends text from the collection destinations set in the learning collection destination list 32 to a network ( (Not shown). The collected text is stored in the learning text storage unit 30 in association with the collection destination and the category.

収集され、学習用テキスト蓄積部30に蓄積された学習用テキスト(学習データ)は、後述する重要度算出部12において検索語によって重み付けされるため、検索語収集部21で取得した検索語ランキングの期間に生成/更新されたテキストであることが望ましい。そこで、学習用テキスト収集部31は、検索語ランキングの期間毎に収集を行う。収集を開始するに先立ち、前回収集した学習用テキストが蓄積されている学習用テキスト蓄積部30の情報を別の蓄積場所(領域)に移動させ、今回収集したテキストについて、収集先で前回収集したテキストを検索し、同じテキストが存在しなければ新しいテキストだとして学習用テキスト蓄積部30に蓄積する。   Since the learning text (learning data) collected and stored in the learning text storage unit 30 is weighted by the search word in the importance calculation unit 12 described later, the search text ranking obtained by the search word collection unit 21 is used. The text is preferably generated / updated during the period. Therefore, the learning text collection unit 31 performs collection for each search term ranking period. Prior to starting the collection, the learning text storage unit 30 in which the previously collected learning text is stored is moved to another storage location (area), and the text collected this time was collected at the collection destination last time. The text is searched, and if the same text does not exist, it is stored in the learning text storage unit 30 as a new text.

また、学習用テキストのデータ量が少ない場合は、今回収集したテキストだけでなく、前回収集したテキストも学習用テキストとして学習用テキスト蓄積部30に蓄積するように構成してもよい。   When the amount of learning text data is small, not only the text collected this time but also the previously collected text may be stored in the learning text storage unit 30 as learning text.

学習用テキスト蓄積部30においては、テキストに対応付けられたカテゴリが容易に識別できるよう蓄積する。例えば、カテゴリ毎にディレクトリを生成し、その中にテキストファイルを格納する方法や、テキストファイルの名前にカテゴリを識別するための名前を含めるなどの方法を用いる。   The learning text storage unit 30 stores the category associated with the text so that it can be easily identified. For example, a method of generating a directory for each category and storing a text file therein, or including a name for identifying the category in the name of the text file is used.

特徴ベクトル生成部10は、単語抽出部11、重要度算出部12、特徴ベクトル蓄積部13、単語リスト蓄積部14から構成される。   The feature vector generation unit 10 includes a word extraction unit 11, an importance calculation unit 12, a feature vector storage unit 13, and a word list storage unit 14.

単語抽出部11は、学習用テキスト蓄積部30の蓄積が完了した後、学習用テキスト蓄積部30に蓄積されているカテゴリ毎に蓄積された学習用テキストを全て取得し、各テキストから単語と単語の出現数を抽出し、カテゴリと対応付けてテキスト記録部15に記録する。   The word extraction unit 11 acquires all the learning text accumulated for each category accumulated in the learning text accumulation unit 30 after the learning text accumulation unit 30 has completed accumulation, and the word and the word are extracted from each text. The number of occurrences is extracted and recorded in the text recording unit 15 in association with the category.

図4は、本発明の第1の実施の形態における単語抽出部の処理のフローチャートである。   FIG. 4 is a flowchart of the process of the word extraction unit in the first embodiment of the present invention.

まず、単語抽出部11は、学習用テキスト蓄積部30からカテゴリを1つ読み出し(ステップ12)、続いてテキストを1つ読み出す(ステップ14)。なお、当該処理は、カテゴリ毎に予め付与されているカテゴリ識別番号を順次読み出し、また、テキストについても同様に予め付与されているテキスト識別番号の順に読み出すものとする。   First, the word extraction unit 11 reads one category from the learning text storage unit 30 (step 12), and then reads one text (step 14). In this process, the category identification numbers assigned in advance for each category are sequentially read out, and the text is also read out in the order of the text identification numbers assigned in advance.

読み出されたテキストを形態素解析処理によって形態素に分解する。形態素の中から名詞、動詞、形容詞など、それだけで意味のわかる自立語を単語として抽出する(ステップ15)。以下、「単語」とは、自立語のことを指し、付属語等を含める場合は、単に「語」と記す。抽出した単語に基づいて検索語蓄積部20を検索する(ステップ17)。検索により前方一致するかどうかを調べ(ステップ18)、前方一致する場合は抽出された単語に続く語(自立語だけでなく付属語も含める)を順に調べ、検索語と一致するかどうか調べる(ステップ19)。検索語に一致する場合は、検索語と一致する複数の語を一つにまとめ1単語とする(ステップ20)。前方一致の検索語がない場合(ステップ18、NO)、前方一致に続く語が検索語に一致しない場合(ステップ19、NO)は、ステップ16で抽出された単語の出現数を1増やす。検索語に一致する単語がある場合は(ステップ19、YES)、1単語とした検索語の出現数を1増やす。また、検索語に一致する語は処理が終了したとし、続く未処理の単語があるか調べる(ステップ16)。未処理の単語がある場合は、単語を1つ読み出して、検索語と一致するかを調べる(ステップ17〜ステップ20)。テキストの中の単語を全て処理し終えたら(ステップ16、NO)、テキストが識別できるように抽出した単語と単語の出現数をテキスト記録部15に記録する(ステップ22)。続いて、未処理のテキストがあるか調べ(ステップ13)、ある場合は未処理テキストの単語を抽出する(ステップ15〜ステップ22)。カテゴリ内の全てのテキストを処理し終えたら(ステップ13、NO)、未処理のカテゴリがあるか調べ(ステップ11)、ある場合は未処理のカテゴリ内のテキストから単語を抽出する(ステップ13〜ステップ22)。全てのカテゴリを処理し終えたら(ステップ11、NO)、単語抽出部11の処理を終了する。   The read text is decomposed into morphemes by morphological analysis processing. From the morphemes, nouns, verbs, adjectives and other independent words whose meanings are understood by themselves are extracted as words (step 15). In the following, “word” refers to an independent word, and when an attached word or the like is included, it is simply written as “word”. The search word storage unit 20 is searched based on the extracted word (step 17). It is checked whether or not it matches forward by the search (step 18). If it matches forward, words following the extracted word (including not only independent words but also attached words) are checked in order to check whether or not they match the search word ( Step 19). If it matches the search word, a plurality of words that match the search word are combined into one word (step 20). When there is no forward matching search word (step 18, NO), and when the word following the forward matching does not match the search word (step 19, NO), the number of occurrences of the word extracted in step 16 is increased by one. If there is a word that matches the search word (step 19, YES), the number of occurrences of the search word as one word is increased by one. Further, it is assumed that the word matching the search word has been processed, and it is checked whether there is a subsequent unprocessed word (step 16). If there is an unprocessed word, one word is read out to see if it matches the search word (steps 17 to 20). When all the words in the text have been processed (step 16, NO), the extracted words and the number of appearances of the words are recorded in the text recording unit 15 so that the text can be identified (step 22). Subsequently, it is checked whether there is unprocessed text (step 13). If there is, the word of the unprocessed text is extracted (step 15 to step 22). When all the texts in the category have been processed (step 13, NO), it is checked whether there is an unprocessed category (step 11). If there is, a word is extracted from the text in the unprocessed category (steps 13 to 13). Step 22). When all the categories have been processed (step 11, NO), the processing of the word extraction unit 11 is terminated.

ステップ21の処理において、テキスト毎に単語の出現数を集計しているが、単語の出現数を集計せずに、抽出した単語を順に列挙して記録しておいてもよい。   In the processing of step 21, the number of appearances of words is counted for each text. However, the extracted words may be listed and recorded in order without counting the number of appearances of words.

また、学習用テキストに前回処理したテキストが含まれる場合には、前回の処理により記録されたテキスト記録部15の情報を別の蓄積場所(領域)に移動し、ステップ13の未処理のテキストを調べる処理において、前回記録したテキスト記録部15にテキストが存在するか調べ、テキストが存在する場合は単語抽出処理が終了しているテキストであると判断する(ステップ13、NO)。   In addition, when the previously processed text is included in the learning text, the information of the text recording unit 15 recorded by the previous processing is moved to another storage location (area), and the unprocessed text in Step 13 is moved. In the checking process, it is checked whether there is any text in the previously recorded text recording unit 15. If the text exists, it is determined that the word extraction process has been completed (step 13, NO).

単語抽出部11より処理されるテキストの一例を図5を用いて説明する。   An example of text processed by the word extraction unit 11 will be described with reference to FIG.

図5は、カテゴリ「韓国ドラマ」に含まれる、テキスト「冬のソナタのピアノ曲を紹介します」を処理する例であり、図4のステップ14において、テキストa『冬のソナタのピアノ曲を紹介します」が読み出された状態である。当該テキストaから単語を抽出するために形態素解析処理を行い、結果として図5のbのような語と品詞の対を出力する。ここでは、動詞や形容詞については活用形のままではなく、原型に戻す処理を行っている(異なる活用形が使われていても、同じ動詞や形容詞の場合は同じ単語として出現数をカウントすることが可能となる)。この語集合から名詞、動詞、形容詞のいずれかについて、抽出された単語に基づいて、検索語蓄積部20に蓄積されている検索語に該当する単語があるか調べる(ステップ17)。まず、「冬」を単語として抽出し、検索語蓄積部20に「冬」と前方一致する検索語があるか調べる(ステップ18)。   FIG. 5 shows an example of processing the text “Introducing Winter Sonata Piano Songs” included in the category “Korean Drama”. In step 14 of FIG. "I will introduce" is read. In order to extract words from the text a, morphological analysis processing is performed, and as a result, pairs of words and parts of speech as shown in FIG. Here, verbs and adjectives are not restored to their original form, but are converted back to the original form (even if different inflected forms are used, the number of occurrences is counted as the same word for the same verb or adjective. Is possible). Based on the extracted word, any of nouns, verbs, and adjectives from this word set is examined to see if there is a word corresponding to the search word stored in the search word storage unit 20 (step 17). First, “winter” is extracted as a word, and it is checked whether or not there is a search word in front of “winter” in the search word storage unit 20 (step 18).

その結果、前方一致で「冬のソナタ」、「冬将軍」が取得される(ステップ18、Yes)。テキストの単語「冬」に続く語「の」で検索語と一致するか調べ、「冬のソナタ」に一致する。次に語「の」に続く「ソナタ」で一致するか調べ、一致するため「冬のソナタ」を1つの単語として抽出する(ステップ19、Yes,ステップ20)。抽出した「冬のソナタ」の出現数を1増やし(ステップ21)、次の単語の処理に移る。ここで、テキスト中の語「ソナタ」まで処理が完了したことになり、次の自立語である「ピアノ」から同様に検索語と一致するかの処理(ステップ16〜ステップ20)を行う。「ピアノ」が検索語蓄積部20にある場合、前方一致で「ピアノ」が検索される。検索語は「ピアノ」は、「ピアノ」に続く語がないため(ステップ19、NO)、「ピアノ」の出現数を1増やす。同様に単語を処理した結果、単語と単語の出現数の対(図5c)をカテゴリ「韓国ドラマ」と対応付けてテキスト記録部15に記録する(ステップ22)。   As a result, “winter sonata” and “winter general” are acquired in a forward agreement (step 18, Yes). The word “no” following the word “winter” in the text is checked to see if it matches the search word, and matches “winter sonata”. Next, it is checked whether or not it matches with “sonata” following the word “no”, and in order to match, “winter sonata” is extracted as one word (step 19, Yes, step 20). The number of appearances of the extracted “Winter Sonata” is increased by 1 (step 21), and the processing for the next word is started. Here, the processing has been completed up to the word “sonata” in the text, and processing (step 16 to step 20) is performed in the same manner from the next independent word “piano” to match the search word. When “piano” is in the search word storage unit 20, “piano” is searched for by a forward match. Since the search term “piano” has no word following “piano” (step 19, NO), the number of occurrences of “piano” is increased by one. Similarly, as a result of processing the word, a pair of the word and the number of appearances of the word (FIG. 5c) is associated with the category “Korean drama” and recorded in the text recording unit 15 (step 22).

重要度算出部12は、単語抽出部11においてすべての学習用テキストから単語抽出が終了した後、処理を開始する。重要度算出部12では、テキスト記録部15に記録されたカテゴリ毎の単語と単語出現数を取得し、検索語蓄積部20から検索語の上昇度順位を取得し、カテゴリ毎に単語の重要度を算出する。   The importance calculation unit 12 starts processing after the word extraction unit 11 finishes extracting words from all learning texts. The importance level calculation unit 12 acquires the word and the word appearance count for each category recorded in the text recording unit 15, acquires the rank ranking of the search word from the search word storage unit 20, and the word importance level for each category Is calculated.

図6は、本発明の第1の実施の形態における重要度算出部の処理のフローチャートである。   FIG. 6 is a flowchart of the process of the importance calculation unit in the first embodiment of the present invention.

重要度算出部12は、単語抽出部11で抽出され、テキスト記録部15に格納されている単語をカテゴリ毎に処理する。まず、1つのカテゴリについて単語を読み出し(ステップ31)、当該カテゴリに含まれる単語について、カテゴリ内の単語出現数とカテゴリ内単語出現率を算出する(ステップ32)。カテゴリ内単語出現率rc(Ci,w)は、式(1)で算出され、カテゴリ内全体の文書数において、ある単語が出現する文書数の占める割合であり0から1までの値をとる。 The importance calculation unit 12 processes the words extracted by the word extraction unit 11 and stored in the text recording unit 15 for each category. First, words are read out for one category (step 31), and the number of words in the category and the word appearance rate in the category are calculated for the words included in the category (step 32). The in-category word appearance rate rc (C i , w) is calculated by the formula (1), and is a ratio of the number of documents in which a certain word appears to the total number of documents in the category, and takes a value from 0 to 1. .

Figure 2006318398
図7にステップ32で算出したカテゴリ毎の単語出現数とカテゴリ内単語出現率の例を示す。同図において、重要度算出部12は、カテゴリを識別するための情報1001,1002,1003と各カテゴリ内の単語、単語の出現数、及びカテゴリ内単語出現率を記録したテーブル1100,1200、1300を持つ。なお、本実施の形態では、当該テーブル1100,1200,1300は、重要度算出部12内のメモリに格納されるものとする。
Figure 2006318398
FIG. 7 shows an example of the number of word appearances for each category and the word appearance rate within the category calculated in step 32. In the figure, an importance level calculation unit 12 is a table 1100, 1200, 1300 in which information 1001, 1002, 1003 for identifying a category and words in each category, the number of occurrences of the word, and the word appearance rate in the category are recorded. have. In this embodiment, it is assumed that the tables 1100, 1200, 1300 are stored in the memory in the importance calculation unit 12.

全てのカテゴリに対して、ステップ32の処理を行った後(ステップ33、NO)、各カテゴリにおいて、単語の重要度を式(2)のweight(Ci,w)により求める(ステップ34)。重要度weight(Ci,w)は、カテゴリCiによく出現し、他のカテゴリにはあまり出現せず、検索語の上昇度順位が高いほど、高い値をとる。 After the processing of step 32 is performed for all categories (step 33, NO), the importance of the word in each category is obtained by weight (C i, w) in equation (2) (step 34). The importance level weight (C i , w) frequently appears in the category C i , does not appear much in other categories, and takes a higher value as the rank of the search word increases.

Figure 2006318398
ここで、tf(Ci,w)は、単語wがカテゴリC(i=1〜M)に出現する出現数であり、カテゴリ内によく出現する単語ほど大きな値をとり、重要度を高くする働きをする。icf(Ci,w)は、単語wのカテゴリCiにおけるカテゴリ内単語出現率が、全カテゴリにおけるカテゴリ内単語出現率の和に占める割合である。
Figure 2006318398
Here, tf (C i , w) is the number of appearances of the word w in the category C i (i = 1 to M), and the larger the word that appears more frequently in the category, the higher the importance. To work. icf (C i , w) is a ratio of the word appearance rate in the category C i of the word w to the sum of the word appearance rates in the categories in all categories.

仮に、カテゴリAには2文書、カテゴリBには10文書、カテゴリCには5文書の文書があり、単語wが、カテゴリBの3文書と、カテゴリCの3文書に含まれていたとすると、以下のように、icf(Ci,w)が算出される。 If there are 2 documents in category A, 10 documents in category B, 5 documents in category C, and word w is included in 3 documents in category B and 3 documents in category C. Icf (C i , w) is calculated as follows.

Figure 2006318398
カテゴリBとCでは同じ3文書に単語wが出現するが、カテゴリ内単語出現率の高いカテゴリCのicf(C,w)が高くなり、結果として単語wの重要度が高くなる。
Figure 2006318398
In categories B and C, word w appears in the same three documents, but icf (C, w) of category C having a high word appearance rate in the category increases, and as a result, the importance of word w increases.

図7の例では、単語「韓国」のカテゴリ「韓国ドラマ」における
icf(韓国ドラマ、韓国)は、
icf(韓国ドラマ、韓国)=0.7/(0.7+0.2+0.1)=0.7
と算出される。
In the example of FIG. 7, in the category “Korean drama” of the word “Korea”
icf (Korean drama, Korea)
icf (Korean drama, Korea) = 0.7 / (0.7 + 0.2 + 0.1) = 0.7
Is calculated.

Nは検索語蓄積部20における検索語の総数、rank(w)は単語wの上昇度順位であり、   N is the total number of search terms in the search term storage unit 20, and rank (w) is the rank order of the word w.

Figure 2006318398
を乗算することにより、上昇度順位の高い検索語ほどrank(w)が大きな値をとり、重要度を高くする働きをする。例えば、図5の検索語蓄積部20において、「冬のソナタ」は順位15位であり、N=1500の場合、
Figure 2006318398
By multiplying by, the search word having a higher degree of rank rank has a larger rank (w) value and works to increase the importance. For example, in the search word storage unit 20 of FIG. 5, “Winter Sonata” is ranked 15th, and N = 1500,

Figure 2006318398
となり、「冬のソナタ」の重要度を3倍にすることができる。
Figure 2006318398
Thus, the importance of “Winter Sonata” can be tripled.

rank(w)は、上昇度順位上位N件の検索語についてのみ値があるため、N件に含まれない単語は、便宜上rank(w)=Nとして処理するものとする。式(2)により、検索語蓄積部20に含まれない語の重要度は、カテゴリにおけるtf(Ci,w)×icf(Ci,w)のみで決定され、検索語蓄積部20に含まれる単語の重要度は、上昇順位が上位になるほど重要度を高くすることができる。 Since rank (w) has a value only for the search words in the top N rankings of the ranks of increase, it is assumed that words not included in the N cases are processed as rank (w) = N for convenience. The importance of a word that is not included in the search word storage unit 20 is determined only by tf (C i , w) × icf (C i , w) in the category and is included in the search word storage unit 20 according to Expression (2). The importance level of a word to be displayed can be increased as the rank increases.

また、単語の重要度を算出する式は、式(2)の代わりに、式(4)を、用いることも可能である。この場合も、検索語蓄積部20のランキングN件に含まれない単語については、rank(w)=Nとして処理するものとする。   In addition, the formula (4) can be used as the formula for calculating the importance of the word instead of the formula (2). Also in this case, words that are not included in the N rankings of the search word storage unit 20 are processed as rank (w) = N.

Figure 2006318398
式(4)においては、検索語ランキングN件に含まれない単語の重要度は0となり、検索語ランキングN件に含まれる単語のみ0以外の値をとる。そのため、検索語ランキングN件に含まれる単語のみをベクトルの要素として、ベクトルを生成することになる。検索語N件のみのベクトルは、学習用テキスト中の自立語全てを用いるベクトルに比べ次元数が小さいため、ベクトル演算を高速化することができる。
Figure 2006318398
In Expression (4), the importance of words not included in N search word rankings is 0, and only words included in N search word rankings take values other than 0. Therefore, a vector is generated with only words included in N search word rankings as vector elements. Since the vector of only N search words has a smaller number of dimensions than a vector using all independent words in the learning text, the vector operation can be speeded up.

Nのサイズが小さい場合や検索語の重要性をもっと高くしたい場合などは、適当な係数を乗算して重要度を算出するようにしてもよいし、   If the size of N is small or if you want to increase the importance of the search term, you may calculate the importance by multiplying by an appropriate coefficient.

Figure 2006318398
の代わりに対数をとらずにN/rank(w)を用いても良い。
Figure 2006318398
Instead of taking the logarithm, N / rank (w) may be used.

カテゴリ毎に単語の重要度を算出した後、重要度算出部12は、カテゴリ毎の特徴ベクトルを式(5)により生成する(ステップ35)。カテゴリ毎の特徴ベクトル   After calculating the importance level of the word for each category, the importance level calculation unit 12 generates a feature vector for each category according to equation (5) (step 35). Feature vector for each category

Figure 2006318398
は、単語抽出部11で抽出された全ての単語をw(i=1〜z)とし、カテゴリC(j=1〜M)における単語の重要度weight(C,w)を要素とするベクトルである。
Figure 2006318398
Are all the words extracted by the word extraction unit 11 as w i (i = 1 to z), and the importance level weight (C j , w i ) of the words in the category C j (j = 1 to M) is an element. It is a vector.

Figure 2006318398
全てのカテゴリに対して特徴ベクトルを生成し、特徴ベクトル蓄積部13に蓄積する。
Figure 2006318398
Feature vectors are generated for all categories and stored in the feature vector storage unit 13.

特徴ベクトルを構成する全ての単語w(i=1〜z)は、単語の要素順に1から番号を付与し、出現数とともに単語リスト蓄積部14に蓄積し(ステップ36)、重要度算出部12の処理を終了する。 All the words w i (i = 1 to z) constituting the feature vector are numbered from 1 in the order of the elements of the word, accumulated together with the number of appearances in the word list accumulation unit 14 (step 36), and the importance calculation unit The process of 12 is finished.

図8は、本発明の第1の実施の形態における特徴ベクトル蓄積部の蓄積例である。   FIG. 8 shows an accumulation example of the feature vector accumulation unit in the first embodiment of the present invention.

同図において、カテゴリと各単語の重要度を1行で記録し、カテゴリと単語の重要度をコロン「:」で区切り、単語w1から単語wzの重要度をカンマ「、」で区切り、列挙している。   In the figure, the category and the importance of each word are recorded in one line, the category and the importance of the word are separated by a colon “:”, and the importance of the word w1 to the word wz is separated by a comma “,” and enumerated. ing.

図9は、本発明の第1の実施の形態における単語リスト蓄積部の蓄積例を示す。同図に示す単語リスト蓄積部14に格納される情報は、番号901、出現数902、単語903から構成され、番号901は、単語w(i=1〜z)のiに対応し、1からzまでの数値をとる。出現数902は、全ての学習用テキストにおいて単語が出現した出現数である。単語903は、テキストから抽出した単語である。図9の例では、z=20000で、単語を出現数の降順に並べて番号を1から付与してある。出現数902は、説明のために図示しているが、分類部40で出現数は利用しないため、出現数を蓄積しないようにしてもよい。単語「韓国」の番号は「100」、出現数が「250」であり、「冬のソナタ」の番号は「1000」、出現数が「100」である。出現数の多い単語「日」、「人」、「年」などの単語は、どのカテゴリにおいても出現文書数が多い。そのため、icf(Ci,w)を計算すると0に近い値をとり、単語の重要度が低くなる。 FIG. 9 shows an accumulation example of the word list accumulation unit in the first embodiment of the present invention. The information stored in the word list storage unit 14 shown in the figure includes a number 901, the number of appearances 902, and a word 903. The number 901 corresponds to i of the word w i (i = 1 to z). The numerical value from z to z is taken. The number of appearances 902 is the number of appearances of words in all the learning texts. A word 903 is a word extracted from the text. In the example of FIG. 9, z = 20000, the words are arranged in descending order of the number of appearances, and numbers are assigned from 1. Although the number of appearances 902 is illustrated for explanation, the number of appearances may not be accumulated because the number of appearances is not used in the classification unit 40. The number of the word “Korea” is “100”, the number of appearances is “250”, the number of “Winter Sonata” is “1000”, and the number of appearances is “100”. Words such as “day”, “people”, and “year” that have a large number of appearances have a large number of appearance documents in any category. Therefore, when icf (C i , w) is calculated, it takes a value close to 0 and the importance of the word is low.

また、前述の図7を用いて、重要度算出部12の処理例を説明する。図7では、「韓国ドラマ」、「国際」、「グルメ」というカテゴリがあり、単語「韓国」と「冬のソナタ」の重要度算出例を説明する。   In addition, a processing example of the importance calculation unit 12 will be described with reference to FIG. In FIG. 7, there are categories of “Korean drama”, “international”, and “gourmet”, and an example of calculating the importance of the words “Korea” and “Winter Sonata” will be described.

「韓国」は、「韓国ドラマ」以外のカテゴリ、「国際ニュース」、「グルメ」にも出現し、「冬のソナタ」は「韓国ドラマ」カテゴリのみで出現したとする。また、「韓国」、「冬のソナタ」は検索語として検索語蓄積部20に蓄積されており、上昇度順位が図5に示す順位であったとすると、式(2)により、単語「韓国」と「冬のソナタ」の重要度は以下のように求めることができる。   “Korea” appears in categories other than “Korean drama”, “international news”, and “gourmet”, and “Winter Sonata” appears only in the “Korean drama” category. Further, assuming that “Korea” and “Winter Sonata” are stored in the search word storage unit 20 as search words, and the increase rank is the rank shown in FIG. And the importance of “Winter Sonata” can be calculated as follows.

weight(韓国ドラマ、韓国)=200×0.7/(0.7+0.2+0.1)×log(1500/150)+1
=280
weight(韓国ドラマ、冬のソナタ)=100×0.5/0.5×log(1500/15)+1=300
tf(Ci,w)や、tf(Ci,w)×icf(Ci,w)では、「韓国」の重要度が高くなってしまうが、検索語の上昇度順位を反映した重要度を算出することで、「冬のソナタ」の重要度を「韓国」より高くすることが可能となる。
weight (Korean drama, Korea) = 200 × 0.7 / (0.7 + 0.2 + 0.1) × log (1500/150) +1
= 280
weight (Korean drama, winter sonata) = 100 × 0.5 / 0.5 × log (1500/15) + 1 = 300
In tf (C i , w) and tf (C i , w) × icf (C i, w), the importance of `` Korea '' becomes high, but the importance reflects the increasing ranking of search terms By calculating, the importance of “Winter Sonata” can be made higher than “Korea”.

分類部40は、ベクトル変換部41とカテゴリ決定部42から構成される。分類部40は、カテゴリが未知の分類対象テキストを入力とし、分類対象テキストに予め決められたカテゴリ(学習用テキストに対応付けられているカテゴリ)を付与する。なお、分類対象テキストは、当該装置の外部の入力装置(図示せず)から入力されるものとする。   The classification unit 40 includes a vector conversion unit 41 and a category determination unit 42. The classification unit 40 receives a classification target text whose category is unknown, and assigns a predetermined category (category associated with the learning text) to the classification target text. Note that the text to be classified is input from an input device (not shown) outside the device.

分類部40は、重要度算出部12の処理終了後、分類対象テキストが入力されると、処理を開始する。   The classification unit 40 starts the process when the classification target text is input after the importance level calculation unit 12 finishes the process.

ベクトル変換部41は、分類対象テキストが入力されると、単語リスト蓄積部14に蓄積されている単語の出現数を要素とするベクトルを生成する。   When the classification target text is input, the vector conversion unit 41 generates a vector whose element is the number of occurrences of the word stored in the word list storage unit 14.

図10は、本発明の第1の実施の形態におけるベクトル変換部の処理のフローチャートである。   FIG. 10 is a flowchart of the process of the vector conversion unit in the first embodiment of the present invention.

まず、ベクトル変換部41は、入力された分類対象テキストを形態素解析処理により形態素に分解し、分解された形態素から自立語を単語として抽出する(ステップ41)。形態素解析された単語が単語リスト蓄積部14に蓄積された単語と前方一致するかどうか調べる(ステップ43)。前方一致する場合は、当該単語に続く語(自立語だけでなく付属語も含める)を順に調べ、前方一致した語と一致するか調べる(ステップ45)。一致する場合は、複数の語を1つにまとめ1単語とする(ステップ46)。一致しない場合は、未処理の単語があるか調べ(ステップ42)、ある場合は未処理について、単語リスト蓄積部14の単語に一致するかを調べる(ステップ43〜ステップ46)。   First, the vector conversion unit 41 decomposes the input classification target text into morphemes by morpheme analysis processing, and extracts independent words as words from the decomposed morphemes (step 41). It is checked whether or not the word subjected to morphological analysis matches forward with the word stored in the word list storage unit 14 (step 43). If there is a forward match, words following the word (including not only independent words but also associated words) are checked in order to check whether they match the forward match word (step 45). If they match, a plurality of words are combined into one word (step 46). If they do not match, it is checked whether there is an unprocessed word (step 42).

全ての単語を処理し終えたら(ステップ42、NO)、単語毎に出現数を算出し(ステップ47)、単語リスト蓄積部14に蓄積されている単語と番号を参照して出現数を取得し、式(6)によりベクトルを生成する(ステップ48)。   When all the words have been processed (step 42, NO), the number of appearances is calculated for each word (step 47), and the number of appearances is obtained by referring to the words and numbers stored in the word list storage unit 14. Then, a vector is generated by equation (6) (step 48).

Figure 2006318398
ここで、tf(w)は、単語wがテキストに出現する出現数である。
Figure 2006318398
Here, tf (w) is the number of appearances of the word w in the text.

ベクトル変換部41の処理が終了すると、続いてカテゴリ決定部42の処理を開始する。   When the processing of the vector conversion unit 41 is completed, the processing of the category determination unit 42 is subsequently started.

カテゴリ決定部42では、分類対象テキストのベクトルと、特徴ベクトル蓄積部13に蓄積されているカテゴリ毎の特徴ベクトルを用いて分類対象テキストに付与するカテゴリを決定する。   The category determination unit 42 determines a category to be assigned to the classification target text using the classification target text vector and the feature vector for each category stored in the feature vector storage unit 13.

例えば、従来手法として、2つのベクトル間のコサインを計算することで、ベクトル間の距離を計算する方法がある。コサインの値が1に近いほど2つのベクトル間の距離が近いことになる。分類対象テキストのベクトルを   For example, as a conventional method, there is a method of calculating a distance between vectors by calculating a cosine between two vectors. The closer the cosine value is to 1, the closer the distance between the two vectors. Class vector text

Figure 2006318398
各カテゴリの特徴ベクトル
Figure 2006318398
Feature vector for each category

Figure 2006318398
とすると、2ベクトル間の距離
Figure 2006318398
Then the distance between the two vectors

Figure 2006318398
は式(7)で求めることができる。
Figure 2006318398
Can be obtained by equation (7).

Figure 2006318398
各カテゴリC(j=1〜M)について、2ベクトル間の距離を求め、距離が予め設定しておいた閾値より大きい場合、分類対象テキストに該カテゴリを付与する。距離が閾値より大きいカテゴリが複数ある場合は、複数のカテゴリを分類対象テキストに付与する。
Figure 2006318398
For each category C j (j = 1 to M), the distance between the two vectors is obtained, and when the distance is greater than a preset threshold, the category is assigned to the classification target text. When there are a plurality of categories whose distance is greater than the threshold, the plurality of categories are assigned to the classification target text.

図11は、本発明の第1の実施の形態におけるベクトル変換部の処理例である。   FIG. 11 is a processing example of the vector conversion unit in the first embodiment of the present invention.

テキストa「ピアノの本「冬のソナタ」を購入した」は、韓国ドラマ「冬のソナタ」と音楽に関連するテキストであり、テキストe「もう冬ですね。ピアノ・ソナタの本を購入しました」は、音楽にのみ関連のあるテキストである。テキストaを形態素解析処理した結果がbである。bの結果から自立語を単語として抽出し(ステップ43)、単語リスト蓄積部14に存在する単語とその出現数を集計した(ステップ47)結果がcである。同様に、テキストeについて形態素解析処理した結果がfであり、fの結果から自立語を単語として抽出し(ステップ43)、単語リスト蓄積部14に存在する単語とその出現数を集計した(ステップ47)結果がgである。cとgからは異なる単語ベクトルが生成される。   Text a "Piano book" Winter Sonata "was purchased" is a text related to the Korean drama "Winter Sonata" and music, and text e "It's already winter. I bought a piano sonata book. "Is text that is only relevant to music. The result of the morphological analysis processing on the text a is b. An independent word is extracted as a word from the result of b (step 43), and the words existing in the word list storage unit 14 and the number of appearances thereof are tabulated (step 47), and the result is c. Similarly, the result of the morphological analysis processing for the text e is f, and independent words are extracted from the result of f as words (step 43), and the words existing in the word list storage unit 14 and the number of appearances are tabulated (steps). 47) The result is g. Different word vectors are generated from c and g.

しかし、仮に単語リスト蓄積部14に「冬のソナタ」が存在しない場合は、テキストaから生成される単語と単語出現数はdのようになる。dとgの単語及び単語出現数は同じであるため、2つのテキストは同じカテゴリに分類されてしまう。   However, if “winter sonata” does not exist in the word list storage unit 14, the word generated from the text a and the number of word appearances are d. Since the words d and g and the number of word appearances are the same, the two texts are classified into the same category.

本発明では、単語リスト蓄積部14に「冬のソナタ」が存在するため、2つのテキストから異なるベクトルを生成することが可能となり、その結果テキストを別々のカテゴリに分類することも可能となる。   In the present invention, since “Winter Sonata” exists in the word list storage unit 14, it is possible to generate different vectors from the two texts, and as a result, the texts can be classified into different categories.

このように、学習用テキスト及び未分類テキストを、検索語ランキング上位の検索語を含むベクトルで表現することで、テキストを精度よく分類することができる。   In this way, by expressing the learning text and the unclassified text with the vectors including the search terms higher in the search term ranking, the texts can be classified with high accuracy.

また、最近話題になりだした出現数があまり多くない新出単語であっても、検索語ランキングが高ければ、カテゴリベクトルにおける単語の重要度が高くなっているため、新出単語を含む分類対象テキストを分類部40に入力すると、類似度が高く算出され、適切なカテゴリに分類することが可能となる。   In addition, even if a new word that has recently become a hot topic and does not have a large number of occurrences, if the search word ranking is high, the importance of the word in the category vector increases. When the text is input to the classification unit 40, the degree of similarity is calculated to be high and can be classified into an appropriate category.

[第2の実施の形態]
図12は、本発明の第2の実施の形態における情報分類装置の構成を示す。本実施の形態は、検索語蓄積部に蓄積される検索語ランキングがカテゴリ分けされている場合の例であり、検索語が分類されているカテゴリにおいてのみ、検索語ランキングを反映した重み付けを行い、カテゴリの特徴ベクトルを生成する。
[Second Embodiment]
FIG. 12 shows the configuration of the information classification apparatus in the second embodiment of the present invention. The present embodiment is an example when the search word ranking accumulated in the search word accumulation unit is categorized, and weighting that reflects the search word ranking is performed only in the category in which the search word is classified, Generate category feature vectors.

図12において、第1の実施の形態とは、検索語取得部200A、特徴ベクトル生成部10の重要度算出部12Aの処理が異なる。なお、第1の実施の形態と同じ処理を行うブロックには、同じ符号を付し、その説明は省略するものとし、処理の異なる部分についてのみ説明する。   In FIG. 12, the processing of the search word acquisition unit 200A and the importance level calculation unit 12A of the feature vector generation unit 10 is different from that of the first embodiment. It should be noted that blocks that perform the same processing as in the first embodiment are denoted by the same reference numerals, description thereof will be omitted, and only portions different in processing will be described.

検索語取得部200Aは、検索語収集部21A、注目検索語ランキング部22A、検索語蓄積部20Aから構成される。   The search word acquisition unit 200A includes a search word collection unit 21A, an attention search word ranking unit 22A, and a search word storage unit 20A.

検索語収集部21Aは、ある期間においてカテゴリ毎に集計・ランク付けされた検索語ランキングを検索語用収集先記憶部23に設定されている収集先に基づいて、前述の第1の実施の形態と同様の方法により取得し、注目検索語ランキング部22Aに検索語ランキングを送る。検索語ランキングは、カテゴリ、検索語、検索語の順位がセットになったデータであり、HTML文書やテキスト、データファイルなどの形態で取得する。   The search word collection unit 21A is based on the collection destination set in the search word collection destination storage unit 23 for the search word ranking aggregated and ranked for each category in a certain period of time. And the search word ranking is sent to the attention search word ranking unit 22A. The search word ranking is data in which a category, a search word, and a rank of the search word are set, and is acquired in the form of an HTML document, text, a data file, or the like.

注目検索語ランキング部22Aは、検索語収集部21から検索語ランキングを受け取り、カテゴリ毎に、今回受け取った検索語の所定順位以上の検索語に対して、前回受け取った検索語ランキングと比較することによりカテゴリ内での上昇度(例えば、今回の検索語順位から前回の検索語順位を減算した値)を求め、上昇度の高い検索語から降順に1位から順番に上昇度順位を付与する。カテゴリ毎にカテゴリ内上昇度順位が付与された検索語は、検索語蓄積部20Aに蓄積される。   The attention search word ranking unit 22A receives the search word ranking from the search word collection unit 21, and compares the search word ranking received in the previous search term with respect to a search word higher than a predetermined rank of the search word received this time for each category. The degree of increase in the category (for example, a value obtained by subtracting the previous search word rank from the current search word rank) is obtained, and the rank rank is assigned in order from the first place in descending order from the search word having the highest rise degree. The search terms to which the in-category increase rank is assigned for each category are stored in the search term storage unit 20A.

図13は、本発明の第2の実施の形態における検索語蓄積部の蓄積例を示す。検索語蓄積部20Aは、カテゴリ131と検索語132、検索語のカテゴリ内での上昇度順位133が対応付けられて蓄積されている。   FIG. 13 shows an accumulation example of the search word accumulation unit in the second embodiment of the present invention. The search word storage unit 20A stores the category 131, the search word 132, and the ascending rank 133 within the search word category in association with each other.

また、検索語収集部21Aにおいて、カテゴリ毎に検索語の上位度順位が付与された検索語ランキングを取得する場合は、注目検索語ランキング部22Aの処理を省いて、検索語蓄積部20Aにカテゴリ内上昇度順位が付与されたカテゴリ別の検索語を蓄積する。   Further, when the search word collection unit 21A acquires the search word ranking to which the higher rank ranking of the search word is assigned for each category, the processing of the attention search word ranking unit 22A is omitted, and the category is stored in the search word accumulation unit 20A. The search words classified by category to which the increasing degree ranking is assigned are accumulated.

重要度算出部12Aは、単語抽出部11においてすべての学習用テキストからの単語抽出が終了したあと、処理を開始する。重要度算出部12Aでは、テキスト記録部15に記録されたカテゴリ毎の単語と単語出現数を取得し、検索語蓄積部20Aから検索語のカテゴリ内上昇度順位を取得し、カテゴリ毎に単語の重要度を算出する。第1の実施の形態における重要度算出部12の処理のフローチャート(図6)と処理の流れは同じであり、ステップ34のカテゴリにおける単語の重要度算出処理が異なる。   The importance calculation unit 12A starts processing after the word extraction unit 11 finishes extracting words from all learning texts. The importance level calculation unit 12A acquires the word and the word appearance count for each category recorded in the text recording unit 15, acquires the rank increase degree in the category of the search word from the search word storage unit 20A, and determines the word level for each category. Calculate importance. The process flow is the same as the process flowchart (FIG. 6) of the importance calculation unit 12 in the first embodiment, and the word importance calculation process in the category of step 34 is different.

本実施の形態においては、検索語が分類されているカテゴリにおいてのみ重み付けを行うため、式(8)の評価値sr(Ci,w)を用いる。評価値sr(Ci,w)は、検索語がカテゴリCに分類されているとき検索語のカテゴリ内上昇度順位をとり、検索語がカテゴリCに分類されていないとき、カテゴリ内の総検索語数Lをとる。評価値sr(Ci,w)をm個引いて単語の重要度は、式(9)で算出される。 In the present embodiment, since the weighting is performed only in the category in which the search term is classified, the evaluation value sr (C i , w) of Expression (8) is used. The evaluation value sr (C i , w) takes the rank increase degree in the category of the search term when the search term is classified into the category C i, and the evaluation value sr (C i , w) in the category when the search term is not classified in the category C i The total number of search words L is taken. Subtracting m evaluation values sr (C i , w), the importance of the word is calculated by equation (9).

重要度weight(Ci,w)は、カテゴリCiによく出現し、他のカテゴリにはあまり出現せず、カテゴリCiにおける検索語のカテゴリ内上昇度順位が高いほど、高い値をとる。 The importance level weight (C i , w) appears frequently in the category C i , does not appear much in other categories, and takes a higher value as the rank ranking of the search terms in the category C i is higher.

Figure 2006318398
ここで、tf(Ci,w)は、単語wがカテゴリCi=(i=1〜M)に出現する出現数であり、カテゴリ内によく出現する単語ほど大きな値をとり、重要度を高くする働きをする。icf(Ci,w)は単語wのカテゴリCiにおけるカテゴリ内単語出現率が、全カテゴリにおけるカテゴリ内単語出現率の和に占める割合であり、式(3)で求められる値である。
Figure 2006318398
Here, tf (Ci, w) is the number of appearances of the word w in the category C i = (i = 1 to M), and the larger the word that frequently appears in the category, the higher the importance. To work. icf (C i , w) is a ratio of the word appearance rate in the category C i of the word w to the sum of the word appearance rates in the categories in all categories, and is a value obtained by Expression (3).

また、式(9)の代わりに式(10)を用いて、単語の重要度を算出することも可能である。   It is also possible to calculate the importance of a word using equation (10) instead of equation (9).

Figure 2006318398
式(10)においては、検索語蓄積部20Aに含まれない単語の重要度は全て0となり、検索語蓄積部20Aに含まれる単語のみをベクトルの要素として、ベクトルを生成することが可能となる。検索語蓄積部20Aに含まれる単語のみのベクトルは、学習用テキスト中の自立語全てを用いるベクトルに比べ次元数が小さいため、ベクトル演算を高速化することができる。
Figure 2006318398
In Expression (10), the importance levels of the words not included in the search word storage unit 20A are all 0, and it becomes possible to generate a vector using only the words included in the search word storage unit 20A as vector elements. . Since the vector of only the words included in the search word storage unit 20A has a smaller number of dimensions than the vector using all the independent words in the learning text, the vector calculation can be speeded up.

Lのサイズが小さい場合や検索語の重要性をもっと高くしたい場合などは、適当な係数を乗算して重要度を算出するようにしてもよいし、   If the size of L is small or if you want to increase the importance of the search term, you may calculate the importance by multiplying by an appropriate coefficient.

Figure 2006318398
の代わりに、対数をとらずにL/sr(Ci,w)を用いてもよい。
Figure 2006318398
Instead of logarithm, L / sr (C i , w) may be used without taking the logarithm.

カテゴリ毎に単語の重要度を算出した後、重要度算出部12Aはカテゴリ毎の特徴ベクトルを式(5)により生成し(ステップ35)、特徴ベクトル蓄積部13に蓄積する。特徴ベクトルを構成するすべての単語wi(i=1〜z)は、単語の要素順に1から番号を付与し、出現数とともに単語リスト蓄積部14に蓄積し(ステップ36)、重要度算出部12の処理を終了する。 After calculating the importance level of the word for each category, the importance level calculation unit 12A generates a feature vector for each category according to the equation (5) (step 35) and stores it in the feature vector storage unit 13. All words w i (i = 1 to z) constituting the feature vector are numbered from 1 in the order of the word elements, and are accumulated in the word list accumulating unit 14 together with the number of appearances (step 36). The process of 12 is finished.

以上のように、検索語にカテゴリが付与されている場合は、各単語の重要度として式(9)、式(10)を用いることにより、検索語がどのカテゴリにおいて注目されているかを反映した重要度付けが可能となる。即ち、検索語が複数のカテゴリで出現する場合、第1の実施の形態では、検索語が出現する全てのカテゴリにおいて検索語の重要度が高くなるのに対し、第2の実施の形態では、検索語に付与された特定のカテゴリにおいてのみ検索語の重要度を高くすることができる。   As described above, when a category is assigned to the search word, the category (9) and the expression (10) are used as the importance of each word to reflect in which category the search word is focused. Importance can be assigned. That is, when a search word appears in a plurality of categories, in the first embodiment, the importance of the search word increases in all categories in which the search word appears, whereas in the second embodiment, The importance of the search term can be increased only in a specific category assigned to the search term.

なお、上記の第1、及び第2の実施の形態における検索語取得部200、学習用テキスト取得部300、特徴ベクトル生成部10からなる構成をベクトル生成装置とし、当該ベクトル生成装置の動作をプログラムとして構築し、コンピュータに実行させる、または、ネットワーク上に流通させることが可能である。また、ベクトル生成装置と、分類部40からなる構成を情報分類装置とし、当該情報分類装置の動作をプログラムとして構築し、コンピュータに実行させる、または、ネットワーク上に流通させることが可能である。   Note that the configuration including the search word acquisition unit 200, the learning text acquisition unit 300, and the feature vector generation unit 10 in the first and second embodiments is a vector generation device, and the operation of the vector generation device is programmed. And can be executed by a computer or distributed on a network. Further, a configuration including the vector generation device and the classification unit 40 can be used as an information classification device, and the operation of the information classification device can be constructed as a program and executed by a computer or distributed on a network.

また、構築されたプログラムをハードディスク、CD−ROMやフレキシブルディスク等の可搬記憶媒体に格納し、ベクトル生成装置及び情報分類装置として利用されるコンピュータにインストールする、または、配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk, CD-ROM, or flexible disk, and can be installed or distributed on a computer used as a vector generation device and an information classification device. .

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、ネットワーク上に公開されている文書情報を分類するための技術に適用可能である。   The present invention can be applied to a technique for classifying document information disclosed on a network.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の第1の実施の形態における情報分類装置の構成図である。It is a block diagram of the information classification device in the 1st Embodiment of this invention. 本発明の第1の実施の形態における単語抽出部の処理のフローチャートである。It is a flowchart of the process of the word extraction part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における単語抽出部の処理例である。It is an example of a process of the word extraction part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における重要度算出部の処理のフローチャートである。It is a flowchart of the process of the importance calculation part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における重要度算出部の処理を説明する図である。It is a figure explaining the process of the importance calculation part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における特徴ベクトル蓄積部の蓄積例である。It is an example of accumulation | storage of the feature vector storage part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における単語リスト蓄積部の蓄積例である。It is an example of accumulation | storage of the word list storage part in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるベクトル変換部の処理のフローチャートである。It is a flowchart of the process of the vector conversion part in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるベクトル変換部の処理例である。It is an example of a process of the vector conversion part in the 1st Embodiment of this invention. 本発明の第2の実施の形態における情報分類装置の構成図である。It is a block diagram of the information classification device in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における検索語蓄積部の蓄積例である。It is an example of accumulation | storage of the search word storage part in the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

10 特徴ベクトル生成部
11 単語抽出手段、単語抽出部
12,12A 重要度算出手段、重要度算出部
13 特徴ベクトル蓄積手段、特徴ベクトル蓄積部
14 単語リスト蓄積手段、単語リスト蓄積部
15 テキスト記憶部
20 検索語蓄積手段、検索語蓄積部
20A 検索語蓄積部
21,21A 検索語収集部
22,22A 注目検索語ランキング部
30 学習用テキスト蓄積手段、学習用テキスト蓄積部
31 学習用テキスト収集部
32 学習用収集先リスト
40 分類部
41 ベクトル変換手段、ベクトル変換部
42 カテゴリ決定手段、カテゴリ決定部
131 カテゴリ
132 検索語
133 カテゴリ内上昇度順位
200,200A 検索語取得部
300 学習用テキスト取得部
801 カテゴリと各単語の重要度を示した列
901 番号
902 出現数
903 単語
1001,1002,1003 カテゴリ名
1100,1200,1300 テーブル
DESCRIPTION OF SYMBOLS 10 Feature vector generation part 11 Word extraction means, Word extraction part 12, 12A Importance calculation means, Importance calculation part 13 Feature vector storage means, Feature vector storage part 14 Word list storage means, Word list storage part 15 Text storage part 20 Search word storage means, search word storage section 20A Search word storage sections 21, 21A Search word collection sections 22, 22A Attention search word ranking section 30 Learning text storage means, learning text storage section 31 Learning text collection section 32 For learning Collection destination list 40 Classification unit 41 Vector conversion unit, vector conversion unit 42 Category determination unit, category determination unit 131 Category 132 Search term 133 In-category rise degree 200, 200A Search term acquisition unit 300 Learning text acquisition unit 801 Categories and each Column 901 indicating the importance of the word number 902 number of occurrences 903 Word 1001, 1002, 1003 Category name 1100, 1200, 1300 Table

Claims (14)

ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、ベクトル変換手段と、を有するベクトル生成装置における、ベクトル生成方法において、
前記単語抽出手段において、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された前記検索語蓄積手段からある期間の検索語を抽出し、学習用テキストが蓄積された前記学習用テキスト蓄積手段から単語を抽出し、また、入力された分類対象テキストから単語を抽出する単語抽出ステップと、
前記ベクトル変換手段において、前記単語抽出ステップで前記学習用テキスト及び前記分類対象テキストから抽出された単語を前記検索語を含むベクトルに変換する変換ステップと、
を行うことを特徴とするベクトル生成方法。
Search word storage means, learning text storage means, word extraction means, and vector conversion means for classifying arbitrary text published on the network into one or more categories to which the text belongs In a vector generation method in a vector generation device having
In the word extraction means, the search words for a certain period are extracted from the search word accumulation means in which a set of search words ranked in a certain period and rankings of the search words are accumulated, and the learning text is accumulated. A word extraction step of extracting a word from the text storage means and extracting a word from the inputted classification target text;
In the vector conversion means, a conversion step of converting the word extracted from the learning text and the classification target text into the vector including the search word in the word extraction step;
A vector generation method characterized by:
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
前記単語抽出手段において、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された前記検索語蓄積手段からある期間の検索語を抽出し、学習用テキストが格納された前記学習用テキスト蓄積手段から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出ステップと、
前記重要度算出手段において、前記単語集合の各単語の重要度を、検索語のランキングが高い単語ほど重要度を高くする評価値を用いて算出し、ベクトルに変換するする重要度算出ステップと、
を行うことを特徴とするベクトル生成方法。
Search word storage means, learning text storage means, word extraction means, and importance calculation means for classifying arbitrary text published on the network into one or more categories to which the text belongs; In a vector generation method in a vector generation device having
In the word extraction means, the search words for a certain period are extracted from the search word accumulation means in which pairs of search words ranked in a certain period and rankings of the search words are accumulated, and the learning text is stored. A word extraction step of extracting words from the text storage means and extracting a word set including the search terms;
In the importance calculation means, an importance calculation step of calculating the importance of each word of the word set using an evaluation value that increases the importance of a word having a higher search word ranking, and converting it into a vector;
A vector generation method characterized by:
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
前記単語抽出手段において、カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された前記検索語蓄積手段からある期間の検索語を抽出し、予めカテゴリが付与された学習用テキストが蓄積された学習用テキスト蓄積手段から単語集合を抽出する単語抽出ステップと、
前記重要度算出手段において、各カテゴリにおける前記単語の重要度を、前記検索語に付与されたカテゴリにおいてのみ該検索語の重要度を高くする評価値を用いて算出し、ベクトルに変換する重要度算出ステップと、
を行うことを特徴とするベクトル生成方法。
Search term storage means, learning text storage means, word extraction means, and importance calculation means for classifying arbitrary text published on the network into one or more categories to which the text belongs In a vector generation method in a vector generation device having
The word extraction means extracts a search term for a certain period from the search word storage means in which a category is assigned and a search word ranked in a certain period and a set of rankings of the search word are accumulated, and a category is assigned in advance. A word extraction step of extracting a word set from the learning text storage means in which the learning text is stored;
In the importance calculation means, the importance of the word in each category is calculated using an evaluation value that increases the importance of the search word only in the category assigned to the search word, and is converted into a vector A calculation step;
A vector generation method characterized by:
任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、重要度算出手段、ベクトル変換手段、カテゴリ決定手段と、を有するカテゴリ分類装置における、カテゴリ分類方法において、
前記単語抽出手段において、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された前記検索語蓄積手段からある期間の検索語を抽出し、学習用テキスト集合が格納された前記学習用テキスト蓄積手段から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出ステップと、
前記重要度算出手段において、前記単語集合の重要度を、前記検索語の重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを生成する重要度算出ステップと、
前記ベクトル変換手段において、入力されたカテゴリが未知の分類対象テキストをベクトルに変換するベクトル変換ステップと、
前記カテゴリ決定手段において、前記ベクトルとカテゴリ毎の特徴ベクトルの類似度を算出し、前記分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、
を行うことを特徴とするカテゴリ分類方法。
Search word storage means, learning text storage means, word extraction means, importance calculation means, vector conversion means, category determination means for classifying arbitrary text into one or more categories to which the text belongs In the category classification method in the category classification device having
In the word extraction means, a search word for a certain period is extracted from the search word storage means in which a search word ranked in a certain period and a set of rankings of the search word are accumulated, and the learning text set is stored in the word extraction means A word extraction step of extracting words from the learning text storage means and extracting a word set including the search terms;
In the importance calculation means, an importance calculation step of calculating the importance of the word set using an evaluation value that increases the importance of the search word, and generating a feature vector for each category;
In the vector conversion means, a vector conversion step of converting a classification target text whose input category is unknown into a vector;
In the category determining means, a category determining step of calculating a similarity between the vector and a feature vector for each category, and adding a category to the classification target text;
A category classification method characterized by:
任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、重要度算出手段、ベクトル変換手段、カテゴリ決定手段と、を有するカテゴリ分類装置における、カテゴリ分類方法において、
前記単語抽出手段において、カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された前記検索語蓄積手段からある期間の検索語を抽出し、予めカテゴリが付与された学習用テキスト集合が格納された前記学習用テキスト蓄積手段から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出ステップと、
前記重要度算出手段において、前記単語集合の重要度を、前記検索語に付与されたカテゴリにおいてのみ該検索語の重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを生成する重要度算出ステップと、
前記ベクトル変換手段において、入力されたカテゴリが未知の分類対象テキストをベクトルに変換するベクトル変換ステップと、
前記カテゴリ決定手段において、前記ベクトルとカテゴリ毎の特徴ベクトルの類似度を算出し、前記分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、
を行うことを特徴とするカテゴリ分類方法。
Search word storage means, learning text storage means, word extraction means, importance calculation means, vector conversion means, category determination means for classifying arbitrary text into one or more categories to which the text belongs In the category classification method in the category classification device having
The word extraction means extracts a search term for a certain period from the search word storage means in which a category is assigned and a search word ranked in a certain period and a set of rankings of the search word are accumulated, and a category is assigned in advance. A word extracting step of extracting a word from the learning text storage means in which the learning text set stored is extracted, and extracting a word set including the search term;
The importance calculating means calculates the importance of the word set using an evaluation value that increases the importance of the search word only in the category assigned to the search word, and generates a feature vector for each category. Importance calculation step,
In the vector conversion means, a vector conversion step of converting a classification target text whose input category is unknown into a vector;
In the category determination means, a category determination step of calculating a similarity between the vector and a feature vector for each category, and adding a category to the classification target text;
A category classification method characterized by:
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段と、
ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段と、
前記学習用テキスト蓄積手段から学習用テキストを取得し、各学習用テキストから単語を抽出し、前記検索語蓄積手段に蓄積された検索語を含む単語集合を抽出する単語抽出手段と、
前記単語集合の各単語の重要度を、検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出手段と、
を有することを特徴とするベクトル生成装置。
A vector generation device for classifying arbitrary text published on a network into one or more categories to which the text belongs,
Learning text storage means for storing learning text with a category assigned in advance;
A search term storage means in which a search term ranked in a certain period and a set of rankings of the search terms are stored;
A word extraction unit that obtains a learning text from the learning text storage unit, extracts a word from each learning text, and extracts a word set including a search word stored in the search word storage unit;
The importance of each word of the word set is calculated using an evaluation value that increases the importance as the ranking of the search word is higher, and the feature vector for each category is calculated and stored in the feature vector storage means, Importance calculation means for storing a list of words constituting the feature vector in the word list storage means;
A vector generation device characterized by comprising:
前記検索語蓄積手段の前記検索語ランキングは、検索エンジンにおいて前回受け取った検索語ランキングと、今回受け取った検索語ランキングとを比較することにより求められた上昇度に基づいて決定され、
前記重要度算出手段は、
1つカテゴリに含まれる単語について、カテゴリ内の単語出現数とカテゴリ内単語出現率を算出する手段と、
前記カテゴリ内の単語出現数とカテゴリ内単語出現率に基づいて、あるカテゴリによく出現し、他のカテゴリにあまり出現せず、前記上昇度が高い値ほど高い値をとる重要度を求める手段を含む、請求項6記載のベクトル生成装置。
The search word ranking of the search word storage means is determined based on the degree of increase obtained by comparing the search word ranking received last time in the search engine with the search word ranking received this time,
The importance calculation means includes:
Means for calculating a word appearance number and a word appearance rate in the category for words included in one category;
Means for determining importance based on the number of words in the category and the word appearance rate in the category, which often appears in a certain category, does not appear much in other categories, and has a higher value as the degree of increase is higher. The vector generation device according to claim 6, further comprising:
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段と、
カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段と、
前記検索語蓄積手段からある期間の検索語を抽出し、前記学習用テキスト蓄積手段から単語を抽出し、該検索語を含む単語集合を抽出する単語抽出手段と、
各カテゴリにおける前記単語の重要度を、前記検索語に付与されたカテゴリにおいてのみ該検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出手段と、
を有することを特徴とするベクトル生成装置。
A vector generation device for classifying arbitrary text published on a network into one or more categories to which the text belongs,
Learning text storage means for storing learning text with a category assigned in advance;
A search term storage means in which a category is assigned and a set of search terms ranked in a certain period and the ranking of the search terms is stored;
A word extraction unit that extracts a search term for a certain period from the search word storage unit, extracts a word from the learning text storage unit, and extracts a word set including the search term;
The importance of the word in each category is calculated using an evaluation value that increases the importance as the ranking of the search word is higher only in the category assigned to the search word, and a feature vector for each category is calculated. Importance level calculating means for storing in the feature vector storage means and storing a list of words constituting the feature vector in the word list storage means;
A vector generation device characterized by comprising:
前記検索語蓄積手段の前記検索語ランキングは、検索エンジンにおいて前回受け取った検索語ランキングと、今回受け取った検索語ランキングとを比較することにより求められたカテゴリ毎の上昇度に基づいて決定され、
前記重要度算出手段は、
前記検索語がカテゴリに分類されているときには、検索語のカテゴリ内における上昇度順位をとり、該検索語がカテゴリに分類されていないときには、カテゴリ内の総検索語数をとる評価値を用いて、あるカテゴリによく出現し、他のカテゴリにはあまり出現せず、カテゴリにおける前記検索語のカテゴリ内の上昇度順位が高いほど高い値を取る重要度を求める、請求項8記載のベクトル生成装置。
The search word ranking of the search word storage means is determined based on the degree of increase for each category obtained by comparing the search word ranking received last time in the search engine with the search word ranking received this time,
The importance calculation means includes:
When the search term is classified into a category, the rank of increase in the category of the search term is taken, and when the search term is not classified into the category, an evaluation value that takes the total number of search terms in the category is used. The vector generation device according to claim 8, wherein the vector generation device obtains a degree of importance that frequently appears in a certain category and does not appear much in other categories, and takes a higher value as the degree of increase in the category of the search word in the category is higher.
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するため情報分類装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段と、
ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段と、
前記学習用テキスト蓄積手段から学習用テキストを取得し、各学習用テキストから単語を抽出し、前記検索語蓄積手段に蓄積された検索語を含む単語集合を抽出する単語抽出手段と、
前記単語集合の各単語の重要度を、検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出手段と、
入力されたカテゴリが未知の分類対象テキストから、前記単語リスト蓄積手段に含まれる単語を抽出し、ベクトルに変換するベクトル変換手段と、
前記ベクトル変換手段で生成されたベクトルと前記特徴ベクトル蓄積手段に蓄積されている各カテゴリの特徴ベクトルとの類似度を求め、所定の閾値以上の類似度を持つカテゴリを分類対象テキストに付与するカテゴリ決定手段と、
を有することを特徴とする情報分類装置。
An information classification device for classifying arbitrary text published on a network into one or more categories to which the text belongs,
Learning text storage means for storing learning text with a category assigned in advance;
A search term storage means in which a search term ranked in a certain period and a set of rankings of the search terms are stored;
A word extraction unit that obtains a learning text from the learning text storage unit, extracts a word from each learning text, and extracts a word set including a search word stored in the search word storage unit;
The importance of each word of the word set is calculated using an evaluation value that increases the importance as the ranking of the search word is higher, and the feature vector for each category is calculated and stored in the feature vector storage means, Importance calculation means for storing a list of words constituting the feature vector in the word list storage means;
Vector conversion means for extracting words contained in the word list storage means from the classification target text whose unknown category is unknown, and converting the words into vectors,
A category for obtaining a similarity between a vector generated by the vector conversion unit and a feature vector of each category stored in the feature vector storage unit, and adding a category having a similarity equal to or higher than a predetermined threshold to the classification target text A determination means;
An information classification apparatus characterized by comprising:
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための情報分類生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段と、
カテゴリが付与され、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段と、
前記学習用テキスト蓄積手段からカテゴリが付与された学習用テキストを取得し、各学習用テキストから単語集合を抽出する単語抽出手段と、
各カテゴリにおける前記単語集合の各単語の重要度を、前記検索語に付与されたカテゴリにおいてのみ該検索語のランキングが高いほど重要度を高くする評価値を用いて算出し、カテゴリ毎の特徴ベクトルを算出して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出手段と、
入力されたカテゴリが未知の分類対象テキストから、前記単語リスト蓄積手段に含まれる単語を抽出し、ベクトルに変換するベクトル変換手段と、
前記ベクトル変換手段で生成されたベクトルと前記特徴ベクトル蓄積手段に蓄積されている各カテゴリの特徴ベクトルとの類似度を求め、所定の閾値以上の類似度を持つカテゴリを分類対象テキストに付与するカテゴリ決定手段と、
を有することを特徴とする情報分類装置。
An information classification generation device for classifying arbitrary text published on a network into one or more categories to which the text belongs,
Learning text storage means for storing learning text with a category assigned in advance;
A search term storage means in which a category is assigned and a set of search terms ranked in a certain period and the ranking of the search terms is stored;
A word extraction unit that acquires a learning text to which a category is given from the learning text storage unit, and extracts a word set from each learning text;
The importance of each word of the word set in each category is calculated using an evaluation value that increases the importance as the ranking of the search word is higher only in the category assigned to the search word, and a feature vector for each category And calculating the degree of importance in the feature vector accumulating means, and the degree of importance calculating means for accumulating the word list constituting the feature vector in the word list accumulating means,
Vector conversion means for extracting words contained in the word list storage means from the classification target text whose unknown category is unknown, and converting the words into vectors,
A category for obtaining a similarity between a vector generated by the vector conversion unit and a feature vector of each category stored in the feature vector storage unit, and adding a category having a similarity equal to or higher than a predetermined threshold to the classification target text A determination means;
An information classification apparatus characterized by comprising:
前記ベクトル変換手段は、
前記分類対象テキストの単語と前記単語リスト蓄積手段に蓄積されている前記単語と一致する単語毎に出現数を算出し、該出現数に基づいてベクトルを生成する手段を含み、
前記カテゴリ決定手段は、
前記ベクトル変換手段で生成されたベクトルと、前記特徴ベクトル蓄積手段に蓄積されているカテゴリ毎の特徴ベクトルの距離を求め、該距離が所定の閾値より大きい場合、前記分類対象テキストにカテゴリを付与する手段を含む、請求項10または、11記載の情報分類装置。
The vector conversion means includes
Means for calculating the number of occurrences for each word that matches the word in the classification target text and the word stored in the word list storage unit, and generating a vector based on the number of occurrences;
The category determining means includes
The distance between the vector generated by the vector conversion unit and the feature vector for each category stored in the feature vector storage unit is obtained. If the distance is greater than a predetermined threshold, a category is assigned to the classification target text. The information classification device according to claim 10 or 11, comprising means.
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのプログラムであって、
記憶手段上に、少なくとも、学習用テキストが蓄積されている学習用テキスト蓄積手段と、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段とを有するコンピュータに、
請求項6乃至12記載の各手段を実行させることを特徴とするプログラム。
A program for classifying arbitrary text published on a network into one or more categories to which the text belongs,
A computer having at least learning text storage means in which learning text is stored on the storage means, and search word storage means in which a set of search terms ranked in a certain period and rankings of the search terms are stored In addition,
13. A program that causes each means according to claim 6 to be executed.
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのプログラムを格納したコンピュータ読み取り可能な記憶媒体であって、
記憶手段上に、少なくとも、学習用テキストが蓄積されている学習用テキスト蓄積手段と、ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段とを有するコンピュータを、
請求項6乃至12記載の各手段を有するベクトル生成装置または情報分類装置として機能させるプログラムを格納したコンピュータ読み取り可能な記憶媒体。
A computer-readable storage medium storing a program for classifying arbitrary text published on a network into one or more categories to which the text belongs,
A computer having at least learning text storage means in which learning text is stored on the storage means, and search word storage means in which a set of search terms ranked in a certain period and rankings of the search terms are stored The
A computer-readable storage medium storing a program that functions as a vector generation device or an information classification device having each means according to claim 6.
JP2005142909A 2005-05-16 2005-05-16 Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program Expired - Fee Related JP4569380B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005142909A JP4569380B2 (en) 2005-05-16 2005-05-16 Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005142909A JP4569380B2 (en) 2005-05-16 2005-05-16 Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program

Publications (2)

Publication Number Publication Date
JP2006318398A true JP2006318398A (en) 2006-11-24
JP4569380B2 JP4569380B2 (en) 2010-10-27

Family

ID=37538988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005142909A Expired - Fee Related JP4569380B2 (en) 2005-05-16 2005-05-16 Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program

Country Status (1)

Country Link
JP (1) JP4569380B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176748A (en) * 2007-01-22 2008-07-31 Fujitsu Ltd Information giving program, information giving device, and information giving method
JP2010020530A (en) * 2008-07-10 2010-01-28 Asahi Kasei Corp Document classification providing device, document classification providing method and program
JP2011166621A (en) * 2010-02-12 2011-08-25 Nomura Research Institute Ltd Video-content recommendation apparatus, method for determining recommended video content, and computer program
JP2012108792A (en) * 2010-11-18 2012-06-07 Yahoo Japan Corp Panic demand detection device and panic demand detection method
JP5759594B1 (en) * 2014-05-30 2015-08-05 株式会社 ディー・エヌ・エー Item evaluation apparatus and item evaluation program
WO2016132558A1 (en) * 2015-02-20 2016-08-25 株式会社Ubic Information processing device and method, and program
CN111428123A (en) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 Query method and device
JP7358981B2 (en) 2019-12-27 2023-10-11 富士通株式会社 Information processing program, information processing method, and information processing device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362451A (en) * 2003-06-06 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> Method and system for displaying retrieving keyword information, and retrieving keyword information display program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362451A (en) * 2003-06-06 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> Method and system for displaying retrieving keyword information, and retrieving keyword information display program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSNG200500138006, 大橋 二大, "ネットワーク世界の"今"を切り取る「最新情報窓」", 映像情報メディア学会技術報告, 20031209, Vol.27 No.68, 第33頁乃至第36頁, JP, (社)映像情報メディア学会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176748A (en) * 2007-01-22 2008-07-31 Fujitsu Ltd Information giving program, information giving device, and information giving method
JP2010020530A (en) * 2008-07-10 2010-01-28 Asahi Kasei Corp Document classification providing device, document classification providing method and program
JP2011166621A (en) * 2010-02-12 2011-08-25 Nomura Research Institute Ltd Video-content recommendation apparatus, method for determining recommended video content, and computer program
JP2012108792A (en) * 2010-11-18 2012-06-07 Yahoo Japan Corp Panic demand detection device and panic demand detection method
JP5759594B1 (en) * 2014-05-30 2015-08-05 株式会社 ディー・エヌ・エー Item evaluation apparatus and item evaluation program
WO2016132558A1 (en) * 2015-02-20 2016-08-25 株式会社Ubic Information processing device and method, and program
CN111428123A (en) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 Query method and device
JP7358981B2 (en) 2019-12-27 2023-10-11 富士通株式会社 Information processing program, information processing method, and information processing device

Also Published As

Publication number Publication date
JP4569380B2 (en) 2010-10-27

Similar Documents

Publication Publication Date Title
US9201880B2 (en) Processing a content item with regard to an event and a location
Jeon et al. A framework to predict the quality of answers with non-textual features
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
US9846744B2 (en) Media discovery and playlist generation
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US20130110839A1 (en) Constructing an analysis of a document
JP4569380B2 (en) Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
KR20080068825A (en) Selecting high quality reviews for display
KR101088710B1 (en) Method and Apparatus for Online Community Post Searching Based on Interactions between Online Community User and Computer Readable Recording Medium Storing Program thereof
KR100954842B1 (en) Method and System of classifying web page using category tag information and Recording medium using by the same
KR101059557B1 (en) Computer-readable recording media containing information retrieval methods and programs capable of performing the information
JP2011108053A (en) System for evaluating news article
JP5427694B2 (en) Related content presentation apparatus and program
KR20100132376A (en) Apparatus and method for providing snippet
JP5964149B2 (en) Apparatus and program for identifying co-occurrence words
KR101178208B1 (en) Apparatus and method for extracting keywords
JP5197491B2 (en) Action recommendation device, method and program
KR101132431B1 (en) System and method for providing interest information
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
JP2010282403A (en) Document retrieval method
KR101057075B1 (en) Computer-readable recording media containing information retrieval methods and programs capable of performing the information
Hendriksen Extending WASP: providing context to a personal web archive
KR101132393B1 (en) Method of searching web pages based on a collective intelligence using folksonomy and linked-based ranking strategy, and system for performing the method
Geller et al. Blog mining for the fortune 500

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100713

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100726

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees