JP4569380B2

JP4569380B2 - ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP4569380B2
Application number: JP2005142909A
Authority: JP
Inventors: 晴美川島; 吉秀佐藤; 努佐々木; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-05-16
Filing date: 2005-05-16
Publication date: 2010-10-27
Anticipated expiration: 2025-05-16
Also published as: JP2006318398A

Description

本発明は、ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体に係り、ネットワーク上に公開されている最新の文書情報を、効率的に分類する情報分類手法に関し、特に、検索サイトに入力された検索語を含むベクトルを生成することにより、最新のテキストを効率的にカテゴリ分類することのできるベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体に関する。

近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された文書情報が発信され続けている。ネットワーク利用者は、従来からの掲示板に加えて、ブログサービスを利用して自分の興味のある事柄に対して感想や意見を発信することが容易に行えるようになってきた。ニュース記事は、例えば、「社会」、「国際」、「ＩＴ」など、カテゴリ分けして記事を提供しており、ニュース記事のカテゴリは複数のニュースサイトにおいてほぼ同じである。そのため、記事に付与されたカテゴリ情報に基づいて情報を分類することが可能である。

しかし、ブログサービスにおいては、情報発信者がそれぞれの観点で記事を分類するカテゴリを選択したり、自分で新たなカテゴリを設定する場合も多いことから、記事に付与されたカテゴリ情報に基づいて記事を分類することが困難である。

さらに、ホームページの情報などカテゴリ情報が付与されていない記事がほとんどである。

従来、自然言語処理や情報検索技術分野において、電子化されたテキストをテキスト内で出現する単語のベクトルで表し、カテゴリの特徴を現すベクトルとの向きを比較することにより、カテゴリ分類する技術がある。

例えば、特定のカテゴリに重要な単語は、特定のカテゴリにおける出現テキスト件数が多く、他のカテゴリに出現しない単語であるとし、学習用テキスト集合の総カテゴリ数のうち特定の単語が出現するカテゴリ数の逆数に基づくカテゴリ頻度係数を算出し、特定のカテゴリに出現する単語の出現件数と当該カテゴリ頻度係数との乗算により学習用テキスト中の単語毎の重要度を算出する。この単語毎の重要度をベクトルの要素とするベクトルを生成し、カテゴリ分類を行う方法がある（例えば、特許文献１参照）。

以下、この方法を詳しく説明する。

学習用テキストはカテゴリが明らかな（複数のカテゴリに帰属する場合も含む）テキストの集合であり、新聞記事データベースから、あるいはカテゴリが明らかなＷｅｂページ（ポータルサイトのディレクトリサービス）などから収集している。近年では、新聞社のホームページよりカテゴリ分類された記事が収集可能であり、常に新しい情報を学習させたい場合などに利用されている。

例えば、映画に関するカテゴリを生成しようとした場合を考える。映画のニュース記事を収集し、各記事にカテゴリとして「映画」を付与して蓄積する。蓄積された映画ニュースにのみ頻出する重要な単語としては、「監督」、「脚本」、「出演」などが抽出される。これらの語は、公開された映画の情報を正確に伝えるために映画ニュースの記事には頻繁に出現している。映画のタイトルは映画毎に異なるため、「監督」、「脚本」、「出演」などの単語と比較すると出現数は小さい。

また、最近になって注目され始めたような単語についても、学習用テキスト内での出現数は小さい。

学習用テキスト集合から各カテゴリを特徴付ける特徴ベクトルを生成する。

カテゴリＣ_ｊ（ｊ＝１〜Ｍ）の特徴ベクトルは、例えば次式で表すことができる。

ここで、Ｗ（Ｃ_i，ｗ）は、カテゴリC_ｉにおける単語ｗの重要度であり、カテゴリＣ_iにおける単語ｗの出現文書数に、

を乗算した値をとる。つまり、特定のカテゴリにおける出現文書数が多い単語で、他のカテゴリに出現しない単語の重要度が高くなっている。

そこで、カテゴリＡにおいて重要度が高い単語を多く含むような未分類テキストは、カテゴリＡの特徴ベクトルと類似するため（テキストのベクトルとカテゴリの特徴ベクトルの類似度が所定範囲内になる）、カテゴリＡを付与される。
特許第３４８８０６３

しかしながら、映画を見た感想などを個人がブログ等で記事にする場合、映画のタイトルや役者の名前、主人公の名前などを入れて記事を書くのが大半である。映画の批評を継続して発信しているユーザは、「監督」、「脚本」などの単語を使い、映画の情報をより正確に読者に伝えようとするかもしれない。

上記の従来技術においては、後者の映画の批評を継続して発信しているユーザの記事は、学習用テキストから生成した映画カテゴリの特徴ベクトルと類似するため、映画カテゴリに分類されるが、前者の映画のタイトルや役者の名前、主人公の名前などから構成された記事は、ベクトルが映画カテゴリの特徴ベクトルと類似しないと判断され（類似度が所定範囲外になる）、映画カテゴリに分類することができないという問題がある。

また、映画のタイトルが複数の単語で構成されている場合は、テキストから単語を抽出した際に、映画のタイトルが複数の単語に分割されてしまう。さらに、分割された単語が、別のカテゴリでも良く使われる単語（例えば、「世界」、「野球」）である場合、単語が出現するカテゴリ数が大きくなり単語の重要度が低くなってしまう。その結果、映画のタイトルを含んでいても映画カテゴリに分類することができないという問題がある。

さらに、最近注目されるようになった単語を含む未分類テキストは、注目されている単語を含んでいても他にカテゴリを特徴付ける重要度の高い単語が含まれなければ、カテゴリを付与することができないという問題がある。

本発明は、上記の点に鑑みなされたもので、ブログなどの個人の体験や感想が書かれた記事を精度よく分類するためのベクトルを生成することが可能なベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する１つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
単語抽出手段において、検索語蓄積手段からある期間においてランキングされた検索語を抽出し（ステップ１）、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを学習用テキスト蓄積手段から読み出し（ステップ２）、読み出した学習用テキストを形態素解析し（ステップ３）、形態素解析した複数の語のつながりが抽出した検索語と一致する場合には（ステップ４、＝）、当該複数の語のつながりを１単語とし（ステップ５A）、一致しない場合には（ステップ４、≠）、形態素解析した１つの自立語を１単語とし（ステップ５B）、単語と単語の出現数をテキスト記録手段に記録する（ステップ６）単語抽出ステップと、
重要度算出手段において、カテゴリ毎に、単語抽出ステップで抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し（ステップ７）、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段に蓄積する（ステップ８）と共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する（ステップ９）重要度算出ステップと、を行う。

また、本発明（請求項２）は、重要度算出ステップでは、
検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する。

また、本発明（請求項３）は、重要度算出ステップでは、
検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する。

また、本発明（請求項４）は、検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する。

また、本発明（請求項５）は、検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する。
本発明（請求項６）は、請求項１乃至５のいずれかのベクトル生成方法で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段、該特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段、及び、ベクトル変換手段、カテゴリ決定手段を有するカテゴリ分類装置におけるカテゴリ分類方法において、
ベクトル変換手段において、入力された分類対象テキストを形態素解析し、単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換ステップと、
カテゴリ決定手段においては、ベクトル変換ステップで生成された分類対象テキストのベクトルと、特徴ベクトル蓄積手段に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、を行う。

図２は、本発明の原理構成図である。

本発明（請求項７）は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する１つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段３０と、
ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段２０と、
検索語蓄積手段２０からある期間においてランキングされた検索語を抽出し、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを学習用テキスト蓄積手段３０から読み出し、読み出した学習用テキストを形態素解析し、形態素解析した複数の語のつながりが抽出した検索語と一致する場合には、当該複数の語のつながりを１単語とし、一致しない場合には、形態素解析した１つの自立語を１単語とし、単語と単語の出現数をテキスト記録手段に記録する単語抽出手段１１と、
カテゴリ毎に、単語抽出手段１１で抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段１３に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段１４に蓄積する重要度算出手段１２と、を有する。

また、本発明（請求項８）は、上記の請求項７において、重要度算出手段は、
検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。

また、本発明（請求項９）は、上記の請求項７において、重要度算出手段は、
検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。

また、本発明（請求項１０）は、上記の請求項７乃至９において、重要度算出手段は、カテゴリが付与された検索語が検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。

また、本発明（請求項１１）は、上記の請求項７乃至９において、重要度算出手段は、カテゴリが付与された検索語が検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。

本発明（請求項１２）は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する１つまたは複数のカテゴリに分類するカテゴリ分類装置であって、
請求項７乃至１１のいずれかのベクトル生成装置で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段１３と、
特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段１４と、
入力された分類対象テキストを形態素解析し、単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換手段４１と、
ベクトル変換手段４１で生成された分類対象テキストのベクトルと、特徴ベクトル蓄積手段１３に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、分類対象テキストにカテゴリを付与するカテゴリ決定手段４２と、を有する。

本発明（請求項１３）は、請求項７乃至１１のいずれか１項に記載のベクトル生成装置を構成する各手段としてコンピュータを機能させるためのベクトル生成プログラムである。

本発明（請求項１４）は、請求項１２に記載のカテゴリ分類装置を構成する各手段としてコンピュータを機能させるためのカテゴリ分類プログラムである。

本発明（請求項１５）は、請求項１３に記載のベクトル生成プログラムを格納したコンピュータ読み取り可能な記録媒体である。
本発明（請求項１６）は、請求項１４に記載のカテゴリ分類プログラムを格納したコンピュータ読み取り可能な記録媒体である。

上述のように、本発明では、ある期間における検索語ランキングを取得し、学習用テキスト集合から検索語の重要度を要素として含むカテゴリの特徴ベクトルを生成することができるため、従来一単語として扱うことができなかった検索語を含む記事を精度よく分類するためのベクトルを生成することができる。

また、検索語の重要度をランキングに応じて高くすることにより、ブログなどの個人の体験や感想が書かれた記事を精度よく分類するためのベクトルを生成することができる。

また、最近注目されるようになった（検索ランキングが急上昇した）単語を含む記事を適切なカテゴリに分類するためのベクトルを生成することができる。

さらに、生成したベクトルを用いて、検索語を含むカテゴリが未知のテキストを精度よく分類することができる。

以下、図面と共に本発明の実施の形態を説明する。

［第１の実施の形態］
図３は、本発明の第１の実施の形態における情報分類装置の構成を示す。

同図に示す情報分類装置は、検索語取得部２００、学習用テキスト取得部３００、特徴ベクトル生成部１０、分類部４０から構成される。

検索語取得部２００は、検索語収集部２１、注目検索語ランキング部２２、検索語蓄積部２０から構成される。

検索語収集部２１は、ある期間において集計・ランク付けされた検索語ランキングを検索語収集先記憶部２３に設定された収集先から取得し、注目検索語ランキング部２２に検索語ランキングを送る。ここで、検索語収集先記憶部２３には、検索語ランキング(検索語と順位)のデータが格納されているマシン名とディレクトリが格納されているものとし、マシン名とディレクトリに基づいて、当該マシンにアクセスして検索語ランキングを取得するものとする。なお、この方法に限定されることなく、検索語収集先記憶部２３にＵＲＬを保持しておき、検索語ランキングをインターネットなどで公開しているＷｅｂページのＵＲＬにアクセスして取得する方法もある。また、検索語ランキングは、検索語と検索語の順位が対になったデータであり、HTML文書やテキスト、データファイルなどの形態で取得する。検索語ランキングは、検索サイト利用者が入力した検索語をある期間で集計し、入力回数の多い検索語から降順に１位から順位付けされている。ランキング上位の検索語は、「２ちゃんねる」、「yahoo」、「楽天」、「ドコモ」など、サイトを探すために入力された検索語が多く、常に入力回数が多いため上位を占めている。最近流行ってきた情報に関する検索語の順位は高くなく、入力回数が急に増えている傾向にある。そこで、注目検索語ランキング部２２では最近入力回数が急に増えている注目キーワードを抽出する。

注目検索語ランキング部２２は、検索語収集部２１から検索語ランキングを受け取り、今回受け取った検索語の所定順位以上の検索語に対して、前回受け取り、メモリに保存されている検索語ランキングと比較することにより、上昇度（例えば、今回の検索語順位から前回の検索語順位を減算した値）を求め、上昇度の高い検索語から降順に１位から順位付けを行う。以下、上昇度の高い順に付与された順位を上昇度順位と呼ぶ。上昇度順位が付与された検索語は、検索語蓄積部２０に蓄積される。ここで、前回の順位を検索する検索語は、所定順位以上の検索語としているが、これは、今回の順位があまり低い検索語は注目している人の数が少ないと考えられ、より多くの人々に注目されている検索語を抽出するためである。

例えば、検索語収集部２１において、１ヶ月単位の検索語ランキングを取得する場合、注目検索語ランキング部２２では、最新の検索語ランキングが所定順位以上の検索語に対して前回の処理で受け取った１ヶ月前の検索語ランキングと比較して上昇度を算出し、検索語蓄積部２０に蓄積する。

また、検索サイトにおいて、検索語の上昇度を算出し順位付けしているサイトも存在する。検索語収集部２１において上昇度順位が既に付与された検索語を取得する場合には、注目検索語ランキング部２２の処理を省いて、検索語蓄積部２０に上昇度順位が付与された検索語を蓄積するものとする。

学習用テキスト取得部３００は、学習用テキスト収集部３１と学習用テキスト蓄積部３０から構成される。

学習用テキスト収集部３１は、カテゴリ毎に収集先リストを格納した学習用収集先リスト３２をメモリ内に持ち、定期的に学習用収集先リスト３２に設定されている収集先からテキストをネットワーク（図示せず）等を介して収集する。収集したテキストは、収集先、カテゴリと対応付けられて学習用テキスト蓄積部３０に蓄積される。

収集され、学習用テキスト蓄積部３０に蓄積された学習用テキスト（学習データ）は、後述する重要度算出部１２において検索語によって重み付けされるため、検索語収集部２１で取得した検索語ランキングの期間に生成／更新されたテキストであることが望ましい。そこで、学習用テキスト収集部３１は、検索語ランキングの期間毎に収集を行う。収集を開始するに先立ち、前回収集した学習用テキストが蓄積されている学習用テキスト蓄積部３０の情報を別の蓄積場所(領域)に移動させ、今回収集したテキストについて、収集先で前回収集したテキストを検索し、同じテキストが存在しなければ新しいテキストだとして学習用テキスト蓄積部３０に蓄積する。

また、学習用テキストのデータ量が少ない場合は、今回収集したテキストだけでなく、前回収集したテキストも学習用テキストとして学習用テキスト蓄積部３０に蓄積するように構成してもよい。

学習用テキスト蓄積部３０においては、テキストに対応付けられたカテゴリが容易に識別できるよう蓄積する。例えば、カテゴリ毎にディレクトリを生成し、その中にテキストファイルを格納する方法や、テキストファイルの名前にカテゴリを識別するための名前を含めるなどの方法を用いる。

特徴ベクトル生成部１０は、単語抽出部１１、重要度算出部１２、特徴ベクトル蓄積部１３、単語リスト蓄積部１４から構成される。

単語抽出部１１は、学習用テキスト蓄積部３０の蓄積が完了した後、学習用テキスト蓄積部３０に蓄積されているカテゴリ毎に蓄積された学習用テキストを全て取得し、各テキストから単語と単語の出現数を抽出し、カテゴリと対応付けてテキスト記録部１５に記録する。

図４は、本発明の第１の実施の形態における単語抽出部の処理のフローチャートである。

まず、単語抽出部１１は、学習用テキスト蓄積部３０からカテゴリを１つ読み出し（ステップ１２）、続いてテキストを１つ読み出す（ステップ１４）。なお、当該処理は、カテゴリ毎に予め付与されているカテゴリ識別番号を順次読み出し、また、テキストについても同様に予め付与されているテキスト識別番号の順に読み出すものとする。

読み出されたテキストを形態素解析処理によって形態素に分解する。形態素の中から名詞、動詞、形容詞など、それだけで意味のわかる自立語を単語として抽出する（ステップ１５）。以下、「単語」とは、自立語のことを指し、付属語等を含める場合は、単に「語」と記す。抽出した単語に基づいて検索語蓄積部２０を検索する（ステップ１７）。検索により前方一致するかどうかを調べ（ステップ１８）、前方一致する場合は抽出された単語に続く語（自立語だけでなく付属語も含める）を順に調べ、検索語と一致するかどうか調べる（ステップ１９）。検索語に一致する場合は、検索語と一致する複数の語を一つにまとめ１単語とする（ステップ２０）。前方一致の検索語がない場合（ステップ１８、NO）、前方一致に続く語が検索語に一致しない場合（ステップ１９、NO）は、ステップ１６で抽出された単語の出現数を１増やす。検索語に一致する単語がある場合は（ステップ１９、YES）、１単語とした検索語の出現数を１増やす。また、検索語に一致する語は処理が終了したとし、続く未処理の単語があるか調べる（ステップ１６）。未処理の単語がある場合は、単語を１つ読み出して、検索語と一致するかを調べる（ステップ１７〜ステップ２０）。テキストの中の単語を全て処理し終えたら（ステップ１６、NO）、テキストが識別できるように抽出した単語と単語の出現数をテキスト記録部１５に記録する（ステップ２２）。続いて、未処理のテキストがあるか調べ（ステップ１３）、ある場合は未処理テキストの単語を抽出する（ステップ１５〜ステップ２２）。カテゴリ内の全てのテキストを処理し終えたら（ステップ１３、NO）、未処理のカテゴリがあるか調べ（ステップ１１）、ある場合は未処理のカテゴリ内のテキストから単語を抽出する（ステップ１３〜ステップ２２）。全てのカテゴリを処理し終えたら（ステップ１１、NO）、単語抽出部１１の処理を終了する。

ステップ２１の処理において、テキスト毎に単語の出現数を集計しているが、単語の出現数を集計せずに、抽出した単語を順に列挙して記録しておいてもよい。

また、学習用テキストに前回処理したテキストが含まれる場合には、前回の処理により記録されたテキスト記録部１５の情報を別の蓄積場所(領域)に移動し、ステップ１３の未処理のテキストを調べる処理において、前回記録したテキスト記録部１５にテキストが存在するか調べ、テキストが存在する場合は単語抽出処理が終了しているテキストであると判断する（ステップ１３、NO)。

単語抽出部１１より処理されるテキストの一例を図５を用いて説明する。

図５は、カテゴリ「韓国ドラマ」に含まれる、テキスト「冬のソナタのピアノ曲を紹介します」を処理する例であり、図４のステップ１４において、テキストａ『冬のソナタのピアノ曲を紹介します」が読み出された状態である。当該テキストaから単語を抽出するために形態素解析処理を行い、結果として図５のｂのような語と品詞の対を出力する。ここでは、動詞や形容詞については活用形のままではなく、原型に戻す処理を行っている（異なる活用形が使われていても、同じ動詞や形容詞の場合は同じ単語として出現数をカウントすることが可能となる）。この語集合から名詞、動詞、形容詞のいずれかについて、抽出された単語に基づいて、検索語蓄積部２０に蓄積されている検索語に該当する単語があるか調べる（ステップ１７）。まず、「冬」を単語として抽出し、検索語蓄積部２０に「冬」と前方一致する検索語があるか調べる（ステップ１８）。

その結果、前方一致で「冬のソナタ」、「冬将軍」が取得される（ステップ１８、Ｙｅｓ）。テキストの単語「冬」に続く語「の」で検索語と一致するか調べ、「冬のソナタ」に一致する。次に語「の」に続く「ソナタ」で一致するか調べ、一致するため「冬のソナタ」を１つの単語として抽出する（ステップ１９、Ｙｅｓ，ステップ２０）。抽出した「冬のソナタ」の出現数を１増やし（ステップ２１）、次の単語の処理に移る。ここで、テキスト中の語「ソナタ」まで処理が完了したことになり、次の自立語である「ピアノ」から同様に検索語と一致するかの処理（ステップ１６〜ステップ２０）を行う。「ピアノ」が検索語蓄積部２０にある場合、前方一致で「ピアノ」が検索される。検索語は「ピアノ」は、「ピアノ」に続く語がないため（ステップ１９、ＮＯ）、「ピアノ」の出現数を１増やす。同様に単語を処理した結果、単語と単語の出現数の対（図５ｃ）をカテゴリ「韓国ドラマ」と対応付けてテキスト記録部１５に記録する（ステップ２２）。

重要度算出部１２は、単語抽出部１１においてすべての学習用テキストから単語抽出が終了した後、処理を開始する。重要度算出部１２では、テキスト記録部１５に記録されたカテゴリ毎の単語と単語出現数を取得し、検索語蓄積部２０から検索語の上昇度順位を取得し、カテゴリ毎に単語の重要度を算出する。

図６は、本発明の第１の実施の形態における重要度算出部の処理のフローチャートである。

重要度算出部１２は、単語抽出部１１で抽出され、テキスト記録部１５に格納されている単語をカテゴリ毎に処理する。まず、１つのカテゴリについて単語を読み出し（ステップ３１）、当該カテゴリに含まれる単語について、カテゴリ内の単語出現数とカテゴリ内単語出現率を算出する（ステップ３２）。カテゴリ内単語出現率rc（C_i，ｗ）は、式（１）で算出され、カテゴリ内全体の文書数において、ある単語が出現する文書数の占める割合であり０から１までの値をとる。

図７にステップ３２で算出したカテゴリ毎の単語出現数とカテゴリ内単語出現率の例を示す。同図において、重要度算出部１２は、カテゴリを識別するための情報１００１，１００２，１００３と各カテゴリ内の単語、単語の出現数、及びカテゴリ内単語出現率を記録したテーブル１１００，１２００、１３００を持つ。なお、本実施の形態では、当該テーブル１１００，１２００，１３００は、重要度算出部１２内のメモリに格納されるものとする。

全てのカテゴリに対して、ステップ３２の処理を行った後（ステップ３３、ＮＯ）、各カテゴリにおいて、単語の重要度を式（２）のweight(C_i,w)により求める（ステップ３４）。重要度weight(C_i,w)は、カテゴリC_iによく出現し、他のカテゴリにはあまり出現せず、検索語の上昇度順位が高いほど、高い値をとる。

ここで、tf（C_i，w）は、単語ｗがカテゴリC_ｉ（ｉ＝１〜Ｍ）に出現する出現数であり、カテゴリ内によく出現する単語ほど大きな値をとり、重要度を高くする働きをする。icf（C_i，w）は、単語wのカテゴリＣ_iにおけるカテゴリ内単語出現率が、全カテゴリにおけるカテゴリ内単語出現率の和に占める割合である。

仮に、カテゴリＡには２文書、カテゴリＢには１０文書、カテゴリＣには５文書の文書があり、単語ｗが、カテゴリＢの３文書と、カテゴリＣの３文書に含まれていたとすると、以下のように、icf（Ｃ_i，ｗ）が算出される。

カテゴリＢとＣでは同じ３文書に単語ｗが出現するが、カテゴリ内単語出現率の高いカテゴリＣのicf（Ｃ，ｗ）が高くなり、結果として単語ｗの重要度が高くなる。

図７の例では、単語「韓国」のカテゴリ「韓国ドラマ」における
icf（韓国ドラマ、韓国）は、
icf（韓国ドラマ、韓国）＝０．７／（０．７＋０．２＋０．１）＝０．７
と算出される。

Ｎは検索語蓄積部２０における検索語の総数、rank（ｗ）は単語ｗの上昇度順位であり、

を乗算することにより、上昇度順位の高い検索語ほどrank（ｗ）が大きな値をとり、重要度を高くする働きをする。例えば、図５の検索語蓄積部２０において、「冬のソナタ」は順位１５位であり、Ｎ＝１５００の場合、

となり、「冬のソナタ」の重要度を３倍にすることができる。

rank（ｗ）は、上昇度順位上位Ｎ件の検索語についてのみ値があるため、Ｎ件に含まれない単語は、便宜上rank(ｗ)＝Ｎとして処理するものとする。式（２）により、検索語蓄積部２０に含まれない語の重要度は、カテゴリにおけるtf(C_i,w)×icf(C_i,w)のみで決定され、検索語蓄積部２０に含まれる単語の重要度は、上昇順位が上位になるほど重要度を高くすることができる。

また、単語の重要度を算出する式は、式（２）の代わりに、式（４）を、用いることも可能である。この場合も、検索語蓄積部２０のランキングＮ件に含まれない単語については、rank（ｗ）＝Ｎとして処理するものとする。

式（４）においては、検索語ランキングＮ件に含まれない単語の重要度は０となり、検索語ランキングＮ件に含まれる単語のみ０以外の値をとる。そのため、検索語ランキングＮ件に含まれる単語のみをベクトルの要素として、ベクトルを生成することになる。検索語Ｎ件のみのベクトルは、学習用テキスト中の自立語全てを用いるベクトルに比べ次元数が小さいため、ベクトル演算を高速化することができる。

Ｎのサイズが小さい場合や検索語の重要性をもっと高くしたい場合などは、適当な係数を乗算して重要度を算出するようにしてもよいし、

の代わりに対数をとらずにN／rank（w）を用いても良い。

カテゴリ毎に単語の重要度を算出した後、重要度算出部１２は、カテゴリ毎の特徴ベクトルを式（５）により生成する（ステップ３５）。カテゴリ毎の特徴ベクトル

は、単語抽出部１１で抽出された全ての単語をw_ｉ（ｉ＝１〜ｚ）とし、カテゴリC_ｊ（ｊ＝１〜Ｍ）における単語の重要度weight（C_ｊ，w_ｉ）を要素とするベクトルである。

全てのカテゴリに対して特徴ベクトルを生成し、特徴ベクトル蓄積部１３に蓄積する。

特徴ベクトルを構成する全ての単語w_ｉ（ｉ＝１〜ｚ）は、単語の要素順に１から番号を付与し、出現数とともに単語リスト蓄積部１４に蓄積し（ステップ３６）、重要度算出部１２の処理を終了する。

図８は、本発明の第１の実施の形態における特徴ベクトル蓄積部の蓄積例である。

同図において、カテゴリと各単語の重要度を１行で記録し、カテゴリと単語の重要度をコロン「：」で区切り、単語ｗ１から単語ｗｚの重要度をカンマ「、」で区切り、列挙している。

図９は、本発明の第１の実施の形態における単語リスト蓄積部の蓄積例を示す。同図に示す単語リスト蓄積部１４に格納される情報は、番号９０１、出現数９０２、単語９０３から構成され、番号９０１は、単語ｗ_ｉ（ｉ＝１〜ｚ）のｉに対応し、１からｚまでの数値をとる。出現数９０２は、全ての学習用テキストにおいて単語が出現した出現数である。単語９０３は、テキストから抽出した単語である。図９の例では、ｚ＝20000で、単語を出現数の降順に並べて番号を1から付与してある。出現数９０２は、説明のために図示しているが、分類部４０で出現数は利用しないため、出現数を蓄積しないようにしてもよい。単語「韓国」の番号は「１００」、出現数が「２５０」であり、「冬のソナタ」の番号は「１０００」、出現数が「１００」である。出現数の多い単語「日」、「人」、「年」などの単語は、どのカテゴリにおいても出現文書数が多い。そのため、icf(C_i，w)を計算すると０に近い値をとり、単語の重要度が低くなる。

また、前述の図７を用いて、重要度算出部１２の処理例を説明する。図７では、「韓国ドラマ」、「国際」、「グルメ」というカテゴリがあり、単語「韓国」と「冬のソナタ」の重要度算出例を説明する。

「韓国」は、「韓国ドラマ」以外のカテゴリ、「国際ニュース」、「グルメ」にも出現し、「冬のソナタ」は「韓国ドラマ」カテゴリのみで出現したとする。また、「韓国」、「冬のソナタ」は検索語として検索語蓄積部２０に蓄積されており、上昇度順位が図５に示す順位であったとすると、式（２）により、単語「韓国」と「冬のソナタ」の重要度は以下のように求めることができる。

weight(韓国ドラマ、韓国)＝200×0.7/(0.7+0.2+0.1)×log(1500/150)＋1
＝280
weight(韓国ドラマ、冬のソナタ)＝100×0.5/0.5×log(1500/15)＋1=300
tf(C_i,w)や、tf(C_i,w)×icf(C_i,w)では、「韓国」の重要度が高くなってしまうが、検索語の上昇度順位を反映した重要度を算出することで、「冬のソナタ」の重要度を「韓国」より高くすることが可能となる。

分類部４０は、ベクトル変換部４１とカテゴリ決定部４２から構成される。分類部４０は、カテゴリが未知の分類対象テキストを入力とし、分類対象テキストに予め決められたカテゴリ（学習用テキストに対応付けられているカテゴリ）を付与する。なお、分類対象テキストは、当該装置の外部の入力装置（図示せず）から入力されるものとする。

分類部４０は、重要度算出部１２の処理終了後、分類対象テキストが入力されると、処理を開始する。

ベクトル変換部４１は、分類対象テキストが入力されると、単語リスト蓄積部１４に蓄積されている単語の出現数を要素とするベクトルを生成する。

図１０は、本発明の第１の実施の形態におけるベクトル変換部の処理のフローチャートである。

まず、ベクトル変換部４１は、入力された分類対象テキストを形態素解析処理により形態素に分解し、分解された形態素から自立語を単語として抽出する（ステップ４１）。形態素解析された単語が単語リスト蓄積部１４に蓄積された単語と前方一致するかどうか調べる（ステップ４３）。前方一致する場合は、当該単語に続く語（自立語だけでなく付属語も含める）を順に調べ、前方一致した語と一致するか調べる（ステップ４５）。一致する場合は、複数の語を１つにまとめ１単語とする（ステップ４６）。一致しない場合は、未処理の単語があるか調べ（ステップ４２）、ある場合は未処理について、単語リスト蓄積部１４の単語に一致するかを調べる（ステップ４３〜ステップ４６）。

全ての単語を処理し終えたら（ステップ４２、ＮＯ）、単語毎に出現数を算出し（ステップ４７）、単語リスト蓄積部１４に蓄積されている単語と番号を参照して出現数を取得し、式（６）によりベクトルを生成する（ステップ４８）。

ここで、tf(w)は、単語ｗがテキストに出現する出現数である。

ベクトル変換部４１の処理が終了すると、続いてカテゴリ決定部４２の処理を開始する。

カテゴリ決定部４２では、分類対象テキストのベクトルと、特徴ベクトル蓄積部１３に蓄積されているカテゴリ毎の特徴ベクトルを用いて分類対象テキストに付与するカテゴリを決定する。

例えば、従来手法として、２つのベクトル間のコサインを計算することで、ベクトル間の距離を計算する方法がある。コサインの値が１に近いほど２つのベクトル間の距離が近いことになる。分類対象テキストのベクトルを

各カテゴリの特徴ベクトル

とすると、２ベクトル間の距離

は式（７）で求めることができる。

各カテゴリＣ_ｊ（ｊ＝１〜Ｍ）について、２ベクトル間の距離を求め、距離が予め設定しておいた閾値より大きい場合、分類対象テキストに該カテゴリを付与する。距離が閾値より大きいカテゴリが複数ある場合は、複数のカテゴリを分類対象テキストに付与する。

図１１は、本発明の第１の実施の形態におけるベクトル変換部の処理例である。

テキストａ「ピアノの本「冬のソナタ」を購入した」は、韓国ドラマ「冬のソナタ」と音楽に関連するテキストであり、テキストｅ「もう冬ですね。ピアノ・ソナタの本を購入しました」は、音楽にのみ関連のあるテキストである。テキストａを形態素解析処理した結果がｂである。ｂの結果から自立語を単語として抽出し（ステップ４３）、単語リスト蓄積部14に存在する単語とその出現数を集計した（ステップ４７）結果がｃである。同様に、テキストｅについて形態素解析処理した結果がｆであり、ｆの結果から自立語を単語として抽出し（ステップ４３）、単語リスト蓄積部1４に存在する単語とその出現数を集計した（ステップ４７）結果がｇである。ｃとｇからは異なる単語ベクトルが生成される。

しかし、仮に単語リスト蓄積部1４に「冬のソナタ」が存在しない場合は、テキストａから生成される単語と単語出現数はｄのようになる。ｄとｇの単語及び単語出現数は同じであるため、２つのテキストは同じカテゴリに分類されてしまう。

本発明では、単語リスト蓄積部１４に「冬のソナタ」が存在するため、２つのテキストから異なるベクトルを生成することが可能となり、その結果テキストを別々のカテゴリに分類することも可能となる。

このように、学習用テキスト及び未分類テキストを、検索語ランキング上位の検索語を含むベクトルで表現することで、テキストを精度よく分類することができる。

また、最近話題になりだした出現数があまり多くない新出単語であっても、検索語ランキングが高ければ、カテゴリベクトルにおける単語の重要度が高くなっているため、新出単語を含む分類対象テキストを分類部４０に入力すると、類似度が高く算出され、適切なカテゴリに分類することが可能となる。

［第２の実施の形態］
図１２は、本発明の第２の実施の形態における情報分類装置の構成を示す。本実施の形態は、検索語蓄積部に蓄積される検索語ランキングがカテゴリ分けされている場合の例であり、検索語が分類されているカテゴリにおいてのみ、検索語ランキングを反映した重み付けを行い、カテゴリの特徴ベクトルを生成する。

図１２において、第1の実施の形態とは、検索語取得部２００Ａ、特徴ベクトル生成部１０の重要度算出部１２Ａの処理が異なる。なお、第1の実施の形態と同じ処理を行うブロックには、同じ符号を付し、その説明は省略するものとし、処理の異なる部分についてのみ説明する。

検索語取得部２００Ａは、検索語収集部２１Ａ、注目検索語ランキング部２２Ａ、検索語蓄積部２０Ａから構成される。

検索語収集部２１Ａは、ある期間においてカテゴリ毎に集計・ランク付けされた検索語ランキングを検索語用収集先記憶部２３に設定されている収集先に基づいて、前述の第１の実施の形態と同様の方法により取得し、注目検索語ランキング部２２Ａに検索語ランキングを送る。検索語ランキングは、カテゴリ、検索語、検索語の順位がセットになったデータであり、ＨＴＭＬ文書やテキスト、データファイルなどの形態で取得する。

注目検索語ランキング部２２Ａは、検索語収集部２１から検索語ランキングを受け取り、カテゴリ毎に、今回受け取った検索語の所定順位以上の検索語に対して、前回受け取った検索語ランキングと比較することによりカテゴリ内での上昇度（例えば、今回の検索語順位から前回の検索語順位を減算した値）を求め、上昇度の高い検索語から降順に1位から順番に上昇度順位を付与する。カテゴリ毎にカテゴリ内上昇度順位が付与された検索語は、検索語蓄積部２０Ａに蓄積される。

図１３は、本発明の第２の実施の形態における検索語蓄積部の蓄積例を示す。検索語蓄積部２０Ａは、カテゴリ１３１と検索語１３２、検索語のカテゴリ内での上昇度順位１３３が対応付けられて蓄積されている。

また、検索語収集部２１Ａにおいて、カテゴリ毎に検索語の上位度順位が付与された検索語ランキングを取得する場合は、注目検索語ランキング部２２Ａの処理を省いて、検索語蓄積部２０Ａにカテゴリ内上昇度順位が付与されたカテゴリ別の検索語を蓄積する。

重要度算出部１２Ａは、単語抽出部１１においてすべての学習用テキストからの単語抽出が終了したあと、処理を開始する。重要度算出部１２Ａでは、テキスト記録部１５に記録されたカテゴリ毎の単語と単語出現数を取得し、検索語蓄積部２０Ａから検索語のカテゴリ内上昇度順位を取得し、カテゴリ毎に単語の重要度を算出する。第1の実施の形態における重要度算出部１２の処理のフローチャート（図６）と処理の流れは同じであり、ステップ３４のカテゴリにおける単語の重要度算出処理が異なる。

本実施の形態においては、検索語が分類されているカテゴリにおいてのみ重み付けを行うため、式（８）の評価値sr（C_i，w）を用いる。評価値sr（C_i，w）は、検索語がカテゴリC_ｉに分類されているとき検索語のカテゴリ内上昇度順位をとり、検索語がカテゴリC_ｉに分類されていないとき、カテゴリ内の総検索語数Ｌをとる。評価値sr（C_i，w）をｍ個引いて単語の重要度は、式（９）で算出される。

重要度weight(C_i,w)は、カテゴリC_iによく出現し、他のカテゴリにはあまり出現せず、カテゴリC_iにおける検索語のカテゴリ内上昇度順位が高いほど、高い値をとる。

ここで、tf(Ci,w)は、単語ｗがカテゴリＣ_i＝（ｉ＝１〜Ｍ）に出現する出現数であり、カテゴリ内によく出現する単語ほど大きな値をとり、重要度を高くする働きをする。icf(C_i，w）は単語wのカテゴリC_iにおけるカテゴリ内単語出現率が、全カテゴリにおけるカテゴリ内単語出現率の和に占める割合であり、式（３）で求められる値である。

また、式（９）の代わりに式（１０）を用いて、単語の重要度を算出することも可能である。

式（１０）においては、検索語蓄積部２０Ａに含まれない単語の重要度は全て０となり、検索語蓄積部２０Ａに含まれる単語のみをベクトルの要素として、ベクトルを生成することが可能となる。検索語蓄積部２０Ａに含まれる単語のみのベクトルは、学習用テキスト中の自立語全てを用いるベクトルに比べ次元数が小さいため、ベクトル演算を高速化することができる。

Ｌのサイズが小さい場合や検索語の重要性をもっと高くしたい場合などは、適当な係数を乗算して重要度を算出するようにしてもよいし、

の代わりに、対数をとらずにL/sr(C_i,w)を用いてもよい。

カテゴリ毎に単語の重要度を算出した後、重要度算出部１２Ａはカテゴリ毎の特徴ベクトルを式(５)により生成し（ステップ３５）、特徴ベクトル蓄積部１３に蓄積する。特徴ベクトルを構成するすべての単語ｗ_i（ｉ＝１〜ｚ）は、単語の要素順に１から番号を付与し、出現数とともに単語リスト蓄積部１４に蓄積し（ステップ３６）、重要度算出部１２の処理を終了する。

以上のように、検索語にカテゴリが付与されている場合は、各単語の重要度として式（９）、式（１０）を用いることにより、検索語がどのカテゴリにおいて注目されているかを反映した重要度付けが可能となる。即ち、検索語が複数のカテゴリで出現する場合、第１の実施の形態では、検索語が出現する全てのカテゴリにおいて検索語の重要度が高くなるのに対し、第２の実施の形態では、検索語に付与された特定のカテゴリにおいてのみ検索語の重要度を高くすることができる。

なお、上記の第１、及び第２の実施の形態における検索語取得部２００、学習用テキスト取得部３００、特徴ベクトル生成部１０からなる構成をベクトル生成装置とし、当該ベクトル生成装置の動作をプログラムとして構築し、コンピュータに実行させる、または、ネットワーク上に流通させることが可能である。また、ベクトル生成装置と、分類部４０からなる構成を情報分類装置とし、当該情報分類装置の動作をプログラムとして構築し、コンピュータに実行させる、または、ネットワーク上に流通させることが可能である。

また、構築されたプログラムをハードディスク、ＣＤ−ＲＯＭやフレキシブルディスク等の可搬記憶媒体に格納し、ベクトル生成装置及び情報分類装置として利用されるコンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、ネットワーク上に公開されている文書情報を分類するための技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の第１の実施の形態における情報分類装置の構成図である。本発明の第１の実施の形態における単語抽出部の処理のフローチャートである。本発明の第１の実施の形態における単語抽出部の処理例である。本発明の第１の実施の形態における重要度算出部の処理のフローチャートである。本発明の第１の実施の形態における重要度算出部の処理を説明する図である。本発明の第１の実施の形態における特徴ベクトル蓄積部の蓄積例である。本発明の第１の実施の形態における単語リスト蓄積部の蓄積例である。本発明の第１の実施の形態におけるベクトル変換部の処理のフローチャートである。本発明の第１の実施の形態におけるベクトル変換部の処理例である。本発明の第２の実施の形態における情報分類装置の構成図である。本発明の第２の実施の形態における検索語蓄積部の蓄積例である。

符号の説明

１０特徴ベクトル生成部
１１単語抽出手段、単語抽出部
１２，１２Ａ重要度算出手段、重要度算出部
１３特徴ベクトル蓄積手段、特徴ベクトル蓄積部
１４単語リスト蓄積手段、単語リスト蓄積部
１５テキスト記憶部
２０検索語蓄積手段、検索語蓄積部
２０Ａ検索語蓄積部
２１，２１Ａ検索語収集部
２２，２２Ａ注目検索語ランキング部
３０学習用テキスト蓄積手段、学習用テキスト蓄積部
３１学習用テキスト収集部
３２学習用収集先リスト
４０分類部
４１ベクトル変換手段、ベクトル変換部
４２カテゴリ決定手段、カテゴリ決定部
１３１カテゴリ
１３２検索語
１３３カテゴリ内上昇度順位
２００，２００Ａ検索語取得部
３００学習用テキスト取得部
８０１カテゴリと各単語の重要度を示した列
９０１番号
９０２出現数
９０３単語
１００１，１００２，１００３カテゴリ名
１１００，１２００，１３００テーブル

Claims

ネットワーク上に公開されている任意のテキストを、該テキストが帰属する１つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
前記単語抽出手段において、前記検索語蓄積手段からある期間においてランキングされた検索語を抽出し、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを前記学習用テキスト蓄積手段から読み出し、読み出した学習用テキストを形態素解析し、形態素解析した複数の語のつながりが前記抽出した検索語と一致する場合には、当該複数の語のつながりを１単語とし、一致しない場合には、形態素解析した１つの自立語を１単語とし、単語と単語の出現数をテキスト記録手段に記録する単語抽出ステップと、
前記重要度算出手段において、カテゴリ毎に、前記単語抽出ステップで抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出ステップと、
を行うことを特徴とするベクトル生成方法。
前記重要度算出ステップでは、
検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
ことを特徴とする請求項１に記載のベクトル生成方法。
前記重要度算出ステップでは、
検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
ことを特徴とする請求項１に記載のベクトル生成方法。
前記検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
前記重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
ことを特徴とする請求項１乃至３のいずれか１項に記載のベクトル生成方法。
前記検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
前記重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
ことを特徴とする請求項１乃至３のいずれか１項に記載のベクトル生成方法。
請求項１乃至５のいずれかのベクトル生成方法で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段、該特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段、及び、ベクトル変換手段、カテゴリ決定手段を有するカテゴリ分類装置におけるカテゴリ分類方法において、
前記ベクトル変換手段において、入力された分類対象テキストを形態素解析し、前記単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換ステップと、
前記カテゴリ決定手段においては、前記ベクトル変換ステップで生成された分類対象テキストのベクトルと、前記特徴ベクトル蓄積手段に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、前記分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、
を行うことを特徴とするカテゴリ分類方法。
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する１つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段と、
ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段と、
前記検索語蓄積手段からある期間においてランキングされた検索語を抽出し、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを前記学習用テキスト蓄積手段から読み出し、読み出した学習用テキストを形態素解析し、形態素解析した複数の語のつながりが前記抽出した検索語と一致する場合には、当該複数の語のつながりを１単語とし、一致しない場合には、形態素解析した１つの自立語を１単語とし、単語と単語の出現数をテキスト記録手段に記録する単語抽出手段と、
カテゴリ毎に、前記単語抽出手段で抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出手段と、
を有することを特徴とするベクトル生成装置。
前記重要度算出手段は、
検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
ことを特徴とする請求項７に記載のベクトル生成装置。
前記重要度算出手段は、
検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
ことを特徴とする請求項７に記載のベクトル生成装置。
前記重要度算出手段は、カテゴリが付与された検索語が前記検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
ことを特徴とする請求項７乃至９のいずれか１項に記載のベクトル生成装置。
前記重要度算出手段は、カテゴリが付与された検索語が前記検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
ことを特徴とする請求項７乃至９のいずれか１項に記載のベクトル生成装置。
ネットワーク上に公開されている任意のテキストを、該テキストが帰属する１つまたは複数のカテゴリに分類するカテゴリ分類装置であって、
請求項７乃至１１のいずれかのベクトル生成装置で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段と、
前記特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段と、
入力された分類対象テキストを形態素解析し、前記単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換手段と、
前記ベクトル変換手段で生成された分類対象テキストのベクトルと、前記特徴ベクトル蓄積手段に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、前記分類対象テキストにカテゴリを付与するカテゴリ決定手段と、
を有することを特徴とするカテゴリ分類装置。
請求項７乃至１１のいずれか１項に記載のベクトル生成装置を構成する各手段としてコンピュータを機能させるためのベクトル生成プログラム。
請求項１２に記載のカテゴリ分類装置を構成する各手段としてコンピュータを機能させるためのカテゴリ分類プログラム。
請求項１３に記載のベクトル生成プログラムを格納したコンピュータ読み取り可能な記録媒体。
請求項１４に記載のカテゴリ分類プログラムを格納したコンピュータ読み取り可能な記録媒体。