JP4569380B2 - ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 - Google Patents

ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4569380B2
JP4569380B2 JP2005142909A JP2005142909A JP4569380B2 JP 4569380 B2 JP4569380 B2 JP 4569380B2 JP 2005142909 A JP2005142909 A JP 2005142909A JP 2005142909 A JP2005142909 A JP 2005142909A JP 4569380 B2 JP4569380 B2 JP 4569380B2
Authority
JP
Japan
Prior art keywords
word
category
search
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005142909A
Other languages
English (en)
Other versions
JP2006318398A (ja
Inventor
晴美 川島
吉秀 佐藤
努 佐々木
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005142909A priority Critical patent/JP4569380B2/ja
Publication of JP2006318398A publication Critical patent/JP2006318398A/ja
Application granted granted Critical
Publication of JP4569380B2 publication Critical patent/JP4569380B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記媒体に係り、ネットワーク上に公開されている最新の文書情報を、効率的に分類する情報分類手法に関し、特に、検索サイトに入力された検索語を含むベクトルを生成することにより、最新のテキストを効率的にカテゴリ分類することのできるベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記媒体に関する。
近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された文書情報が発信され続けている。ネットワーク利用者は、従来からの掲示板に加えて、ブログサービスを利用して自分の興味のある事柄に対して感想や意見を発信することが容易に行えるようになってきた。ニュース記事は、例えば、「社会」、「国際」、「IT」など、カテゴリ分けして記事を提供しており、ニュース記事のカテゴリは複数のニュースサイトにおいてほぼ同じである。そのため、記事に付与されたカテゴリ情報に基づいて情報を分類することが可能である。
しかし、ブログサービスにおいては、情報発信者がそれぞれの観点で記事を分類するカテゴリを選択したり、自分で新たなカテゴリを設定する場合も多いことから、記事に付与されたカテゴリ情報に基づいて記事を分類することが困難である。
さらに、ホームページの情報などカテゴリ情報が付与されていない記事がほとんどである。
従来、自然言語処理や情報検索技術分野において、電子化されたテキストをテキスト内で出現する単語のベクトルで表し、カテゴリの特徴を現すベクトルとの向きを比較することにより、カテゴリ分類する技術がある。
例えば、特定のカテゴリに重要な単語は、特定のカテゴリにおける出現テキスト件数が多く、他のカテゴリに出現しない単語であるとし、学習用テキスト集合の総カテゴリ数のうち特定の単語が出現するカテゴリ数の逆数に基づくカテゴリ頻度係数を算出し、特定のカテゴリに出現する単語の出現件数と当該カテゴリ頻度係数との乗算により学習用テキスト中の単語毎の重要度を算出する。この単語毎の重要度をベクトルの要素とするベクトルを生成し、カテゴリ分類を行う方法がある(例えば、特許文献1参照)。
以下、この方法を詳しく説明する。
学習用テキストはカテゴリが明らかな(複数のカテゴリに帰属する場合も含む)テキストの集合であり、新聞記事データベースから、あるいはカテゴリが明らかなWebページ(ポータルサイトのディレクトリサービス)などから収集している。近年では、新聞社のホームページよりカテゴリ分類された記事が収集可能であり、常に新しい情報を学習させたい場合などに利用されている。
例えば、映画に関するカテゴリを生成しようとした場合を考える。映画のニュース記事を収集し、各記事にカテゴリとして「映画」を付与して蓄積する。蓄積された映画ニュースにのみ頻出する重要な単語としては、「監督」、「脚本」、「出演」などが抽出される。これらの語は、公開された映画の情報を正確に伝えるために映画ニュースの記事には頻繁に出現している。映画のタイトルは映画毎に異なるため、「監督」、「脚本」、「出演」などの単語と比較すると出現数は小さい。
また、最近になって注目され始めたような単語についても、学習用テキスト内での出現数は小さい。
学習用テキスト集合から各カテゴリを特徴付ける特徴ベクトルを生成する。
カテゴリC(j=1〜M)の特徴ベクトルは、例えば次式で表すことができる。
Figure 0004569380
ここで、W(Ci,w)は、カテゴリCにおける単語wの重要度であり、カテゴリCiにおける単語wの出現文書数に、
Figure 0004569380
を乗算した値をとる。つまり、特定のカテゴリにおける出現文書数が多い単語で、他のカテゴリに出現しない単語の重要度が高くなっている。
そこで、カテゴリAにおいて重要度が高い単語を多く含むような未分類テキストは、カテゴリAの特徴ベクトルと類似するため(テキストのベクトルとカテゴリの特徴ベクトルの類似度が所定範囲内になる)、カテゴリAを付与される。
特許第3488063
しかしながら、映画を見た感想などを個人がブログ等で記事にする場合、映画のタイトルや役者の名前、主人公の名前などを入れて記事を書くのが大半である。映画の批評を継続して発信しているユーザは、「監督」、「脚本」などの単語を使い、映画の情報をより正確に読者に伝えようとするかもしれない。
上記の従来技術においては、後者の映画の批評を継続して発信しているユーザの記事は、学習用テキストから生成した映画カテゴリの特徴ベクトルと類似するため、映画カテゴリに分類されるが、前者の映画のタイトルや役者の名前、主人公の名前などから構成された記事は、ベクトルが映画カテゴリの特徴ベクトルと類似しないと判断され(類似度が所定範囲外になる)、映画カテゴリに分類することができないという問題がある。
また、映画のタイトルが複数の単語で構成されている場合は、テキストから単語を抽出した際に、映画のタイトルが複数の単語に分割されてしまう。さらに、分割された単語が、別のカテゴリでも良く使われる単語(例えば、「世界」、「野球」)である場合、単語が出現するカテゴリ数が大きくなり単語の重要度低くなってしまう。その結果、映画のタイトルを含んでいても映画カテゴリに分類することができないという問題がある。
さらに、最近注目されるようになった単語を含む未分類テキストは、注目されている単語を含んでいても他にカテゴリを特徴付ける重要度の高い単語が含まれなければ、カテゴリを付与することができないという問題がある。
本発明は、上記の点に鑑みなされたもので、ブログなどの個人の体験や感想が書かれた記事を精度よく分類するためのベクトルを生成することが可能なベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
単語抽出手段において、検索語蓄積手段からある期間においてランキングされた検索語を抽出し(ステップ1)、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを学習用テキスト蓄積手段から読み出し(ステップ2)、読み出した学習用テキストを形態素解析し(ステップ3)、形態素解析した複数の語のつながりが抽出した検索語と一致する場合には(ステップ4、=)、当該複数の語のつながりを1単語とし(ステップ5A)、一致しない場合には(ステップ4、≠)、形態素解析した1つの自立語を1単語とし(ステップ5B)、単語と単語の出現数をテキスト記録手段に記録する(ステップ6)単語抽出ステップと、
重要度算出手段において、カテゴリ毎に、単語抽出ステップで抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し(ステップ7)、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段に蓄積する(ステップ8)と共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する(ステップ9)重要度算出ステップと、を行う。
また、本発明(請求項2)は、重要度算出ステップでは、
検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
また、本発明(請求項3)は、重要度算出ステップでは、
検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
また、本発明(請求項4)は、検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する。
また、本発明(請求項5)は、検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する。
本発明(請求項6)は、請求項1乃至5のいずれかのベクトル生成方法で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段、該特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段、及び、ベクトル変換手段、カテゴリ決定手段を有するカテゴリ分類装置におけるカテゴリ分類方法において、
ベクトル変換手段において、入力された分類対象テキストを形態素解析し、単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換ステップと、
カテゴリ決定手段においては、ベクトル変換ステップで生成された分類対象テキストのベクトルと、特徴ベクトル蓄積手段に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、を行う。
図2は、本発明の原理構成図である。
本発明(請求項)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段30と、
ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段20と、
検索語蓄積手段20からある期間においてランキングされた検索語を抽出し、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを学習用テキスト蓄積手段30から読み出し、読み出した学習用テキストを形態素解析し、形態素解析した複数の語のつながりが抽出した検索語と一致する場合には、当該複数の語のつながりを1単語とし、一致しない場合には、形態素解析した1つの自立語を1単語とし、単語と単語の出現数をテキスト記録手段に記録する単語抽出手段11と、
カテゴリ毎に、単語抽出手段11で抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段13に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段14に蓄積する重要度算出手段12と、を有する。
また、本発明(請求項)は、上記の請求項において、重要度算出手段は、
検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。
また、本発明(請求項)は、上記の請求項7において、重要度算出手段は、
検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。
また、本発明(請求項10)は、上記の請求項7乃至9において、重要度算出手段は、カテゴリが付与された検索語が検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。
また、本発明(請求項11)は、上記の請求項7乃至9において、重要度算出手段は、カテゴリが付与された検索語が検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む。
本発明(請求項12)は、ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するカテゴリ分類装置であって、
請求項7乃至11のいずれかのベクトル生成装置で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段13と、
特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段14と、
入力された分類対象テキストを形態素解析し、単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換手段41と、
ベクトル変換手段41で生成された分類対象テキストのベクトルと、特徴ベクトル蓄積手段13に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、分類対象テキストにカテゴリを付与するカテゴリ決定手段42と、を有する。
本発明(請求項13)は、請求項7乃至11のいずれか1項に記載のベクトル生成装置を構成する各手段としてコンピュータを機能させるためのベクトル生成プログラムである。
本発明(請求項14)は、請求項12に記載のカテゴリ分類装置を構成する各手段としてコンピュータを機能させるためのカテゴリ分類プログラムである。
本発明(請求項15)は、請求項13に記載のベクトル生成プログラムを格納したコンピュータ読み取り可能な記録媒体である。
本発明(請求項16)は、請求項14に記載のカテゴリ分類プログラムを格納したコンピュータ読み取り可能な記録媒体である。
上述のように、本発明では、ある期間における検索語ランキングを取得し、学習用テキスト集合から検索語の重要度を要素として含むカテゴリの特徴ベクトルを生成することができるため、従来一単語として扱うことができなかった検索語を含む記事を精度よく分類するためのベクトルを生成することができる。
また、検索語の重要度をランキングに応じて高くすることにより、ブログなどの個人の体験や感想が書かれた記事を精度よく分類するためのベクトルを生成することができる。
また、最近注目されるようになった(検索ランキングが急上昇した)単語を含む記事を適切なカテゴリに分類するためのベクトルを生成することができる。
さらに、生成したベクトルを用いて、検索語を含むカテゴリが未知のテキストを精度よく分類することができる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における情報分類装置の構成を示す。
同図に示す情報分類装置は、検索語取得部200、学習用テキスト取得部300、特徴ベクトル生成部10、分類部40から構成される。
検索語取得部200は、検索語収集部21、注目検索語ランキング部22、検索語蓄積部20から構成される。
検索語収集部21は、ある期間において集計・ランク付けされた検索語ランキングを検索語収集先記憶部23に設定された収集先から取得し、注目検索語ランキング部22に検索語ランキングを送る。ここで、検索語収集先記憶部23には、検索語ランキング(検索語と順位)のデータが格納されているマシン名とディレクトリが格納されているものとし、マシン名とディレクトリに基づいて、当該マシンにアクセスして検索語ランキングを取得するものとする。なお、この方法に限定されることなく、検索語収集先記憶部23にURLを保持しておき、検索語ランキングをインターネットなどで公開しているWebページのURLにアクセスして取得する方法もある。また、検索語ランキングは、検索語と検索語の順位が対になったデータであり、HTML文書やテキスト、データファイルなどの形態で取得する。検索語ランキングは、検索サイト利用者が入力した検索語をある期間で集計し、入力回数の多い検索語から降順に1位から順位付けされている。ランキング上位の検索語は、「2ちゃんねる」、「yahoo」、「楽天」、「ドコモ」など、サイトを探すために入力された検索語が多く、常に入力回数が多いため上位を占めている。最近流行ってきた情報に関する検索語の順位は高くなく、入力回数が急に増えている傾向にある。そこで、注目検索語ランキング部22では最近入力回数が急に増えている注目キーワードを抽出する。
注目検索語ランキング部22は、検索語収集部21から検索語ランキングを受け取り、今回受け取った検索語の所定順位以上の検索語に対して、前回受け取り、メモリに保存されている検索語ランキングと比較することにより、上昇度(例えば、今回の検索語順位から前回の検索語順位を減算した値)を求め、上昇度の高い検索語から降順に1位から順位付けを行う。以下、上昇度の高い順に付与された順位を上昇度順位と呼ぶ。上昇度順位が付与された検索語は、検索語蓄積部20に蓄積される。ここで、前回の順位を検索する検索語は、所定順位以上の検索語としているが、これは、今回の順位があまり低い検索語は注目している人の数が少ないと考えられ、より多くの人々に注目されている検索語を抽出するためである。
例えば、検索語収集部21において、1ヶ月単位の検索語ランキングを取得する場合、注目検索語ランキング部22では、最新の検索語ランキングが所定順位以上の検索語に対して前回の処理で受け取った1ヶ月前の検索語ランキングと比較して上昇度を算出し、検索語蓄積部20に蓄積する。
また、検索サイトにおいて、検索語の上昇度を算出し順位付けしているサイトも存在する。検索語収集部21において上昇度順位が既に付与された検索語を取得する場合には、注目検索語ランキング部22の処理を省いて、検索語蓄積部20に上昇度順位が付与された検索語を蓄積するものとする。
学習用テキスト取得部300は、学習用テキスト収集部31と学習用テキスト蓄積部30から構成される。
学習用テキスト収集部31は、カテゴリ毎に収集先リストを格納した学習用収集先リスト32をメモリ内に持ち、定期的に学習用収集先リスト32に設定されている収集先からテキストをネットワーク(図示せず)等を介して収集する。収集したテキストは、収集先、カテゴリと対応付けられて学習用テキスト蓄積部30に蓄積される。
収集され、学習用テキスト蓄積部30に蓄積された学習用テキスト(学習データ)は、後述する重要度算出部12において検索語によって重み付けされるため、検索語収集部21で取得した検索語ランキングの期間に生成/更新されたテキストであることが望ましい。そこで、学習用テキスト収集部31は、検索語ランキングの期間毎に収集を行う。収集を開始するに先立ち、前回収集した学習用テキストが蓄積されている学習用テキスト蓄積部30の情報を別の蓄積場所(領域)に移動させ、今回収集したテキストについて、収集先で前回収集したテキストを検索し、同じテキストが存在しなければ新しいテキストだとして学習用テキスト蓄積部30に蓄積する。
また、学習用テキストのデータ量が少ない場合は、今回収集したテキストだけでなく、前回収集したテキストも学習用テキストとして学習用テキスト蓄積部30に蓄積するように構成してもよい。
学習用テキスト蓄積部30においては、テキストに対応付けられたカテゴリが容易に識別できるよう蓄積する。例えば、カテゴリ毎にディレクトリを生成し、その中にテキストファイルを格納する方法や、テキストファイルの名前にカテゴリを識別するための名前を含めるなどの方法を用いる。
特徴ベクトル生成部10は、単語抽出部11、重要度算出部12、特徴ベクトル蓄積部13、単語リスト蓄積部14から構成される。
単語抽出部11は、学習用テキスト蓄積部30の蓄積が完了した後、学習用テキスト蓄積部30に蓄積されているカテゴリ毎に蓄積された学習用テキストを全て取得し、各テキストから単語と単語の出現数を抽出し、カテゴリと対応付けてテキスト記録部15に記録する。
図4は、本発明の第1の実施の形態における単語抽出部の処理のフローチャートである。
まず、単語抽出部11は、学習用テキスト蓄積部30からカテゴリを1つ読み出し(ステップ12)、続いてテキストを1つ読み出す(ステップ14)。なお、当該処理は、カテゴリ毎に予め付与されているカテゴリ識別番号を順次読み出し、また、テキストについても同様に予め付与されているテキスト識別番号の順に読み出すものとする。
読み出されたテキストを形態素解析処理によって形態素に分解する。形態素の中から名詞、動詞、形容詞など、それだけで意味のわかる自立語を単語として抽出する(ステップ15)。以下、「単語」とは、自立語のことを指し、付属語等を含める場合は、単に「語」と記す。抽出した単語に基づいて検索語蓄積部20を検索する(ステップ17)。検索により前方一致するかどうかを調べ(ステップ18)、前方一致する場合は抽出された単語に続く語(自立語だけでなく付属語も含める)を順に調べ、検索語と一致するかどうか調べる(ステップ19)。検索語に一致する場合は、検索語と一致する複数の語を一つにまとめ1単語とする(ステップ20)。前方一致の検索語がない場合(ステップ18、NO)、前方一致に続く語が検索語に一致しない場合(ステップ19、NO)は、ステップ16で抽出された単語の出現数を1増やす。検索語に一致する単語がある場合は(ステップ19、YES)、1単語とした検索語の出現数を1増やす。また、検索語に一致する語は処理が終了したとし、続く未処理の単語があるか調べる(ステップ16)。未処理の単語がある場合は、単語を1つ読み出して、検索語と一致するかを調べる(ステップ17〜ステップ20)。テキストの中の単語を全て処理し終えたら(ステップ16、NO)、テキストが識別できるように抽出した単語と単語の出現数をテキスト記録部15に記録する(ステップ22)。続いて、未処理のテキストがあるか調べ(ステップ13)、ある場合は未処理テキストの単語を抽出する(ステップ15〜ステップ22)。カテゴリ内の全てのテキストを処理し終えたら(ステップ13、NO)、未処理のカテゴリがあるか調べ(ステップ11)、ある場合は未処理のカテゴリ内のテキストから単語を抽出する(ステップ13〜ステップ22)。全てのカテゴリを処理し終えたら(ステップ11、NO)、単語抽出部11の処理を終了する。
ステップ21の処理において、テキスト毎に単語の出現数を集計しているが、単語の出現数を集計せずに、抽出した単語を順に列挙して記録しておいてもよい。
また、学習用テキストに前回処理したテキストが含まれる場合には、前回の処理により記録されたテキスト記録部15の情報を別の蓄積場所(領域)に移動し、ステップ13の未処理のテキストを調べる処理において、前回記録したテキスト記録部15にテキストが存在するか調べ、テキストが存在する場合は単語抽出処理が終了しているテキストであると判断する(ステップ13、NO)。
単語抽出部11より処理されるテキストの一例を図5を用いて説明する。
図5は、カテゴリ「韓国ドラマ」に含まれる、テキスト「冬のソナタのピアノ曲を紹介します」を処理する例であり、図4のステップ14において、テキストa『冬のソナタのピアノ曲を紹介します」が読み出された状態である。当該テキストaから単語を抽出するために形態素解析処理を行い、結果として図5のbのような語と品詞の対を出力する。ここでは、動詞や形容詞については活用形のままではなく、原型に戻す処理を行っている(異なる活用形が使われていても、同じ動詞や形容詞の場合は同じ単語として出現数をカウントすることが可能となる)。この語集合から名詞、動詞、形容詞のいずれかについて、抽出された単語に基づいて、検索語蓄積部20に蓄積されている検索語に該当する単語があるか調べる(ステップ17)。まず、「冬」を単語として抽出し、検索語蓄積部20に「冬」と前方一致する検索語があるか調べる(ステップ18)。
その結果、前方一致で「冬のソナタ」、「冬将軍」が取得される(ステップ18、Yes)。テキストの単語「冬」に続く語「の」で検索語と一致するか調べ、「冬のソナタ」に一致する。次に語「の」に続く「ソナタ」で一致するか調べ、一致するため「冬のソナタ」を1つの単語として抽出する(ステップ19、Yes,ステップ20)。抽出した「冬のソナタ」の出現数を1増やし(ステップ21)、次の単語の処理に移る。ここで、テキスト中の語「ソナタ」まで処理が完了したことになり、次の自立語である「ピアノ」から同様に検索語と一致するかの処理(ステップ16〜ステップ20)を行う。「ピアノ」が検索語蓄積部20にある場合、前方一致で「ピアノ」が検索される。検索語は「ピアノ」は、「ピアノ」に続く語がないため(ステップ19、NO)、「ピアノ」の出現数を1増やす。同様に単語を処理した結果、単語と単語の出現数の対(図5c)をカテゴリ「韓国ドラマ」と対応付けてテキスト記録部15に記録する(ステップ22)。
重要度算出部12は、単語抽出部11においてすべての学習用テキストから単語抽出が終了した後、処理を開始する。重要度算出部12では、テキスト記録部15に記録されたカテゴリ毎の単語と単語出現数を取得し、検索語蓄積部20から検索語の上昇度順位を取得し、カテゴリ毎に単語の重要度を算出する。
図6は、本発明の第1の実施の形態における重要度算出部の処理のフローチャートである。
重要度算出部12は、単語抽出部11で抽出され、テキスト記録部15に格納されている単語をカテゴリ毎に処理する。まず、1つのカテゴリについて単語を読み出し(ステップ31)、当該カテゴリに含まれる単語について、カテゴリ内の単語出現数とカテゴリ内単語出現率を算出する(ステップ32)。カテゴリ内単語出現率rc(Ci,w)は、式(1)で算出され、カテゴリ内全体の文書数において、ある単語が出現する文書数の占める割合であり0から1までの値をとる。
Figure 0004569380
図7にステップ32で算出したカテゴリ毎の単語出現数とカテゴリ内単語出現率の例を示す。同図において、重要度算出部12は、カテゴリを識別するための情報1001,1002,1003と各カテゴリ内の単語、単語の出現数、及びカテゴリ内単語出現率を記録したテーブル1100,1200、1300を持つ。なお、本実施の形態では、当該テーブル1100,1200,1300は、重要度算出部12内のメモリに格納されるものとする。
全てのカテゴリに対して、ステップ32の処理を行った後(ステップ33、NO)、各カテゴリにおいて、単語の重要度を式(2)のweight(Ci,w)により求める(ステップ34)。重要度weight(Ci,w)は、カテゴリCiによく出現し、他のカテゴリにはあまり出現せず、検索語の上昇度順位が高いほど、高い値をとる。
Figure 0004569380
ここで、tf(Ci,w)は、単語wがカテゴリC(i=1〜M)に出現する出現数であり、カテゴリ内によく出現する単語ほど大きな値をとり、重要度を高くする働きをする。icf(Ci,w)は、単語wのカテゴリCiにおけるカテゴリ内単語出現率が、全カテゴリにおけるカテゴリ内単語出現率の和に占める割合である。
仮に、カテゴリAには2文書、カテゴリBには10文書、カテゴリCには5文書の文書があり、単語wが、カテゴリBの3文書と、カテゴリCの3文書に含まれていたとすると、以下のように、icf(Ci,w)が算出される。
Figure 0004569380
カテゴリBとCでは同じ3文書に単語wが出現するが、カテゴリ内単語出現率の高いカテゴリCのicf(C,w)が高くなり、結果として単語wの重要度が高くなる。
図7の例では、単語「韓国」のカテゴリ「韓国ドラマ」における
icf(韓国ドラマ、韓国)は、
icf(韓国ドラマ、韓国)=0.7/(0.7+0.2+0.1)=0.7
と算出される。
Nは検索語蓄積部20における検索語の総数、rank(w)は単語wの上昇度順位であり、
Figure 0004569380
を乗算することにより、上昇度順位の高い検索語ほどrank(w)が大きな値をとり、重要度を高くする働きをする。例えば、図5の検索語蓄積部20において、「冬のソナタ」は順位15位であり、N=1500の場合、
Figure 0004569380
となり、「冬のソナタ」の重要度を3倍にすることができる。
rank(w)は、上昇度順位上位N件の検索語についてのみ値があるため、N件に含まれない単語は、便宜上rank(w)=Nとして処理するものとする。式(2)により、検索語蓄積部20に含まれない語の重要度は、カテゴリにおけるtf(Ci,w)×icf(Ci,w)のみで決定され、検索語蓄積部20に含まれる単語の重要度は、上昇順位が上位になるほど重要度を高くすることができる。
また、単語の重要度を算出する式は、式(2)の代わりに、式(4)を、用いることも可能である。この場合も、検索語蓄積部20のランキングN件に含まれない単語については、rank(w)=Nとして処理するものとする。
Figure 0004569380
式(4)においては、検索語ランキングN件に含まれない単語の重要度は0となり、検索語ランキングN件に含まれる単語のみ0以外の値をとる。そのため、検索語ランキングN件に含まれる単語のみをベクトルの要素として、ベクトルを生成することになる。検索語N件のみのベクトルは、学習用テキスト中の自立語全てを用いるベクトルに比べ次元数が小さいため、ベクトル演算を高速化することができる。
Nのサイズが小さい場合や検索語の重要性をもっと高くしたい場合などは、適当な係数を乗算して重要度を算出するようにしてもよいし、
Figure 0004569380
の代わりに対数をとらずにN/rank(w)を用いても良い。
カテゴリ毎に単語の重要度を算出した後、重要度算出部12は、カテゴリ毎の特徴ベクトルを式(5)により生成する(ステップ35)。カテゴリ毎の特徴ベクトル
Figure 0004569380
は、単語抽出部11で抽出された全ての単語をw(i=1〜z)とし、カテゴリC(j=1〜M)における単語の重要度weight(C,w)を要素とするベクトルである。
Figure 0004569380
全てのカテゴリに対して特徴ベクトルを生成し、特徴ベクトル蓄積部13に蓄積する。
特徴ベクトルを構成する全ての単語w(i=1〜z)は、単語の要素順に1から番号を付与し、出現数とともに単語リスト蓄積部14に蓄積し(ステップ36)、重要度算出部12の処理を終了する。
図8は、本発明の第1の実施の形態における特徴ベクトル蓄積部の蓄積例である。
同図において、カテゴリと各単語の重要度を1行で記録し、カテゴリと単語の重要度をコロン「:」で区切り、単語w1から単語wzの重要度をカンマ「、」で区切り、列挙している。
図9は、本発明の第1の実施の形態における単語リスト蓄積部の蓄積例を示す。同図に示す単語リスト蓄積部14に格納される情報は、番号901、出現数902、単語903から構成され、番号901は、単語w(i=1〜z)のiに対応し、1からzまでの数値をとる。出現数902は、全ての学習用テキストにおいて単語が出現した出現数である。単語903は、テキストから抽出した単語である。図9の例では、z=20000で、単語を出現数の降順に並べて番号を1から付与してある。出現数902は、説明のために図示しているが、分類部40で出現数は利用しないため、出現数を蓄積しないようにしてもよい。単語「韓国」の番号は「100」、出現数が「250」であり、「冬のソナタ」の番号は「1000」、出現数が「100」である。出現数の多い単語「日」、「人」、「年」などの単語は、どのカテゴリにおいても出現文書数が多い。そのため、icf(Ci,w)を計算すると0に近い値をとり、単語の重要度が低くなる。
また、前述の図7を用いて、重要度算出部12の処理例を説明する。図7では、「韓国ドラマ」、「国際」、「グルメ」というカテゴリがあり、単語「韓国」と「冬のソナタ」の重要度算出例を説明する。
「韓国」は、「韓国ドラマ」以外のカテゴリ、「国際ニュース」、「グルメ」にも出現し、「冬のソナタ」は「韓国ドラマ」カテゴリのみで出現したとする。また、「韓国」、「冬のソナタ」は検索語として検索語蓄積部20に蓄積されており、上昇度順位が図5に示す順位であったとすると、式(2)により、単語「韓国」と「冬のソナタ」の重要度は以下のように求めることができる。
weight(韓国ドラマ、韓国)=200×0.7/(0.7+0.2+0.1)×log(1500/150)+1
=280
weight(韓国ドラマ、冬のソナタ)=100×0.5/0.5×log(1500/15)+1=300
tf(Ci,w)や、tf(Ci,w)×icf(Ci,w)では、「韓国」の重要度が高くなってしまうが、検索語の上昇度順位を反映した重要度を算出することで、「冬のソナタ」の重要度を「韓国」より高くすることが可能となる。
分類部40は、ベクトル変換部41とカテゴリ決定部42から構成される。分類部40は、カテゴリが未知の分類対象テキストを入力とし、分類対象テキストに予め決められたカテゴリ(学習用テキストに対応付けられているカテゴリ)を付与する。なお、分類対象テキストは、当該装置の外部の入力装置(図示せず)から入力されるものとする。
分類部40は、重要度算出部12の処理終了後、分類対象テキストが入力されると、処理を開始する。
ベクトル変換部41は、分類対象テキストが入力されると、単語リスト蓄積部14に蓄積されている単語の出現数を要素とするベクトルを生成する。
図10は、本発明の第1の実施の形態におけるベクトル変換部の処理のフローチャートである。
まず、ベクトル変換部41は、入力された分類対象テキストを形態素解析処理により形態素に分解し、分解された形態素から自立語を単語として抽出する(ステップ41)。形態素解析された単語が単語リスト蓄積部14に蓄積された単語と前方一致するかどうか調べる(ステップ43)。前方一致する場合は、当該単語に続く語(自立語だけでなく付属語も含める)を順に調べ、前方一致した語と一致するか調べる(ステップ45)。一致する場合は、複数の語を1つにまとめ1単語とする(ステップ46)。一致しない場合は、未処理の単語があるか調べ(ステップ42)、ある場合は未処理について、単語リスト蓄積部14の単語に一致するかを調べる(ステップ43〜ステップ46)。
全ての単語を処理し終えたら(ステップ42、NO)、単語毎に出現数を算出し(ステップ47)、単語リスト蓄積部14に蓄積されている単語と番号を参照して出現数を取得し、式(6)によりベクトルを生成する(ステップ48)。
Figure 0004569380
ここで、tf(w)は、単語wがテキストに出現する出現数である。
ベクトル変換部41の処理が終了すると、続いてカテゴリ決定部42の処理を開始する。
カテゴリ決定部42では、分類対象テキストのベクトルと、特徴ベクトル蓄積部13に蓄積されているカテゴリ毎の特徴ベクトルを用いて分類対象テキストに付与するカテゴリを決定する。
例えば、従来手法として、2つのベクトル間のコサインを計算することで、ベクトル間の距離を計算する方法がある。コサインの値が1に近いほど2つのベクトル間の距離が近いことになる。分類対象テキストのベクトルを
Figure 0004569380
各カテゴリの特徴ベクトル
Figure 0004569380
とすると、2ベクトル間の距離
Figure 0004569380
は式(7)で求めることができる。
Figure 0004569380
各カテゴリC(j=1〜M)について、2ベクトル間の距離を求め、距離が予め設定しておいた閾値より大きい場合、分類対象テキストに該カテゴリを付与する。距離が閾値より大きいカテゴリが複数ある場合は、複数のカテゴリを分類対象テキストに付与する。
図11は、本発明の第1の実施の形態におけるベクトル変換部の処理例である。
テキストa「ピアノの本「冬のソナタ」を購入した」は、韓国ドラマ「冬のソナタ」と音楽に関連するテキストであり、テキストe「もう冬ですね。ピアノ・ソナタの本を購入しました」は、音楽にのみ関連のあるテキストである。テキストaを形態素解析処理した結果がbである。bの結果から自立語を単語として抽出し(ステップ43)、単語リスト蓄積部14に存在する単語とその出現数を集計した(ステップ47)結果がcである。同様に、テキストeについて形態素解析処理した結果がfであり、fの結果から自立語を単語として抽出し(ステップ43)、単語リスト蓄積部14に存在する単語とその出現数を集計した(ステップ47)結果がgである。cとgからは異なる単語ベクトルが生成される。
しかし、仮に単語リスト蓄積部14に「冬のソナタ」が存在しない場合は、テキストaから生成される単語と単語出現数はdのようになる。dとgの単語及び単語出現数は同じであるため、2つのテキストは同じカテゴリに分類されてしまう。
本発明では、単語リスト蓄積部14に「冬のソナタ」が存在するため、2つのテキストから異なるベクトルを生成することが可能となり、その結果テキストを別々のカテゴリに分類することも可能となる。
このように、学習用テキスト及び未分類テキストを、検索語ランキング上位の検索語を含むベクトルで表現することで、テキストを精度よく分類することができる。
また、最近話題になりだした出現数があまり多くない新出単語であっても、検索語ランキングが高ければ、カテゴリベクトルにおける単語の重要度が高くなっているため、新出単語を含む分類対象テキストを分類部40に入力すると、類似度が高く算出され、適切なカテゴリに分類することが可能となる。
[第2の実施の形態]
図12は、本発明の第2の実施の形態における情報分類装置の構成を示す。本実施の形態は、検索語蓄積部に蓄積される検索語ランキングがカテゴリ分けされている場合の例であり、検索語が分類されているカテゴリにおいてのみ、検索語ランキングを反映した重み付けを行い、カテゴリの特徴ベクトルを生成する。
図12において、第1の実施の形態とは、検索語取得部200A、特徴ベクトル生成部10の重要度算出部12Aの処理が異なる。なお、第1の実施の形態と同じ処理を行うブロックには、同じ符号を付し、その説明は省略するものとし、処理の異なる部分についてのみ説明する。
検索語取得部200Aは、検索語収集部21A、注目検索語ランキング部22A、検索語蓄積部20Aから構成される。
検索語収集部21Aは、ある期間においてカテゴリ毎に集計・ランク付けされた検索語ランキングを検索語用収集先記憶部23に設定されている収集先に基づいて、前述の第1の実施の形態と同様の方法により取得し、注目検索語ランキング部22Aに検索語ランキングを送る。検索語ランキングは、カテゴリ、検索語、検索語の順位がセットになったデータであり、HTML文書やテキスト、データファイルなどの形態で取得する。
注目検索語ランキング部22Aは、検索語収集部21から検索語ランキングを受け取り、カテゴリ毎に、今回受け取った検索語の所定順位以上の検索語に対して、前回受け取った検索語ランキングと比較することによりカテゴリ内での上昇度(例えば、今回の検索語順位から前回の検索語順位を減算した値)を求め、上昇度の高い検索語から降順に1位から順番に上昇度順位を付与する。カテゴリ毎にカテゴリ内上昇度順位が付与された検索語は、検索語蓄積部20Aに蓄積される。
図13は、本発明の第2の実施の形態における検索語蓄積部の蓄積例を示す。検索語蓄積部20Aは、カテゴリ131と検索語132、検索語のカテゴリ内での上昇度順位133が対応付けられて蓄積されている。
また、検索語収集部21Aにおいて、カテゴリ毎に検索語の上位度順位が付与された検索語ランキングを取得する場合は、注目検索語ランキング部22Aの処理を省いて、検索語蓄積部20Aにカテゴリ内上昇度順位が付与されたカテゴリ別の検索語を蓄積する。
重要度算出部12Aは、単語抽出部11においてすべての学習用テキストからの単語抽出が終了したあと、処理を開始する。重要度算出部12Aでは、テキスト記録部15に記録されたカテゴリ毎の単語と単語出現数を取得し、検索語蓄積部20Aから検索語のカテゴリ内上昇度順位を取得し、カテゴリ毎に単語の重要度を算出する。第1の実施の形態における重要度算出部12の処理のフローチャート(図6)と処理の流れは同じであり、ステップ34のカテゴリにおける単語の重要度算出処理が異なる。
本実施の形態においては、検索語が分類されているカテゴリにおいてのみ重み付けを行うため、式(8)の評価値sr(Ci,w)を用いる。評価値sr(Ci,w)は、検索語がカテゴリCに分類されているとき検索語のカテゴリ内上昇度順位をとり、検索語がカテゴリCに分類されていないとき、カテゴリ内の総検索語数Lをとる。評価値sr(Ci,w)をm個引いて単語の重要度は、式(9)で算出される。
重要度weight(Ci,w)は、カテゴリCiによく出現し、他のカテゴリにはあまり出現せず、カテゴリCiにおける検索語のカテゴリ内上昇度順位が高いほど、高い値をとる。
Figure 0004569380
ここで、tf(Ci,w)は、単語wがカテゴリCi=(i=1〜M)に出現する出現数であり、カテゴリ内によく出現する単語ほど大きな値をとり、重要度を高くする働きをする。icf(Ci,w)は単語wのカテゴリCiにおけるカテゴリ内単語出現率が、全カテゴリにおけるカテゴリ内単語出現率の和に占める割合であり、式(3)で求められる値である。
また、式(9)の代わりに式(10)を用いて、単語の重要度を算出することも可能である。
Figure 0004569380
式(10)においては、検索語蓄積部20Aに含まれない単語の重要度は全て0となり、検索語蓄積部20Aに含まれる単語のみをベクトルの要素として、ベクトルを生成することが可能となる。検索語蓄積部20Aに含まれる単語のみのベクトルは、学習用テキスト中の自立語全てを用いるベクトルに比べ次元数が小さいため、ベクトル演算を高速化することができる。
Lのサイズが小さい場合や検索語の重要性をもっと高くしたい場合などは、適当な係数を乗算して重要度を算出するようにしてもよいし、
Figure 0004569380
の代わりに、対数をとらずにL/sr(Ci,w)を用いてもよい。
カテゴリ毎に単語の重要度を算出した後、重要度算出部12Aはカテゴリ毎の特徴ベクトルを式(5)により生成し(ステップ35)、特徴ベクトル蓄積部13に蓄積する。特徴ベクトルを構成するすべての単語wi(i=1〜z)は、単語の要素順に1から番号を付与し、出現数とともに単語リスト蓄積部14に蓄積し(ステップ36)、重要度算出部12の処理を終了する。
以上のように、検索語にカテゴリが付与されている場合は、各単語の重要度として式(9)、式(10)を用いることにより、検索語がどのカテゴリにおいて注目されているかを反映した重要度付けが可能となる。即ち、検索語が複数のカテゴリで出現する場合、第1の実施の形態では、検索語が出現する全てのカテゴリにおいて検索語の重要度が高くなるのに対し、第2の実施の形態では、検索語に付与された特定のカテゴリにおいてのみ検索語の重要度を高くすることができる。
なお、上記の第1、及び第2の実施の形態における検索語取得部200、学習用テキスト取得部300、特徴ベクトル生成部10からなる構成をベクトル生成装置とし、当該ベクトル生成装置の動作をプログラムとして構築し、コンピュータに実行させる、または、ネットワーク上に流通させることが可能である。また、ベクトル生成装置と、分類部40からなる構成を情報分類装置とし、当該情報分類装置の動作をプログラムとして構築し、コンピュータに実行させる、または、ネットワーク上に流通させることが可能である。
また、構築されたプログラムをハードディスク、CD−ROMやフレキシブルディスク等の可搬記憶媒体に格納し、ベクトル生成装置及び情報分類装置として利用されるコンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ネットワーク上に公開されている文書情報を分類するための技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における情報分類装置の構成図である。 本発明の第1の実施の形態における単語抽出部の処理のフローチャートである。 本発明の第1の実施の形態における単語抽出部の処理例である。 本発明の第1の実施の形態における重要度算出部の処理のフローチャートである。 本発明の第1の実施の形態における重要度算出部の処理を説明する図である。 本発明の第1の実施の形態における特徴ベクトル蓄積部の蓄積例である。 本発明の第1の実施の形態における単語リスト蓄積部の蓄積例である。 本発明の第1の実施の形態におけるベクトル変換部の処理のフローチャートである。 本発明の第1の実施の形態におけるベクトル変換部の処理例である。 本発明の第2の実施の形態における情報分類装置の構成図である。 本発明の第2の実施の形態における検索語蓄積部の蓄積例である。
符号の説明
10 特徴ベクトル生成部
11 単語抽出手段、単語抽出部
12,12A 重要度算出手段、重要度算出部
13 特徴ベクトル蓄積手段、特徴ベクトル蓄積部
14 単語リスト蓄積手段、単語リスト蓄積部
15 テキスト記憶部
20 検索語蓄積手段、検索語蓄積部
20A 検索語蓄積部
21,21A 検索語収集部
22,22A 注目検索語ランキング部
30 学習用テキスト蓄積手段、学習用テキスト蓄積部
31 学習用テキスト収集部
32 学習用収集先リスト
40 分類部
41 ベクトル変換手段、ベクトル変換部
42 カテゴリ決定手段、カテゴリ決定部
131 カテゴリ
132 検索語
133 カテゴリ内上昇度順位
200,200A 検索語取得部
300 学習用テキスト取得部
801 カテゴリと各単語の重要度を示した列
901 番号
902 出現数
903 単語
1001,1002,1003 カテゴリ名
1100,1200,1300 テーブル

Claims (16)

  1. ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するための、検索語蓄積手段、学習用テキスト蓄積手段、単語抽出手段、及び、重要度算出手段と、を有するベクトル生成装置における、ベクトル生成方法において、
    前記単語抽出手段において、前記検索語蓄積手段からある期間においてランキングされた検索語を抽出し、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを前記学習用テキスト蓄積手段から読み出し、読み出した学習用テキストを形態素解析し、形態素解析した複数の語のつながりが前記抽出した検索語と一致する場合には、当該複数の語のつながりを1単語とし、一致しない場合には、形態素解析した1つの自立語を1単語とし、単語と単語の出現数をテキスト記録手段に記録する単語抽出ステップと、
    前記重要度算出手段において、カテゴリ毎に、前記単語抽出ステップで抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出ステップと、
    を行うことを特徴とするベクトル生成方法。
  2. 前記重要度算出ステップでは、
    検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
    ことを特徴とする請求項1に記載のベクトル生成方法。
  3. 前記重要度算出ステップでは、
    検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
    ことを特徴とする請求項1に記載のベクトル生成方法。
  4. 前記検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
    前記重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
    ことを特徴とする請求項1乃至3のいずれか1項に記載のベクトル生成方法。
  5. 前記検索語蓄積手段に蓄積される検索語にはカテゴリが付与されており、
    前記重要度算出ステップでは、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する
    ことを特徴とする請求項1乃至3のいずれか1項に記載のベクトル生成方法。
  6. 請求項1乃至5のいずれかのベクトル生成方法で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段、該特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段、及び、ベクトル変換手段、カテゴリ決定手段を有するカテゴリ分類装置におけるカテゴリ分類方法において、
    前記ベクトル変換手段において、入力された分類対象テキストを形態素解析し、前記単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換ステップと、
    前記カテゴリ決定手段においては、前記ベクトル変換ステップで生成された分類対象テキストのベクトルと、前記特徴ベクトル蓄積手段に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、前記分類対象テキストにカテゴリを付与するカテゴリ決定ステップと、
    を行うことを特徴とするカテゴリ分類方法。
  7. ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するためのベクトル生成装置であって、
    予めカテゴリが付与された学習用テキストが蓄積されている学習用テキスト蓄積手段と、
    ある期間においてランキングされた検索語と該検索語のランキングの組が蓄積された検索語蓄積手段と、
    前記検索語蓄積手段からある期間においてランキングされた検索語を抽出し、カテゴリ毎に、処理対象のカテゴリに属する学習用テキストを前記学習用テキスト蓄積手段から読み出し、読み出した学習用テキストを形態素解析し、形態素解析した複数の語のつながりが前記抽出した検索語と一致する場合には、当該複数の語のつながりを1単語とし、一致しない場合には、形態素解析した1つの自立語を1単語とし、単語と単語の出現数をテキスト記録手段に記録する単語抽出手段と、
    カテゴリ毎に、前記単語抽出手段で抽出された単語について、その出現数が大きい程に大きな値をとる重要度を算出し、算出した重要度を要素とするカテゴリ毎の特徴ベクトルを生成して特徴ベクトル蓄積手段に蓄積すると共に、該特徴ベクトルを構成する単語のリストを単語リスト蓄積手段に蓄積する重要度算出手段と、
    を有することを特徴とするベクトル生成装置。
  8. 前記重要度算出手段は、
    検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
    ことを特徴とする請求項7に記載のベクトル生成装置。
  9. 前記重要度算出手段は、
    検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
    ことを特徴とする請求項7に記載のベクトル生成装置。
  10. 前記重要度算出手段は、カテゴリが付与された検索語が前記検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングが高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
    ことを特徴とする請求項7乃至9のいずれか1項に記載のベクトル生成装置。
  11. 前記重要度算出手段は、カテゴリが付与された検索語が前記検索語蓄積手段に蓄積されている場合は、処理対象のカテゴリに属する検索語のランキングの上昇度が高いほど、当該検索語に一致した単語の重要度を高くする評価値を用いて算出する手段を含む
    ことを特徴とする請求項7乃至9のいずれか1項に記載のベクトル生成装置。
  12. ネットワーク上に公開されている任意のテキストを、該テキストが帰属する1つまたは複数のカテゴリに分類するカテゴリ分類装置であって、
    請求項7乃至11のいずれかのベクトル生成装置で生成されたカテゴリ毎の特徴ベクトルを蓄積する特徴ベクトル蓄積手段と、
    前記特徴ベクトルを構成する単語のリストを蓄積する単語リスト蓄積手段と、
    入力された分類対象テキストを形態素解析し、前記単語リスト蓄積手段に蓄積された単語と一致するかどうかを調べ、単語毎の出現数を取得してベクトルを生成するベクトル変換手段と、
    前記ベクトル変換手段で生成された分類対象テキストのベクトルと、前記特徴ベクトル蓄積手段に蓄積されているカテゴリ毎の特徴ベクトルとの類似度を算出し、前記分類対象テキストにカテゴリを付与するカテゴリ決定手段と、
    を有することを特徴とするカテゴリ分類装置。
  13. 請求項7乃至11のいずれか1項に記載のベクトル生成装置を構成する各手段としてコンピュータを機能させるためのベクトル生成プログラム。
  14. 請求項12に記載のカテゴリ分類装置を構成する各手段としてコンピュータを機能させるためのカテゴリ分類プログラム。
  15. 請求項13に記載のベクトル生成プログラムを格納したコンピュータ読み取り可能な記録媒体。
  16. 請求項14に記載のカテゴリ分類プログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2005142909A 2005-05-16 2005-05-16 ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4569380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005142909A JP4569380B2 (ja) 2005-05-16 2005-05-16 ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005142909A JP4569380B2 (ja) 2005-05-16 2005-05-16 ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2006318398A JP2006318398A (ja) 2006-11-24
JP4569380B2 true JP4569380B2 (ja) 2010-10-27

Family

ID=37538988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005142909A Expired - Fee Related JP4569380B2 (ja) 2005-05-16 2005-05-16 ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4569380B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5029030B2 (ja) * 2007-01-22 2012-09-19 富士通株式会社 情報付与プログラム、情報付与装置、および情報付与方法
JP2010020530A (ja) * 2008-07-10 2010-01-28 Asahi Kasei Corp 文書分類付与装置、文書分類付与方法およびプログラム
JP2011166621A (ja) * 2010-02-12 2011-08-25 Nomura Research Institute Ltd 映像コンテンツの推奨装置、推奨する映像コンテンツの決定方法、及びコンピュータプログラム
JP5265644B2 (ja) * 2010-11-18 2013-08-14 ヤフー株式会社 パニック需要検出装置及びパニック需要検出方法
JP5759594B1 (ja) * 2014-05-30 2015-08-05 株式会社 ディー・エヌ・エー アイテム評価装置及びアイテム評価プログラム
WO2016132558A1 (ja) * 2015-02-20 2016-08-25 株式会社Ubic 情報処理装置及び方法並びにプログラム
CN111428123A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 查询方法和装置
JP7358981B2 (ja) 2019-12-27 2023-10-11 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362451A (ja) * 2003-06-06 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> 検索キーワード情報表示方法及びシステム及び検索キーワード情報表示プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362451A (ja) * 2003-06-06 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> 検索キーワード情報表示方法及びシステム及び検索キーワード情報表示プログラム

Also Published As

Publication number Publication date
JP2006318398A (ja) 2006-11-24

Similar Documents

Publication Publication Date Title
Jeon et al. A framework to predict the quality of answers with non-textual features
US9846744B2 (en) Media discovery and playlist generation
US9201880B2 (en) Processing a content item with regard to an event and a location
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US20130110839A1 (en) Constructing an analysis of a document
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
KR100974064B1 (ko) 사용자 맞춤형 정보 제공 시스템 및 그 방법
KR101088710B1 (ko) 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
JP2011108053A (ja) ニュース記事評価システム
KR101011726B1 (ko) 스니펫 제공 장치 및 방법
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
KR101178208B1 (ko) 키워드 추출 장치 및 방법
JP5197491B2 (ja) 行動推薦装置及び方法及びプログラム
Hsu et al. Efficient and effective prediction of social tags to enhance web search
CN101655853A (zh) 建立模型的装置和方法
KR101132431B1 (ko) 관심 정보 제공 시스템 및 방법
JP2009211429A (ja) 情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体
Rahimi et al. Building a multi-domain comparable corpus using a learning to rank method
KR101057075B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
JP2010282403A (ja) 文書検索方法
JP5295818B2 (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100713

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100726

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees