JP5012078B2 - カテゴリ作成方法、カテゴリ作成装置、およびプログラム - Google Patents

カテゴリ作成方法、カテゴリ作成装置、およびプログラム Download PDF

Info

Publication number
JP5012078B2
JP5012078B2 JP2007036118A JP2007036118A JP5012078B2 JP 5012078 B2 JP5012078 B2 JP 5012078B2 JP 2007036118 A JP2007036118 A JP 2007036118A JP 2007036118 A JP2007036118 A JP 2007036118A JP 5012078 B2 JP5012078 B2 JP 5012078B2
Authority
JP
Japan
Prior art keywords
category
document data
candidate
error rate
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007036118A
Other languages
English (en)
Other versions
JP2008203933A (ja
Inventor
竜馬 備瀬
博和 笠原
智洋 二本木
光昭 森本
政樹 高田
修 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2007036118A priority Critical patent/JP5012078B2/ja
Publication of JP2008203933A publication Critical patent/JP2008203933A/ja
Application granted granted Critical
Publication of JP5012078B2 publication Critical patent/JP5012078B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストを含む文書データを複数のカテゴリに分類するための技術に関する。
近年、インターネットにおいて誰でも見られるように公開した“ブログ”と呼ばれる簡易型のWebサイトが急増している。このブログが広まるにつれて、指定キーワードに関連するブログの検索サービスやブログで流行のキーワードを提示するサービスが増えつつある。このようなサービスにおいて、ブログがカテゴリごとに分類されているとユーザが興味ある情報を閲覧する際の利便性が高まると考えられる。
そこで、様々なWebページのカテゴリ分類手法が提案されている。例えば、専任者がカテゴリごとに設定したルールによって分類する手法や確率モデルやSVM等の機械学習による手法等が提案されている(非特許文献1参照)。一方、近年、個々のユーザが各自の視点で記事にタグを付与し、そのタグを利用して分類するフォークソノミーと呼ばれる手法が注目を集めている。
高村,松本.SVMを用いた文書分類と機械的機能学習法.情報処理学会論文誌データベース,Vol.44,SIG3(TOD17)pp.1-9,2003
しかしながら、上記専任者がカテゴリを設定する手法では、適切なルールを見つけるために手間と費用を要するという問題がある。また、機械学習による手法では、そのための学習データの準備に手間がかかるという問題がある。これに対して、フォークソノミーでは、手間と費用はかからないが、インターネット上の一部の文書にしか付与されていないという問題や、付与されたタグが曖昧なものであったり、互いに意味の類似するタグが多数存在することになり、検索効率が上がらないという問題がある。
上記のような点に鑑み、本発明は、各閲覧者が付与したタグを利用して最適なカテゴリを作成することが可能なカテゴリ作成方法、カテゴリ作成装置、およびプログラムを提供することを課題とする。
上記課題を解決するため、本発明のカテゴリ作成方法は、検索用の用語をタグとして付与したタグ付文書データを利用して文書データを分類するためのカテゴリをコンピュータにより作成する方法であって、前記タグとして付与された用語の中からカテゴリ候補を設定する段階と、各前記カテゴリ候補に属するか否かを判断する特定カテゴリ分類器を用いて、前記タグ付文書データが当該カテゴリに属するか否かを判別する段階と、前記特定カテゴリ分類器による判別の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に判別された数、およびタグ付文書データが付与されたタグのカテゴリ候補に判別されなかった数を基に、各カテゴリ候補の特定カテゴリ分類器と各カテゴリ候補をタグとして有するタグ付文書データの関係ごとの誤り率である特定誤り率を算出する段階と、前記算出した特定誤り率が所定値以上となる関係が所定値以上存在する特定カテゴリ分類器のカテゴリ候補を、カテゴリ候補から除外する段階と、残った各カテゴリ候補について前記特定誤り率が所定値以上となる関係の2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を用いて、前記カテゴリ候補をタグとして有するタグ付文書データを分類する段階と、前記択一的カテゴリ分類器による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数を基に、各カテゴリ候補の誤り率である択一的誤り率を算出する段階と、前記算出した択一的誤り率が所定値以上となるものが存在する場合に、一方のカテゴリ候補を、カテゴリ候補から除外する段階と、を有することを特徴とする。
また、本発明のカテゴリ作成装置は、検索用の用語をタグとして付与したタグ付文書データを利用して、文書データを分類するためのカテゴリを作成する装置であって、事前に設定されたカテゴリ候補について当該カテゴリ候補に属するか否かを判断する特定カテゴリ分類器を複数有し、前記カテゴリ候補をタグとして有するタグ付文書データを分類するカテゴリ分類手段と、前記カテゴリ分類手段による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数、およびタグ付文書データが付与されたタグのカテゴリ候補に分類されなかった数を基に、各カテゴリ候補の特定カテゴリ分類器と各カテゴリ候補をタグとして有するタグ付文書データの関係ごとの誤り率である特定誤り率を算出し、前記算出した特定誤り率が所定値を超える関係が所定割合を超える数存在する特定カテゴリ分類器のカテゴリ候補を、カテゴリ候補から除外する曖昧カテゴリ除外手段と、前記曖昧カテゴリ除外手段によるカテゴリ候補の除外後残った各カテゴリ候補について前記特定誤り率が所定値以上となる関係の2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を有しており、当該択一的カテゴリ分類器を用いて前記カテゴリ候補をタグとして有するタグ付文書データを分類し、前記択一的カテゴリ分類器による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数を基に、各カテゴリ候補の誤り率である択一的誤り率を算出し、前記算出した択一的誤り率が所定値以上となるものが存在する場合に、一方のカテゴリ候補を、カテゴリ候補から除外する類似カテゴリ除外手段と、を有することを特徴とする。
本発明のカテゴリ作成方法、装置によれば、あるカテゴリ候補に属するか否かを判断する特定カテゴリ分類器を用いて、カテゴリ候補をタグとして有するタグ付文書データを分類し、その結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数、分類されなかった数を基に、各カテゴリ候補の特定カテゴリ分類器と各カテゴリ候補をタグとして有するタグ付文書データの関係ごとの特定誤り率を算出し、算出した特定誤り率が所定値以上となる関係が所定数以上存在する特定カテゴリ分類器のカテゴリ候補をカテゴリ候補から除外するようにしたので、各閲覧者が付与したタグを利用して曖昧な意味をもつカテゴリが除外された最適なカテゴリを作成することが可能となる。
また、本発明のカテゴリ作成方法、装置によれば、さらに、残った各カテゴリ候補について特定誤り率が所定値以上となる関係の2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を用いて、カテゴリ候補をタグとして有するタグ付文書データを分類し、その結果誤り率の高いものを候補から除外するようにしたので、各閲覧者が付与したタグを利用して類似するカテゴリが除外された最適なカテゴリを作成することが可能となる。
また、本発明の文書分類方法、装置によれば、各カテゴリについてカテゴリに属するか否かを判断する特定カテゴリ分類器を用いて、文書データをカテゴリに分類し、その結果、複数のカテゴリに存在する文書データが得られた場合に、文書データが分類された2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を用いて、文書データをいずれかのカテゴリに分類するようにしたので、分類精度の高い分類を行うことが可能となる。
(1.特定カテゴリ分類器の作成)
以下、本発明の実施形態について図面を参照して詳細に説明する。まず、特定カテゴリ分類器の作成について説明する。特定カテゴリ分類器とは、カテゴリ作成装置の一部として用いられるものであり、入力された文書データが、特定のカテゴリに分類されるかどうかを判断するためのものである。特定カテゴリ分類器の実体は、コンピュータプログラムであり、このコンピュータプログラムをコンピュータが実行することにより特定カテゴリ分類器となるものである。この特定カテゴリ分類器の作成は、コンピュータに専用のプログラムを実行させることにより行われる。
まず、所定数のタグ付文書データを用意する。タグ付文書データとは、文書データを構成する本文の他に、検索用のタグが付された文書データである。このタグ付文書データのタグは、インターネット上において閲覧者が任意に付加したものである。そのため、本文の内容に対して適切に付加されたものもあれば、本文の内容とは、的外れなタグが付加されたものもある。
そして、用意したタグ付文書データをコンピュータに読み込ませる。タグ付文書データのうち、所定数以上の文書に付与されているタグをカテゴリ候補として選択する処理を行う。具体的には、閾値を設定し、あるタグが付与されているタグ付文書データが、この閾値以上である場合に、そのタグをカテゴリ候補とする。例えば、[日常][サッカー][野球][囲碁]の4つのタグ付文書データがそれぞれ120、150、130、90存在した場合、閾値が100に設定されていたとすると、[日常][サッカー][野球]の3つの用語がカテゴリ候補として選択されることになる。
続いて、カテゴリ候補として選択された各用語について、当該タグが付与されたタグ付文書(適合文書)と、当該タグが付与されていないタグ付文書(不適合文書)を抽出する。本実施形態では、ともに100個ずつ抽出するものとする。そして、適合文書内の本文中に出現する全ての名詞について、適合文書における出現確率Pを算出する。出現確率Pは、各名詞が出現した適合文書の数を、全適合文書数(本実施形態では100)で除算した値である。また、適合文書内の本文中に出現する全ての名詞について、不適合文書における出現確率Pも算出する。
次に、各名詞について算出した出現確率Pを、以下の〔数1〕に示す適合度算出式に与え、算出した適合度simに対する閾値を決定する。以上の出現確率、適合度算出式、閾値の組み合わせ(実体はプログラム)が各用語についての特定カテゴリ分類器の構成要素となる。
Figure 0005012078
上記〔数1〕において、P(ki|R)は適合文書の集合R中の文書が名詞kiを含む確率、P(¬ki|R)はR中の文書が名詞kiを含まない確率であり、¬RはRの補集合(すなわち不適合文書の集合)である。gi(dj)は、分類対象文書djが名詞kiを含む際には1を返し、含まない場合には0を返す関数、αは分母が0にならないように付加する微小値である。
前記作成した特定カテゴリ分類器は、入力データの名詞を抽出し、その名詞集合に関して、上記〔数1〕で適合度simを計算し、その値が閾値を超えている場合は、入力データは当該特定カテゴリに属すると判断し、閾値を超えない場合は、入力データは当該特定カテゴリに属さないと判断する。
(2.択一的カテゴリ分類器の作成)
次に、択一的カテゴリ分類器の作成について説明する。択一的カテゴリ分類器とは、カテゴリ作成装置の一部として用いられるものであり、入力された文書データが、2つのカテゴリのうちいずれに分類されるかを判断するためのものである。特定カテゴリ分類器との違いは、出現確率Pを算出する際の適合文書、不適合文書が異なる点である。例えば、サッカーか野球かを分類する択一的カテゴリ分類器を作成する際には、適合文書として[サッカー]タグが付与された文書データを用い、不適合文書として[野球]タグが付与された文書データを用いる。(適合文書に[野球]、不適合文書に[サッカー]としても可)前記のように確率を算出する元データを2つのカテゴリに限定することで、その2つのカテゴリに関する判別に関しては、特定カテゴリ分類器より精度が向上することが期待される。また、入力データを与えると、特定カテゴリ分類器と同様に動作し、当該特定カテゴリに属するか否かを判別する。択一的カテゴリ分類器の実体も、特定カテゴリ分類器と同様コンピュータプログラムであり、このコンピュータプログラムをコンピュータが実行することにより択一的カテゴリ分類器となるものである。
まず、上記のようにして特定カテゴリ分類器が作成された各カテゴリについて、各カテゴリに対応するタグが付与された適合文書を、各カテゴリについての特定カテゴリ分類器により分類し、各カテゴリについての適合文書の各特定カテゴリ分類器による分類の誤り率を算出する。
誤り率とは、あるカテゴリの特定カテゴリ分類器において、異なるカテゴリの適合文書を対象とした場合には、特定カテゴリ分類器のカテゴリに分類される率であり、あるカテゴリの特定カテゴリ分類器において、同一カテゴリの適合文書を対象とした場合には、特定カテゴリ分類器のカテゴリに分類されない率である。
そして、あるカテゴリの特定カテゴリ分類器において、誤り率が所定値(例えば25%)を超えるカテゴリが所定の割合(例えば全カテゴリ数の30%)を超える数存在する場合には、その特定カテゴリ分類器のカテゴリを曖昧なものであると判断して、カテゴリ候補から除外する。したがって、作成したその特定カテゴリ分類器は不要なものとなる。
そして、あるカテゴリの特定カテゴリ分類器において、誤り率が所定値以上のカテゴリが存在するが、所定の割合以下である場合には、その特定カテゴリ分類器のカテゴリと、適合文書のカテゴリのいずれかのカテゴリに分類するための択一的カテゴリ分類器を作成する。
択一的カテゴリ分類器は、特定カテゴリ分類器と同様、上記〔数1〕に示したような出現確率P、適合度算出式、閾値の組み合わせ(実体はプログラム)により構成される。ただし、択一的カテゴリ分類器の場合は、上記〔数1〕において、Rの補集合¬Rに代えて、他のカテゴリの集合R´を用いる。
(3.カテゴリ作成方法および装置)
次に、本発明に係るカテゴリ作成装置について説明する。図1は、本発明に係るカテゴリ作成装置の機能ブロック図である。図1において、文書データ記憶手段10は、タグ付文書データが記録されたものである。カテゴリ分類手段20は、ある特定のカテゴリに属するか否かを判断するための特定カテゴリ分類器を複数備えており、タグ付文書データがどのカテゴリに属するかを判断する機能を有している。曖昧カテゴリ除外手段30は、カテゴリ分類手段20による分類結果に従って曖昧なカテゴリを除外する機能を有している。類似カテゴリ除外手段40は、残ったカテゴリの中から、さらに類似するカテゴリを除外する機能を有している。
次に、本発明に係るカテゴリ作成方法を、図1に示したカテゴリ作成装置の処理動作とともに説明する。まず、カテゴリ分類手段20がタグ付文書データを文書データ記憶手段10から順次読み込む処理を行う。カテゴリ分類手段20は、各タグ付文書データを各特定カテゴリ分類器に判断させ、各タグ付文書データを各カテゴリ候補に分類していく。例えば、カテゴリ候補が[日常][サッカー][野球]の3つである場合、[日常]のタグを有するタグ付文書データを所定数、[サッカー]のタグを有するタグ付文書データを所定数、[野球]のタグを有するタグ付文書データを所定数、カテゴリ分類手段20に読み込ませる。
ここでは、[日常]のタグを有するタグ付文書データについての処理を説明する。例えば、[日常]のタグを有するタグ付文書データ200件を処理対象とした場合、各タグ付文書データについて、[日常]の特定カテゴリ分類器で分類処理を行う。この結果、[日常]のタグを有する各タグ付文書データが、[日常]のカテゴリに分類されなかった率を誤り率として求める。例えば、200件のタグ付文書データのうち、95件が[日常]のカテゴリであると判断され、105件が[日常]のカテゴリでないと判断された場合には、誤り率は105/200となる。
同様にして、[日常]のタグを有するタグ付文書データ200件を処理対象として、[サッカー]の特定カテゴリ分類器で分類処理を行う。この場合は、文書データの有しているタグと、特定カテゴリ分類器のカテゴリ候補が異なっているため、文書データの有しているタグと、特定カテゴリ分類器のカテゴリ候補が同一である場合とは逆に、[日常]のタグを有する各タグ付文書データが、[サッカー]のカテゴリに分類された率を誤り率として求める。例えば、200件のタグ付文書データのうち、60件が[サッカー]のカテゴリであると判断され、40件が[サッカー]のカテゴリでないと判断された場合には、誤り率は60/200となる。同様にして、[日常]のタグを有するタグ付文書データ200件を処理対象として、[野球]の特定カテゴリ分類器で分類処理を行う。
同様にして、[サッカー]のタグを有するタグ付文書データ、[野球]のタグを有するタグ付文書データを処理対象として、[日常]の特定カテゴリ分類器、[サッカー]の特定カテゴリ分類器、[野球]の特定カテゴリ分類器で分類処理を行う。このようにして、カテゴリ候補のタグを有するタグ付文書データとカテゴリ候補の特定カテゴリ分類器の全ての組み合わせについて誤り率を算出する。上記の例により算出された誤り率の一例を図2に示す。なお、このようにして特定カテゴリ分類器を利用して算出された誤り率を、後述の択一的カテゴリ分類器を利用して算出された誤り率と区別するため、「特定誤り率」と呼ぶことにする。
なお、上記の例では、特定カテゴリ分類器を事前に作成しておいた場合について説明したが、特定カテゴリ分類器を事前に作成しておかず、カテゴリ分類手段20が、さらに多数の文書データを読み込んで、複数の特定カテゴリ分類器を作成し、これら複数の特定カテゴリを利用して、特定誤り率を算出するまでの処理を連続して行うようにしても良い。
特定誤り率が算出されたら、次に、曖昧カテゴリ除外手段30が、曖昧なカテゴリ候補を除外する。曖昧なカテゴリ候補とは、その用語の意味が曖昧であるため、本文の内容が多岐にわたり、そのようなカテゴリを作って分類したとしても、検索の用に適さないカテゴリ候補である。曖昧なカテゴリ候補の特定カテゴリ分類器を利用した場合、どのようなカテゴリ候補のタグを有するタグ付文書データについても特定誤り率が高くなる傾向がある。したがって、曖昧カテゴリ除外手段30は、あるカテゴリ候補の特定カテゴリ分類器に着目した場合に、特定誤り率が所定値以上の組み合わせが所定割合以上存在する場合に、そのカテゴリ候補を、カテゴリ候補から除外する。例えば、特定誤り率判断の所定値として“0.4(80/200)”が設定され、所定割合として“0.7”が設定されている場合、[日常]の特定カテゴリ分類器については、3つ全て(すなわち所定割合が“1”)が特定誤り率0.4以上であるため、曖昧カテゴリ候補であるとして、カテゴリ候補から除外する。なお、図2の例では、説明の便宜上、カテゴリ候補数が少ない場合を想定しているので、特定誤り率判断の所定値を“0.4”、所定割合を“0.7”としているが、実際には、利用するタグ付文書データを100万件程度用い、カテゴリ候補も数百となるため、特定誤り率判断の所定値を“0.25”、所定割合を“0.3”とする。
次に、類似カテゴリ除外手段40が、互いに類似するカテゴリ候補のうちの一方をカテゴリ候補から除外する。具体的には、曖昧なカテゴリ候補を除外した段階で残っているカテゴリ候補について、特定誤り率が所定値以上となる関係が存在する場合、その関係となる2つのカテゴリ候補を判断するための択一的カテゴリ分類器を用いて、2つのカテゴリ候補のタグを有するタグ付文書データを処理対象として、分類処理を行う。この結果、一方のタグを有する各タグ付文書データが、他方のカテゴリに分類された率を「択一的誤り率」として求める。例えば、[サッカー][野球]のいずれかを択一的に判断する択一的カテゴリ分類器により、[サッカー]のタグを有するタグ付文書データ200件、[野球]のタグを有するタグ付文書データを処理対象200件について分類を行った場合、[サッカー]200件のタグ付文書データのうち、23件が[野球]のカテゴリであると判断され、177件が[サッカー]のカテゴリであると判断された場合には、択一的誤り率は23/200となる。上記の例により算出された択一的誤り率の一例を図3(a)に示す。
類似カテゴリ除外手段40は、いずれかの択一的誤り率が所定値以上となる場合に、両者は互いに類似するカテゴリ候補であるとして、択一的誤り率が高い方をカテゴリ候補から除外する。例えば、択一的誤り率判断の所定値として“0.4(80/200)”が設定されている場合、図3(a)の例では、いずれも択一的誤り率0.4未満であるため、両方とも除外されず、カテゴリ候補として残されることになる。このようにして、最終的に残ったカテゴリ候補が、カテゴリとして決定されることになる。なお、類似するカテゴリ候補の一方を除外する規則としては、択一的誤り率が高い方を除外するという規則に限定される必要はなく、逆に択一的誤り率が低い方をカテゴリ候補から除外するようにしても良い。また、文書データ記憶手段10を参照し、記録されたタグ付文書データ数が少ないタグに対応するカテゴリ候補を除外するようにしても良い。
ここで、類似と判断されるカテゴリ候補の場合の択一的誤り率の一例を図3(b)に示す。図3(b)の例では、いずれも択一的誤り率0.4以上であるため、択一的誤り率が低い方である「TV」を類似するカテゴリ候補としてカテゴリ候補から除外する。この場合は、「テレビ」がカテゴリとして決定されることになる。
なお、上記の例では、択一的カテゴリ分類器を事前に作成しておいた場合について説明したが、択一的カテゴリ分類器を事前に作成しておかず、類似カテゴリ除外手段40が、択一的カテゴリ分類器を1以上作成し、択一的カテゴリを利用して、類似するカテゴリ候補を除外するまでの処理を連続して行うようにしても良い。
また、上記の例では、曖昧カテゴリ除外手段30によるカテゴリ候補の除外後、さらに、類似カテゴリ除外手段40により、類似するカテゴリ候補を除外するようにしたが、本発明においては、必ずしも類似するカテゴリ候補を除外する必要はなく、曖昧なカテゴリ候補を除外するだけでも十分に適正なカテゴリを作成するという効果を有する。
(4.文書分類方法および装置)
次に、本発明に係る文書分類装置について説明する。図4は、本発明に係る文書分類装置の機能ブロック図である。図4において、文書データ記憶手段11は、タグ付文書データ、タグなし文書データが記録されたものである。カテゴリ分類手段21は、ある特定のカテゴリに属するか否かを判断するための特定カテゴリ分類器を複数備えており、タグ付文書データがどのカテゴリに属するかを判断する機能を有している。分類特定手段50は、2つのカテゴリのいずれであるかを判断する択一的カテゴリ分類器を複数有しており、カテゴリ分類手段21による分類の結果、ある文書が複数のカテゴリに分類された場合、その両カテゴリについての択一的カテゴリ分類器が存在するときに、どちらのカテゴリに属するかを分類する機能を有している。
次に、本発明に係る文書分類方法を、図4に示した文書分類装置の処理動作とともに説明する。まず、分類特定手段50が文書データを文書データ記憶手段11から順次読み込む処理を行う。図4に示す文書分類装置は、タグが付与されているか否かに関わらず、全ての文書データをカテゴリに分類することを目的としているので、文書データ記憶手段11からは、タグ付文書データも、タグなし文書データも読み込むことになる。続いて、分類特定手段50は、各文書データを各特定カテゴリ分類器に判断させ、各文書データを各カテゴリに分類していく。この結果、複数のカテゴリに分類される各文書データも存在する一方、いずれのカテゴリにも分類されない文書データも存在することになる。
複数のカテゴリに分類される各文書データについては、その複数のカテゴリのうち2つのカテゴリについての択一的カテゴリ分類器が存在する場合には、その文書データを択一的カテゴリ分類器で分類する処理を行う。このようにして、複数のカテゴリに分類された文書データに対しては、さらに最適なカテゴリに分類されるように絞り込んでいくことになる。
文書分類装置によりカテゴリが決定した文書データについては、そのカテゴリと対応付けて登録がなされ、カテゴリにより検索が可能となる。これにより、元々個々の閲覧者が主観的に付与したタグに比べて、より効率的な検索が可能となる。また、元々付与されているタグを利用して検索できるようにしておくことも可能である。この場合、利用者はカテゴリによる検索と、タグによる検索の両方を、目的に応じて使い分けることが可能となる。
(5.実際の適用例)
上記カテゴリ作成方法、カテゴリ作成装置、文書分類方法、文書分類装置は、それぞれ単体のコンピュータに専用のプログラムを実行させることにより実現可能であるが、文書データとして、ブログサイトの文書データを用いる場合には、複数のコンピュータからなるコンピュータネットワークで実現することも可能である。この場合、文書データ記憶手段10としては、各ブログの文書データが記録された複数の記憶手段を利用し、ネットワークを介してインターネット上の複数の記憶手段から文書データを収集し、特定カテゴリ分類器20による処理を行う。
実際にインターネット上から収集した180万件の文書データを対象とし、400件以上出現しているタグをカテゴリ候補として、本発明に係るカテゴリ作成方法およびカテゴリ作成装置により実験を行った。この結果、カテゴリとして選択されたタグと、カテゴリから除外されたタグを図5に示す。図5に示す実験結果を見ると、人がカテゴリとして判断しないであろう意味が曖昧なタグは本カテゴリ作成方法およびカテゴリ作成装置でも除外されていることがわかる。また、TV、gameのような、類似の概念である他のタグ(テレビ、ゲーム)が存在するタグについても、除外されていることがわかる。
また、択一的カテゴリ分類器を利用した分類特定の効果を検証するため、再現率が6割程度となるよう調整して、装置において類似カテゴリ除外を行った場合と行わない場合の適合率を比べた。この結果を図6に示す。なお、再現率とは、人が分類した場合と装置が分類した場合で一致した文書数を、人が分類した全文書数で除算したものであり、適合率とは、人が分類した場合と装置が分類した場合で一致した文書数を、装置が分類した全文書数で除算したものである。図6に示すように、択一的カテゴリ分類器を利用した分類特定を行った場合、適合率が7%程度向上しているのがわかる。
上記実施形態では、確率的手法を利用して特定カテゴリ分類器、択一的カテゴリ分類器を作成し、これらのカテゴリ分類器を利用するようにしたが、サポートベクターマシーン(SVM)やニューラルネットワーク等のパターン認識手法を利用して、特定カテゴリ分類器、択一的カテゴリ分類器のような2値分類器を作成する手法は数多く提案されている。本発明では、このような、適合文書と不適合文書を学習データとして機械学習を行い、作成される特定カテゴリ分類器、択一的カテゴリ分類器を用いるようにしても良い。
本発明に係るカテゴリ作成装置の機能ブロック図である。 タグ付文書データと特定カテゴリ分類器の組み合わせについての特定誤り率の一例を示す図である。 択一的カテゴリ分類器を用いて算出された択一的誤り率の一例を示す図である。 本発明に係る文書分類装置の機能ブロック図である。 本発明に係るカテゴリ作成方法およびカテゴリ作成装置による実験結果を示す図である。 本発明に係る文書分類方法および文書分類装置による実験結果を示す図である。
符号の説明
10、11・・・文書データ記憶手段
20、21・・・カテゴリ分類手段
30・・・曖昧カテゴリ除外手段
40・・・類似カテゴリ除外手段
50・・・分類特定手段

Claims (4)

  1. 検索用の用語をタグとして付与したタグ付文書データを利用して文書データを分類するためのカテゴリをコンピュータにより作成する方法であって、
    前記タグとして付与された用語の中からカテゴリ候補を設定する段階と、
    各前記カテゴリ候補に属するか否かを判断する特定カテゴリ分類器を用いて、前記タグ付文書データが当該カテゴリに属するか否かを判別する段階と、
    前記特定カテゴリ分類器による判別の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に判別された数、およびタグ付文書データが付与されたタグのカテゴリ候補に判別されなかった数を基に、各カテゴリ候補の特定カテゴリ分類器と各カテゴリ候補をタグとして有するタグ付文書データの関係ごとの誤り率である特定誤り率を算出する段階と、
    前記算出した特定誤り率が所定値以上となる関係が所定値以上存在する特定カテゴリ分類器のカテゴリ候補を、カテゴリ候補から除外する段階と、
    残った各カテゴリ候補について前記特定誤り率が所定値以上となる関係の2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を用いて、前記カテゴリ候補をタグとして有するタグ付文書データを分類する段階と、
    前記択一的カテゴリ分類器による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数を基に、各カテゴリ候補の誤り率である択一的誤り率を算出する段階と、
    前記算出した択一的誤り率が所定値以上となるものが存在する場合に、一方のカテゴリ候補を、カテゴリ候補から除外する段階と、
    を有することを特徴とするカテゴリ作成方法。
  2. 検索用の用語をタグとして付与したタグ付文書データを利用して、文書データを分類するためのカテゴリを作成する装置であって、
    事前に設定されたカテゴリ候補について当該カテゴリ候補に属するか否かを判断する特定カテゴリ分類器を複数有し、前記カテゴリ候補をタグとして有するタグ付文書データを分類するカテゴリ分類手段と、
    前記カテゴリ分類手段による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数、およびタグ付文書データが付与されたタグのカテゴリ候補に分類されなかった数を基に、各カテゴリ候補の特定カテゴリ分類器と各カテゴリ候補をタグとして有するタグ付文書データの関係ごとの誤り率である特定誤り率を算出し、前記算出した特定誤り率が所定値を超える関係が所定割合を超える数存在する特定カテゴリ分類器のカテゴリ候補を、カテゴリ候補から除外する曖昧カテゴリ除外手段と、
    前記曖昧カテゴリ除外手段によるカテゴリ候補の除外後残った各カテゴリ候補について前記特定誤り率が所定値以上となる関係の2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を有しており、当該択一的カテゴリ分類器を用いて前記カテゴリ候補をタグとして有するタグ付文書データを分類し、前記択一的カテゴリ分類器による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数を基に、各カテゴリ候補の誤り率である択一的誤り率を算出し、前記算出した択一的誤り率が所定値以上となるものが存在する場合に、一方のカテゴリ候補を、カテゴリ候補から除外する類似カテゴリ除外手段と、
    を有することを特徴とするカテゴリ作成装置。
  3. 検索用の用語をタグとして付与したタグ付文書データを利用して文書データを分類するためのカテゴリを作成するため、
    前記タグとして付与された用語の中からカテゴリ候補を設定する段階、
    各前記カテゴリ候補に属するか否かを判断する特定カテゴリ分類器を用いて、前記タグ付文書データが当該カテゴリに属するか否かを判別する段階、
    前記特定カテゴリ分類器による判別の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に判別された数、およびタグ付文書データが付与されたタグのカテゴリ候補に判別されなかった数を基に、各カテゴリ候補の特定カテゴリ分類器と各カテゴリ候補をタグとして有するタグ付文書データの関係ごとの誤り率である特定誤り率を算出する段階、
    前記算出した特定誤り率が所定値以上となる関係が所定値以上存在する特定カテゴリ分類器のカテゴリ候補を、カテゴリ候補から除外する段階、
    残った各カテゴリ候補について前記特定誤り率が所定値以上となる関係の2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を用いて、前記カテゴリ候補をタグとして有するタグ付文書データを分類する段階、
    前記択一的カテゴリ分類器による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数を基に、各カテゴリ候補の誤り率である択一的誤り率を算出する段階、
    前記算出した択一的誤り率が所定値以上となるものが存在する場合に、一方のカテゴリ候補を、カテゴリ候補から除外する段階、
    をコンピュータに実行させるためのプログラム。
  4. 検索用の用語をタグとして付与したタグ付文書データを利用して、文書データを分類するためのカテゴリを作成するため、
    事前に設定されたカテゴリ候補について当該カテゴリ候補に属するか否かを判断する特定カテゴリ分類器を複数有し、前記カテゴリ候補をタグとして有するタグ付文書データを分類するカテゴリ分類手段、
    前記カテゴリ分類手段による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数、およびタグ付文書データが付与されたタグのカテゴリ候補に分類されなかった数を基に、各カテゴリ候補の特定カテゴリ分類器と各カテゴリ候補をタグとして有するタグ付文書データの関係ごとの誤り率である特定誤り率を算出し、前記算出した特定誤り率が所定値を超える関係が所定割合を超える数存在する特定カテゴリ分類器のカテゴリ候補を、カテゴリ候補から除外する曖昧カテゴリ除外手段、
    前記曖昧カテゴリ除外手段によるカテゴリ候補の除外後残った各カテゴリ候補について前記特定誤り率が所定値以上となる関係の2つのカテゴリのいずれに属するかを判断する択一的カテゴリ分類器を有しており、当該択一的カテゴリ分類器を用いて前記カテゴリ候補をタグとして有するタグ付文書データを分類し、前記択一的カテゴリ分類器による分類の結果、タグ付文書データが付与されたタグのカテゴリ候補と異なるカテゴリ候補に分類された数を基に、各カテゴリ候補の誤り率である択一的誤り率を算出し、前記算出した択一的誤り率が所定値以上となるものが存在する場合に、一方のカテゴリ候補を、カテゴリ候補から除外する類似カテゴリ除外手段、
    としてコンピュータを機能させるためのプログラム。
JP2007036118A 2007-02-16 2007-02-16 カテゴリ作成方法、カテゴリ作成装置、およびプログラム Expired - Fee Related JP5012078B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007036118A JP5012078B2 (ja) 2007-02-16 2007-02-16 カテゴリ作成方法、カテゴリ作成装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007036118A JP5012078B2 (ja) 2007-02-16 2007-02-16 カテゴリ作成方法、カテゴリ作成装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2008203933A JP2008203933A (ja) 2008-09-04
JP5012078B2 true JP5012078B2 (ja) 2012-08-29

Family

ID=39781416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007036118A Expired - Fee Related JP5012078B2 (ja) 2007-02-16 2007-02-16 カテゴリ作成方法、カテゴリ作成装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP5012078B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102053694B1 (ko) * 2018-05-30 2019-12-09 조선대학교산학협력단 데이터 마이닝을 위한 기계 학습 훈련에 있어서의 분류 적합도 측정 장치 및 그 동작 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5430960B2 (ja) * 2009-02-09 2014-03-05 株式会社東芝 コンテンツ分類装置、方法及びプログラム
KR101071495B1 (ko) 2009-05-12 2011-10-10 인하대학교 산학협력단 전자문서 자동 분류 방법 및 장치
CN102033877A (zh) 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
US9824142B2 (en) 2010-01-15 2017-11-21 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
JP5477635B2 (ja) * 2010-02-15 2014-04-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5670490B2 (ja) * 2012-02-15 2015-02-18 楽天株式会社 カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2014085801A (ja) * 2012-10-23 2014-05-12 Netlaputa Corp データ検索システム、データ検索方法、および、プログラム
US11416534B2 (en) * 2018-12-03 2022-08-16 Fujitsu Limited Classification of electronic documents
JP6857212B2 (ja) * 2019-05-29 2021-04-14 株式会社日立製作所 文書検索システム、文書検索装置及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005158010A (ja) * 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102053694B1 (ko) * 2018-05-30 2019-12-09 조선대학교산학협력단 데이터 마이닝을 위한 기계 학습 훈련에 있어서의 분류 적합도 측정 장치 및 그 동작 방법

Also Published As

Publication number Publication date
JP2008203933A (ja) 2008-09-04

Similar Documents

Publication Publication Date Title
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
US10997256B2 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
Zhang et al. Finding celebrities in billions of web images
Sanden et al. Enhancing multi-label music genre classification through ensemble techniques
Moxley et al. Video annotation through search and graph reinforcement mining
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CA3166094A1 (en) Commodity short title generation method and apparatus
Hou et al. Classifying advertising video by topicalizing high-level semantic concepts
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
Ozkan et al. A large-scale database of images and captions for automatic face naming
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
Safrin et al. Sentiment analysis on online product review
Xu et al. Improve biomedical information retrieval using modified learning to rank methods
Greensmith et al. An artificial immune system approach to semantic document classification
Li et al. Social negative bootstrapping for visual categorization
Aung et al. Random forest classifier for multi-category classification of web pages
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备
Chidlovskii et al. Scalable feature selection for multi-class problems
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
Abinaya et al. Effective Feature Selection For High Dimensional Data using Fast Algorithm
Mohana et al. Document classification using multinomial Naïve Bayesian classifier
Islam et al. Developing an intelligent system for recommending products
Shen et al. Multi-label multi-instance learning with missing object tags
Dhahri et al. RssE-Miner: a new approach for efficient events mining from social media RSS feeds

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5012078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees