JP4460417B2 - 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置 - Google Patents

自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置 Download PDF

Info

Publication number
JP4460417B2
JP4460417B2 JP2004296475A JP2004296475A JP4460417B2 JP 4460417 B2 JP4460417 B2 JP 4460417B2 JP 2004296475 A JP2004296475 A JP 2004296475A JP 2004296475 A JP2004296475 A JP 2004296475A JP 4460417 B2 JP4460417 B2 JP 4460417B2
Authority
JP
Japan
Prior art keywords
category
component
content
automatic classification
belonging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004296475A
Other languages
English (en)
Other versions
JP2006107354A (ja
Inventor
昭典 藤野
修功 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004296475A priority Critical patent/JP4460417B2/ja
Publication of JP2006107354A publication Critical patent/JP2006107354A/ja
Application granted granted Critical
Publication of JP4460417B2 publication Critical patent/JP4460417B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置に関する。
入力されたコンテンツに対して、複数のカテゴリのいずれかに分類するような、自動分類の技術が提案されている。これらの自動分類によって分類された情報は、検索がしやすく、利便性がよい。しかし、自動分類の精度が悪いと、入力されたコンテンツが誤ったカテゴリに分類されてしまい、利便性を損なってしまう。
なお、自動分類においては、対象となるコンテンツから特徴量を抽出し、分類したいコンテンツの特徴量と、分類済みのコンテンツの特徴量とを比較して、分類を行う。例えば、コンテンツを複数のカテゴリに分類する自動分類器は、コンテンツ全体に含まれる単語の出現頻度を特徴ベクトル(特徴量)とし、属するカテゴリが判明している少数のコンテンツを訓練サンプルとして用いて、各カテゴリに属するサンプルに特徴的に出現する単語を学習することで識別関数を獲得することを基本的な特徴とする(非特許文献1,非特許文献2など)。これらの自動分類器では、コンテンツに含まれる単語の特徴ベクトルを獲得された識別関数の入力として与えるときに最も高い出力値を返すカテゴリをコンテンツが属するカテゴリとみなすことで、自動分類が実現される。
また、自動分類の対象となるコンテンツは、タイトル、本文などの構成要素を複数有していることもある。そこで、コンテンツの構成要素ごとにモデルを生成し、それらを組み合わせることで識別関数を構成し、適合・不適合の2値分類を行うことを基本的な特徴とする(非特許文献3など)。この自動分類器では、コンテンツに含まれる各構成要素を独立に扱うことで、コンテンツ全体の特徴ベクトルを用いる場合に無視される傾向にあった少数の単語のみが出現する構成要素を考慮した分類が可能となる。
K.Nigam,A.McCallum,S.Thrun and T.Mitchell著、"Text classification from labeled and unlabeled documents using EM"、Machine Learning,39,103-134(2000). K.Nigam,J.Lafferty and A.McCallum著、"Using maximum entropy for text classification"、In IJCAI-99 Workshop on Machine Learning for Information filtering,61-67(1999). R.Raina,Y.Shen,Y.Ng and A.McCallum著、"Classification with hybrid generative/discriminative models"、In NIPS 16,(2003)
しかしながら、従来の自動分類では、複数の構成要素を有するコンテンツを、複数のカテゴリのいずれかに分類する用途には、不向きであった。その用途は、例えば、ポータルサイトへのコンテンツの追加である。つまり、Webページのポータルサイトは、複数のコンテンツをカテゴリごとに整理して、閲覧させるようになっているが、これらのポータルサイトのカテゴリに対して、新たなコンテンツを追加しようとするときには、その新たなコンテンツをいずれかのカテゴリに分類する必要がある。
しかし、非特許文献1,2の技術では、複数の構成要素を有するコンテンツは、分類の対象外であった。具体的には、コンテンツ全体に含まれる単語の出現頻度に基づく特徴ベクトルから、識別関数の訓練ならびにカテゴリヘの分類が行われる。しかし、コンテンツは、タイトル、本文、引用情報、リンク情報などの特性の異なる構成要素から成り、各構成要素の識別に与える影響が同一とは限らない。また、構成要素の単語数に偏りが見られる場合、単語出現数の小さい構成要素が無視される傾向がある。例えば、本文はタイトルと比べて単語の出現数が圧倒的に多く、コンテンツ全体を表現する特徴ベクトルはタイトルの情報をほとんど反映しない。このため、これら技術では、各構成要素の識別に与える影響を考慮せず、単語の出現頻度のみで構成要素の識別関数への比重が決定されてしまう弊害がある。
一方、非特許文献3の技術では、多数の候補の中からカテゴリを択一的に選択するような一般的な分類問題には、適用ができなかった。具体的には、コンテンツの各構成要素にモデルを構成し、そのモデルに対して、ロジスティック回帰を用いて最適に結合することで、識別関数を生成する。この技術により、構成要素ごとにカテゴリに対する帰属度を独立に獲得し、かつ各構成要素の識別に与える影響を反映した分類を行うことが期待できる。しかし、この技術は2つのカテゴリヘの分類問題しか扱えない。
そこで、本発明は、前記した問題を解決し、複数の構成要素を有するコンテンツを、複数のカテゴリのいずれかに分類することを主な目的とする。
前記課題を解決するため、本発明は、タイトル、本文、引用文、リンク情報、画像を含む構成要素の群から選択される2つ以上の構成要素から形成されているコンテンツを分類する自動分類方法であって、コンピュータが、帰属するカテゴリが既知のコンテンツを訓練サンプルとする訓練データ集合と、帰属するカテゴリが未知のコンテンツとを入力とし、それらのコンテンツを各構成要素に分離して記憶手段に格納する構成要素分離手順と、前記訓練サンプルの構成要素を入力として構成要素ごとにカテゴリに対する帰属度を見積るモデルを構成し、それらのモデルを最適に結合して識別関数を生成する識別関数生成手順と、帰属するカテゴリが未知のコンテンツの構成要素と生成された識別関数を入力として、前記コンテンツの各構成要素の前記カテゴリに対する帰属度および前記帰属度間の結合パラメータをもとに、記憶手段から読み出したコンテンツが各カテゴリに属する確率を求め、その確率が最大となる最適なカテゴリを複数のカテゴリ候補の中から選択する自動分類手順と、を有し、前記識別関数生成手順は、前記識別関数を生成するときに、構成要素のモデルパラメータから訓練データ集合の各構成要素において見積られるカテゴリに対する帰属度を用いて、最大エントロピー原理に基づく結合の最適化を行うことを特徴とする。
これにより、複数の構成要素を有するコンテンツを、複数のカテゴリのいずれかに分類することが可能となる。さらに、最大エントロピー原理を用いてコンテンツの各構成要素に対応するモデルを最適に結合することで、多数の候補の中からコンテンツの属するカテゴリを選択する分類問題において、コンテンツの各構成要素が分類に与える影響を考慮し、かつ分類に最適な結合を決定することで、分類精度が向上する。
本発明は、前記識別関数生成手順が、前記帰属度を見積るモデルを構成するときに、前記訓練データ集合から1つの訓練サンプルを除外して推定されるモデルパラメータから見積られる除外された訓練サンプルの対数尤度の総和を最大化する基準に適合するように、構成要素ごとにカテゴリに対する帰属度を見積もるためのモデルパラメータを算出することを特徴とする。
これにより、1つの訓練サンプルを除外することによって、その除外した訓練サンプルにとって最適なモデルパラメータを作成することで、モデルパラメータの汎化能力を向上させることが可能となる。
本発明は、前記識別関数生成手順が、前記識別関数を生成するときに、構成要素のモデルパラメータから訓練データ集合の各構成要素において見積られるカテゴリに対する帰属度に加えて、1または0の値で定義される前記訓練サンプルのカテゴリへの帰属度を表す定数項を用いて、最大エントロピー原理に基づく結合の最適化を行うことを特徴とする。
これにより、カテゴリに対する不均衡を抑制することが可能となる。
本発明は、前記識別関数生成手順が、前記訓練データ集合から1つの訓練サンプルを除外して構成要素のモデルパラメータを推定し、除外した訓練サンプルの各構成要素においてそのパラメータから見積もられるカテゴリに対する帰属度をもとに、前記最大エントロピー原理に基づく結合の最適化を行うことを特徴とする。
これにより、1つの訓練サンプルを除外することによって、その除外した訓練サンプルにとって最適な識別関数を作成することで、識別関数の汎化能力を向上させることが可能となる。
本発明は、前記の自動分類方法をコンピュータに実行させるための自動分類プログラムである。
これにより、複数の構成要素を有するコンテンツを、複数のカテゴリのいずれかに分類することが可能となる。
本発明は、前記の自動分類プログラムを記録した、コンピュータ読み取り可能な記録媒体である。
これにより、複数の構成要素を有するコンテンツを、複数のカテゴリのいずれかに分類することが可能となる。
本発明は、タイトル、本文、引用文、リンク情報、画像を含む構成要素の群から選択される2つ以上の構成要素から形成されているコンテンツを分類する自動分類装置であって、帰属するカテゴリが既知のコンテンツを訓練サンプルとする訓練データ集合と、帰属するカテゴリが未知のコンテンツとを入力とし、それらのコンテンツを各構成要素に分離して記憶手段に格納する構成要素分離部と、前記訓練サンプルの構成要素を入力として構成要素ごとにカテゴリに対する帰属度を見積るモデルを構成し、それらのモデルを最適に結合して識別関数を生成する識別関数生成部と、帰属するカテゴリが未知のコンテンツの構成要素と生成された識別関数を入力として、前記コンテンツの各構成要素の前記カテゴリに対する帰属度および前記帰属度間の結合パラメータをもとに、コンテンツが各カテゴリに属する確率を求め、その確率が最大となる最適なカテゴリを複数のカテゴリ候補の中から選択する自動分類部と、を備え、前記識別関数生成部は、前記識別関数を生成するときに、構成要素のモデルパラメータから訓練データ集合の各構成要素において見積られるカテゴリに対する帰属度を用いて、最大エントロピー原理に基づく結合の最適化を行うことを特徴とする。
これにより、複数の構成要素を有するコンテンツを、複数のカテゴリのいずれかに分類することが可能となる。さらに、最大エントロピー原理を用いてコンテンツの各構成要素に対応するモデルを最適に結合することで、多数の候補の中からコンテンツの属するカテゴリを選択する分類問題において、コンテンツの各構成要素が分類に与える影響を考慮し、かつ分類に最適な結合を決定することで、分類精度が向上する。
本発明は、カテゴリに対する帰属度および前記帰属度間の結合パラメータをもとに、カテゴリに分類することを特徴とする。これにより、複数の構成要素を有するコンテンツを、複数のカテゴリのいずれかに分類することが可能になった。つまり、コンテンツの各構成要素にモデルを構成し、そのモデルを最適に結合することで識別関数を生成するモデルにおいて、多数の候補から最適なカテゴリを選択することでコンテンツの自動分類を実現する。
以下、本実施形態を添付した図面を参照して詳しく説明する。はじめに、図1は本実施の形態の自動分類装置1の構成を示す機能ブロック図の例である。自動分類装置1は、文書ファイルやWebページファイル、電子メールファイル、画像ファイル、Newsデータファイルなどの様々なコンテンツを分類する機能を有する。
なお、自動分類装置1は、演算処理を行う際に用いられる記憶手段としてのメモリと、前記演算処理を行う演算処理装置とを少なくとも備えるコンピュータとして構成される。なお、メモリは、RAM(Random Access Memory)などにより構成される。演算処理は、CPU(Central Processing Unit)によって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。
自動分類装置1は、コンテンツ本体とコンテンツが属するカテゴリIDの対より構成される訓練データ集合を記憶する訓練データDB2と、利用者が分類を要求するコンテンツを入力する際のインターフェースとなる入力部6と、自動分類結果の画面表示やコンテンツファイルを分類して保存する際のインターフェースとなる出力部7と、を含めて構成される。
自動分類装置1は、さらに、分類するために入力されたコンテンツや訓練データを各構成要素に分離して出力する構成要素分離部3と、コンテンツの各構成要素の特徴ベクトルからコンテンツが属するカテゴリを推定するための識別関数を出力する識別関数生成部4と、この識別関数を用いてコンテンツが属するカテゴリを推定する自動分類部5と、を含めて構成される。
つぎに、図2に示した、自動分類装置1の識別関数生成部4における情報処理の手順を示すフローチャートを参照して、自動分類装置1における分類処理の手順を詳しく説明する。
はじめに、識別関数生成部4は、訓練データDB2に保存されている訓練データ集合に含まれるカテゴリ情報を有するコンテンツのサンプル(以下、訓練サンプル)を入力とし構成要素分離部3から出力される訓練サンプルの各構成要素を取得し、訓練サンプルの各構成要素における特徴ベクトルを生成する(S101)。つぎに、識別関数生成部4は、訓練サンプルの特徴ベクトルを用いて各構成要素のモデルごとに最適な平滑化パラメータを最尤推定により学習する(S102)。
つぎに、識別関数生成部4は、訓練データ集合から任意の1つの訓練サンプルを除外し、1点除外訓練データ集合を生成する(S103)。そして、識別関数生成部4は、1点除外訓練データ集合を用いて、各構成要素モデルのパラメータを算出する(S104)。さらに、識別関数生成部4は、除外した訓練サンプルを用いて、訓練サンプルパラメータ対を生成する(S105)。つぎに、識別関数生成部4は、全ての訓練サンプルを除外した場合の、訓練サンプルパラメータ対の生成が終了したかどうかを判定する(S106)。
もし、識別関数生成部4は、訓練サンプルパラメータ対の生成が終了していない(S106、NO)なら、訓練データ集合からS103とは別の任意の1つの訓練サンプルを除外して、この訓練サンプルに対応する訓練サンプルパラメータ対を生成する処理(S103〜S105)を、訓練データ集合に含まれる全ての訓練サンプルを除外した場合について繰り返し行う。
一方、識別関数生成部4は、訓練サンプルパラメータ対の生成が終了した(S106、YES)なら、S105で作成された訓練サンプルパラメータ対を利用して、各構成要素の特徴ベクトルから推定される各カテゴリヘの帰属度を表す特徴量を、訓練サンプルの構成要素ごとに算出する(S107)。そして、識別関数生成部4は、訓練サンプルの特徴量を用いて、最大エントロピー原理に基づいて構成要素のモデルの最適な結合を学習する(S108)。
また、識別関数生成部4は、S101からS102で生成された各構成要素における訓練サンプルの特徴ベクトルから成る訓練データ集合と、モデルの最適な平滑化パラメータを用いて、各構成要素のモデルの最適なパラメータを算出する(S109)。
そして、識別関数生成部4は、S108で得られた構成要素モデルの最適な結合と、S109で得られた各構成要素モデルの最適なパラメータを用いて、識別関数を生成し、自動分類部5へ受け渡す(S110)。さらに、自動分類部5は、利用者が入力部6を介して入力したコンテンツを、構成要素分離部3を通して得られる各構成要素の特徴ベクトルを入力として、識別関数生成部4が生成した識別関数から得られる識別値をもとに最適なカテゴリを選択した結果を出力部7へ受け渡す(S111)。そして、出力部7は、分類結果を利用者に提示し、必要に応じてコンテンツファイルを分類結果に応じて適切な箇所に保存する(S112)。
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
Figure 0004460417
ここで、本実施形態の自動分類装置11が行うテキスト自動分類の顕著な効果を示すために、本実施形態の自動分類装置11と、従来の技術での分類手段とを比較した実験結果を示す。なお、この実験結果は、自動分類装置11を、1つの構成要素から構成されるコンテンツを、複数のカテゴリのいずれか1つに分類する実験に関するものである。
図5、図6は、テキスト自動分類の性能検査用に用いられるデータベース20News、WebKB(非特許文献2参照)に、前記した実施形態例の自動分類装置11を適用した場合の結果を示す。
この性能検査に際し、データベースに含まれるコンテンツのうち半分を利用者が分類を望むコンテンツとして、分類精度の評価に用い、残りの半分のコンテンツから任意数のコンテンツを訓練サンプルとして選択した。
また、これらのデータベースには、カテゴリ情報が付与されている。自動分類装置1の訓練に際し、訓練サンプルのカテゴリ情報を用いて識別関数を学習する。そして、コンテンツが属するカテゴリを学習された識別関数を用いて推定し、その推定結果とカテゴリ情報との一致度(以下、分類精度)をもとに性能検査を行なった。
図5は、20Newsのデータベースに対して、コンテンツをタイトルおよび本文、引用文の3つの構成要素に分割してモデルを構成し、訓練サンプルの個数を変えて自動分類装置11に適用した場合の結果(方法1)を表す。このデータベースは20個のカテゴリを有する。比較対象として、構成要素に分割せずにコンテンツ全体の特徴ベクトルを用いてNBモデルを適用する方法(方法2)と、非特許文献2に基づいてコンテンツ全体の特徴ベクトルに最大エントロピーモデルを適用する方法(方法3)の結果を合わせて示す。図5に示すように、訓練サンプルの個数によらず、構成要素モデルを構築する方法1が、コンテンツ全体の特徴ベクトルを用いる方法2、方法3より分類精度が高いことがわかる。
図6は、WebKBのデータベースに対して、コンテンツをタイトルおよび本文、図へのリンク情報、他のWebページのリンク情報の4つの構成要素のモデルを構成して方法1を適用した場合と、方法2、3を適用した場合の結果を表す。このデータベースは4個のカテゴリを有する。図6に示すように、20Newsのデータベースの場合と同様に、方法1が方法2、方法3より分類精度が高いことがわかる。これらにより、本実施形態の分類精度が、従来技術の自動分類技術に比べ、優位性を有していることがわかる。これは、S108で示したように、本実施形態が最大エントロピー原理に基づいて構成要素のモデルの最適な結合を学習するためである。
以上説明した本発明は、以下のようにその趣旨を逸脱しない範囲で広く変形実施することができる。
例えば、本実施形態は、データベースに含まれる文書やオープンドメインに存在するWebページ、Newsデータ、電子メールなど、テキスト情報を含むコンテンツを、単語やアドレス情報などから構成される特徴ベクトルをもとに、複数のカテゴリに分類する際に、カテゴリが判明している少数のコンテンツを用いて、コンテンツの特徴ベクトルを入力、カテゴリの推定値を出力とする分類器を学習し、その分類器を用いてコンテンツを自動分類する方法、分類装置、自動分類プログラムならびにそのプログラムが記録された、コンピュータ読み取り可能な記録媒体(CD−ROMなど)として、実現される。
本発明の一実施形態に関する自動分類装置を示す構成図である。 本発明の一実施形態に関する分類処理を示すフローチャートである。 本発明の一実施形態に関するモデルパラメータの学習アルゴリズムを示すフローチャートである。 本発明の一実施形態に関する未知コンテンツのカテゴリ推定アルゴリズムを示すフローチャートである。 本発明の一実施形態に関する20Newsのデータベースを用いた実験結果を示すグラフ図である。 本発明の一実施形態に関するWebKBのデータベースを用いた実験結果を示すグラフ図である。
符号の説明
1 自動分類装置
2 訓練データDB
3 構成要素分離部
4 識別関数生成部
5 自動分類部
6 入力部
7 出力部

Claims (7)

  1. タイトル、本文、引用文、リンク情報、画像を含む構成要素の群から選択される2つ以上の構成要素から形成されているコンテンツを分類する自動分類方法であって、コンピュータが、
    帰属するカテゴリが既知のコンテンツを訓練サンプルとする訓練データ集合と、帰属するカテゴリが未知のコンテンツとを入力とし、それらのコンテンツを各構成要素に分離して記憶手段に格納する構成要素分離手順と、
    前記訓練サンプルの構成要素を入力として構成要素ごとにカテゴリに対する帰属度を見積るモデルを構成し、それらのモデルを最適に結合して識別関数を生成する識別関数生成手順と、
    帰属するカテゴリが未知のコンテンツの構成要素と生成された識別関数を入力として、前記コンテンツの各構成要素の前記カテゴリに対する帰属度および前記帰属度間の結合パラメータをもとに、記憶手段から読み出したコンテンツが各カテゴリに属する確率を求め、その確率が最大となる最適なカテゴリを複数のカテゴリ候補の中から選択する自動分類手順と、を有し、
    前記識別関数生成手順は、前記識別関数を生成するときに、構成要素のモデルパラメータから訓練データ集合の各構成要素において見積られるカテゴリに対する帰属度を用いて、最大エントロピー原理に基づく結合の最適化を行う
    ことを特徴とする自動分類方法。
  2. 前記識別関数生成手順は、前記帰属度を見積るモデルを構成するときに、前記訓練データ集合から1つの訓練サンプルを除外して推定されるモデルパラメータから見積られる除外された訓練サンプルの対数尤度の総和を最大化する基準に適合するように、構成要素ごとにカテゴリに対する帰属度を見積もるためのモデルパラメータを算出することを特徴とする請求項1に記載の自動分類方法。
  3. 前記識別関数生成手順は、前記識別関数を生成するときに、前記構成要素のモデルパラメータから訓練データ集合の各構成要素において見積られるカテゴリに対する帰属度に加えて、1または0の値で定義される前記訓練サンプルのカテゴリへの帰属度を表す定数項を用いて、最大エントロピー原理に基づく結合の最適化を行うことを特徴とする請求項1に記載の自動分類方法。
  4. 前記識別関数生成手順は、前記訓練データ集合から1つの訓練サンプルを除外して構成要素のモデルパラメータを推定し、除外した訓練サンプルの各構成要素においてそのパラメータから見積もられるカテゴリに対する帰属度をもとに、前記最大エントロピー原理に基づく結合の最適化を行うことを特徴とする請求項1に記載の自動分類方法。
  5. 請求項1ないし請求項4のいずれか1項に記載の自動分類方法をコンピュータに実行させるための自動分類プログラム。
  6. 請求項5に記載の自動分類プログラムを記録した、コンピュータ読み取り可能な記録媒体。
  7. タイトル、本文、引用文、リンク情報、画像を含む構成要素の群から選択される2つ以上の構成要素から形成されているコンテンツを分類する自動分類装置であって、
    帰属するカテゴリが既知のコンテンツを訓練サンプルとする訓練データ集合と、帰属するカテゴリが未知のコンテンツとを入力とし、それらのコンテンツを各構成要素に分離して記憶手段に格納する構成要素分離部と、
    前記訓練サンプルの構成要素を入力として構成要素ごとにカテゴリに対する帰属度を見積るモデルを構成し、それらのモデルを最適に結合して識別関数を生成する識別関数生成部と、
    帰属するカテゴリが未知のコンテンツの構成要素と生成された識別関数を入力として、前記コンテンツの各構成要素の前記カテゴリに対する帰属度および前記帰属度間の結合パラメータをもとに、コンテンツが各カテゴリに属する確率を求め、その確率が最大となる最適なカテゴリを複数のカテゴリ候補の中から選択する自動分類部と、を備え
    前記識別関数生成部は、前記識別関数を生成するときに、構成要素のモデルパラメータから訓練データ集合の各構成要素において見積られるカテゴリに対する帰属度を用いて、最大エントロピー原理に基づく結合の最適化を行う
    ことを特徴とする自動分類装置。
JP2004296475A 2004-10-08 2004-10-08 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置 Expired - Fee Related JP4460417B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004296475A JP4460417B2 (ja) 2004-10-08 2004-10-08 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004296475A JP4460417B2 (ja) 2004-10-08 2004-10-08 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置

Publications (2)

Publication Number Publication Date
JP2006107354A JP2006107354A (ja) 2006-04-20
JP4460417B2 true JP4460417B2 (ja) 2010-05-12

Family

ID=36376988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296475A Expired - Fee Related JP4460417B2 (ja) 2004-10-08 2004-10-08 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置

Country Status (1)

Country Link
JP (1) JP4460417B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4976912B2 (ja) * 2007-04-27 2012-07-18 日本電信電話株式会社 ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体
JP2009048334A (ja) * 2007-08-16 2009-03-05 Nippon Hoso Kyokai <Nhk> 映像識別処理装置、画像識別処理装置、およびコンピュータプログラム
JP5569935B2 (ja) * 2010-07-23 2014-08-13 日本電信電話株式会社 ソフトウェア検出方法及び装置及びプログラム
JP5684084B2 (ja) * 2011-10-04 2015-03-11 日本電信電話株式会社 誤分類検出装置、方法、及びプログラム
KR101778679B1 (ko) * 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템

Also Published As

Publication number Publication date
JP2006107354A (ja) 2006-04-20

Similar Documents

Publication Publication Date Title
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
US6519580B1 (en) Decision-tree-based symbolic rule induction system for text categorization
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
WO2016180270A1 (zh) 网页分类方法和装置、计算设备以及机器可读存储介质
JP4490876B2 (ja) コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
US9218531B2 (en) Image identification apparatus, image identification method, and non-transitory computer readable medium
Xie et al. Factorization machine based service recommendation on heterogeneous information networks
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
JP5160312B2 (ja) 文書分類装置
JP4391506B2 (ja) 評価装置、評価方法及び評価プログラム
Krawczyk et al. Instance reduction for one-class classification
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
Carbonera An efficient approach for instance selection
Lumauag et al. An enhanced recommendation algorithm based on modified user-based collaborative filtering
JP5905375B2 (ja) 誤分類検出装置、方法、及びプログラム
WO2019184480A1 (zh) 物品推荐
JP4807880B2 (ja) 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
CN103345525B (zh) 文本分类方法、装置及处理器
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2000222431A (ja) 文書分類装置
WO2008072459A1 (ja) 能動学習システム、能動学習方法、及び能動学習用プログラム
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
JP2010073195A (ja) 協調フィルタリング処理方法および協調フィルタリング処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130219

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees