JP4906123B2 - 文書分類装置、文書分類方法、プログラム及び記録媒体 - Google Patents

文書分類装置、文書分類方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP4906123B2
JP4906123B2 JP2008187335A JP2008187335A JP4906123B2 JP 4906123 B2 JP4906123 B2 JP 4906123B2 JP 2008187335 A JP2008187335 A JP 2008187335A JP 2008187335 A JP2008187335 A JP 2008187335A JP 4906123 B2 JP4906123 B2 JP 4906123B2
Authority
JP
Japan
Prior art keywords
document
vector
category
subcategory
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008187335A
Other languages
English (en)
Other versions
JP2010026782A (ja
Inventor
克人 別所
俊郎 内山
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008187335A priority Critical patent/JP4906123B2/ja
Publication of JP2010026782A publication Critical patent/JP2010026782A/ja
Application granted granted Critical
Publication of JP4906123B2 publication Critical patent/JP4906123B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書を、所定のカテゴリ集合のうちのいずれかのカテゴリに分類するための文書分類装置及び方法及びプログラム及びプログラムを記録した記録媒体に関する。
文書を、所定のカテゴリ集合のうちのいずれかのカテゴリに分類する文書分類の技術として、たとえば非特許文献1の手法がある。
この手法では、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを利用する。また、各カテゴリには、該カテゴリに該当する文書の集合が対応付けられているものとする。
各カテゴリに対し、該カテゴリの各文書の文書ベクトルを、該文書内の単語の、単語概念ベースから取得した単語ベクトルの重心として算出する。
次に、該カテゴリに対し、該カテゴリ内の各文書の文書ベクトルの重心を、該カテゴリのカテゴリベクトルとして取得する。
文書が入力されると、該入力文書の入力文書ベクトルを、該入力文書内の単語の、単語概念ベースから取得した単語ベクトルの重心として算出する。
各カテゴリに対し、該カテゴリのカテゴリベクトルと入力文書ベクトルとの距離または類似度を求め、距離の昇順、または、類似度の降順に、カテゴリ集合をソートし、上位にランクされたカテゴリを、分類結果とする。
別所克人、内山俊郎、片岡良治著「単語間の階層関係に基づくテキスト分類方式」信学技報、Vol.PRMU2007-15、pp79-84、2007年5月
上記従来技術において、1つのカテゴリにおいて、その文書集合に、複数の話題が混在している場合がある。このような場合、該カテゴリ内の文書ベクトルの集合は、いくつかのクラスタから形成され、各クラスタが1つの話題に対応している。このような状況において、文書ベクトルの重心が、各クラスタから不当に遠くなり、その結果、分類時に、該カテゴリのあるクラスタに相当する入力文書が、該重心ベクトルから遠く、反対に別のカテゴリのカテゴリベクトルと近くなり、誤った分類をするという問題があった。
本発明は、この課題を解決するために考え出されたものであり、本発明の目的は、文書を、所定のカテゴリ集合のうちのいずれかのカテゴリに分類するタスクの精度を向上させるための文書分類装置、文書分類方法、プログラム及び記録媒体を提供することにある。
本発明は、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを具備し、カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する文書ベクトル取得手段と、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得手段で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得する文書クラスタリング手段と、該カテゴリの、前記文書クラスタリング手段で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得手段で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得するサブカテゴリベクトル取得手段とを有し、文書が入力されると、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する入力文書ベクトル取得手段と、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得手段で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得手段で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として出力する関連度算出手段とをさらに併せ持つことを特徴とする文書分類装置である。
図1は、上記で述べた各カテゴリ毎に、その文書ベクトルの集合をクラスタリングして、得られた各クラスタをサブカテゴリとし、サブカテゴリ内の重心ベクトルをサブカテゴリベクトルとするという請求項1の処理内容と、入力文書が与えられたとき、その入力文書ベクトルと、各サブカテゴリベクトルとの関連度を算出するという請求項2の処理内容を表したものである。
本発明では、各カテゴリの文書集合をクラスタリングするため、該カテゴリの文書ベクトル集合は、話題毎にクラスタを形成する。このクラスタがサブカテゴリに相当する。分類時に、入力文書の内容が、あるカテゴリAのあるクラスタの話題に該当する場合、入力文書ベクトルは該クラスタの範囲に位置するため、該クラスタの重心ベクトルとの距離が、該クラスタとは別の、任意のカテゴリの任意のクラスタの重心ベクトルとの距離よりも近くなる。この結果、カテゴリ集合の中で、カテゴリAとの距離が最も近くなり、分類精度が向上する。
発明を実施するための最良の形態は、以下の実施例である。
図2は、本発明の請求項1及び2の実施例における文書分類装置の構成例を示す。請求項1は、文書ベクトル取得手段(2.1)、文書クラスタリング手段(2.2)、サブカテゴリベクトル取得手段(2.3)、単語概念ベース(2.6)から構成され、請求項2は、それに入力文書ベクトル取得手段(2.4)、関連度算出手段(2.5)を加えて構成される。
単語概念ベース(2.6)は、単語とその意味表現である単語ベクトルの対の集合からなる。
図3は、単語概念ベース(2.6)の例を示す図であり、各単語には、d次元の単語ベクトルが対応付けられている。単語概念ベース(2.6)では、意味の近い単語の単語ベクトルは距離が近くなるように、各単語に単語ベクトルが対応付けられている。単語をキーとして単語概念ベース(2.6)を検索することにより、該単語の単語ベクトルを取得することができる。
単語概念ベースの例としては、特開平6−103315号公報の「類似性判別装置」や、特開平7−302265号公報の「類似性判別用データ精錬方法およびこの方法を実施する装置」で開示されているデータベースがある。
また、Deerwesterの論文(S.Deerwester, S.T.Dumais, G.W.Furnas, T.K.Landauer and R.Harshman, Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp.391-407, 1990.)では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。Schutzeの論文(H.Schutze, Dimensions of Meaning, Proc. of Supercomputing '92, pp.786-796, 1992.)では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。
図4は、請求項1の処理のフローチャートの一例を示したものである。文書ベクトル取得手段(2.1)はステップ(4.1)、(4.2)、(4.3)から構成され、文書クラスタリング手段(2.2)はステップ(4.1)、(4.4)から構成され、サブカテゴリベクトル取得手段(2.3)はステップ(4.1)、(4.5)、(4.6)から構成される。
つまり、文書ベクトル取得手段(2.1)は、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する文書ベクトル取得手段の例である。
文書クラスタリング手段(2.2)は、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得手段で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得し、記憶装置に記憶する文書クラスタリング手段の例である。
サブカテゴリベクトル取得手段(2.3)は、該カテゴリの、前記文書クラスタリング手段で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得手段で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得し、記憶装置に記憶するサブカテゴリベクトル取得手段の例である。
{C|1≦p≦h}を、入力となるカテゴリの集合とする。各Cに対応付けられた文書集合を、{Kpu|1≦u≦n}とする。
ステップ(4.1):処理対象のCを決定する。処理対象のCがあれば、ステップ(4.2)に移行し、なければ、本フローチャートを終了する。
ステップ(4.2):Cの文書で、処理対象となる文書Kpuを決定する。処理対象のKpuがあれば、ステップ(4.3)に移行し、なければ、ステップ(4.4)に移行する。
ステップ(4.3):文書Kpuを形態素解析し、Kpuを以下のような必要語(名詞、動詞、形容詞等の、本発明の処理に必要な単語)の終止形の異なりXpugと、XpugのKpu内での出現頻度TFpugの組の集合で表す。
pu;{Xpug:TFpug|1≦g≦tpu
上記で、TFpugの代わりに、以下の式で表されるXpugのTFIDFpugを用いて、以降の処理を行ってもよい。
Figure 0004906123
ここで、DNは、あるコーパスにおける文書数であり、ONpugは、Xpugの該コーパスにおける出現文書数である。TFIDFpugが存在しない場合は、TFIDFpug=0とする。
各Xpugで単語概念ベース(2.6)を検索することにより、Xpugの単語ベクトルv(Xpug)を取得し、以下の式のようにv(Xpug)の重心として、Kpuの文書ベクトルv(Kpu)を算出する。
Figure 0004906123
また、上記式の右辺を長さ1に正規化したベクトルを、Kpuの文書ベクトルv(Kpu)としてもよい。
ステップ(4.3)の処理が終了すれば、ステップ(4.2)に移行する。
ステップ(4.4):文書ベクトルv(Kpu)(1≦u≦n)の集合(ベクトルが同一でもuが異なれば別物とする)をクラスタリングする。クラスタリングアルゴリズムとしては、例として、ウォード法やK−means法等がある。以下では、ウォード法でクラスタリングする場合の処理内容を述べる。
[ウォード法]
クラスタリングの終了条件として、(A):クラスタ数N、(B):距離の閾値dのいずれかを定めておく。
<step1>:各v(Kpu)をクラスタとする。各v(Kpu)について
Figure 0004906123
とする。上記で、Gはクラスタ、d(G,G)は、G、G間のクラスタ間距離、Nはクラスタ数である。
クラスタ集合を
Figure 0004906123
とする。
<step2>:終了条件が(A)で、かつ、N≦Nならば、処理を終了する。
N=1ならば、処理を終了する。
クラスタ間距離が最小となるクラスタ対を探す。
Figure 0004906123
終了条件が(B)で、かつ、d(G,G)>dならば、処理を終了する。
とGをEから取り除き、G’=G∪GをEに追加する。
N:=N−1とクラスタの数を1つ減らす。
<step3>:全てのG∈E、G≠G’についてクラスタ間距離d(G’,G)を以下の式により算出する。
Figure 0004906123
step2に移行する。
以上の処理により、文書ベクトルv(Kpu)(またはv(Kpu)に対応する文書Kpu)のクラスタの集合{Spq|1≦q≦m}が得られる。各SpqをCのサブカテゴリと呼ぶ。
ステップ(4.4)の処理が終了すれば、ステップ(4.5)に移行する。
ステップ(4.5):処理対象となるサブカテゴリSpqを決定する。処理対象のSpqがあれば、ステップ(4.6)に移行し、なければステップ(4.1)に移行する。
ステップ(4.6):Spqに属する文書集合を{Dpqr|1≦r≦lpq}とする。以下の式のように文書Dpqrの文書ベクトルv(Dpqr)の重心として、Spqのカテゴリベクトルv(Spq)を算出する。
Figure 0004906123
また、上記式の右辺を長さ1に正規化したベクトルを、Spqのカテゴリベクトルv(Spq)としてもよい。
ステップ(4.6)の処理が終了すれば、ステップ(4.5)に移行する。
図5は、請求項2の処理のフローチャートの一例を示したものである。入力文書ベクトル取得手段(2.4)はステップ(5.1)から構成され、関連度算出手段(2.5)は、ステップ(5.2)、(5.3)、(5.4)、(5.5)から構成される。本フローチャートでは、さらにステップ(5.6)を追加している。
つまり、入力文書ベクトル取得手段(2.4)は、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する入力文書ベクトル取得手段の例である。
関連度算出手段(2.5)は、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得手段で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得手段で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として算出し、記憶装置に記憶し、出力する関連度算出手段の例である。
ステップ(5.1):入力文書Lを形態素解析し、Lを以下のような必要語の終止形の異なりWLfと、WLfのL内での出現頻度TFLfの組の集合で表す。
L;{WLf:TFLf|1≦f≦a
上記で、TFLfの代わりに、以下の式で表されるWLfのTFIDFLfを用いて、以降の処理を行ってもよい。
Figure 0004906123
ここで、DNは、あるコーパスにおける文書数であり、ONLfは、WLfの該コーパスにおける出現文書数である。TFIDFLfが存在しない場合は、TFIDFLf=0とする。
各WLfで単語概念ベース(2.6)を検索することにより、WLfの単語ベクトルv(WLf)を取得し、以下の式のようにv(WLf)の重心として、Lの文書ベクトルv(L)を算出する。
Figure 0004906123
また、上記式の右辺を長さ1に正規化したベクトルを、Lの文書ベクトルv(L)としてもよい。
ステップ(5.1)の処理が終了すれば、ステップ(5.2)に移行する。
ステップ(5.2):処理対象のCを決定する。処理対象のCがあれば、ステップ(5.3)に移行し、なければ、ステップ(5.6)に移行する。
ステップ(5.3):Cのサブカテゴリで、処理対象となるサブカテゴリSpqを決定する。処理対象のSpqがあれば、ステップ(5.4)に移行し、なければ、ステップ(5.2)に移行する。
ステップ(5.4):LとSpqとの関連度を算出する。
関連度が距離ならば、関連度を
d(L,Spq):‖v(L)−v(Spq)‖
として算出する。
関連度が類似度ならば、関連度を
s(L,Spq):=(v(L)・v(Spq))/(‖v(L)‖・‖v(Spq)‖)
として算出する。上式の右辺の分子は、v(L)、v(Spq)の内積である。
ステップ(5.4)の処理が終了すれば、ステップ(5.5)に移行する。
ステップ(5.5):LとCとの関連度を算出、更新する。
関連度が距離ならば、LとCとの関連度d(L,C)を、以下のように算出、更新する。ステップ(5.5)に初めて入った場合は、d(L,Spq)をd(L,C)とする。ステップ(5.5)に2回目以降に入った場合は、既に算出済みのd(L,C)について、d(L,Spq)<d(L,C)であるならば、d(L,C)をd(L,Spq)で更新する。
関連度が類似度ならば、LとCとの関連度s(L,C)を、以下のように算出、更新する。ステップ(5.5)に初めて入った場合は、s(L,Spq)をs(L,C)とする。ステップ(5.5)に2回目以降に入った場合は、既に算出済みのs(L,C)について、s(L,Spq)>s(L,C)であるならば、s(L,C)をs(L,Spq)で更新する。
ステップ(5.5)の処理が終了すれば、ステップ(5.3)に移行する。
ステップ(5.6):カテゴリ集合{C|1≦p≦h}を、Lと各カテゴリCとの関連度の高い順にソートする。
関連度が距離ならば、d(L,C)の小さい順にCをソートする。
関連度が類似度ならば、s(L,C)の大きい順にCをソートする。
ステップ(5.6)の処理が終了すれば、本フローチャートを終了する。
図5のフローチャートの処理により、カテゴリCは入力文書Lとの関連度の高い順にランキングされる。関連度の高いカテゴリを、入力文書Lの分類結果とする。
上記の実施の形態における処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
上記実施例において、手段を工程に置き換えれば、方法の発明として把握することができる。つまり、上記実施例は、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを具備し、カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する文書ベクトル取得工程と、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得工程で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得し、記憶装置に記憶する文書クラスタリング工程と、該カテゴリの、前記文書クラスタリング工程で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得工程で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得し、記憶装置に記憶するサブカテゴリベクトル取得工程とからなることを特徴とする文書分類方法の例である。
この場合、文書が入力されると、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する入力文書ベクトル取得工程と、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得工程で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得工程で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として算出し、記憶装置に記憶し、出力する関連度算出工程とをさらに併せ持つ。
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、請求項1又は請求項2記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラムの例である。
さらに、上記プログラムを記録媒体に記録するようにしてもよい。つまり、上記実施例は、請求項1又は請求項2記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラムを記録したコンピュータ読取可能な記録媒体の例である。なお、上記記録媒体として、DVD、HD、光ディスク、光磁気ディスク、半導体メモリ等を想定することができる。
本発明は、言語処理技術に適用可能である。
各カテゴリ毎に、その文書ベクトルの集合をクラスタリングして、得られた各クラスタをサブカテゴリとし、サブカテゴリ内の重心ベクトルをサブカテゴリベクトルとするという請求項1の処理内容と、入力文書が与えられたとき、その入力文書ベクトルと、各サブカテゴリベクトルとの関連度を算出するという請求項2の処理内容を表した図である。 本発明の請求項1及び2の実施例における文書分類装置の構成例を示す図である。 単語概念ベース(2.6)の例を示す図であり、各単語には、d次元の単語ベクトルが対応付けられている。 請求項1の処理の一例を示すフローチャートである。 請求項2の処理の一例を示すフローチャートである。
符号の説明
(2.1)…文書ベクトル取得手段、
(2.2)…文書クラスタリング手段、
(2.3)…サブカテゴリベクトル取得手段、
(2.4)…入力文書ベクトル取得手段、
(2.5)…関連度算出手段、
(2.6)…単語概念ベース。

Claims (4)

  1. 単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを具備し、
    カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、
    各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する文書ベクトル取得手段と、
    該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得手段で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得する文書クラスタリング手段と、
    該カテゴリの、前記文書クラスタリング手段で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得手段で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得するサブカテゴリベクトル取得手段と、
    を有し、
    文書が入力されると、
    該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する入力文書ベクトル取得手段と、
    各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得手段で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得手段で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として出力する関連度算出手段とをさらに併せ持つことを特徴とする文書分類装置。
  2. カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、
    文書ベクトル取得手段が、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する文書ベクトル取得工程と、
    文書クラスタリング手段が、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得工程で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得し、記憶装置に記憶する文書クラスタリング工程と、
    サブカテゴリベクトル取得手段が、該カテゴリの、前記文書クラスタリング工程で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得工程で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得し、記憶装置に記憶するサブカテゴリベクトル取得工程と、
    を有し、
    文書が入力されると、
    入力文書ベクトル取得手段が、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する入力文書ベクトル取得工程と、
    関連度算出手段が、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得工程で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得工程で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として算出し、記憶装置に記憶し、出力する関連度算出工程とをさらに併せ持つことを特徴とする文書分類方法。
  3. 請求項1に記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラム。
  4. 請求項1に記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラムを記録したコンピュータ読取可能な記録媒体。
JP2008187335A 2008-07-18 2008-07-18 文書分類装置、文書分類方法、プログラム及び記録媒体 Active JP4906123B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008187335A JP4906123B2 (ja) 2008-07-18 2008-07-18 文書分類装置、文書分類方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008187335A JP4906123B2 (ja) 2008-07-18 2008-07-18 文書分類装置、文書分類方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010026782A JP2010026782A (ja) 2010-02-04
JP4906123B2 true JP4906123B2 (ja) 2012-03-28

Family

ID=41732561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008187335A Active JP4906123B2 (ja) 2008-07-18 2008-07-18 文書分類装置、文書分類方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4906123B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014232494A (ja) * 2013-05-30 2014-12-11 日本電信電話株式会社 文書作成支援装置およびその動作方法
JP6722615B2 (ja) * 2017-04-07 2020-07-15 日本電信電話株式会社 クエリクラスタリング装置、方法、及びプログラム
WO2022208706A1 (ja) * 2021-03-31 2022-10-06 日本電気株式会社 情報処理装置、分類方法、および分類プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3118725B2 (ja) * 1991-09-11 2000-12-18 株式会社日立製作所 自動分類方法
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム

Also Published As

Publication number Publication date
JP2010026782A (ja) 2010-02-04

Similar Documents

Publication Publication Date Title
Abbas et al. Multinomial Naive Bayes classification model for sentiment analysis
Devika et al. Sentiment analysis: a comparative study on different approaches
Feng et al. The deep learning–based recommender system “Pubmender” for choosing a biomedical publication venue: Development and validation study
CN110413780B (zh) 文本情感分析方法和电子设备
Bastian et al. Linkedin skills: large-scale topic extraction and inference
Rossi et al. Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
CN107423371B (zh) 一种文本正负类情感分类方法
Liu et al. Clustering documents with labeled and unlabeled documents using fuzzy semi-Kmeans
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
Ashok et al. A personalized recommender system using machine learning based sentiment analysis over social data
Yang et al. Understanding online consumer review opinions with sentiment analysis using machine learning
Agarwal et al. Classification of RSS feed news items using ontology
JP4906123B2 (ja) 文書分類装置、文書分類方法、プログラム及び記録媒体
Roul et al. Sentiment analysis and extractive summarization based recommendation system
Razavi et al. Word embedding-based approach to aspect detection for aspect-based summarization of persian customer reviews
Miao et al. Multimodal semantics-based supervised latent dirichlet allocation for event classification
Hao et al. Mining high-quality fine-grained type information from Chinese online encyclopedias
JP3925418B2 (ja) トピック境界決定装置及びプログラム
Taileb et al. Multimodal automatic image annotation method using association rules mining and clustering
Sobkowicz et al. Reading book by the cover—book genre detection using short descriptions
Kalaivani et al. Feature selection based on genetic algorithm and hybrid model for sentiment polarity classification
JP4964917B2 (ja) ベクトル間距離算出装置、ベクトル間距離算出方法、プログラム及び記録媒体
Ahmed et al. A systematic literature review on English and Bangla Topic Modeling
Almaghrabi et al. Deep Machine Learning Digital Library recommendation system based on metadata for Arabic and English languages

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4906123

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350