JP2008299616A - 文書分類装置、文書分類方法、プログラム及び記録媒体 - Google Patents

文書分類装置、文書分類方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2008299616A
JP2008299616A JP2007145343A JP2007145343A JP2008299616A JP 2008299616 A JP2008299616 A JP 2008299616A JP 2007145343 A JP2007145343 A JP 2007145343A JP 2007145343 A JP2007145343 A JP 2007145343A JP 2008299616 A JP2008299616 A JP 2008299616A
Authority
JP
Japan
Prior art keywords
document
word
words
document data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007145343A
Other languages
English (en)
Inventor
Sachio Hirokawa
佐千男 廣川
Hiroki Wada
太樹 和多
Takahiro Seki
隆宏 関
Yasuhiro Yamada
康寛 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu University NUC
Original Assignee
Kyushu University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu University NUC filed Critical Kyushu University NUC
Priority to JP2007145343A priority Critical patent/JP2008299616A/ja
Publication of JP2008299616A publication Critical patent/JP2008299616A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 各クラスタの文書数の偏りを防ぐのに適した文書分類装置等を提案する。
【解決手段】 指定された個数に複数の文書データを分類する文書分類装置1は、複数の文書データから単語を抽出する単語抽出部5と、単語抽出部5により抽出された各単語が存在する文書データの数を計算する文書数計算部7と、指定された個数に基づいて、文書数計算部7により計算された文書データの数の多い単語から順に単語を抽出する単語限定部11と、単語限定部11により抽出された単語で複数の文書データをベクトル化するベクトル化部13と、ベクトル化部13により生成されたベクトルを指定された個数に分類する分類部15を備える。
【選択図】 図1

Description

本発明は文書分類装置、文書分類方法、プログラム及び記録媒体に関し、特に、指定された個数に複数の文書データを分類する文書分類装置等に関する。
一般に、文書はある種の構造を持っている。近年では、テキスト文書やHTMLだけでなく、XMLのように、構造を持っているがその構造が固定ではない文書(半構造化文書)で保存することが多くなっている。
このような文書を検索するときには、部分構造ごとに検索を行ったり、観点を切り替え検索結果を多面的に表示したりすることが有効である。さらに、現在では、検索の目的は求める文書を探し出すだけに留まらず、ある情報に関する調査や分析を行うといったところにまで広がっている。このような場面においても目的に応じて文書を見る観点を切り替えるというアプローチは有効である。
発明者らの所属する研究室では、これまで、同じ構造を持つ半構造化文書の検索結果について、ユーザが縦軸横軸として指定した2つの項目を観点とするクラスタリングを行い、その分布状況を二次元マトリクス表示する多面的分析システムを提案した(非特許文献1など参照)。このシステムの特徴は、クラスタリング、特徴語抽出、二次元マトリクス表示の3点にある。
多面的分析システムでは、クラスタリングの分割数を変更してその結果の変化から各文書間の関係を分析したり、各パラメータを少しずつ変更したりズーミングを行ったりして連続的に検索を繰り返す等、様々な方法で分析を行うことが可能である。
廣川佐千男,外3名著,"教員データに対する多面的検索システム",夏のデータベースワークショップ(DBWS2005),電子情報通信学会技術研究報告DE2005−118,p.67−72,2005
しかしながら、現在の多面的分析システムでは、分割数を変更したときの増加したクラスタの解釈や、一度行った検索の再現といった部分はユーザが手作業で行う必要がある。そのため、ユーザにはかなりの負担が強いられるというのが現状である。
また、現在の多面的分析システムでは、文書数に偏りのあるクラスタリング結果が得られることがある。文書数に偏りのあるクラスタリング結果とは、例えば、文書群を5つにクラスタリングした際、1件もしくは数えるほどしか文書が入っていないクラスタが4つでき、残りの文書を全て含む大きなクラスタが1つできるという結果のような場合である。
検索結果全体を俯瞰したいときには、ある程度大きな視野から段階的に結果を絞り込む。そのため、クラスタリング結果に偏りがあったり、文書数の小さいコミュニティが出てきてたりしたら、検索結果全体の俯瞰としては望ましくない。多面的検索システムのクラスタリング結果は、各クラスタの文書数のバランスがよいものほど望ましいのである。バランスのよいクラスタリングとは、例えば検索結果として得られた100件の文書を5つのクラスタに分類するとき各クラスタの文書数が20件ずつとなるように、各クラスタに含まれる文書数がそれぞれ同程度である場合である。
発明者らは、文書のクラスタリングにおいて偏った結果となる原因の一つとして、低頻度語に着目した。通常、クラスタリングを行なう場合の属性の次元はそれほど多くない。しかし、文書を対象としたクラスタリングを行なう場合、単語を属性とみなしクラスタリングを行なう。この際、単語の種類の数が属性の次元となる。その数は文書に依存し、一般的に文書数よりも格段に多い。そのため、文書−単語行列が非常に疎な行列となる。加えて、その大部分は文書頻度が少ない単語である。このような低頻度語が多くクラスタリングに使われると他の文書とは似つかないユニークな文書が多くなってしまい、その結果、クラスタリング結果は1つないしいくつかのユニークな文書で構成されるクラスタが数個と大きなクラスタが1個といったバランスの悪いものになってしまう。
そこで、本発明は、各クラスタの文書数の偏りを防ぐのに適した文書分類装置等を提案することを目的とする。
請求項1に係る発明は、指定された個数に複数の文書データを分類する文書分類装置であって、前記複数の文書データから単語を抽出する単語抽出手段と、前記単語抽出手段により抽出された各単語が存在する文書データの数を計算する文書数計算手段と、前記指定された個数に基づいて、前記文書数計算手段により計算された文書データの数の多い単語から順に単語を抽出する単語限定手段と、前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化手段と、前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類手段と、を備えるものである。
請求項2に係る発明は、請求項1に記載の文書分類装置であって、前記単語限定手段により抽出された単語から、前記分類手段により分類された各ベクトル群の特徴語を抽出する特徴語抽出手段を備えるものである。
請求項3に係る発明は、請求項1又は2に記載の文書分類装置であって、前記指定された個数をKとし、前記記憶手段に記憶された文書データの数をRとし、関数f(x)を整数nとn(n<n)に対してf(R/n)≧f(R/n)を満たす関数とし、前記単語限定手段が、前記文書数計算手段により計算された文書データの数がf(R/K)以上である単語を抽出するものである。
請求項4に係る発明は、請求項3に記載の文書分類装置であって、前記単語限定手段が、前記文書数計算手段により計算された文書データの数がR/K以上である単語を抽出するものである。
請求項5に係る発明は、請求項1又は2に記載の文書分類装置であって、前記指定された個数をKとし、関数g(x)を整数nとn(n<n)に対してg(n)≦g(n)を満たす関数とし、前記単語限定手段が、前記文書数計算手段により計算された文書データの数が多い順に単語をg(K)個抽出するものである。
請求項6に係る発明は、請求項5に記載の文書分類装置であって、前記単語限定手段が、前記文書数計算手段により計算された文書データの数が多い順に単語をK個抽出するものである。
請求項7に係る発明は、請求項1から6のいずれかに記載の文書分類装置であって、前記単語限定手段が、抽出された単語のうち、存在する文書データの数が所定の数以上のものを除くものである。
請求項8に係る発明は、指定された個数に複数の文書データを分類する文書分類方法であって、単語抽出手段が、前記複数の文書データから単語を抽出する単語抽出ステップと、文書数計算手段が、前記単語抽出手段により抽出された各単語が出現する文書データの数を計算する文書数計算ステップと、単語限定手段が、前記指定された個数に基づいて、前記文書数計算手段により計算された文書数の多い単語から順に単語を抽出する単語限定ステップと、ベクトル化手段が、前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化ステップと、分類手段が、前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類ステップと、を含むものである。
請求項9に係る発明は、コンピュータを、請求項1から4のいずれかに記載の文書分類装置として機能させるためのプログラムである。
請求項10に係る発明は、請求項9記載のプログラムを記録した記録媒体である。
本発明によれば、低頻度語をクラスタリングに利用しないことにより、偏ったクラスタリング結果とならないようにすることができる。
また、請求項4及び5に係る発明によれば、低頻度語とみなす閾値を文書データの数Rと分割数(クラスタ数)Kにより決定する。例えば請求項5に係る発明において、R=100、K=5の場合、文書数計算手段により計算された各単語が存在する文書データの数(以下、「文書頻度」という。)が20以上の単語を使ってクラスタリングを行う。文書頻度が1〜19の単語を用いてクラスタリングを行うと、その単語が出現している数少ない文書データが、それ以外の多数の文書とクラスタを形成し難い状況を生む可能性があるからである。
さらに、クラスタリングを行う対象文書群において出現単語がジップの法則に従う場合、文書頻度がR/K以上の単語はK個前後となる。請求項6及び7に係る発明においては、低頻度語とみなす閾値を分割数Kにより決定する。
さらに、請求項7に係る発明によれば、高頻度語もクラスタリングに利用しないことにより、偏ったクラスタリング結果を防止することが可能となる。
図1は、本発明の実施の形態に係る文書分類装置1の概略ブロック図である。
文書分類装置1は、分類の対象となるR個のデータファイルを記憶する文書データ記憶部3と、文書データ記憶部3に記憶されたデータファイルから単語を抽出する単語抽出部5と、単語抽出部5により抽出された各単語が存在するデータファイルの数を計算する文書数計算部7と、分類個数Kが指定される分類個数入力部9と、分類に用いる単語を、存在するデータファイルの数が多い単語から順にKの値に基づいて抽出する単語限定部11と、単語限定部11により抽出された単語を用いて文書データ記憶部3に記憶されたデータファイルをベクトル化するベクトル化部13と、ベクトルをK個にクラスタ化する分類部15と、単語限定部11により抽出された単語から各クラスタの特徴語を抽出する特徴語抽出部17とを備える。
続いて、図2を参照して、図1の文書分類装置1の動作の一例について説明する。図2は、図1の文書分類装置1の動作を示すフロー図である。
まず、単語抽出部5は、文書データ記憶部3に記憶されたデータファイルから単語wを抽出する(図2のステップST1)。
次に、文書数計算部7は、各単語wに対し、その単語が存在する文書数(document frequency)df(w)を計算する(図2のステップST2)。
次に、分類個数入力部9に、データファイルを分類する個数Kが指定される(図2のステップST3)。ここでは、利用者が分類個数Kを入力するとする。分類個数Kが入力されると、単語限定部11は、文書数計算部7により計算されたdf(w)がR/K以上の単語を抽出する(図2のステップST4)。ここで、単語限定部11により抽出された単語を、W={w,...,w}とする。
次に、ベクトル化部13は、文書データ記憶部3に記憶されたデータファイル群をWを用いてベクトル化する(図2のステップST5)。
次に、分類部15はベクトルをK個にクラスタリングする(図2のステップST6)。クラスタリング手法は、大きく、階層的手法と非階層的手法(k-means法など)が知られている。階層的手法は、凝縮型と分割型とに分けることができる。
凝縮型はボトムアップなクラスタリング手法である。最初に、各データを唯一の要素とするクラスタとみなし、クラスタ間の距離(ユークリッド距離や都市ブロック距離など)が近いものから順にクラスタを結合させていき、結合する文書もしくはクラスタ間の距離がある閾値を超えた時点または指定したクラスタ数になった時点で終了する。
分割型は、対象データを2つに分割していく作業を繰り返すことでクラスタリングを行う。階層的手法では、クラスタの結合もしくは分割の順序を表すデンドログラムが構成される。
次に、特徴語抽出部17は各クラスタの特徴語をWから抽出する(図2のステップST7)。ここで、特徴語の抽出は、例えば、統計的な手法、文書群から特徴語を抽出する手法、多数決法を利用することにより実現可能である。例えば統計的な手法を利用する場合、クラスタに含まれる文書群のみから単独で特徴語が決まるわけではなく、その比較対象が必要になるが、各クラスタの違いが明確に表現される。
なお、単語限定部11は、関数f(x)を整数nとn(n<n)に対してf(R/n)≧f(R/n)を満たす関数とし、df(wi)がf(R/K)以上である単語を抽出するものであってもよい。
また、単語限定部11は、df(w)が大きい順に単語をK個抽出するものであってもよい。また、関数g(x)を整数nとn(n<n)に対してg(n)≦g(n)を満たす関数とし、df(w)が大きい順に単語をg(K)個抽出するものであってもよい。
さらに、単語限定部11は、df(w)がデータファイル数Rと比較して大きいものとなる単語は抽出しないようにしてもよい。このような単語は多くのデータファイルに存在するものであり、均等な分類には適さないものである。そのため、このような単語を用いないようにすることにより、均等な分類を得られやすくなることが期待でき、さらに、計算量を減少することができる。
さらに、単語限定部11は、df(w)がR/Kに近い順に所定の数(例えば、K個、関数h(x)を整数nとn(n<n)に対してh(n)≦h(n)を満たす関数としてh(K)個)の単語を抽出するものであってもよい。
さらに、文書データ記憶部3に記憶されたデータファイルは、半構造化文書に関するものであってもよい。
続いて、本実施例のような単語を限定してのクラスタリング法(以下、「マスク・クラスタリング法」という。)によるクラスタリング結果の検証結果を説明する。
バランスのよさは、データのばらつきの尺度である分散vを用いて(1)式のように定式化する。分散vの値が小さいほどバランスがよいといえる。
実験には、2001年度の特許明細書567,189件からランダムに選択した10,000件のデータの「発明の効果」の項目部分を用いる。なお、その10,000件において「発明の効果」の項目が存在しないものもあり、正確にはそれらを省いた7,391件のデータを用いた。
図3は、「発明の効果」項目7,391件に出現する単語の順位と頻度の関係を示すグラフである。図3により、出現する単語はベキ分布に従っていることが確認できる。
続いて、実験の流れについて説明する。7,391件の文書群から特定の語を含む部分文書群を決め、マスク値を変化させてマスク処理を施しクラスタリングを行うことでクラスタの要素数の分散がどのように変化するかを観察する。
図4は、「方法」という単語を含む文書群R=1,124件をK=5個にクラスタリングした結果を示す図である。x軸はマスク値、y軸はそのときの分散を示す。例えば、(100,1000)という点は、出現頻度100以上の単語を用いてクラスタリングを行った結果、分散は1000であったことを意味する。x=0は、全くマスク処理を施していない状態である。また、垂直線Lはマスク処理の閾値の目安であるR/Kの位置を示すものである。
分散であるy軸の値が小さいほうがバランスがよいクラスタリング結果である。図4を参照して、下に凸のグラフが得られている。そのため、マスク処理がバランスの良いクラスタリングを行うのに有効であることが確認できる。
続いて、クラスタ数Kと分散vが極小となるマスク値との関係性を見るために、クラスタ数を変化させてその分散の極小点の変化を調べる。
図5は、「制御」を含む文書群912件に対しクラスタリングを行った結果を示すグラフである。x軸はクラスタリングに用いられた単語の文書頻度の最小ランクを示し、y軸はその分散を示す。その極小点が確認しやすいようにベジエ曲線を用いている。
図5を参照して、クラスタ数が増加することで全体的に分散が小さくなる。その極小点のx座標は増加している(線L参照)。
また、図6は、ジップの法則に従うことだけをルールとして人工的に作成した文書−単語行列に対してクラスタリングを行った結果を、図5と同様にプロットしたグラフである。ジップの法則に従う場合、単語の順位と頻度の関係は、図7に示すようになる。図6を参照すると、分割数が大きくなるにつれ、極小点のx座標は増加している(線L参照)。よって、分散を極小にするためにはクラスタ数が大きいほど文書頻度の上位からより多くの単語を用いるべきこととなる。
続いて、マスク・クラスタリング法の妥当性の検証について説明する。
クラスタリングの正確さの尺度としてEntropy、Purityの二つの尺度を用いる。
Entropyは、同一クラスタ内の文書が正解クラスタ集合においてどれだけ様々な正解クラスタに分散しているかを表すものである。Entropyは、(2)式で定義される。
クラスタリング結果全体のEntropyは、各クラスタのEntropyをクラスタサイズで重み付けした値の合計で求める。全体のEntropyは、(3)式で定義される。
もし、クラスタC内の文書が様々な正解クラスタに属するならば、Entropyの値は増加する。よって、一般的にEntropyが小さいほどより正確なクラスタリングであり、各クラスタについて、同一クラスタに分類された文書が全て同一正解クラスタ内の文書の場合、Entropyは0となる。
Purityは情報検索で一般的に用いられている適合率に似た指標で、一般的にPurityが大きいほど、より良いクラスタリング結果である。Purityは、(4)式で定義される。
クラスタリング結果全体のPurityは各クラスタのPurityをクラスタサイズで重み付けした値の合計で求める。全体のPurityは、(5)式で定義される。
これらの評価指標を使うためには、正解集合が必要である。そこで、7,391件の特許データの「発明の効果」項目に対して、特定のクエリで検索を行い重複がないような部分集合AとBを決め、それらを正解集合とする。具体的には、「画像」と「装置」の2単語を共に含むような文書群を正解クラスタA、「回路」を含み「画像」を含まない文書群を正解クラスタBとした。文書群Aのサイズは280件、文書群Bのサイズは285件と、各正解クラスタのサイズは同程度である。
文書集合R=A∪Bに対し、凝縮型の階層的クラスタリングである完全リンク法を用いて、文書間類似度としてユークリッド距離およびcorrelationの2つの場合においてマスク処理を施した場合と施さない場合でクラスタ数5でクラスタリングを行い、Purity、Entropyの二つの尺度を用いて評価値を求める。correlationはピアソン相関係数を利用した距離の計算方法である。文書間の相関係数rは−1から1までの実数値を取り、文書間の距離dはd=1−rで定義されている。0≦d≦2である。
マスク値には文書頻度100を設定し、それぞれの方法においてクラスタ数5で統一してクラスタリングを行い、Purity、Entropyの二つの尺度を用いて評価値を求めた。表1は、文書集合Rに対して各手法を用いてクラスタリングを行った結果の評価値をまとめたものである。表中のマスク100は文書頻度が100以上の単語のみを用いたクラスタリングの結果である。
表1より、ユークリッド距離もcorrelationも、マスク処理を施した後の方がPurityの値は高く、Entropyの値は低くなっており、共に良くなっている。よって、マスク処理を施すことでクラスタの偏りが解消されるだけでなく、クラスタリングの精度も向上させている。特にユークリッド距離のとき、マスク処理を施すことでEntropyが急激によくなっている。
なお、以上では、マスク処理を施して一般的な凝縮型の階層的手法を用いたが、マスク処理はクラスタリングに使用する単語を厳選するだけであり、クラスタリング手法には依存しない。そのため、例えば、マスク処理を施してk-means法やCLUTOといったクラスタリング手法や他の手法を適用するようにしてもよい。
本発明の実施の形態に係る文書分類装置1の概略ブロック図である。 図1の文書分類装置1の動作を示すフロー図である。 「発明の効果」項目7,391件に出現する単語の順位と頻度の関係を示すグラフである。 「方法」という単語を含む文書群R=1,124件をK=5個にクラスタリングした結果を示す図である。 「制御」を含む文書群912件に対しクラスタリングを行った結果を示すグラフである。 ジップの法則に従うことだけをルールとして人工的に作成した文書−単語行列に対してクラスタリングを行った結果を、図5と同様にプロットしたグラフである。 ジップの法則に従う場合の単語の順位と頻度の関係を示す図である。
符号の説明
1 文書分類装置、3 文書データ記憶部、5 単語抽出部、7 文書数計算部、9 分類個数入力部、11 単語限定部、13 ベクトル化部、15 分類部、17 抽出部

Claims (10)

  1. 指定された個数に複数の文書データを分類する文書分類装置であって、
    前記複数の文書データから単語を抽出する単語抽出手段と、
    前記単語抽出手段により抽出された各単語が存在する文書データの数を計算する文書数計算手段と、
    前記指定された個数に基づいて、前記文書数計算手段により計算された文書データの数の多い単語から順に単語を抽出する単語限定手段と、
    前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化手段と、
    前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類手段と、
    を備える文書分類装置。
  2. 前記単語限定手段により抽出された単語から、前記分類手段により分類された各ベクトル群の特徴語を抽出する特徴語抽出手段を備える、請求項1に記載の文書分類装置。
  3. 前記指定された個数をKとし、前記記憶手段に記憶された文書データの数をRとし、関数f(x)を整数nとn(n<n)に対してf(R/n)≧f(R/n)を満たす関数とし、
    前記単語限定手段は、前記文書数計算手段により計算された文書データの数がf(R/K)以上である単語を抽出する、請求項1又は2に記載の文書分類装置。
  4. 前記単語限定手段は、前記文書数計算手段により計算された文書データの数がR/K以上である単語を抽出する、請求項3に記載の文書分類装置。
  5. 前記指定された個数をKとし、関数g(x)を整数nとn(n<n)に対してg(n)≦g(n)を満たす関数とし、
    前記単語限定手段は、前記文書数計算手段により計算された文書データの数が多い順に単語をg(K)個抽出する、請求項1又は2に記載の文書分類装置。
  6. 前記単語限定手段は、前記文書数計算手段により計算された文書データの数が多い順に単語をK個抽出する、請求項5に記載の文書分類装置。
  7. 前記単語限定手段は、抽出された単語のうち、存在する文書データの数が所定の数以上のものを除く、請求項1から6のいずれかに記載の文書分類装置。
  8. 指定された個数に複数の文書データを分類する文書分類方法であって、
    単語抽出手段が、前記複数の文書データから単語を抽出する単語抽出ステップと、
    文書数計算手段が、前記単語抽出手段により抽出された各単語が出現する文書データの数を計算する文書数計算ステップと、
    単語限定手段が、前記指定された個数に基づいて、前記文書数計算手段により計算された文書数の多い単語から順に単語を抽出する単語限定ステップと、
    ベクトル化手段が、前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化ステップと、
    分類手段が、前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類ステップと、
    を含む文書分類方法。
  9. コンピュータを、請求項1から4のいずれかに記載の文書分類装置として機能させるためのプログラム。
  10. 請求項9記載のプログラムを記録した記録媒体。
JP2007145343A 2007-05-31 2007-05-31 文書分類装置、文書分類方法、プログラム及び記録媒体 Pending JP2008299616A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007145343A JP2008299616A (ja) 2007-05-31 2007-05-31 文書分類装置、文書分類方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007145343A JP2008299616A (ja) 2007-05-31 2007-05-31 文書分類装置、文書分類方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2008299616A true JP2008299616A (ja) 2008-12-11

Family

ID=40173084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007145343A Pending JP2008299616A (ja) 2007-05-31 2007-05-31 文書分類装置、文書分類方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2008299616A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003334A (ja) * 2010-06-14 2012-01-05 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法、そのプログラムおよび記録媒体
JP2012173813A (ja) * 2011-02-17 2012-09-10 Jvc Kenwood Corp コンテンツ分類装置、コンテンツ分類方法およびコンテンツ分類プログラム
JP6154933B1 (ja) * 2016-03-29 2017-06-28 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139222A (ja) * 2002-10-16 2004-05-13 Internatl Business Mach Corp <Ibm> 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2005063157A (ja) * 2003-08-13 2005-03-10 Fuji Xerox Co Ltd 文書クラスタ抽出装置および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139222A (ja) * 2002-10-16 2004-05-13 Internatl Business Mach Corp <Ibm> 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2005063157A (ja) * 2003-08-13 2005-03-10 Fuji Xerox Co Ltd 文書クラスタ抽出装置および方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200600838004; 大久保 好章: 'Top-N形式概念に基づく文書クラスタの抽出' 第74回 知識ベースシステム研究会資料 (SIG-KBS-A601) , 20060727, 27-32ページ, 社団法人人工知能学会 *
JPN6012021819; 大久保 好章: 'Top-N形式概念に基づく文書クラスタの抽出' 第74回 知識ベースシステム研究会資料 (SIG-KBS-A601) , 20060727, 27-32ページ, 社団法人人工知能学会 *
JPN6012021822; 徳永 健伸: 言語と計算5 情報検索と言語処理 第1版, 19991125, 15-28ページ、193-194ページ, 財団法人東京大学出版会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003334A (ja) * 2010-06-14 2012-01-05 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法、そのプログラムおよび記録媒体
JP2012173813A (ja) * 2011-02-17 2012-09-10 Jvc Kenwood Corp コンテンツ分類装置、コンテンツ分類方法およびコンテンツ分類プログラム
JP6154933B1 (ja) * 2016-03-29 2017-06-28 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム
JP2017182341A (ja) * 2016-03-29 2017-10-05 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
Li et al. Contextual bag-of-words for visual categorization
JP6004016B2 (ja) 情報変換方法、情報変換装置および情報変換プログラム
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN107194430B (zh) 一种样本筛选方法及装置,电子设备
CN103473327A (zh) 图像检索方法与系统
JP5458815B2 (ja) マルチメディア検索システム
CN113850281B (zh) 一种基于meanshift优化的数据处理方法和装置
CN108595688A (zh) 基于在线学习的潜在语义跨媒体哈希检索方法
Yang et al. A feature-metric-based affinity propagation technique for feature selection in hyperspectral image classification
JP2012042990A (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
Ju et al. Fusing global and local features for generalized ai-synthesized image detection
Hahsler et al. remm: Extensible markov model for data stream clustering in r
JP4937395B2 (ja) 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
Maher et al. Effectiveness of different similarity measures for text classification and clustering
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
CN111506726B (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
Torres-Tramón et al. Topic detection in Twitter using topology data analysis
CN104143088A (zh) 一种基于图像检索和特征权重学习的人脸识别方法
JP2008299616A (ja) 文書分類装置、文書分類方法、プログラム及び記録媒体
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质
Omori et al. Predict inter-photo visual similarity via pre-trained computer vision models
Saito et al. Demian: Deep modality invariant adversarial network
Saxena et al. Evolving efficient clustering patterns in liver patient data through data mining techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100701

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121109