JP2000181936A - 文書特徴抽出装置および文書分類装置 - Google Patents

文書特徴抽出装置および文書分類装置

Info

Publication number
JP2000181936A
JP2000181936A JP10375720A JP37572098A JP2000181936A JP 2000181936 A JP2000181936 A JP 2000181936A JP 10375720 A JP10375720 A JP 10375720A JP 37572098 A JP37572098 A JP 37572098A JP 2000181936 A JP2000181936 A JP 2000181936A
Authority
JP
Japan
Prior art keywords
document
feature vector
similarity
cluster
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10375720A
Other languages
English (en)
Inventor
Hideharu Kato
英晴 加藤
Yuichi Tezuka
祐一 手塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10375720A priority Critical patent/JP2000181936A/ja
Publication of JP2000181936A publication Critical patent/JP2000181936A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 WWW上において元の文書(所定の文書)の
リンク先文書の特徴ベクトルを求め、この求められた特
徴ベクトルに基づいて、上記元の文書の特徴ベクトルを
生成する場合、この生成された元の文書の特徴ベクトル
が適切である文書特徴抽出装置および文書分類装置を提
供することを目的とするものである。 【解決手段】 WWW上において元の文書(所定の文
書)とリンクしているリンク先の文書の集合の中から、
所定の基準に基づいて適切な文書を選択し、この選択さ
れた文書に対する特徴ベクトルを用いることによって、
上記元の文書の特徴ベクトルを生成するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、WWW上の文書を
分類する文書の特徴抽出方法と、文書の分類・分野特定
方式に関する。
【0002】
【従来の技術】「文書分類」は、分類体系中の複数の分
野のうちで、所定の文書がどの分野に最も類似している
かを判定する技術である。
【0003】図7は、従来の文書分類方法において、特
徴ベクトルを生成する方法を説明する図である。
【0004】まず、「特徴ベクトル」は、所定の文書内
に出現する複数の単語の中から、1つまたは複数の単語
の組み合わせ(特徴素)を作成し、この作成された特徴
素に応じて生成する量である。
【0005】次に、一般の文書における従来の文書分類
方法について説明する。一般の文書(新聞記事、論文、
文献等の文書)が、図7(1)に示すように、段落等の
論理的構成要素を複数具備する場合、上記各段落の特徴
は、当該文書全体の特徴の一部の特徴である。したがっ
て、所定の文書における上記各段落の特徴ベクトル(図
7(1)において細矢印で示してある特徴ベクトル)を
求め、この求めた複数の特徴ベクトルに基づいて、上記
所定の文書全体の特徴ベクトル(図7(1)において太
矢印で示してある特徴ベクトル)を生成する。
【0006】そして、この全体の特徴ベクトルと最も類
似度の高い特徴ベクトルを有する分類が、上記所定の文
書の分類であると判断する。つまり、一般的な文書分類
では、所定の文書の特徴ベクトルと、各分野のそれぞれ
の特徴ベクトルとの間におけるそれぞれの類似度のうち
で最も高い類似度を有する分野に、上記所定の文書が分
類されるべきであると判断する。ここで、「分野の特徴
ベクトル」は、1つの分野にいくつかの文書が予め含ま
れ、これら複数の文書のそれぞれの特徴ベクトルに基づ
いて求められた特徴ベクトルである。
【0007】次に、WWW上の文書における従来の文書
分類方法について説明する。一般の文書について求めた
特徴ベクトルに基づいて、全体の特徴ベクトルを生成す
る上記方法と同様に、WWW上の文書についても、その
文書内に出現する単語の情報に基づいて、WWW上の文
書の特徴ベクトルを生成する。
【0008】しかし、WWW上の文書は、通常、単一文
書内の出現単語の数が比較的少ない(1つの文書に、た
とえば100個以下の単語しか出現しない)ので、その
文書の特徴ベクトルとして適切な特徴ベクトルを生成す
ることができない場合がある。つまり、WWW上の文書
を使用して特徴ベクトルを求めても、その特徴ベクトル
が適切な特徴ベクトルであるとは言えない場合がある。
【0009】ところで、WWW上の文書は、リンクで関
連付けされた複数の文書の集合によって、1つの意味を
なすという特性がある。
【0010】したがって、WWW上の1つの文書(元の
文書)のみに基づいて、その元の文書の特徴ベクトルを
生成するのではなく、図7(2)に示すように、元の文
書(文書A)にリンクで関連付けられている複数の文書
のそれぞれについて生成される特徴ベクトルを使用し
て、上記元の文書の特徴ベクトルを生成する。このよう
にすれば、WWW上の1つの文書(元の文書)のみに基
づいて、その元の文書の特徴ベクトルを生成する場合よ
りも、特徴ベクトルを生成するときにおけるデータ量が
多いので、より適切な特徴ベクトルを生成することがで
きる。
【0011】
【発明が解決しようとする課題】しかし、WWW上で、
リンクで互いに関連付けられている複数の文書は、必ず
しも論理的に関連のある文書であるとは限らない。した
がって、WWW上におけるリンク先文書の特徴ベクトル
を求め、この求められたリンク先文書の特徴ベクトルに
応じて、元の文書(所定の文書)の特徴ベクトルを生成
する場合、全てのリンク先文書を利用すると、元の文書
と関連の低い文書の特徴ベクトルまでも使用することに
なり、このようにして得られた元の文書の特徴ベクトル
は、元の文書の特徴ベクトルとしては不適切であるとい
う問題がある。
【0012】本発明は、WWW上において元の文書(所
定の文書)のリンク先文書の特徴ベクトルを求め、この
求められた特徴ベクトルに基づいて、上記元の文書の特
徴ベクトルを生成する場合、この生成された元の文書の
特徴ベクトルが適切である文書特徴抽出方法およびその
装置、文書分類方法およびその装置を提供することを目
的とするものである。
【0013】
【課題を解決するための手段】本発明は、WWW上にお
いて元の文書(所定の文書)とリンクしているリンク先
の文書の集合の中から、所定の基準に基づいて適切な文
書を選択し、この選択された文書に対する特徴ベクトル
を用いることによって、上記元の文書の特徴ベクトルを
生成するものである。
【0014】
【発明の実施の形態および実施例】まず、特徴ベクトル
を求めようとする元の文書を「文書k」と呼ぶ。この文
書kと、WWW上においてリンクで関連付けられている
文書の集合を、「文書kの1階リンク文書集合」と呼
ぶ。この文書kの1階リンク文書集合に含まれている各
文書とリンクで関連付けされている文書の集合を、「文
書kの2階リンク文書集合」と呼ぶ。上記文書kの1階
リンク文書集合からx階リンク文書集合までの文書集合
に、文書k自身を含めた文書集合を、「文書kのリンク
文書集合」と呼ぶ。
【0015】また、文書kのリンク文書集合を構成する
各文書の特徴ベクトルのうちで、互いに類似する特徴ベ
クトル(1つの文書と他の文書との類似度が所定の値以
上である特徴ベクトル)をもつ文書の集合を、「クラス
タ」と呼ぶ。このクラスタを生成することを、「クラス
タリング」と呼ぶ。新しく生成されたクラスタを構成す
る複数の文書のそれぞの特徴ベクトルに基づいて、上記
生成されたクラスタの特徴ベクトルが生成される。つま
り、文書kのリンク文書集合の中で生成される複数のク
ラスタのうちで、1つのクラスタを構成する文書数が最
大であるクラスタの特徴ベクトルを、「文書kの特徴ベ
クトル」とする。
【0016】上記のようにして、リンク文書集合に含ま
れる複数の文書の中で、元の文書(所定の文書)との類
似度が低い文書を除外し、この類似度が低い文書が除外
された複数の文書の特徴ベクトル(元の文書との類似度
が高い文書の特徴ベクトル)から元の文書の特徴ベクト
ルを生成する。
【0017】つまり、WWWにおいてリンク先文書の特
徴ベクトルを利用して、元の文書(所定の文書)の特徴
ベクトルを生成する場合に、上記のように類似度が低い
文書を除外することによって、不適切な特徴ベクトルの
影響を抑えることができ、文書の特徴をより適切に表現
する特徴ベクトルを生成することができる。
【0018】クラスタリングを行う際に、リンク文書集
合を決定するリンクの階数xを予め指定する。
【0019】図1は、本発明の一実施例である文書特徴
抽出方法におけるクラスタの概念を示す図である。
【0020】図1に示す場合、文書a(元の文書)のリ
ンク文書集合に、10個の文書a〜jが含まれ、各特徴
ベクトルが互いに類似する文書が統合され、4つのクラ
スタA、B、C、Dを形成している。
【0021】次に、クラスタリングを用いて分野の特徴
ベクトルを生成する方式、文書の分類方式について説明
する。
【0022】分野の特徴ベクトルを生成する場合、WW
W上の既存の分類体系を利用して、分野の特徴ベクトル
を生成する。また、生成した分野の特徴ベクトルを用い
て、文書を分類する。
【0023】まず、分野の特徴ベクトルを生成する動作
について説明する。
【0024】図2は、上記実施例において、分野の特徴
ベクトルを生成する動作を示すフローチャートである。
【0025】既存の分類体系(美術、音楽、スポーツ、
旅行等の分類体系)に属している文書の一部を、分野特
徴ベクトル生成用文書として用いる。これら既存の分類
体系に属する文書を、「トップページ」と呼ぶ。
【0026】図2において、まず、分野特徴生成用のト
ップページのURLのHTMLファイルを取得し(S
1)、上記トップページからのリンク回数が、予め指定
された回数になるまで(S2)、HTMLファイル内か
らリンク先URLを抽出し(S3)、HTMLファイル
を取得し(S1)、トップページのリンク回数が指定回
数になったら(S2)、HTMLファイルからタグを除
去し(S4)、このタグが除去された文書について形態
素を解析する(S5)。
【0027】ここで、「形態素」は、日本語の文章を品
詞で区切った最小単位である。日本語の文章を形態素解
析ツールにかけると、形態素解析ツールが持っている辞
書の文法に従い、文章が、単一品詞で構成される語に分
解される。この分解された単一品詞で構成される語が形
態素である。
【0028】そして、特徴素抽出を行う(S6)。つま
り、分野特徴ベクトル生成用文書の全てのトップページ
に対するリンク文書集合の中から名詞句を抽出する。名
詞句が2形態素以上で構成されていれば、全ての2連続
形態素を特徴素として抽出し、各文書における各特徴素
の出現回数を調べる。
【0029】ここで、「特徴素」は、文章の内容を表現
する代表的な語句のことであり、文書を分類しようとす
る人に応じて定義される語句のことである。特徴素とし
て、名詞、形容詞等の単一の品詞で構成されている語を
選んでもよく、名詞句(名詞の連続する語句)や名詞b
igram(2連続名詞)のように、複数の単語で構成
されている語を選んでもよい。また、品詞に基づいて決
めるのでなく、漢字単語、単漢字、カタカナ語等を特徴
素として選ぶようにしてもよい。上記実施例では、特徴
素として名詞bigramを選んでおり、名詞句(名詞
の連続からなる語句)の中のあらゆる2連続名詞を取り
出している。たとえば、「この商品は期間限定商品で
す」という文章には、「商品」「期間」「限定」「商
品」という4つの名詞が含まれ、その名詞句として、
「期間限定商品」という語句が存在する。この場合、名
詞bigramは、「期間限定」「限定商品」の2つで
ある。
【0030】特徴素を抽出した(S6)後、キーワード
テーブルに特徴素を登録し、URL情報テーブルにUR
Lを登録し、生成文書頻度テーブルに、出現回数を登録
する(S7)。
【0031】その後、各特徴素について分野毎の出現回
数の分散を計算し、キーワードを選出する(S8)。こ
こで、「キーワード」は、文書の特徴ベクトルを生成す
るために用いる特徴素である。分野毎の各特徴素の出現
回数の分散が大きい特徴素を、その大きい順に、n個選
出し、この選出されたn個の特徴素を、キーワードとす
る。なお、「特徴素の分散σi 2」は、次のように表わさ
れる。 σi 2=Σr s(Xri−mi2 /s ここで、Xriは、分野r中において特徴素iが出現する
回数であり、mi は、特徴素iの平均出現回数(各分野
において特徴素iが出現する回数の平均)であり、s
は、分野数である。そして、各特徴素の分散とキーワー
ドとを、DBのキーワードテーブルに登録する(S
9)。
【0032】そして、各キーワードの特徴ベクトルを生
成する(S10)。つまり、各キーワードの文書内出現
回数を成分にもつ次のような出現頻度ベクトルVk を、
各文書に対して用意する。 Vk =(vk1,vk2,…vkn) ここで、vkiは、文書k内に出現する特徴素iの出現回
数である。
【0033】「キーワードの特徴ベクトル」は、そのキ
ーワードが現れる文書の出現頻度ベクトルを、その文書
内出現回数の重みで、全ての文書について足しあわせた
ものである。キーワードiの特徴ベクトルWi を、以下
のように表わす。 Wi =(wi1,wi2,…win)=Σk mkik /|Vk
| ここで、nは、キーワード数であり、mは、文書数であ
り、vkiは、文書k内に出現するキーワードiの出現回
数である。
【0034】キーワードiの特徴ベクトルWi のベクト
ル要素wijは、以下のように表わすことができる。 Wij=Σk mki・vkj/|Vk | そして、全てのキーワードに対して特徴ベクトルを求
め、DB(データベース)の特徴ベクトル要素テーブル
に、各キーワードの特徴ベクトル要素を登録する(S1
1)。
【0035】その後、文書特徴ベクトルを生成する(S
12)。「文書の特徴ベクトル」は、文書内に現れる各
キーワードの特徴ベクトルを、その出現回数の重みで足
しあわせたものである。文書kの特徴ベクトルPk を、
以下のように表わす。 Pk =Σi nkii /|Wi | そして、全てのトップページのリンク文書集合に含まれ
る文書に対して特徴ベクトルを求める。
【0036】次に、クラスタリングを行う(S13〜S
19)。つまり、トップページのリンク文書集合中にお
ける2文書間の類似度を、全ての文書について計算する
(S13)。ここで、文書Aと文書Bとの類似度S
ABは、2つの特徴ベクトル間の内積であり、次のように
表わす。 SAB=(PA ・PB )/(|PA |・|PB |) リンク文書集合中における全ての2文書間の類似度のう
ちで、その類似度が最大になる組(文書Aと文書Bとに
よって構成される組)を統合し、1つのクラスタを生成
する(S14)。
【0037】類似度が最大になる組が複数個存在する場
合、それらを任意の1組に統合し、1つのクラスタを生
成する。新しく生成されたクラスタの特徴ベクトルは、
クラスタを構成する文書の特徴ベクトルの重心ベクトル
で表わす。新しく生成されたクラスタと、その他のクラ
スタとの類似度を計算し(S15)、上記と同様に最大
類似度を与える2つの文書(クラスタ)を1つのクラス
タへ統合する。全てのクラスタ間の類似度が、予め指定
された閾値α以下になるまで、上記操作を繰り返す(S
16)。
【0038】トップページkのリンク文書集合中で、ク
ラスタを構成する文書数が最大であるクラスタが唯一で
ある場合(S17)、このクラスタの特徴ベクトルTk
を「トップページkの特徴ベクトル」とし(S20)、
特徴ベクトルテーブルに、分野の特徴ベクトルを登録す
る(S21)。最大のクラスタが複数存在する場合(S
17)、この文書集合(クラスタ)中で再び類似度を求
め(S18)、最大となる組み合わせを統合し(S1
9)、新しくクラスタを生成する。最大クラスタが唯一
に定まるまで、上記操作を繰り返す。なお、上記処理
(S20、S21)は、各分野について並列に実行され
る。
【0039】全てのトップページのリンク文書集合に対
して、クラスタリングを行い、特徴ベクトルを求める。
【0040】なお、上記各操作(S4〜S7、S12)
は、各文書について、並列に実行され、また、上記操作
(S13〜S19)は、各トップページのリンク文書集
合について、並列に実行される。
【0041】次に、クラスタの特徴ベクトルについて説
明する。ページの特徴ベクトルをPK とし、クラスタの
特徴ベクトルをTK とし、クラスタiを構成するページ
数をqi とし、クラスタjを構成するページ数をqj
し、クラスタkを構成するページ数をqk とする。い
ま、クラスタiとクラスタjとを融合して新しくクラス
タkを生成する場合、新しく生成されるクラスタkの特
徴ベクトルTk は、 Tk =(qii +qjj )/qk であり、クラスタkを構成するページ数qk は、 qk =qi +qj である。
【0042】たとえば、ページ1、ページ2、ページ3
の3つのページが存在しているとし、各特徴ベクトルを
1 、P2 、P3 とすると、各ページは、1つのページ
によって構成されているクラスタと考えることができる
ので、ページ1、ページ2、ページ3をクラスタ1、ク
ラスタ2、クラスタ3と呼ぶことができる。
【0043】また、それぞれの特徴ベクトルT1 、T
2 、T3 は、 T1 =P12 =P23 =P3 である。
【0044】ここで、初めにクラスタ1とクラスタ2と
(ページ1とページ2と)を融合し、新しいクラスタ4
を生成する場合を考える。
【0045】クラスタ4の特徴ベクトルT4 は、 T4 =(q11 +q22 )/q4 である。
【0046】クラスタ1、クラスタ2はそれぞれ1つの
ページによって構成されているので、クラスタ1を構成
するページ数q1 、クラスタ2を構成するページ数q2
は、 q1 =1、q2 =1 である。
【0047】したがって、クラスタ1とクラスタ2と
(ページ1とページ2と)が融合されたクラスタ4を構
成するページ数q4 は、 q4 =2 である。
【0048】したがって、クラスタ4の特徴ベクトルT
4 は、 T4 =(T1 +T2 )/2 である。
【0049】これをページの特徴ベクトルを用いて表す
と、 T4 =(P1 +P2 )/2 である。
【0050】次に、このクラスタ4とクラスタ3(ペー
ジ3)とを融合し、新しくクラスタ5を生成する場合を
考える。
【0051】クラスタ5の特徴ベクトルT5 は、 T5 =(q44 +q33 )/q5 である。
【0052】クラスタ4は、2つのページ(ページ1と
ページ2)によって構成されているので、 q4 =2 である。
【0053】クラスタ3は、1つのページ(ページ3)
によって構成されているので、 q3 =1 である。
【0054】したがって、クラスタ5を構成するページ
数q5 は、 q5 =3 である。
【0055】よって、クラスタ5を構成する特徴ベクト
ルT5 は、 T5 =(2T4 +T3 )/3 である。
【0056】これをページの特徴ベクトルを用いて表す
と、 T5 =(P1 +P2 +P3 )/3 である。
【0057】図3は、上記実施例において、クラスタリ
ング行う例を示す図である。
【0058】図3は、図1に示してある文書aのリンク
文書集合a〜jが4つのクラスタA、B、C、Dに統合
される過程を示す図である。
【0059】10個の文書a〜jのそれぞれは、それぞ
れが1つの文書で構成されているクラスタC1〜C10
であると考えることができる。そして、これら10個の
クラスタ(文書)間で特徴ベクトルの類似度を計算し、
最大類似度を与える組(図3では、a(C1)とb(C
2))が統合され、新しくクラスタC11が生成され
る。
【0060】次に、残りのクラスタC3〜C10とC1
1との間で類似度を求め、最大類似度を与える組(C1
1とC3)が統合され、クラスタC12が生成される。
上記操作を、全てのクラスタについて実行し、全てのク
ラスタ間の類似度が閾値α以下になるまで、繰り返す。
【0061】図3では、6回目のクラスタリングによっ
て、4つのクラスタC16、C13、C9、C10が生
成される。これら4つのクラスタが、図1に示すクラス
タA、B、C、Dに対応する。そして、文書aが含まれ
るクラスタA以外のクラスタ(クラスタB、C、D)を
除外する。つまり、文書aのリンク文書集合中におい
て、文書g、h、i、jは、文書aの特徴ベクトルを生
成する場合に不適切な特徴ベクトルを与える文書であ
り、これら文書g、h、i、jを除外し、文書a、b、
c、d、e、fの特徴ベクトルのみを用いて、文書aの
特徴ベクトルを生成する。
【0062】そして、分野の特徴ベクトル生成を行う
(S20)。つまり、分野rに属するトップページの特
徴ベクトルを用いて、分野rの特徴ベクトルCr を、以
下のように表わす。 Cr =Σk lk /|Tk | ここで、lは、分野rに属する文書数である。そして、
分野特徴ベクトル生成用文書の属する各分野に対して、
分野の特徴ベクトルを求める。
【0063】次に、上記実施例における文書分類の動作
について説明する。
【0064】図4は、上記実施例における文書分類の動
作を示すフローチャートである。
【0065】まず、分野特徴生成用のトップページのU
RLのHTMLファイルを取得し(S31)、上記トッ
プページからのリンク回数が、予め指定された回数にな
るまで(S32)、HTMLファイル内からリンク先U
RLを抽出し(S3)、HTMLファイルを取得し(S
31)、トップページのリンク回数が指定回数になった
ら(S32)、HTMLファイルからタグを除去し(S
34)、このタグが除去された文書について形態素を解
析する(S35)。
【0066】そして、形態素を解析した結果から、上記
分野特徴生成で選出したキーワードを抽出し、文書内出
現回数を調べる(S36)。つまり、分類しようとする
対象文書をkとし、文書kのリンク文書集合に含まれる
全文書から、分野の特徴ベクトル生成で選出したキーワ
ードを抽出し、各文書における各キーワードの出現回数
を調べる。
【0067】そして、文書の特徴ベクトルを生成する
(S37)。文書の特徴ベクトルは、文書内に現れる各
キーワードの特徴ベクトルをその出現回数の重みで足し
あわせたものである。キーワードiの特徴ベクトルをW
i とすると、文書kの特徴ベクトルPk を、以下のよう
に表わす。 Pk =Σi nkii /|Wi | 文書kのリンク文書集合中の全ての文書に対して、文書
の特徴ベクトルを求める。
【0068】なお、上記処理(S34〜S37)は、各
文書に対して並列に実行される。
【0069】そして、クラスタリングを行う(S3
8)。つまり、文書kのリンク文書集合内で、全ての2
文書間の類似度を計算する。分野の特徴ベクトル生成に
おけるクラスタリング(S13〜S19)と同様に、ク
ラスタリングを行い、文書kの特徴ベクトルTk を求め
る。
【0070】そして、リンク文書集合中において、最大
類似度を与える組み合わせを統合して新しいクラスタを
生成する(S39)。
【0071】新しく生成されたクラスタと、その他のク
ラスタとの類似度を計算し(S40)、リンク文書集合
中において、全てのクラスタ間の類似度が閾値α以下に
なるまで、上記処理(S39、S40)を繰り返す(S
41)。
【0072】クラスタリングによって求めた文書kの特
徴ベクトルをTk とすると、特徴ベクトルCr で表わさ
れる分野rとの類似度Sr は、以下のように表わされ
る。 Sr =(Cr ・Tk )/(|Cr |・|Tk |) そして、リンク文書集合内において、最大クラスタが唯
一でなければ(S42)、全ての2文書(クラスタ)間
の類似度を計算し(S43)、最大類似度を与える組み
合わせを統合して新しいクラスタを生成する(S4
4)。
【0073】一方、リンク文書集合内において、最大ク
ラスタが唯一であれば(S42)、生成した各分野の特
徴ベクトルとの類似度を計算し、最大類似度の分野、ま
たは類似度が、予め指定された閾値β以上の分野へ、こ
の文書(元の文書)を分類し(S45)、DBのページ
分野特定テーブルへ、分類結果とその分類された分野と
の類似度を登録する(S46)。
【0074】上記のようにすれば、WWW上の文書分類
において、リンク先文書の特徴ベクトルを利用して、文
書の特徴ベクトルを生成する際に、リンク先文書集合中
の不適切な特徴をもつ文書の特徴ベクトルが影響を与え
ない。
【0075】WWW上では、リンクで関連付けされた複
数の文書が1つの意味をなすように存在するので、意味
的に1つの内容を表現する文書集合に対して特徴ベクト
ルを生成することができ、これによって、WWW上の文
書の特徴をより適切に表現することが可能となる。した
がって、WWW上の文書分類の精度を向上することがで
きる。
【0076】図5は、上記実施例におけるデータベース
のテーブル例を示す図である。
【0077】分野テーブルは、図5(1)に示すよう
に、WWW上の既存の分類体系の分野を管理するテーブ
ルである。URL情報テーブルは、図5(2)に示すよ
うに、分野特徴生成において、生成用文書のURL、分
野等を管理するテーブルである。キーワードテーブル
は、図5(3)に示すように、文書から抽出した特徴素
の出現回数の分散や、選出したキーワードを管理するテ
ーブルである。生成ページ頻度テーブルは、図5(4)
に示すように、各生成用文書における各特徴素の出現回
数を管理するテーブルである。
【0078】また、特徴ベクトルテーブルは、図5
(5)に示すように、生成した各分野の特徴ベクトルを
管理するテーブルである。特徴ベクトル要素テーブル
は、図5(6)に示すように、各特徴ベクトルのベクト
ル要素を管理するテーブルである。ページ分野特定テー
ブルは、図5(7)に示すように、文書分類において、
各文書の分野を特定した結果と、その分野との類似度を
管理するテーブルである。
【0079】なお、図2、図4に示すフローチャートに
対応するプログラムは、所定の記録媒体に記録されてお
り、この記録媒体として、FD、CD、DVD、ハード
ディスク、半導体メモリ等が考えられる。
【0080】図6は、上記実施例である文書分類装置1
00を示すブロック図である。
【0081】文書分類装置100は、ワークステーショ
ンWS1とワークステーションWS2とによって構成さ
れている。
【0082】ワークステーションWS1は、インターネ
ット上から文書を取得する文書取得手段10と、分野を
生成する分野の生成手段20と、分野を特定する分野の
特定手段30と、各情報を格納するデータベースDBと
を有するものである。
【0083】ワークステーションWS2は、分野の生成
手段20、分野の特定手段30から要求を受け、形態素
を解析し、この解析結果を返す形態素解析手段40を有
するものである。
【0084】つまり、分野の生成手段20、分野の特定
手段30のそれぞれは、WWW上において元の文書(所
定の文書)とリンクしているリンク先の文書の集合の中
から、所定の基準に基づいて適切な文書を選択し、この
選択された文書に対する特徴ベクトルを用いることによ
って、上記元の文書の特徴ベクトルを生成する文書特徴
抽出装置の例である。この場合、上記所定の基準は、上
記リンク先の文書の集合の中における1つの文書と他の
文書との類似度が所定の値以上であるという基準であ
る。
【0085】また、文書分類装置100は、WWW上に
おいて元の文書(所定の文書)とリンクしているリンク
先の文書の集合の中から、所定の基準に基づいて適切な
文書を選択し、この選択された文書に対する特徴ベクト
ルを用いることによって、上記元の文書の特徴ベクトル
を生成する元の文書の特徴ベクトル生成手段と、所定の
分類に属する文書に基づいて、上記所定の分類の特徴ベ
クトルを生成する分類の特徴ベクトル生成手段と、上記
元の文書の特徴ベクトルと、上記所定の分類の特徴ベク
トルとに基づいて、上記元の文書が属すべき分類を判断
する所属分類判断手段とを有する文書分類装置の例であ
る。
【0086】
【発明の効果】本発明によれば、WWW上において元の
文書のリンク先文書の特徴ベクトルを求め、この求めら
れた特徴ベクトルに基づいて、上記元の文書の特徴ベク
トルを生成する場合、この生成された元の文書の特徴ベ
クトルが適切であるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である文書特徴抽出方法にお
けるクラスタの概念を示す図である。
【図2】上記実施例において、分野の特徴ベクトルを生
成する動作を示すフローチャートである。
【図3】上記実施例において、クラスタリング行う例を
示す図である。
【図4】上記実施例における文書分類の動作を示すフロ
ーチャートである。
【図5】上記実施例におけるデータベースのテーブル例
を示す図である。
【図6】上記実施例である文書分類装置100を示すブ
ロック図である。
【図7】従来の文書分類方法において、特徴ベクトルを
生成する方法を説明する図である。
【符号の説明】
100…文書分類装置、 10…文書取得手段、 20…分野の生成手段、 30…分野の特定手段、 40…形態素解析手段。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 NK06 NK32 NK43 NK54 PR04 PR06 QM08 UU06 5B082 EA00 EA01 5B089 GA11 GA21 GB03 GB04 HA10 JA01 JA21 JB02 KA01 KA04 KB07 KC28 KC53 LB14

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 WWW上において元の文書とリンクして
    いるリンク先の文書の集合の中から、所定の基準に基づ
    いて適切な文書を選択し、この選択された文書に対する
    特徴ベクトルを用いることによって、上記元の文書の特
    徴ベクトルを生成することを特徴とする文書特徴抽出装
    置。
  2. 【請求項2】 請求項1において、 上記所定の基準は、上記リンク先の文書の集合の中にお
    ける1つの文書と他の文書との類似度が所定の値以上で
    あるという基準であることを特徴とする文書特徴抽出装
    置。
  3. 【請求項3】 WWW上において元の文書とリンクして
    いるリンク先の文書の集合の中から、所定の基準に基づ
    いて適切な文書を選択し、この選択された文書に対する
    特徴ベクトルを用いることによって、上記元の文書の特
    徴ベクトルを生成することを特徴とする文書特徴抽出方
    法。
  4. 【請求項4】 請求項3において、 上記所定の基準は、上記リンク先の文書の集合の中にお
    ける1つの文書と他の文書との類似度が所定の値以上で
    あるという基準であることを特徴とする文書特徴抽出方
    法。
  5. 【請求項5】 WWW上において元の文書とリンクして
    いるリンク先の文書の集合の中から、所定の基準に基づ
    いて適切な文書を選択し、この選択された文書に対する
    特徴ベクトルを用いることによって、上記元の文書の特
    徴ベクトルを生成する元の文書の特徴ベクトル生成手段
    と;所定の分類に属する文書に基づいて、上記所定の分
    類の特徴ベクトルを生成する分類の特徴ベクトル生成手
    段と;上記元の文書の特徴ベクトルと、上記所定の分類
    の特徴ベクトルとに基づいて、上記元の文書が属すべき
    分類を判断する所属分類判断手段と;を有することを特
    徴とする文書分類装置。
  6. 【請求項6】 WWW上において元の文書とリンクして
    いるリンク先の文書の集合の中から、所定の基準に基づ
    いて適切な文書を選択し、この選択された文書に対する
    特徴ベクトルを用いることによって、上記元の文書の特
    徴ベクトルを生成する元の文書の特徴ベクトル生成段階
    段階と;所定の分類に属する文書に基づいて、上記所定
    の分類の特徴ベクトルを生成する分類の特徴ベクトル生
    成段階と;上記元の文書の特徴ベクトルと、上記所定の
    分類の特徴ベクトルとに基づいて、上記元の文書が属す
    べき分類を判断する所属分類判断段階と;を有すること
    を特徴とする文書分類方法。
  7. 【請求項7】 分野特徴生成用のトップページのURL
    のHTMLファイルを取得し、上記トップページからの
    リンク回数が、予め指定された回数になるまで、上記H
    TMLファイル内からリンク先URLを抽出し、HTM
    Lファイルを取得し、上記トップページのリンク回数が
    指定回数になったら、HTMLファイルからタグを除去
    し、このタグが除去された文書について形態素を解析す
    る形態素解析手順と;特徴素抽出を行う特徴素抽出手順
    と;上記各特徴素について分野毎の出現回数の分散を計
    算し、キーワードを選出するキーワード選出手順と;上
    記各特徴素の分散と上記キーワードとを、データベース
    のキーワードテーブルに登録する分散・キーワード登録
    手順と;上記各キーワードの特徴ベクトルを生成するキ
    ーワードの特徴ベクトル生成手順と;全てのキーワード
    に対して特徴ベクトルを求め、データベースの特徴ベク
    トル要素テーブルに、各キーワードの特徴ベクトル要素
    を登録するキーワードの特徴ベクトル要素登録手順と;
    文書特徴ベクトルを生成する文書特徴ベクトル生成手順
    と;リンク文書集合中における全ての2文書間の類似度
    のうちで、その類似度が最大になる組を統合し、1つの
    クラスタを生成するクラスタ生成手順と;新しく生成さ
    れたクラスタと、その他のクラスタとの類似度を計算
    し、最大類似度を与える2つのクラスタを1つのクラス
    タへ統合し、全てのクラスタ間の類似度が、予め指定さ
    れた閾値α以下になるまで、クラスタリングを繰り返す
    クラスタリング手順と;トップページkのリンク文書集
    合中で、クラスタを構成する文書数が最大のクラスタが
    唯一である場合、トップページkの特徴ベクトルとし、
    特徴ベクトルテーブルに、分野の特徴ベクトルを登録す
    る分野の特徴ベクトル登録手順と;をコンピュータに実
    行させるプログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  8. 【請求項8】 分野特徴生成用のトップページのURL
    のHTMLファイルを取得し、上記トップページからの
    リンク回数が、予め指定された回数になるまで、上記H
    TMLファイル内からリンク先URLを抽出し、HTM
    Lファイルを取得し、上記トップページのリンク回数が
    指定回数になったら、HTMLファイルからタグを除去
    し、このタグが除去された文書について形態素を解析す
    る形態素解析手順と;上記形態素を解析した結果から、
    分野特徴生成で選出したキーワードを抽出し、文書内出
    現回数を調べる文書内出現回数検出手順と;文書の特徴
    ベクトルを生成する文書の特徴ベクトル生成手順と;ク
    ラスタリング実行手順と;リンク文書集合中において、
    最大類似度を与える組み合わせを統合して新しいクラス
    タを生成する新クラスタ生成手順と;新しく生成された
    クラスタと、その他のクラスタとの類似度を計算し、リ
    ンク文書集合中において、全てのクラスタ間の類似度が
    閾値α以下になるまで、類似度を計算する類似度計算手
    順と;リンク文書集合内において、最大クラスタが唯一
    であれば、生成した各分野の特徴ベクトルとの類似度を
    計算し、最大類似度の分野、または類似度が、予め指定
    された閾値β以上の分野へ、元の文書を分類し、データ
    ベースのページ分野特定テーブルへ、分類結果とその分
    類された分野との類似度を登録する類似度登録手順と;
    をコンピュータに実行させるプログラムを記録したコン
    ピュータ読み取り可能な記録媒体。
JP10375720A 1998-12-17 1998-12-17 文書特徴抽出装置および文書分類装置 Pending JP2000181936A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10375720A JP2000181936A (ja) 1998-12-17 1998-12-17 文書特徴抽出装置および文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10375720A JP2000181936A (ja) 1998-12-17 1998-12-17 文書特徴抽出装置および文書分類装置

Publications (1)

Publication Number Publication Date
JP2000181936A true JP2000181936A (ja) 2000-06-30

Family

ID=18505952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10375720A Pending JP2000181936A (ja) 1998-12-17 1998-12-17 文書特徴抽出装置および文書分類装置

Country Status (1)

Country Link
JP (1) JP2000181936A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182808A (ja) * 2003-12-15 2005-07-07 Microsoft Corp 動的コンテンツクラスタリング
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
JP2008181333A (ja) * 2007-01-24 2008-08-07 Nippon Telegr & Teleph Corp <Ntt> クラスタ生成装置およびクラスタ生成方法
JP2011065255A (ja) * 2009-09-15 2011-03-31 Sharp Corp データ処理装置、データ名生成方法及びコンピュータプログラム
JP2013519152A (ja) * 2010-02-02 2013-05-23 アリババ グループ ホールディング リミテッド テキスト分類の方法及びシステム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
JP2005182808A (ja) * 2003-12-15 2005-07-07 Microsoft Corp 動的コンテンツクラスタリング
JP4627656B2 (ja) * 2003-12-15 2011-02-09 マイクロソフト コーポレーション 動的コンテンツクラスタリング
JP2008181333A (ja) * 2007-01-24 2008-08-07 Nippon Telegr & Teleph Corp <Ntt> クラスタ生成装置およびクラスタ生成方法
JP2011065255A (ja) * 2009-09-15 2011-03-31 Sharp Corp データ処理装置、データ名生成方法及びコンピュータプログラム
JP2013519152A (ja) * 2010-02-02 2013-05-23 アリババ グループ ホールディング リミテッド テキスト分類の方法及びシステム

Similar Documents

Publication Publication Date Title
Tandel et al. A survey on text mining techniques
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
Kawamae Trend analysis model: trend consists of temporal words, topics, and timestamps
Wu et al. Threading and autodocumenting news videos: a promising solution to rapidly browse news topics
US20160189057A1 (en) Computer implemented system and method for categorizing data
US8812504B2 (en) Keyword presentation apparatus and method
JP2005038386A (ja) 文章分類装置および方法
JP7139728B2 (ja) 分類方法、装置、及びプログラム
Gunawan et al. Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia
JP2008152634A (ja) 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体
Ardanuy et al. Clustering of novels represented as social networks
WO2008062822A1 (fr) Dispositif d&#39;exploration de texte, procédé d&#39;exploration de texte et programme d&#39;exploration de texte
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
D'Addio et al. A collaborative filtering approach based on user's reviews
JP2000181936A (ja) 文書特徴抽出装置および文書分類装置
Aslam et al. Web-AM: An efficient boilerplate removal algorithm for Web articles
Fei et al. Movie genre classification using TF-IDF and SVM
Barile et al. A news recommender system for media monitoring
JP2000172691A (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
Wang et al. Importance evaluation of movie aspects: aspect-based sentiment analysis
Tumpa et al. An improved extractive summarization technique for bengali text (s)
JP2002157262A (ja) 分類ルール定義支援方法
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
Potvin et al. Robust web data extraction based on unsupervised visual validation
Kongyoung et al. TLex+: a hybrid method using conditional random fields and dictionaries for Thai word segmentation