JP2000181936A

JP2000181936A - 文書特徴抽出装置および文書分類装置

Info

Publication number: JP2000181936A
Application number: JP10375720A
Authority: JP
Inventors: Hideharu Kato; 英晴加藤; Yuichi Tezuka; 祐一手塚
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-12-17
Filing date: 1998-12-17
Publication date: 2000-06-30

Abstract

(57)【要約】【課題】ＷＷＷ上において元の文書（所定の文書）の
リンク先文書の特徴ベクトルを求め、この求められた特
徴ベクトルに基づいて、上記元の文書の特徴ベクトルを
生成する場合、この生成された元の文書の特徴ベクトル
が適切である文書特徴抽出装置および文書分類装置を提
供することを目的とするものである。【解決手段】ＷＷＷ上において元の文書（所定の文
書）とリンクしているリンク先の文書の集合の中から、
所定の基準に基づいて適切な文書を選択し、この選択さ
れた文書に対する特徴ベクトルを用いることによって、
上記元の文書の特徴ベクトルを生成するものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＷＷＷ上の文書を
分類する文書の特徴抽出方法と、文書の分類・分野特定
方式に関する。

【０００２】

【従来の技術】「文書分類」は、分類体系中の複数の分
野のうちで、所定の文書がどの分野に最も類似している
かを判定する技術である。

【０００３】図７は、従来の文書分類方法において、特
徴ベクトルを生成する方法を説明する図である。

【０００４】まず、「特徴ベクトル」は、所定の文書内
に出現する複数の単語の中から、１つまたは複数の単語
の組み合わせ（特徴素）を作成し、この作成された特徴
素に応じて生成する量である。

【０００５】次に、一般の文書における従来の文書分類
方法について説明する。一般の文書（新聞記事、論文、
文献等の文書）が、図７（１）に示すように、段落等の
論理的構成要素を複数具備する場合、上記各段落の特徴
は、当該文書全体の特徴の一部の特徴である。したがっ
て、所定の文書における上記各段落の特徴ベクトル（図
７（１）において細矢印で示してある特徴ベクトル）を
求め、この求めた複数の特徴ベクトルに基づいて、上記
所定の文書全体の特徴ベクトル（図７（１）において太
矢印で示してある特徴ベクトル）を生成する。

【０００６】そして、この全体の特徴ベクトルと最も類
似度の高い特徴ベクトルを有する分類が、上記所定の文
書の分類であると判断する。つまり、一般的な文書分類
では、所定の文書の特徴ベクトルと、各分野のそれぞれ
の特徴ベクトルとの間におけるそれぞれの類似度のうち
で最も高い類似度を有する分野に、上記所定の文書が分
類されるべきであると判断する。ここで、「分野の特徴
ベクトル」は、１つの分野にいくつかの文書が予め含ま
れ、これら複数の文書のそれぞれの特徴ベクトルに基づ
いて求められた特徴ベクトルである。

【０００７】次に、ＷＷＷ上の文書における従来の文書
分類方法について説明する。一般の文書について求めた
特徴ベクトルに基づいて、全体の特徴ベクトルを生成す
る上記方法と同様に、ＷＷＷ上の文書についても、その
文書内に出現する単語の情報に基づいて、ＷＷＷ上の文
書の特徴ベクトルを生成する。

【０００８】しかし、ＷＷＷ上の文書は、通常、単一文
書内の出現単語の数が比較的少ない（１つの文書に、た
とえば１００個以下の単語しか出現しない）ので、その
文書の特徴ベクトルとして適切な特徴ベクトルを生成す
ることができない場合がある。つまり、ＷＷＷ上の文書
を使用して特徴ベクトルを求めても、その特徴ベクトル
が適切な特徴ベクトルであるとは言えない場合がある。

【０００９】ところで、ＷＷＷ上の文書は、リンクで関
連付けされた複数の文書の集合によって、１つの意味を
なすという特性がある。

【００１０】したがって、ＷＷＷ上の１つの文書（元の
文書）のみに基づいて、その元の文書の特徴ベクトルを
生成するのではなく、図７（２）に示すように、元の文
書（文書Ａ）にリンクで関連付けられている複数の文書
のそれぞれについて生成される特徴ベクトルを使用し
て、上記元の文書の特徴ベクトルを生成する。このよう
にすれば、ＷＷＷ上の１つの文書（元の文書）のみに基
づいて、その元の文書の特徴ベクトルを生成する場合よ
りも、特徴ベクトルを生成するときにおけるデータ量が
多いので、より適切な特徴ベクトルを生成することがで
きる。

【００１１】

【発明が解決しようとする課題】しかし、ＷＷＷ上で、
リンクで互いに関連付けられている複数の文書は、必ず
しも論理的に関連のある文書であるとは限らない。した
がって、ＷＷＷ上におけるリンク先文書の特徴ベクトル
を求め、この求められたリンク先文書の特徴ベクトルに
応じて、元の文書（所定の文書）の特徴ベクトルを生成
する場合、全てのリンク先文書を利用すると、元の文書
と関連の低い文書の特徴ベクトルまでも使用することに
なり、このようにして得られた元の文書の特徴ベクトル
は、元の文書の特徴ベクトルとしては不適切であるとい
う問題がある。

【００１２】本発明は、ＷＷＷ上において元の文書（所
定の文書）のリンク先文書の特徴ベクトルを求め、この
求められた特徴ベクトルに基づいて、上記元の文書の特
徴ベクトルを生成する場合、この生成された元の文書の
特徴ベクトルが適切である文書特徴抽出方法およびその
装置、文書分類方法およびその装置を提供することを目
的とするものである。

【００１３】

【課題を解決するための手段】本発明は、ＷＷＷ上にお
いて元の文書（所定の文書）とリンクしているリンク先
の文書の集合の中から、所定の基準に基づいて適切な文
書を選択し、この選択された文書に対する特徴ベクトル
を用いることによって、上記元の文書の特徴ベクトルを
生成するものである。

【００１４】

【発明の実施の形態および実施例】まず、特徴ベクトル
を求めようとする元の文書を「文書ｋ」と呼ぶ。この文
書ｋと、ＷＷＷ上においてリンクで関連付けられている
文書の集合を、「文書ｋの１階リンク文書集合」と呼
ぶ。この文書ｋの１階リンク文書集合に含まれている各
文書とリンクで関連付けされている文書の集合を、「文
書ｋの２階リンク文書集合」と呼ぶ。上記文書ｋの１階
リンク文書集合からｘ階リンク文書集合までの文書集合
に、文書ｋ自身を含めた文書集合を、「文書ｋのリンク
文書集合」と呼ぶ。

【００１５】また、文書ｋのリンク文書集合を構成する
各文書の特徴ベクトルのうちで、互いに類似する特徴ベ
クトル（１つの文書と他の文書との類似度が所定の値以
上である特徴ベクトル）をもつ文書の集合を、「クラス
タ」と呼ぶ。このクラスタを生成することを、「クラス
タリング」と呼ぶ。新しく生成されたクラスタを構成す
る複数の文書のそれぞの特徴ベクトルに基づいて、上記
生成されたクラスタの特徴ベクトルが生成される。つま
り、文書ｋのリンク文書集合の中で生成される複数のク
ラスタのうちで、１つのクラスタを構成する文書数が最
大であるクラスタの特徴ベクトルを、「文書ｋの特徴ベ
クトル」とする。

【００１６】上記のようにして、リンク文書集合に含ま
れる複数の文書の中で、元の文書（所定の文書）との類
似度が低い文書を除外し、この類似度が低い文書が除外
された複数の文書の特徴ベクトル（元の文書との類似度
が高い文書の特徴ベクトル）から元の文書の特徴ベクト
ルを生成する。

【００１７】つまり、ＷＷＷにおいてリンク先文書の特
徴ベクトルを利用して、元の文書（所定の文書）の特徴
ベクトルを生成する場合に、上記のように類似度が低い
文書を除外することによって、不適切な特徴ベクトルの
影響を抑えることができ、文書の特徴をより適切に表現
する特徴ベクトルを生成することができる。

【００１８】クラスタリングを行う際に、リンク文書集
合を決定するリンクの階数ｘを予め指定する。

【００１９】図１は、本発明の一実施例である文書特徴
抽出方法におけるクラスタの概念を示す図である。

【００２０】図１に示す場合、文書ａ（元の文書）のリ
ンク文書集合に、１０個の文書ａ〜ｊが含まれ、各特徴
ベクトルが互いに類似する文書が統合され、４つのクラ
スタＡ、Ｂ、Ｃ、Ｄを形成している。

【００２１】次に、クラスタリングを用いて分野の特徴
ベクトルを生成する方式、文書の分類方式について説明
する。

【００２２】分野の特徴ベクトルを生成する場合、ＷＷ
Ｗ上の既存の分類体系を利用して、分野の特徴ベクトル
を生成する。また、生成した分野の特徴ベクトルを用い
て、文書を分類する。

【００２３】まず、分野の特徴ベクトルを生成する動作
について説明する。

【００２４】図２は、上記実施例において、分野の特徴
ベクトルを生成する動作を示すフローチャートである。

【００２５】既存の分類体系（美術、音楽、スポーツ、
旅行等の分類体系）に属している文書の一部を、分野特
徴ベクトル生成用文書として用いる。これら既存の分類
体系に属する文書を、「トップページ」と呼ぶ。

【００２６】図２において、まず、分野特徴生成用のト
ップページのＵＲＬのＨＴＭＬファイルを取得し（Ｓ
１）、上記トップページからのリンク回数が、予め指定
された回数になるまで（Ｓ２）、ＨＴＭＬファイル内か
らリンク先ＵＲＬを抽出し（Ｓ３）、ＨＴＭＬファイル
を取得し（Ｓ１）、トップページのリンク回数が指定回
数になったら（Ｓ２）、ＨＴＭＬファイルからタグを除
去し（Ｓ４）、このタグが除去された文書について形態
素を解析する（Ｓ５）。

【００２７】ここで、「形態素」は、日本語の文章を品
詞で区切った最小単位である。日本語の文章を形態素解
析ツールにかけると、形態素解析ツールが持っている辞
書の文法に従い、文章が、単一品詞で構成される語に分
解される。この分解された単一品詞で構成される語が形
態素である。

【００２８】そして、特徴素抽出を行う（Ｓ６）。つま
り、分野特徴ベクトル生成用文書の全てのトップページ
に対するリンク文書集合の中から名詞句を抽出する。名
詞句が２形態素以上で構成されていれば、全ての２連続
形態素を特徴素として抽出し、各文書における各特徴素
の出現回数を調べる。

【００２９】ここで、「特徴素」は、文章の内容を表現
する代表的な語句のことであり、文書を分類しようとす
る人に応じて定義される語句のことである。特徴素とし
て、名詞、形容詞等の単一の品詞で構成されている語を
選んでもよく、名詞句（名詞の連続する語句）や名詞ｂ
ｉｇｒａｍ（２連続名詞）のように、複数の単語で構成
されている語を選んでもよい。また、品詞に基づいて決
めるのでなく、漢字単語、単漢字、カタカナ語等を特徴
素として選ぶようにしてもよい。上記実施例では、特徴
素として名詞ｂｉｇｒａｍを選んでおり、名詞句（名詞
の連続からなる語句）の中のあらゆる２連続名詞を取り
出している。たとえば、「この商品は期間限定商品で
す」という文章には、「商品」「期間」「限定」「商
品」という４つの名詞が含まれ、その名詞句として、
「期間限定商品」という語句が存在する。この場合、名
詞ｂｉｇｒａｍは、「期間限定」「限定商品」の２つで
ある。

【００３０】特徴素を抽出した（Ｓ６）後、キーワード
テーブルに特徴素を登録し、ＵＲＬ情報テーブルにＵＲ
Ｌを登録し、生成文書頻度テーブルに、出現回数を登録
する（Ｓ７）。

【００３１】その後、各特徴素について分野毎の出現回
数の分散を計算し、キーワードを選出する（Ｓ８）。こ
こで、「キーワード」は、文書の特徴ベクトルを生成す
るために用いる特徴素である。分野毎の各特徴素の出現
回数の分散が大きい特徴素を、その大きい順に、ｎ個選
出し、この選出されたｎ個の特徴素を、キーワードとす
る。なお、「特徴素の分散σ_i ²」は、次のように表わさ
れる。 σ_i ²＝Σ_r ^s（Ｘ_ri−ｍ_i ）² ／ｓここで、Ｘ_riは、分野ｒ中において特徴素ｉが出現する
回数であり、ｍ_i は、特徴素ｉの平均出現回数（各分野
において特徴素ｉが出現する回数の平均）であり、ｓ
は、分野数である。そして、各特徴素の分散とキーワー
ドとを、ＤＢのキーワードテーブルに登録する（Ｓ
９）。

【００３２】そして、各キーワードの特徴ベクトルを生
成する（Ｓ１０）。つまり、各キーワードの文書内出現
回数を成分にもつ次のような出現頻度ベクトルＶ_k を、
各文書に対して用意する。Ｖ_k ＝（ｖ_k1，ｖ_k2，…ｖ_kn）ここで、ｖ_kiは、文書ｋ内に出現する特徴素ｉの出現回
数である。

【００３３】「キーワードの特徴ベクトル」は、そのキ
ーワードが現れる文書の出現頻度ベクトルを、その文書
内出現回数の重みで、全ての文書について足しあわせた
ものである。キーワードｉの特徴ベクトルＷ_i を、以下
のように表わす。Ｗ_i ＝（ｗ_i1，ｗ_i2，…ｗ_in）＝Σ_k ^mｖ_kiＶ_k ／｜Ｖ_k
｜ここで、ｎは、キーワード数であり、ｍは、文書数であ
り、ｖ_kiは、文書ｋ内に出現するキーワードｉの出現回
数である。

【００３４】キーワードｉの特徴ベクトルＷ_i のベクト
ル要素ｗ_ijは、以下のように表わすことができる。Ｗ_ij＝Σ_k ^mｖ_ki・ｖ_kj／｜Ｖ_k ｜そして、全てのキーワードに対して特徴ベクトルを求
め、ＤＢ（データベース）の特徴ベクトル要素テーブル
に、各キーワードの特徴ベクトル要素を登録する（Ｓ１
１）。

【００３５】その後、文書特徴ベクトルを生成する（Ｓ
１２）。「文書の特徴ベクトル」は、文書内に現れる各
キーワードの特徴ベクトルを、その出現回数の重みで足
しあわせたものである。文書ｋの特徴ベクトルＰ_k を、
以下のように表わす。Ｐ_k ＝Σ_i ⁿｖ_kiＷ_i ／｜Ｗ_i ｜そして、全てのトップページのリンク文書集合に含まれ
る文書に対して特徴ベクトルを求める。

【００３６】次に、クラスタリングを行う（Ｓ１３〜Ｓ
１９）。つまり、トップページのリンク文書集合中にお
ける２文書間の類似度を、全ての文書について計算する
（Ｓ１３）。ここで、文書Ａと文書Ｂとの類似度Ｓ
_ABは、２つの特徴ベクトル間の内積であり、次のように
表わす。Ｓ_AB＝（Ｐ_A ・Ｐ_B ）／（｜Ｐ_A ｜・｜Ｐ_B ｜）リンク文書集合中における全ての２文書間の類似度のう
ちで、その類似度が最大になる組（文書Ａと文書Ｂとに
よって構成される組）を統合し、１つのクラスタを生成
する（Ｓ１４）。

【００３７】類似度が最大になる組が複数個存在する場
合、それらを任意の１組に統合し、１つのクラスタを生
成する。新しく生成されたクラスタの特徴ベクトルは、
クラスタを構成する文書の特徴ベクトルの重心ベクトル
で表わす。新しく生成されたクラスタと、その他のクラ
スタとの類似度を計算し（Ｓ１５）、上記と同様に最大
類似度を与える２つの文書（クラスタ）を１つのクラス
タへ統合する。全てのクラスタ間の類似度が、予め指定
された閾値α以下になるまで、上記操作を繰り返す（Ｓ
１６）。

【００３８】トップページｋのリンク文書集合中で、ク
ラスタを構成する文書数が最大であるクラスタが唯一で
ある場合（Ｓ１７）、このクラスタの特徴ベクトルＴ_k
を「トップページｋの特徴ベクトル」とし（Ｓ２０）、
特徴ベクトルテーブルに、分野の特徴ベクトルを登録す
る（Ｓ２１）。最大のクラスタが複数存在する場合（Ｓ
１７）、この文書集合（クラスタ）中で再び類似度を求
め（Ｓ１８）、最大となる組み合わせを統合し（Ｓ１
９）、新しくクラスタを生成する。最大クラスタが唯一
に定まるまで、上記操作を繰り返す。なお、上記処理
（Ｓ２０、Ｓ２１）は、各分野について並列に実行され
る。

【００３９】全てのトップページのリンク文書集合に対
して、クラスタリングを行い、特徴ベクトルを求める。

【００４０】なお、上記各操作（Ｓ４〜Ｓ７、Ｓ１２）
は、各文書について、並列に実行され、また、上記操作
（Ｓ１３〜Ｓ１９）は、各トップページのリンク文書集
合について、並列に実行される。

【００４１】次に、クラスタの特徴ベクトルについて説
明する。ページの特徴ベクトルをＰ_K とし、クラスタの
特徴ベクトルをＴ_K とし、クラスタｉを構成するページ
数をｑ_i とし、クラスタｊを構成するページ数をｑ_j と
し、クラスタｋを構成するページ数をｑ_k とする。い
ま、クラスタｉとクラスタｊとを融合して新しくクラス
タｋを生成する場合、新しく生成されるクラスタｋの特
徴ベクトルＴ_k は、Ｔ_k ＝（ｑ_i Ｔ_i ＋ｑ_j Ｔ_j ）／ｑ_k であり、クラスタｋを構成するページ数ｑ_k は、ｑ_k ＝ｑ_i ＋ｑ_j である。

【００４２】たとえば、ページ１、ページ２、ページ３
の３つのページが存在しているとし、各特徴ベクトルを
Ｐ₁ 、Ｐ₂ 、Ｐ₃ とすると、各ページは、１つのページ
によって構成されているクラスタと考えることができる
ので、ページ１、ページ２、ページ３をクラスタ１、ク
ラスタ２、クラスタ３と呼ぶことができる。

【００４３】また、それぞれの特徴ベクトルＴ₁ 、Ｔ
₂ 、Ｔ₃ は、Ｔ₁ ＝Ｐ₁ Ｔ₂ ＝Ｐ₂ Ｔ₃ ＝Ｐ₃ である。

【００４４】ここで、初めにクラスタ１とクラスタ２と
（ページ１とページ２と）を融合し、新しいクラスタ４
を生成する場合を考える。

【００４５】クラスタ４の特徴ベクトルＴ₄ は、Ｔ₄ ＝（ｑ₁ Ｔ₁ ＋ｑ₂ Ｔ₂ ）／ｑ₄ である。

【００４６】クラスタ１、クラスタ２はそれぞれ１つの
ページによって構成されているので、クラスタ１を構成
するページ数ｑ₁ 、クラスタ２を構成するページ数ｑ₂
は、ｑ₁ ＝１、ｑ₂ ＝１である。

【００４７】したがって、クラスタ１とクラスタ２と
（ページ１とページ２と）が融合されたクラスタ４を構
成するページ数ｑ₄ は、ｑ₄ ＝２である。

【００４８】したがって、クラスタ４の特徴ベクトルＴ
₄ は、Ｔ₄ ＝（Ｔ₁ ＋Ｔ₂ ）／２である。

【００４９】これをページの特徴ベクトルを用いて表す
と、Ｔ₄ ＝（Ｐ₁ ＋Ｐ₂ ）／２である。

【００５０】次に、このクラスタ４とクラスタ３（ペー
ジ３）とを融合し、新しくクラスタ５を生成する場合を
考える。

【００５１】クラスタ５の特徴ベクトルＴ₅ は、Ｔ₅ ＝（ｑ₄ Ｔ₄ ＋ｑ₃ Ｔ₃ ）／ｑ₅ である。

【００５２】クラスタ４は、２つのページ（ページ１と
ページ２）によって構成されているので、ｑ₄ ＝２である。

【００５３】クラスタ３は、１つのページ（ページ３）
によって構成されているので、ｑ₃ ＝１である。

【００５４】したがって、クラスタ５を構成するページ
数ｑ₅ は、ｑ₅ ＝３である。

【００５５】よって、クラスタ５を構成する特徴ベクト
ルＴ₅ は、Ｔ₅ ＝（２Ｔ₄ ＋Ｔ₃ ）／３である。

【００５６】これをページの特徴ベクトルを用いて表す
と、Ｔ₅ ＝（Ｐ₁ ＋Ｐ₂ ＋Ｐ₃ ）／３である。

【００５７】図３は、上記実施例において、クラスタリ
ング行う例を示す図である。

【００５８】図３は、図１に示してある文書ａのリンク
文書集合ａ〜ｊが４つのクラスタＡ、Ｂ、Ｃ、Ｄに統合
される過程を示す図である。

【００５９】１０個の文書ａ〜ｊのそれぞれは、それぞ
れが１つの文書で構成されているクラスタＣ１〜Ｃ１０
であると考えることができる。そして、これら１０個の
クラスタ（文書）間で特徴ベクトルの類似度を計算し、
最大類似度を与える組（図３では、ａ（Ｃ１）とｂ（Ｃ
２））が統合され、新しくクラスタＣ１１が生成され
る。

【００６０】次に、残りのクラスタＣ３〜Ｃ１０とＣ１
１との間で類似度を求め、最大類似度を与える組（Ｃ１
１とＣ３）が統合され、クラスタＣ１２が生成される。
上記操作を、全てのクラスタについて実行し、全てのク
ラスタ間の類似度が閾値α以下になるまで、繰り返す。

【００６１】図３では、６回目のクラスタリングによっ
て、４つのクラスタＣ１６、Ｃ１３、Ｃ９、Ｃ１０が生
成される。これら４つのクラスタが、図１に示すクラス
タＡ、Ｂ、Ｃ、Ｄに対応する。そして、文書ａが含まれ
るクラスタＡ以外のクラスタ（クラスタＢ、Ｃ、Ｄ）を
除外する。つまり、文書ａのリンク文書集合中におい
て、文書ｇ、ｈ、ｉ、ｊは、文書ａの特徴ベクトルを生
成する場合に不適切な特徴ベクトルを与える文書であ
り、これら文書ｇ、ｈ、ｉ、ｊを除外し、文書ａ、ｂ、
ｃ、ｄ、ｅ、ｆの特徴ベクトルのみを用いて、文書ａの
特徴ベクトルを生成する。

【００６２】そして、分野の特徴ベクトル生成を行う
（Ｓ２０）。つまり、分野ｒに属するトップページの特
徴ベクトルを用いて、分野ｒの特徴ベクトルＣ_r を、以
下のように表わす。Ｃ_r ＝Σ_k ^lＴ_k ／｜Ｔ_k ｜ここで、ｌは、分野ｒに属する文書数である。そして、
分野特徴ベクトル生成用文書の属する各分野に対して、
分野の特徴ベクトルを求める。

【００６３】次に、上記実施例における文書分類の動作
について説明する。

【００６４】図４は、上記実施例における文書分類の動
作を示すフローチャートである。

【００６５】まず、分野特徴生成用のトップページのＵ
ＲＬのＨＴＭＬファイルを取得し（Ｓ３１）、上記トッ
プページからのリンク回数が、予め指定された回数にな
るまで（Ｓ３２）、ＨＴＭＬファイル内からリンク先Ｕ
ＲＬを抽出し（Ｓ３）、ＨＴＭＬファイルを取得し（Ｓ
３１）、トップページのリンク回数が指定回数になった
ら（Ｓ３２）、ＨＴＭＬファイルからタグを除去し（Ｓ
３４）、このタグが除去された文書について形態素を解
析する（Ｓ３５）。

【００６６】そして、形態素を解析した結果から、上記
分野特徴生成で選出したキーワードを抽出し、文書内出
現回数を調べる（Ｓ３６）。つまり、分類しようとする
対象文書をｋとし、文書ｋのリンク文書集合に含まれる
全文書から、分野の特徴ベクトル生成で選出したキーワ
ードを抽出し、各文書における各キーワードの出現回数
を調べる。

【００６７】そして、文書の特徴ベクトルを生成する
（Ｓ３７）。文書の特徴ベクトルは、文書内に現れる各
キーワードの特徴ベクトルをその出現回数の重みで足し
あわせたものである。キーワードｉの特徴ベクトルをＷ
_i とすると、文書ｋの特徴ベクトルＰ_k を、以下のよう
に表わす。Ｐ_k ＝Σ_i ⁿｖ_kiＷ_i ／｜Ｗ_i ｜文書ｋのリンク文書集合中の全ての文書に対して、文書
の特徴ベクトルを求める。

【００６８】なお、上記処理（Ｓ３４〜Ｓ３７）は、各
文書に対して並列に実行される。

【００６９】そして、クラスタリングを行う（Ｓ３
８）。つまり、文書ｋのリンク文書集合内で、全ての２
文書間の類似度を計算する。分野の特徴ベクトル生成に
おけるクラスタリング（Ｓ１３〜Ｓ１９）と同様に、ク
ラスタリングを行い、文書ｋの特徴ベクトルＴ_k を求め
る。

【００７０】そして、リンク文書集合中において、最大
類似度を与える組み合わせを統合して新しいクラスタを
生成する（Ｓ３９）。

【００７１】新しく生成されたクラスタと、その他のク
ラスタとの類似度を計算し（Ｓ４０）、リンク文書集合
中において、全てのクラスタ間の類似度が閾値α以下に
なるまで、上記処理（Ｓ３９、Ｓ４０）を繰り返す（Ｓ
４１）。

【００７２】クラスタリングによって求めた文書ｋの特
徴ベクトルをＴ_k とすると、特徴ベクトルＣ_r で表わさ
れる分野ｒとの類似度Ｓ_r は、以下のように表わされ
る。Ｓ_r ＝（Ｃ_r ・Ｔ_k ）／（｜Ｃ_r ｜・｜Ｔ_k ｜）そして、リンク文書集合内において、最大クラスタが唯
一でなければ（Ｓ４２）、全ての２文書（クラスタ）間
の類似度を計算し（Ｓ４３）、最大類似度を与える組み
合わせを統合して新しいクラスタを生成する（Ｓ４
４）。

【００７３】一方、リンク文書集合内において、最大ク
ラスタが唯一であれば（Ｓ４２）、生成した各分野の特
徴ベクトルとの類似度を計算し、最大類似度の分野、ま
たは類似度が、予め指定された閾値β以上の分野へ、こ
の文書（元の文書）を分類し（Ｓ４５）、ＤＢのページ
分野特定テーブルへ、分類結果とその分類された分野と
の類似度を登録する（Ｓ４６）。

【００７４】上記のようにすれば、ＷＷＷ上の文書分類
において、リンク先文書の特徴ベクトルを利用して、文
書の特徴ベクトルを生成する際に、リンク先文書集合中
の不適切な特徴をもつ文書の特徴ベクトルが影響を与え
ない。

【００７５】ＷＷＷ上では、リンクで関連付けされた複
数の文書が１つの意味をなすように存在するので、意味
的に１つの内容を表現する文書集合に対して特徴ベクト
ルを生成することができ、これによって、ＷＷＷ上の文
書の特徴をより適切に表現することが可能となる。した
がって、ＷＷＷ上の文書分類の精度を向上することがで
きる。

【００７６】図５は、上記実施例におけるデータベース
のテーブル例を示す図である。

【００７７】分野テーブルは、図５（１）に示すよう
に、ＷＷＷ上の既存の分類体系の分野を管理するテーブ
ルである。ＵＲＬ情報テーブルは、図５（２）に示すよ
うに、分野特徴生成において、生成用文書のＵＲＬ、分
野等を管理するテーブルである。キーワードテーブル
は、図５（３）に示すように、文書から抽出した特徴素
の出現回数の分散や、選出したキーワードを管理するテ
ーブルである。生成ページ頻度テーブルは、図５（４）
に示すように、各生成用文書における各特徴素の出現回
数を管理するテーブルである。

【００７８】また、特徴ベクトルテーブルは、図５
（５）に示すように、生成した各分野の特徴ベクトルを
管理するテーブルである。特徴ベクトル要素テーブル
は、図５（６）に示すように、各特徴ベクトルのベクト
ル要素を管理するテーブルである。ページ分野特定テー
ブルは、図５（７）に示すように、文書分類において、
各文書の分野を特定した結果と、その分野との類似度を
管理するテーブルである。

【００７９】なお、図２、図４に示すフローチャートに
対応するプログラムは、所定の記録媒体に記録されてお
り、この記録媒体として、ＦＤ、ＣＤ、ＤＶＤ、ハード
ディスク、半導体メモリ等が考えられる。

【００８０】図６は、上記実施例である文書分類装置１
００を示すブロック図である。

【００８１】文書分類装置１００は、ワークステーショ
ンＷＳ１とワークステーションＷＳ２とによって構成さ
れている。

【００８２】ワークステーションＷＳ１は、インターネ
ット上から文書を取得する文書取得手段１０と、分野を
生成する分野の生成手段２０と、分野を特定する分野の
特定手段３０と、各情報を格納するデータベースＤＢと
を有するものである。

【００８３】ワークステーションＷＳ２は、分野の生成
手段２０、分野の特定手段３０から要求を受け、形態素
を解析し、この解析結果を返す形態素解析手段４０を有
するものである。

【００８４】つまり、分野の生成手段２０、分野の特定
手段３０のそれぞれは、ＷＷＷ上において元の文書（所
定の文書）とリンクしているリンク先の文書の集合の中
から、所定の基準に基づいて適切な文書を選択し、この
選択された文書に対する特徴ベクトルを用いることによ
って、上記元の文書の特徴ベクトルを生成する文書特徴
抽出装置の例である。この場合、上記所定の基準は、上
記リンク先の文書の集合の中における１つの文書と他の
文書との類似度が所定の値以上であるという基準であ
る。

【００８５】また、文書分類装置１００は、ＷＷＷ上に
おいて元の文書（所定の文書）とリンクしているリンク
先の文書の集合の中から、所定の基準に基づいて適切な
文書を選択し、この選択された文書に対する特徴ベクト
ルを用いることによって、上記元の文書の特徴ベクトル
を生成する元の文書の特徴ベクトル生成手段と、所定の
分類に属する文書に基づいて、上記所定の分類の特徴ベ
クトルを生成する分類の特徴ベクトル生成手段と、上記
元の文書の特徴ベクトルと、上記所定の分類の特徴ベク
トルとに基づいて、上記元の文書が属すべき分類を判断
する所属分類判断手段とを有する文書分類装置の例であ
る。

【００８６】

【発明の効果】本発明によれば、ＷＷＷ上において元の
文書のリンク先文書の特徴ベクトルを求め、この求めら
れた特徴ベクトルに基づいて、上記元の文書の特徴ベク
トルを生成する場合、この生成された元の文書の特徴ベ
クトルが適切であるという効果を奏する。

【図面の簡単な説明】

【図１】本発明の一実施例である文書特徴抽出方法にお
けるクラスタの概念を示す図である。

【図２】上記実施例において、分野の特徴ベクトルを生
成する動作を示すフローチャートである。

【図３】上記実施例において、クラスタリング行う例を
示す図である。

【図４】上記実施例における文書分類の動作を示すフロ
ーチャートである。

【図５】上記実施例におけるデータベースのテーブル例
を示す図である。

【図６】上記実施例である文書分類装置１００を示すブ
ロック図である。

【図７】従来の文書分類方法において、特徴ベクトルを
生成する方法を説明する図である。

【符号の説明】

１００…文書分類装置、１０…文書取得手段、２０…分野の生成手段、３０…分野の特定手段、４０…形態素解析手段。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B075 ND03 NK06 NK32 NK43 NK54 PR04 PR06 QM08 UU06 5B082 EA00 EA01 5B089 GA11 GA21 GB03 GB04 HA10 JA01 JA21 JB02 KA01 KA04 KB07 KC28 KC53 LB14

Claims

【特許請求の範囲】

【請求項１】ＷＷＷ上において元の文書とリンクして
いるリンク先の文書の集合の中から、所定の基準に基づ
いて適切な文書を選択し、この選択された文書に対する
特徴ベクトルを用いることによって、上記元の文書の特
徴ベクトルを生成することを特徴とする文書特徴抽出装
置。
【請求項２】請求項１において、上記所定の基準は、上記リンク先の文書の集合の中にお
ける１つの文書と他の文書との類似度が所定の値以上で
あるという基準であることを特徴とする文書特徴抽出装
置。
【請求項３】ＷＷＷ上において元の文書とリンクして
いるリンク先の文書の集合の中から、所定の基準に基づ
いて適切な文書を選択し、この選択された文書に対する
特徴ベクトルを用いることによって、上記元の文書の特
徴ベクトルを生成することを特徴とする文書特徴抽出方
法。
【請求項４】請求項３において、上記所定の基準は、上記リンク先の文書の集合の中にお
ける１つの文書と他の文書との類似度が所定の値以上で
あるという基準であることを特徴とする文書特徴抽出方
法。
【請求項５】ＷＷＷ上において元の文書とリンクして
いるリンク先の文書の集合の中から、所定の基準に基づ
いて適切な文書を選択し、この選択された文書に対する
特徴ベクトルを用いることによって、上記元の文書の特
徴ベクトルを生成する元の文書の特徴ベクトル生成手段
と；所定の分類に属する文書に基づいて、上記所定の分
類の特徴ベクトルを生成する分類の特徴ベクトル生成手
段と；上記元の文書の特徴ベクトルと、上記所定の分類
の特徴ベクトルとに基づいて、上記元の文書が属すべき
分類を判断する所属分類判断手段と；を有することを特
徴とする文書分類装置。
【請求項６】ＷＷＷ上において元の文書とリンクして
いるリンク先の文書の集合の中から、所定の基準に基づ
いて適切な文書を選択し、この選択された文書に対する
特徴ベクトルを用いることによって、上記元の文書の特
徴ベクトルを生成する元の文書の特徴ベクトル生成段階
段階と；所定の分類に属する文書に基づいて、上記所定
の分類の特徴ベクトルを生成する分類の特徴ベクトル生
成段階と；上記元の文書の特徴ベクトルと、上記所定の
分類の特徴ベクトルとに基づいて、上記元の文書が属す
べき分類を判断する所属分類判断段階と；を有すること
を特徴とする文書分類方法。
【請求項７】分野特徴生成用のトップページのＵＲＬ
のＨＴＭＬファイルを取得し、上記トップページからの
リンク回数が、予め指定された回数になるまで、上記Ｈ
ＴＭＬファイル内からリンク先ＵＲＬを抽出し、ＨＴＭ
Ｌファイルを取得し、上記トップページのリンク回数が
指定回数になったら、ＨＴＭＬファイルからタグを除去
し、このタグが除去された文書について形態素を解析す
る形態素解析手順と；特徴素抽出を行う特徴素抽出手順
と；上記各特徴素について分野毎の出現回数の分散を計
算し、キーワードを選出するキーワード選出手順と；上
記各特徴素の分散と上記キーワードとを、データベース
のキーワードテーブルに登録する分散・キーワード登録
手順と；上記各キーワードの特徴ベクトルを生成するキ
ーワードの特徴ベクトル生成手順と；全てのキーワード
に対して特徴ベクトルを求め、データベースの特徴ベク
トル要素テーブルに、各キーワードの特徴ベクトル要素
を登録するキーワードの特徴ベクトル要素登録手順と；
文書特徴ベクトルを生成する文書特徴ベクトル生成手順
と；リンク文書集合中における全ての２文書間の類似度
のうちで、その類似度が最大になる組を統合し、１つの
クラスタを生成するクラスタ生成手順と；新しく生成さ
れたクラスタと、その他のクラスタとの類似度を計算
し、最大類似度を与える２つのクラスタを１つのクラス
タへ統合し、全てのクラスタ間の類似度が、予め指定さ
れた閾値α以下になるまで、クラスタリングを繰り返す
クラスタリング手順と；トップページｋのリンク文書集
合中で、クラスタを構成する文書数が最大のクラスタが
唯一である場合、トップページｋの特徴ベクトルとし、
特徴ベクトルテーブルに、分野の特徴ベクトルを登録す
る分野の特徴ベクトル登録手順と；をコンピュータに実
行させるプログラムを記録したコンピュータ読み取り可
能な記録媒体。
【請求項８】分野特徴生成用のトップページのＵＲＬ
のＨＴＭＬファイルを取得し、上記トップページからの
リンク回数が、予め指定された回数になるまで、上記Ｈ
ＴＭＬファイル内からリンク先ＵＲＬを抽出し、ＨＴＭ
Ｌファイルを取得し、上記トップページのリンク回数が
指定回数になったら、ＨＴＭＬファイルからタグを除去
し、このタグが除去された文書について形態素を解析す
る形態素解析手順と；上記形態素を解析した結果から、
分野特徴生成で選出したキーワードを抽出し、文書内出
現回数を調べる文書内出現回数検出手順と；文書の特徴
ベクトルを生成する文書の特徴ベクトル生成手順と；ク
ラスタリング実行手順と；リンク文書集合中において、
最大類似度を与える組み合わせを統合して新しいクラス
タを生成する新クラスタ生成手順と；新しく生成された
クラスタと、その他のクラスタとの類似度を計算し、リ
ンク文書集合中において、全てのクラスタ間の類似度が
閾値α以下になるまで、類似度を計算する類似度計算手
順と；リンク文書集合内において、最大クラスタが唯一
であれば、生成した各分野の特徴ベクトルとの類似度を
計算し、最大類似度の分野、または類似度が、予め指定
された閾値β以上の分野へ、元の文書を分類し、データ
ベースのページ分野特定テーブルへ、分類結果とその分
類された分野との類似度を登録する類似度登録手順と；
をコンピュータに実行させるプログラムを記録したコン
ピュータ読み取り可能な記録媒体。