JP3178406B2

JP3178406B2 - 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体

Info

Publication number: JP3178406B2
Application number: JP06468298A
Authority: JP
Inventors: 航李; 健司山西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-02-27
Filing date: 1998-02-27
Publication date: 2001-06-18
Anticipated expiration: 2018-02-27
Also published as: JPH11250100A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、インターネットの
ホームページの自動分類、電子図書館における文献検
索、特許出願情報の検索、電子化された新聞記事の自動
分類、マルチメディア情報の自動分類等の情報の分類や
検索に関するものである。

【０００２】

【従来の技術】情報の分類や検索の分野では、文章分類
（ドキュメント分類、テキスト分類ともいう）装置の開
発は大きな課題である。ここでいう文章分類とは、予め
人間がカテゴリを設け、さらに一部の文章がそれぞれど
のカテゴリに属するかを判断し、該当のカテゴリにそれ
らの文章を分類し、システムに記憶した後、システムは
記憶された情報から知識を自動的に獲得し、それ以後、
獲得できた知識を基に、新たに入力された文章を自動的
に分類することを指す。

【０００３】文章はカテゴリに分類されているので、文
章を検索する時、関係するカテゴリにおける文章だけを
検索すればよく、検索が効率良く且つ正確になる。

【０００４】従来、幾つかの文章分類装置が提案されて
いる。中でも、Ｓａｌｔｏｎらの提案する文章分類装置
が良く知られている（Ｇ．ＳａｌｔｏｎａｎｄＭ．
Ｊ．ＭｃＧｉｌｌ，Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏ
ＭｏｄｅｒｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅ
ｖａｌ，ＮｅｗＹｏｒｋ：ＭｃＧｒａｗＨｉｌ
ｌ，１９８３）。その文章分類装置は、文章に現れる単
語の頻度ベクトルとカテゴリにおける単語の頻度ベクト
ルとの間のコサイン値を文章とカテゴリ間の距離と見な
し、距離の最も小さいカテゴリに文章を分類することを
特徴としている。

【０００５】

【発明が解決しようとする課題】しかし、従来方式のほ
とんどは、文章を幾つかの並列のカテゴリに分類するも
ので、階層構造をなすカテゴリに文章を自動的に分類す
る装置がなかった。例えば、「政治」のカテゴリがさら
に「国会」や「政党」のサブカテゴリに分かれ、文章を
「政治」のカテゴリに分類した後、さらにそれを「国
会」と「政党」に分類した方が後の検索がさらに高速に
なる。

【０００６】本発明の目的は、並列のカテゴリに文章を
分類するのではなく、階層構造をなすカテゴリに文章を
自動分類し得るようにすることにある。

【０００７】また、本発明の別の目的は、信頼性の高い
文章の自動分類を実現することにある。

【０００８】

【課題を解決するための手段】本発明では、カテゴリを
階層化し、各カテゴリに線形結合モデルと呼ばれる確率
モデル、或いは確率モデルの集合を対応させ、新しい文
章が入力されると、その文章に対する線形結合モデルの
負対数尤度、或いは確率モデル集合の確率的複雑度を計
算し、負対数尤度の最も小さい、或いは確率的複雑度の
最も小さいカテゴリに新しい文章を分類する。

【０００９】つまり、本発明では、文章における単語の
分布を基にその文章をカテゴリに分類している。特に、
確率的なモデルを用いた統計的検定によって文章を分類
することが特徴である。

【００１０】具体的には、本発明の第１の階層型文章分
類装置は、ノードが文章の分類されたカテゴリを表現
し、リンクがカテゴリの上位下位関係を表現するグラフ
として、カテゴリの階層を記憶するカテゴリ階層記憶
部、前記カテゴリ階層記憶部に記憶されるカテゴリの階
層の各カテゴリに対して、より下位のカテゴリの単語空
間上の確率モデルの重みつき平均を該カテゴリの線形結
合モデルとし、各カテゴリの線形結合モデルを記憶する
確率モデル記憶部、前記カテゴリ階層記憶部に記憶され
るカテゴリの階層の各カテゴリに分類された文章を基
に、各カテゴリの線形結合モデルを、より下位のカテゴ
リの線形結合モデルから学習し、学習できた各カテゴリ
の線形結合モデルを前記確率モデル記憶部に記憶する学
習部、新しく文章を入力し、該入力文章を単語のデータ
列と見なし、前記カテゴリ階層記憶部に記憶されるカテ
ゴリの階層の各カテゴリに対して、前記確率モデル記憶
部に記憶される該カテゴリの線形結合モデルの該入力文
章に対する負対数尤度を計算し、計算された負対数尤度
の最も小さいカテゴリに該入力文章を分類する文章分類
部、を備えることを特徴とする。

【００１１】このように構成された第１の階層型文章分
類装置にあっては、学習部が、カテゴリ階層記憶部に記
憶されるカテゴリの階層の各カテゴリに例えば事前に人
手によって分類された文章を基に、各カテゴリの線形結
合モデルを、より下位のカテゴリの線形結合モデルから
学習し、学習できた各カテゴリの線形結合モデルを確率
モデル記憶部に記憶し、その後、自動分類対象となる文
章が入力されると、文章分類部が、その文章を入力し、
この入力文章を単語のデータ列と見なし、カテゴリ階層
記憶部に記憶されるカテゴリの階層の各カテゴリに対し
て、確率モデル記憶部に記憶される該カテゴリの線形結
合モデルの該入力文章に対する負対数尤度を計算し、計
算された負対数尤度の最も小さいカテゴリに該入力文章
を分類する。

【００１２】また、本発明の第２の階層型文章分類装置
は、ノードが文章の分類されたカテゴリを表現し、リン
クがカテゴリの上位下位関係を表現するグラフとして、
カテゴリの階層を記憶するカテゴリ階層記憶部、前記カ
テゴリ階層記憶部に記憶されるカテゴリの階層の各カテ
ゴリに対して、より下位のカテゴリの、単語空間上の確
率モデルの集合を該カテゴリの確率モデルの集合とし、
各カテゴリの確率モデルの集合の全ての要素を記憶する
確率モデル集合記憶部、前記カテゴリ階層記憶部に記憶
されるカテゴリの階層の各カテゴリに分類された文章を
基に、各カテゴリの確率モデルの集合を、より下位のカ
テゴリの単語空間上の確率モデルの集合から学習し、学
習できた各カテゴリの確率モデルの集合のすべての要素
を前記確率モデル集合記憶部に記憶する学習部、新しく
文章を入力し、該入力文章を単語のデータ列と見なし、
前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
各カテゴリに対して、前記確率モデル集合記憶部に記憶
される該カテゴリの確率モデルの集合に対する該入力文
章の確率的複雑度を計算し、計算された確率的複雑度の
最も小さいカテゴリに該入力文章を分類する文章分類
部、を備える。

【００１３】このように構成された第２の階層型文章分
類装置にあっては、学習部が、カテゴリ階層記憶部に記
憶されるカテゴリの階層の各カテゴリに例えば事前に人
手によって分類された文章を基に、各カテゴリの確率モ
デルの集合を、より下位のカテゴリの単語空間上の確率
モデルの集合から学習し、学習できた各カテゴリの確率
モデルの集合のすべての要素を確率モデル集合記憶部に
記憶し、その後、自動分類対象となる文章が入力される
と、文章分類部が、その文章を入力し、この入力文章を
単語のデータ列と見なし、カテゴリ階層記憶部に記憶さ
れるカテゴリの階層の各カテゴリに対して、確率モデル
集合記憶部に記憶される該カテゴリの確率モデルの集合
に対する該入力文章の確率的複雑度を計算し、計算され
た確率的複雑度の最も小さいカテゴリに該入力文章を分
類する。

【００１４】

【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。

【００１５】図１を参照すると、本発明の第１の実施例
は、カテゴリ階層記憶部１、確率モデル記憶部２、学習
部３、および文章分類部４から構成される。

【００１６】カテゴリ階層記憶部１ではカテゴリの階層
が記憶される。カテゴリの階層構造はグラフとして表さ
れる。グラフでは、ノードがカテゴリを表現し、リンク
がカテゴリの上位下位関係を表現する。また、カテゴリ
には既に分類された文章が入っている。図２にカテゴリ
階層の例を示す。ここでは、カテゴリの階層が木構造と
なっているが、一般的にはカテゴリの階層がもっと複雑
なグラフ構造になる。

【００１７】確率モデル記憶部２では、カテゴリの階層
における一つのカテゴリに対して一つの確率モデルを対
応させて記憶する。本実施例では、この確率モデルが線
形結合モデルの形をとることを特徴とする。ある確率の
線形結合モデルは、それより下位のカテゴリの確率モデ
ルの重みつき平均として定義される。以下に線形結合モ
デルの例を示す。

【００１８】線形結合モデルの例；カテゴリの木構造で
は、ノードがカテゴリを表す。ノードｃのカテゴリの線
形結合モデルはその子ノードのカテゴリの線形結合モデ
ル、およびノードｃ自身に属する確率モデルの線形結合
として以下のように定義される。

【数１】数１において、確率変数Ｗは単語の集合Ｗ＝｛ｗ１，ｗ
２，…，ｗｓ｝の値をとる。Ｐ（Ｗ｜ｃ１），Ｐ（Ｗ｜
ｃ２），…，Ｐ（Ｗ｜ｃｎ）はｃの子ノードｃ１，ｃ
２，…，ｃｎのカテゴリの線形結合モデルである。Ｐ
（Ｗ｜ｃ’）はノードｃ自身に属する確率モデルであ
る。つまり、Ｐ（Ｗ｜ｃ’）はｃの表すカテゴリに属
し、ｃ_1,…_,ｃ_nの表すカテゴリに属さない確率モデル
である。Ｐ（ｃ’｜ｃ），Ｐ（ｃ１｜ｃ），…，Ｐ（ｃ
ｎ｜ｃ）はｃ’，ｃ１，…，ｃｎの事前確率である。

【００１９】学習部３は、カテゴリ階層記憶部１に記憶
されるカテゴリの階層を参照し、既にカテゴリに分類さ
れた文章から各カテゴリの線形結合モデルを学習し、学
習できた線形結合モデルを確率モデル記憶部２に記憶す
る。

【００２０】文章分類部４は、新しく文章を入力し、該
文章を単語のデータ列と見なし、カテゴリ階層記憶部１
に記憶されるカテゴリの階層における各カテゴリを参照
し、各カテゴリに対して、確率モデル記憶部２から、そ
のカテゴリの対応する線形結合モデルを参照し、該文章
に対する各線形結合モデルの負対数尤度を計算し、負対
数尤度のもっとも小さい線形結合モデルに対応するカテ
ゴリに該文章を分類する。

【００２１】学習部３は、幾つかの方法で線形結合モデ
ルを学習することができる。例えば、その下位カテゴリ
の線形結合モデルをヒストグラムとして推定することが
できる。また、重み係数をＥＭアルゴリズムと呼ばれる
アルゴリズムによって学習することができる。

【００２２】ここでは、学習部３の学習アルゴリズムの
一例を示す。階層を表すグラフは木構造をもつとする。
学習部３は、木構造となるカテゴリの階層を参照し、ボ
トムアップ的にカテゴリの線形結合モデルを学習する。
その学習アルゴリズムは以下の通りであり、そのフロー
チャートを図３に示す。

【００２３】ノードｃを入力とする。最初は、木構造のルートノードが入力される。ｉｆノードｃは葉ノードである。ｔｈｅｎノードｃのカテゴリに分類された文章から、ｃの線形結合モデルを学習し、戻る。ｅｌｓｅノードｃの子ノードｃｉ（ｉ＝１，２，…，ｎ）の線形結合モデルを参照する。ｉｆノードｃｉの線形結合モデルはまだ学習できていない。ｔｈｅｎノードｃｉに対して、再帰的に本アルゴリズムを適用する。ｅｌｓｅノードｃｉの線形結合モデルとｃ自身の確率モデルからノードｃの線形結合モデルを学習し、戻る。

【００２４】文章分類部４は文章の統計的仮説検定によ
って文章を分類する。次に、文章分類部４のアルゴリズ
ムの一例を示し、そのフローチャートを図４に示す。

【００２５】ｄは入力された文章であるとする。ノードｃと文章ｄを入力とする。最初は、木構造のルートノードが入力される。ｉｆノードｃは葉ノードである。ｔｈｅｎ文章ｄはノードｃのカテゴリに属するとし、終了する。ｅｌｓｅ文章ｄに対するノードｃの線形結合モデルの負対数尤度Ｌ（ｄ｜ｃ）を計算する。ノードｃの子ノードｃｉ（ｉ＝１，２，…，ｎ）の負対数尤度Ｌ（ｄ｜ｃｉ）をも計算する。計算できたＬ（ｄ｜ｃ）とＬ（ｄ｜ｃｉ）の最小値を求める。ｉｆ子ノードの中のｃｉの負対数尤度が最小である。ｔｈｅｎノードｃｉに対して本アルゴリズムを再帰的に適用する。ｅｌｓｅ文章ｄはノードｃのカテゴリに属するとし、終了する。

【００２６】次に、学習部３による線形結合モデルを学
習する方法と、文章分類部４による負対数尤度の計算方
法を、さらに具体的な例を通じて説明する。カテゴリの
階層は図５に示すものとする。図５中、ｃ１，ｃ２，ｃ
３はカテゴリであり、ｄ１，ｄ２，ｄ３は既に分類され
た文章である。また、図６に各文章ｄ１，ｄ２，ｄ３に
おける単語ｗ１，ｗ２，ｗ３の出現頻度を示す。単語ｗ
１，ｗ２，ｗ３は予め定められたキーワードである。

【００２７】○線形結合モデルの学習の例ｃ２とｃ３は葉ノードであるので、それらのノードのカ
テゴリの線形結合モデルは文章における単語のヒストグ
ラムとして、図７（ａ）のように学習される。

【００２８】ｃ１に分類された文章ｄ２から、ｃ１自身
に属する確率モデルを単語のヒストグラムとして学習す
る。これをＰ（Ｗ｜ｃ１’）と表す。つまり、それはｃ
１のカテゴリに属し、ｃ２，ｃ３のカテゴリに属さない
確率モデルであり、図７（ｂ）のように学習される。

【００２９】一方、各モデルの事前分布を以下のように
学習する。

【数２】

【００３０】ここで、ｆ（ｃｉ）はノードｃｉとその支
配するノードの属する文章数で、Ｎは全文章数である。
よって、各モデルの事前分布は図７（ｃ）のように学習
される。

【００３１】さらに、線形結合モデルの定義に従って、
ノードｃ１における線形結合モデルを以下のように学習
することができる。

【数３】

【００３２】即ち、ノードｃ１における線形結合モデル
は図７（ｄ）に示すようになる。

【００３３】○負対数尤度の計算の例新しい文章ｄにおける単語の分布は図８に示すものとす
る。つまり、文章分類部４は入力文章中から単語ｗ１を
２個、単語ｗ２を１個、単語ｗ３を１個検出したとす
る。ｄに対するｃ１の負対数尤度を以下のように計算す
る。対数の底は２であるとする。

【数４】

【００３４】同様に、ｃ２，ｃ３の負対数尤度を計算す
る。

【数５】

【数６】

【００３５】尤度Ｌ（ｄ｜ｃ１）がもっとも小さいの
で、ｄはｃ１に分類される。

【００３６】図９を参照すると、本発明の第２の実施例
は、カテゴリ階層記憶部１、確率モデル集合記憶部５、
学習部６、および文章分類部７から構成される。

【００３７】カテゴリ階層記憶部１ではカテゴリの階層
が記憶される。カテゴリの階層では、ノードがカテゴリ
を表し、リンクが上位下位関係を表す。カテゴリ階層の
例として前述した図２がある。

【００３８】確率モデル集合記憶部５では、確率モデル
の集合が記憶される。カテゴリの階層における各カテゴ
リに対して一つの確率モデルの集合が定義され、記憶さ
れる。以下に確率モデルの集合の例を示す。

【００３９】○確率モデル集合の例ノードｃの確率モデルの集合が確率モデルＰ（Ｗ｜
ｃ’），Ｐ（Ｗ｜ｃ１），…，Ｐ（Ｗ｜ｃｎ）を含むと
する。Ｐ（Ｗ｜ｃ１），…，Ｐ（Ｗ｜ｃｎ）はｃの子ノ
ードｃ_1,…ｃ_nの確率モデルの集合のもつ確率モデル
（確率分布）である。Ｐ（Ｗ｜ｃ’）はノードｃ自身に
属する確率モデルである。つまり、それは、ｃのカテゴ
リに属し、ｃ１，…，ｃｎのカテゴリに属さない確率モ
デルである。また、各確率モデルの事前確率Ｐ（ｃ’｜
ｃ），Ｐ（ｃ１｜ｃ），…，Ｐ（ｃｎ｜ｃ）が存在する
とする。確率モデルＰ（Ｗ｜ｃ’），Ｐ（Ｗ｜ｃ１），
…，Ｐ（Ｗ｜ｃｎ）は、例えば、ヒストグラムの形で表
現される。

【００４０】各カテゴリの確率モデルの集合は、それ自
身に属する文章による単語空間上の確率モデルと、その
下位のカテゴリに属する文章による単語空間上の確率モ
デルからなる。

【００４１】学習部６は、カテゴリ階層記憶部１に記憶
されるカテゴリの階層を参照し、既にカテゴリに分類さ
れた文章から各カテゴリの対応するモデル集合を学習
し、学習できた確率モデルの集合を確率モデル集合記憶
部５に記憶する。

【００４２】文章分類部７は、新しく文章を入力し、該
文章を単語のデータ列と見なし、カテゴリ階層記憶部１
に記憶されるカテゴリにおける各カテゴリを参照し、各
カテゴリに対して、確率モデル集合記憶部５から、その
カテゴリの対応する確率モデル集合を参照し、該文章の
各参照された確率モデル集合に対する確率的複雑度を計
算し、確率的複雑度のもっとも小さい確率モデル集合に
対応するカテゴリに該文章を分類する。

【００４３】確率的複雑度とは、確率モデルの集合を用
いてデータを記述する際の最小記述長を表す量で、リッ
サネン（Ｒｉｓｓａｎｅｎ）によって提唱されたもので
ある（ＪｏｒｍａＲｉｓｓａｎｅｎ，Ｓｔｏｃｈａｓ
ｔｉｃＣｏｍｐｌｅｘｉｔｙｉｎＳｔａｔｉｓｔ
ｉｃａｌＩｎｑｕｉｒｙ，ＷｏｒｌｄＳｃｉｅｎｔ
ｉｆｉｃＰｕｂｌｉｓｈｉｎｇＣｏ．，Ｓｉｎｇａ
ｐｏｒｅ，１９８９）。本実施例では、確率的複雑度
を、確率モデル集合における確率モデルのデータに対す
る尤度の重み付き平均の負対数として計算する。

【００４４】次に、学習部６の学習アルゴリズムの一例
を示す。階層を表すグラフが木構造をもつとする。学習
部６は、木構造となるカテゴリの階層を参照し、ボトム
アップ的にカテゴリの確率モデル集合を学習する。その
アルゴリズムは以下の通りであり、そのフローチャート
を図１０に示す。

【００４５】ノードｃを入力とする。最初は、木構造のルートノードが入力される。ｉｆノードｃは葉ノードである。ｔｈｅｎノードｃのカテゴリに分類された文章から、ｃの確率モデル集合の全ての要素を学習し、戻る。ｅｌｓｅノードｃの子ノードｃｉ（ｉ＝１，２，…，ｎ）の確率モデル集合を参照する。ｉｆノードｃｉの確率モデル集合はまだ学習できていない。ｔｈｅｎノードｃｉに対して、再帰的に本アルゴリズムを適用する。ｅｌｓｅノードｃｉの確率モデル集合とｃに分類された文章の確率モデルからノードｃの確率モデル集合を学習し、戻る。

【００４６】文章分類部７は統計的仮説検定によって文
章を分類する。次に、文章分類部７のアルゴリズムの一
例を示す。図１１はそのフローチャートである。

【００４７】ｄは入力された文章であるとする。ノードｃと文章ｄを入力とする。最初は、木構造のルートノードが入力される。ｉｆノードｃは葉ノードである。ｔｈｅｎ文章ｄはノードｃのカテゴリに属するとし、終了する。ｅｌｓｅノードｃにおける文章ｄの確率的複雑度ＳＣ（ｄ｜ｃ）を計算する。ノードｃの子ノードｃｉ（ｉ＝１，２，…，ｎ）における確率的複雑度ＳＣ（ｄ｜ｃｉ）をも計算する。計算できたＳＣ（ｄ｜ｃ）とＳＣ（ｄ｜ｃｉ）の中の最小値を求める。ｉｆノードの中のｃｉの確率的複雑度が最小である。ｔｈｅｎノードｃｉに対して本アルゴリズムを再帰的に適用する。ｅｌｓｅ文章ｄはノードｃのカテゴリに属するとし、終了する。

【００４８】次に確率的複雑度の計算例を示す。

【００４９】カテゴリの階層は図５に示すものとする。
また、文章における単語（キーワード）の出現頻度は図
６に示すものであるとする。

【００５０】ノードｃ２，ｃ３が葉ノードであるので、
それぞれのもつ確率モデルの集合は一つの確率モデルを
含む。さらに、それらの確率モデルがヒストグラムとし
て、図１２（ａ）のように学習される。

【００５１】ノードｃ１自身に属する確率モデルもヒス
トグラムとして、図１２（ｂ）のように学習される。

【００５２】従って、ｃ１の確率モデル集合は確率モデ
ルＰ（Ｗ｜ｃ１），Ｐ（Ｗ｜ｃ２），Ｐ（Ｗ｜ｃ３）を
含むことになる。それらの確率モデルの事前確率Ｐ（ｄ
ｉ｜ｃ）が一様分布であるとする。

【００５３】新しい文章ｄにおける単語の出現頻度は図
１２（ｃ）に示すものであるとする。

【００５４】ｄのｃ１に対する確率的複雑度を以下のよ
うに計算する。対数の底は２であるとする。

【数７】

【００５５】ｄのｃ２，ｃ３に対する確率的複雑度を以
下のように計算する。

【数８】

【数９】

【００５６】ＳＣ（ｄ｜ｃ３）がもっとも小さいので、
ｄはｃ３に分類される。

【００５７】図１３は本発明の階層型文章分類装置の第
３の実施例のブロック図である。この例の階層型文章分
類装置は、ＣＰＵ１０１、主記憶１０２および補助記憶
１０３を含むコンピュータ１０４と、このコンピュータ
１０４に接続された表示装置１０５、入力装置１０６お
よびファイル１０７を含む入出力装置１０８と、階層型
文章分類プログラムを記録する記録媒体１０９とから構
成される。記録媒体１０９はＣＤ−ＲＯＭ、半導体メモ
リ等の機械読み取り可能な記録媒体であり、ここに記録
された階層型文章分類プログラムは、コンピュータ１０
４に読み取られ、コンピュータ１０４の動作を制御する
ことにより、コンピュータ１０４上に、図１に示したカ
テゴリ階層記憶部１、確率モデル記憶部２、学習部３お
よび文章分類部４、または図９に示したカテゴリ階層記
憶部１、確率モデル集合記憶部５、学習部６および文章
分類部７を実現する。

【００５８】

【発明の効果】以上説明したように、本発明によれば、
階層構造をなすカテゴリに文章を自動分類することがで
き、かつ尤度比検定の理論に基づいた統計的信頼性の高
い文章分類ができる。

【図面の簡単な説明】

【図１】本発明の階層型文章分類装置の第１の実施例の
ブロック図である。

【図２】カテゴリ階層の例を示す図である。

【図３】本発明の階層型文章分類装置の第１の実施例に
おける学習アルゴリズムの一例を示すフローチャートで
ある。

【図４】本発明の階層型文章分類装置の第１の実施例に
おける文章分類のアルゴリズムの一例を示すフローチャ
ートである。

【図５】カテゴリ階層の例を示す図である。

【図６】文章における単語分布の例を示す図である。

【図７】線形結合モデルの学習例の説明図である。

【図８】負対数尤度の計算例の説明図である。

【図９】本発明の階層型文章分類装置の第２の実施例の
ブロック図である。

【図１０】本発明の階層型文章分類装置の第２の実施例
における学習アルゴリズムの一例を示すフローチャート
である。

【図１１】本発明の階層型文章分類装置の第２の実施例
における文章分類のアルゴリズムの一例を示すフローチ
ャートである。

【図１２】確率的複雑度の計算例の説明図である。

【図１３】本発明の階層型文章分類装置の第３の実施例
のブロック図である。

【符号の説明】

１カテゴリ階層記憶部２確率モデル記憶部３学習部４文章分類部５確率モデル集合記憶部６学習部７文章分類部

フロントページの続き (56)参考文献特開平10−187754（ＪＰ，Ａ) 特開平９−233150（ＪＰ，Ａ) 特開平８−287097（ＪＰ，Ａ) 特開平８−263510（ＪＰ，Ａ) 特開平７−282078（ＪＰ，Ａ) 特開平６−282587（ＪＰ，Ａ) 特開平５−225260（ＪＰ，Ａ) 李航、山西健司、「線形結合モデルを用いたドキュメント分類」，情報処理学会研究報告Ｖｏｌ．97 Ｎｏ．53（97 −ＮＬ−119）（平成９年５月27日）, ｐｐ．37−44 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 210 G06F 17/30 170 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】ノードが文章の分類されたカテゴリを表
現し、リンクがカテゴリの上位下位関係を表現するグラ
フとして、カテゴリの階層を記憶するカテゴリ階層記憶
部、前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
各カテゴリに対して、より下位のカテゴリの単語空間上
の確率モデルの重みつき平均を該カテゴリの線形結合モ
デルとし、各カテゴリの線形結合モデルを記憶する確率
モデル記憶部、前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
各カテゴリに分類された文章を基に、各カテゴリの線形
結合モデルを、より下位のカテゴリの線形結合モデルか
ら学習し、学習できた各カテゴリの線形結合モデルを前
記確率モデル記憶部に記憶する学習部、新しく文章を入力し、該入力文章を単語のデータ列と見
なし、前記カテゴリ階層記憶部に記憶されるカテゴリの
階層の各カテゴリに対して、前記確率モデル記憶部に記
憶される該カテゴリの線形結合モデルの該入力文章に対
する負対数尤度を計算し、計算された負対数尤度の最も
小さいカテゴリに該入力文章を分類する文章分類部、を備えることを特徴とする階層型文章分類装置。
【請求項２】ノードが文章の分類されたカテゴリを表
現し、リンクがカテゴリの上位下位関係を表現するグラ
フとして、カテゴリの階層を記憶するカテゴリ階層記憶
部、前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
各カテゴリに対して、より下位のカテゴリの、単語空間
上の確率モデルの集合を該カテゴリの確率モデルの集合
とし、各カテゴリの確率モデルの集合の全ての要素を記
憶する確率モデル集合記憶部、前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
各カテゴリに分類された文章を基に、各カテゴリの確率
モデルの集合を、より下位のカテゴリの単語空間上の確
率モデルの集合から学習し、学習できた各カテゴリの確
率モデルの集合のすべての要素を前記確率モデル集合記
憶部に記憶する学習部、新しく文章を入力し、該入力文章を単語のデータ列と見
なし、前記カテゴリ階層記憶部に記憶されるカテゴリの
階層の各カテゴリに対して、前記確率モデル集合記憶部
に記憶される該カテゴリの確率モデルの集合に対する該
入力文章の確率的複雑度を計算し、計算された確率的複
雑度の最も小さいカテゴリに該入力文章を分類する文章
分類部、を備えることを特徴とする階層型文章分類装置。
【請求項３】コンピュータを、請求項１に記載する、
カテゴリ階層記憶部、確率モデル記憶部、学習部、およ
び文章分類部として機能させるプログラムを記録した機
械読み取り可能な記録媒体。
【請求項４】コンピュータを、請求項２に記載する、
カテゴリ階層記憶部、確率モデル集合記憶部、学習部、
および文章分類部として機能させるプログラムを記録し
た機械読み取り可能な記録媒体。