JP3178406B2 - 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体 - Google Patents

階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体

Info

Publication number
JP3178406B2
JP3178406B2 JP06468298A JP6468298A JP3178406B2 JP 3178406 B2 JP3178406 B2 JP 3178406B2 JP 06468298 A JP06468298 A JP 06468298A JP 6468298 A JP6468298 A JP 6468298A JP 3178406 B2 JP3178406 B2 JP 3178406B2
Authority
JP
Japan
Prior art keywords
category
storage unit
hierarchy
sentence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06468298A
Other languages
English (en)
Other versions
JPH11250100A (ja
Inventor
航 李
健司 山西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP06468298A priority Critical patent/JP3178406B2/ja
Publication of JPH11250100A publication Critical patent/JPH11250100A/ja
Application granted granted Critical
Publication of JP3178406B2 publication Critical patent/JP3178406B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、インターネットの
ホームページの自動分類、電子図書館における文献検
索、特許出願情報の検索、電子化された新聞記事の自動
分類、マルチメディア情報の自動分類等の情報の分類や
検索に関するものである。
【0002】
【従来の技術】情報の分類や検索の分野では、文章分類
(ドキュメント分類、テキスト分類ともいう)装置の開
発は大きな課題である。ここでいう文章分類とは、予め
人間がカテゴリを設け、さらに一部の文章がそれぞれど
のカテゴリに属するかを判断し、該当のカテゴリにそれ
らの文章を分類し、システムに記憶した後、システムは
記憶された情報から知識を自動的に獲得し、それ以後、
獲得できた知識を基に、新たに入力された文章を自動的
に分類することを指す。
【0003】文章はカテゴリに分類されているので、文
章を検索する時、関係するカテゴリにおける文章だけを
検索すればよく、検索が効率良く且つ正確になる。
【0004】従来、幾つかの文章分類装置が提案されて
いる。中でも、Saltonらの提案する文章分類装置
が良く知られている(G.Salton and M.
J.McGill,Introduction to
Modern Information Retrie
val,New York: McGraw Hil
l,1983)。その文章分類装置は、文章に現れる単
語の頻度ベクトルとカテゴリにおける単語の頻度ベクト
ルとの間のコサイン値を文章とカテゴリ間の距離と見な
し、距離の最も小さいカテゴリに文章を分類することを
特徴としている。
【0005】
【発明が解決しようとする課題】しかし、従来方式のほ
とんどは、文章を幾つかの並列のカテゴリに分類するも
ので、階層構造をなすカテゴリに文章を自動的に分類す
る装置がなかった。例えば、「政治」のカテゴリがさら
に「国会」や「政党」のサブカテゴリに分かれ、文章を
「政治」のカテゴリに分類した後、さらにそれを「国
会」と「政党」に分類した方が後の検索がさらに高速に
なる。
【0006】本発明の目的は、並列のカテゴリに文章を
分類するのではなく、階層構造をなすカテゴリに文章を
自動分類し得るようにすることにある。
【0007】また、本発明の別の目的は、信頼性の高い
文章の自動分類を実現することにある。
【0008】
【課題を解決するための手段】本発明では、カテゴリを
階層化し、各カテゴリに線形結合モデルと呼ばれる確率
モデル、或いは確率モデルの集合を対応させ、新しい文
章が入力されると、その文章に対する線形結合モデルの
負対数尤度、或いは確率モデル集合の確率的複雑度を計
算し、負対数尤度の最も小さい、或いは確率的複雑度の
最も小さいカテゴリに新しい文章を分類する。
【0009】つまり、本発明では、文章における単語の
分布を基にその文章をカテゴリに分類している。特に、
確率的なモデルを用いた統計的検定によって文章を分類
することが特徴である。
【0010】具体的には、本発明の第1の階層型文章分
類装置は、ノードが文章の分類されたカテゴリを表現
し、リンクがカテゴリの上位下位関係を表現するグラフ
として、カテゴリの階層を記憶するカテゴリ階層記憶
部、前記カテゴリ階層記憶部に記憶されるカテゴリの階
層の各カテゴリに対して、より下位のカテゴリの単語空
間上の確率モデルの重みつき平均を該カテゴリの線形結
合モデルとし、各カテゴリの線形結合モデルを記憶する
確率モデル記憶部、前記カテゴリ階層記憶部に記憶され
るカテゴリの階層の各カテゴリに分類された文章を基
に、各カテゴリの線形結合モデルを、より下位のカテゴ
リの線形結合モデルから学習し、学習できた各カテゴリ
の線形結合モデルを前記確率モデル記憶部に記憶する学
習部、新しく文章を入力し、該入力文章を単語のデータ
列と見なし、前記カテゴリ階層記憶部に記憶されるカテ
ゴリの階層の各カテゴリに対して、前記確率モデル記憶
部に記憶される該カテゴリの線形結合モデルの該入力文
章に対する負対数尤度を計算し、計算された負対数尤度
の最も小さいカテゴリに該入力文章を分類する文章分類
部、を備えることを特徴とする。
【0011】このように構成された第1の階層型文章分
類装置にあっては、学習部が、カテゴリ階層記憶部に記
憶されるカテゴリの階層の各カテゴリに例えば事前に人
手によって分類された文章を基に、各カテゴリの線形結
合モデルを、より下位のカテゴリの線形結合モデルから
学習し、学習できた各カテゴリの線形結合モデルを確率
モデル記憶部に記憶し、その後、自動分類対象となる文
章が入力されると、文章分類部が、その文章を入力し、
この入力文章を単語のデータ列と見なし、カテゴリ階層
記憶部に記憶されるカテゴリの階層の各カテゴリに対し
て、確率モデル記憶部に記憶される該カテゴリの線形結
合モデルの該入力文章に対する負対数尤度を計算し、計
算された負対数尤度の最も小さいカテゴリに該入力文章
を分類する。
【0012】また、本発明の第2の階層型文章分類装置
は、ノードが文章の分類されたカテゴリを表現し、リン
クがカテゴリの上位下位関係を表現するグラフとして、
カテゴリの階層を記憶するカテゴリ階層記憶部、前記カ
テゴリ階層記憶部に記憶されるカテゴリの階層の各カテ
ゴリに対して、より下位のカテゴリの、単語空間上の確
率モデルの集合を該カテゴリの確率モデルの集合とし、
各カテゴリの確率モデルの集合の全ての要素を記憶する
確率モデル集合記憶部、前記カテゴリ階層記憶部に記憶
されるカテゴリの階層の各カテゴリに分類された文章を
基に、各カテゴリの確率モデルの集合を、より下位のカ
テゴリの単語空間上の確率モデルの集合から学習し、学
習できた各カテゴリの確率モデルの集合のすべての要素
を前記確率モデル集合記憶部に記憶する学習部、新しく
文章を入力し、該入力文章を単語のデータ列と見なし、
前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
各カテゴリに対して、前記確率モデル集合記憶部に記憶
される該カテゴリの確率モデルの集合に対する該入力文
章の確率的複雑度を計算し、計算された確率的複雑度の
最も小さいカテゴリに該入力文章を分類する文章分類
部、を備える。
【0013】このように構成された第2の階層型文章分
類装置にあっては、学習部が、カテゴリ階層記憶部に記
憶されるカテゴリの階層の各カテゴリに例えば事前に人
手によって分類された文章を基に、各カテゴリの確率モ
デルの集合を、より下位のカテゴリの単語空間上の確率
モデルの集合から学習し、学習できた各カテゴリの確率
モデルの集合のすべての要素を確率モデル集合記憶部に
記憶し、その後、自動分類対象となる文章が入力される
と、文章分類部が、その文章を入力し、この入力文章を
単語のデータ列と見なし、カテゴリ階層記憶部に記憶さ
れるカテゴリの階層の各カテゴリに対して、確率モデル
集合記憶部に記憶される該カテゴリの確率モデルの集合
に対する該入力文章の確率的複雑度を計算し、計算され
た確率的複雑度の最も小さいカテゴリに該入力文章を分
類する。
【0014】
【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。
【0015】図1を参照すると、本発明の第1の実施例
は、カテゴリ階層記憶部1、確率モデル記憶部2、学習
部3、および文章分類部4から構成される。
【0016】カテゴリ階層記憶部1ではカテゴリの階層
が記憶される。カテゴリの階層構造はグラフとして表さ
れる。グラフでは、ノードがカテゴリを表現し、リンク
がカテゴリの上位下位関係を表現する。また、カテゴリ
には既に分類された文章が入っている。図2にカテゴリ
階層の例を示す。ここでは、カテゴリの階層が木構造と
なっているが、一般的にはカテゴリの階層がもっと複雑
なグラフ構造になる。
【0017】確率モデル記憶部2では、カテゴリの階層
における一つのカテゴリに対して一つの確率モデルを対
応させて記憶する。本実施例では、この確率モデルが線
形結合モデルの形をとることを特徴とする。ある確率の
線形結合モデルは、それより下位のカテゴリの確率モデ
ルの重みつき平均として定義される。以下に線形結合モ
デルの例を示す。
【0018】線形結合モデルの例;カテゴリの木構造で
は、ノードがカテゴリを表す。ノードcのカテゴリの線
形結合モデルはその子ノードのカテゴリの線形結合モデ
ル、およびノードc自身に属する確率モデルの線形結合
として以下のように定義される。
【数1】 数1において、確率変数Wは単語の集合W={w1,w
2,…,ws}の値をとる。P(W|c1),P(W|
c2),…,P(W|cn)はcの子ノードc1,c
2,…,cnのカテゴリの線形結合モデルである。P
(W|c’)はノードc自身に属する確率モデルであ
る。つまり、P(W|c’)はcの表すカテゴリに属
し、c1,, n の表すカテゴリに属さない確率モデル
である。P(c’|c),P(c1|c),…,P(c
n|c)はc’,c1,…,cnの事前確率である。
【0019】学習部3は、カテゴリ階層記憶部1に記憶
されるカテゴリの階層を参照し、既にカテゴリに分類さ
れた文章から各カテゴリの線形結合モデルを学習し、学
習できた線形結合モデルを確率モデル記憶部2に記憶す
る。
【0020】文章分類部4は、新しく文章を入力し、該
文章を単語のデータ列と見なし、カテゴリ階層記憶部1
に記憶されるカテゴリの階層における各カテゴリを参照
し、各カテゴリに対して、確率モデル記憶部2から、そ
のカテゴリの対応する線形結合モデルを参照し、該文章
に対する各線形結合モデルの負対数尤度を計算し、負対
数尤度のもっとも小さい線形結合モデルに対応するカテ
ゴリに該文章を分類する。
【0021】学習部3は、幾つかの方法で線形結合モデ
ルを学習することができる。例えば、その下位カテゴリ
の線形結合モデルをヒストグラムとして推定することが
できる。また、重み係数をEMアルゴリズムと呼ばれる
アルゴリズムによって学習することができる。
【0022】ここでは、学習部3の学習アルゴリズムの
一例を示す。階層を表すグラフは木構造をもつとする。
学習部3は、木構造となるカテゴリの階層を参照し、ボ
トムアップ的にカテゴリの線形結合モデルを学習する。
その学習アルゴリズムは以下の通りであり、そのフロー
チャートを図3に示す。
【0023】 ノードcを入力とする。最初は、木構造のルートノードが入力される。 if ノードcは葉ノードである。 then ノードcのカテゴリに分類された文章から、cの線形結合モデルを学習し、 戻る。 else ノードcの子ノードci(i=1,2,…,n)の線形結合モデルを参照す る。 if ノードciの線形結合モデルはまだ学習できていない。 then ノードciに対して、再帰的に本アルゴリズムを適用する。 else ノードciの線形結合モデルとc自身の確率モデルからノードcの線形 結合モデルを学習し、戻る。
【0024】文章分類部4は文章の統計的仮説検定によ
って文章を分類する。次に、文章分類部4のアルゴリズ
ムの一例を示し、そのフローチャートを図4に示す。
【0025】 dは入力された文章であるとする。ノードcと文章dを入力とする。最初は、 木構造のルートノードが入力される。 if ノードcは葉ノードである。 then 文章dはノードcのカテゴリに属するとし、終了する。 else 文章dに対するノードcの線形結合モデルの負対数尤度L(d|c)を計算 する。ノードcの子ノードci(i=1,2,…,n)の負対数尤度L(d|c i)をも計算する。計算できたL(d|c)とL(d|ci)の最小値を求める 。 if 子ノードの中のciの負対数尤度が最小である。 then ノードciに対して本アルゴリズムを再帰的に適用する。 else 文章dはノードcのカテゴリに属するとし、終了する。
【0026】次に、学習部3による線形結合モデルを学
習する方法と、文章分類部4による負対数尤度の計算方
法を、さらに具体的な例を通じて説明する。カテゴリの
階層は図5に示すものとする。図5中、c1,c2,c
3はカテゴリであり、d1,d2,d3は既に分類され
た文章である。また、図6に各文章d1,d2,d3に
おける単語w1,w2,w3の出現頻度を示す。単語w
1,w2,w3は予め定められたキーワードである。
【0027】○線形結合モデルの学習の例 c2とc3は葉ノードであるので、それらのノードのカ
テゴリの線形結合モデルは文章における単語のヒストグ
ラムとして、図7(a)のように学習される。
【0028】c1に分類された文章d2から、c1自身
に属する確率モデルを単語のヒストグラムとして学習す
る。これをP(W|c1’)と表す。つまり、それはc
1のカテゴリに属し、c2,c3のカテゴリに属さない
確率モデルであり、図7(b)のように学習される。
【0029】一方、各モデルの事前分布を以下のように
学習する。
【数2】
【0030】ここで、f(ci)はノードciとその支
配するノードの属する文章数で、Nは全文章数である。
よって、各モデルの事前分布は図7(c)のように学習
される。
【0031】さらに、線形結合モデルの定義に従って、
ノードc1における線形結合モデルを以下のように学習
することができる。
【数3】
【0032】即ち、ノードc1における線形結合モデル
は図7(d)に示すようになる。
【0033】○負対数尤度の計算の例 新しい文章dにおける単語の分布は図8に示すものとす
る。つまり、文章分類部4は入力文章中から単語w1を
2個、単語w2を1個、単語w3を1個検出したとす
る。dに対するc1の負対数尤度を以下のように計算す
る。対数の底は2であるとする。
【数4】
【0034】同様に、c2,c3の負対数尤度を計算す
る。
【数5】
【数6】
【0035】尤度L(d|c1)がもっとも小さいの
で、dはc1に分類される。
【0036】図9を参照すると、本発明の第2の実施例
は、カテゴリ階層記憶部1、確率モデル集合記憶部5、
学習部6、および文章分類部7から構成される。
【0037】カテゴリ階層記憶部1ではカテゴリの階層
が記憶される。カテゴリの階層では、ノードがカテゴリ
を表し、リンクが上位下位関係を表す。カテゴリ階層の
例として前述した図2がある。
【0038】確率モデル集合記憶部5では、確率モデル
の集合が記憶される。カテゴリの階層における各カテゴ
リに対して一つの確率モデルの集合が定義され、記憶さ
れる。以下に確率モデルの集合の例を示す。
【0039】○確率モデル集合の例 ノードcの確率モデルの集合が確率モデルP(W|
c’),P(W|c1),…,P(W|cn)を含むと
する。P(W|c1),…,P(W|cn)はcの子ノ
ードc1,…cn の確率モデルの集合のもつ確率モデル
(確率分布)である。P(W|c’)はノードc自身に
属する確率モデルである。つまり、それは、cのカテゴ
リに属し、c1,…,cnのカテゴリに属さない確率モ
デルである。また、各確率モデルの事前確率P(c’|
c),P(c1|c),…,P(cn|c)が存在する
とする。確率モデルP(W|c’),P(W|c1),
…,P(W|cn)は、例えば、ヒストグラムの形で表
現される。
【0040】各カテゴリの確率モデルの集合は、それ自
身に属する文章による単語空間上の確率モデルと、その
下位のカテゴリに属する文章による単語空間上の確率モ
デルからなる。
【0041】学習部6は、カテゴリ階層記憶部1に記憶
されるカテゴリの階層を参照し、既にカテゴリに分類さ
れた文章から各カテゴリの対応するモデル集合を学習
し、学習できた確率モデルの集合を確率モデル集合記憶
部5に記憶する。
【0042】文章分類部7は、新しく文章を入力し、該
文章を単語のデータ列と見なし、カテゴリ階層記憶部1
に記憶されるカテゴリにおける各カテゴリを参照し、各
カテゴリに対して、確率モデル集合記憶部5から、その
カテゴリの対応する確率モデル集合を参照し、該文章の
各参照された確率モデル集合に対する確率的複雑度を計
算し、確率的複雑度のもっとも小さい確率モデル集合に
対応するカテゴリに該文章を分類する。
【0043】確率的複雑度とは、確率モデルの集合を用
いてデータを記述する際の最小記述長を表す量で、リッ
サネン(Rissanen)によって提唱されたもので
ある(Jorma Rissanen,Stochas
tic Complexity in Statist
ical Inquiry,World Scient
ific Publishing Co.,Singa
pore,1989)。本実施例では、確率的複雑度
を、確率モデル集合における確率モデルのデータに対す
る尤度の重み付き平均の負対数として計算する。
【0044】次に、学習部6の学習アルゴリズムの一例
を示す。階層を表すグラフが木構造をもつとする。学習
部6は、木構造となるカテゴリの階層を参照し、ボトム
アップ的にカテゴリの確率モデル集合を学習する。その
アルゴリズムは以下の通りであり、そのフローチャート
を図10に示す。
【0045】 ノードcを入力とする。最初は、木構造のルートノードが入力される。 if ノードcは葉ノードである。 then ノードcのカテゴリに分類された文章から、cの確率モデル集合の全ての要 素を学習し、戻る。 else ノードcの子ノードci(i=1,2,…,n)の確率モデル集合を参照す る。 if ノードciの確率モデル集合はまだ学習できていない。 then ノードciに対して、再帰的に本アルゴリズムを適用する。 else ノードciの確率モデル集合とcに分類された文章の確率モデルからノ ードcの確率モデル集合を学習し、戻る。
【0046】文章分類部7は統計的仮説検定によって文
章を分類する。次に、文章分類部7のアルゴリズムの一
例を示す。図11はそのフローチャートである。
【0047】 dは入力された文章であるとする。ノードcと文章dを入力とする。最初は、 木構造のルートノードが入力される。 if ノードcは葉ノードである。 then 文章dはノードcのカテゴリに属するとし、終了する。 else ノードcにおける文章dの確率的複雑度SC(d|c)を計算する。ノード cの子ノードci(i=1,2,…,n)における確率的複雑度SC(d|ci )をも計算する。計算できたSC(d|c)とSC(d|ci)の中の最小値を 求める。 if ノードの中のciの確率的複雑度が最小である。 then ノードciに対して本アルゴリズムを再帰的に適用する。 else 文章dはノードcのカテゴリに属するとし、終了する。
【0048】次に確率的複雑度の計算例を示す。
【0049】カテゴリの階層は図5に示すものとする。
また、文章における単語(キーワード)の出現頻度は図
6に示すものであるとする。
【0050】ノードc2,c3が葉ノードであるので、
それぞれのもつ確率モデルの集合は一つの確率モデルを
含む。さらに、それらの確率モデルがヒストグラムとし
て、図12(a)のように学習される。
【0051】ノードc1自身に属する確率モデルもヒス
トグラムとして、図12(b)のように学習される。
【0052】従って、c1の確率モデル集合は確率モデ
ルP(W|c1),P(W|c2),P(W|c3)を
含むことになる。それらの確率モデルの事前確率P(d
i|c)が一様分布であるとする。
【0053】新しい文章dにおける単語の出現頻度は図
12(c)に示すものであるとする。
【0054】dのc1に対する確率的複雑度を以下のよ
うに計算する。対数の底は2であるとする。
【数7】
【0055】dのc2,c3に対する確率的複雑度を以
下のように計算する。
【数8】
【数9】
【0056】SC(d|c3)がもっとも小さいので、
dはc3に分類される。
【0057】図13は本発明の階層型文章分類装置の第
3の実施例のブロック図である。この例の階層型文章分
類装置は、CPU101、主記憶102および補助記憶
103を含むコンピュータ104と、このコンピュータ
104に接続された表示装置105、入力装置106お
よびファイル107を含む入出力装置108と、階層型
文章分類プログラムを記録する記録媒体109とから構
成される。記録媒体109はCD−ROM、半導体メモ
リ等の機械読み取り可能な記録媒体であり、ここに記録
された階層型文章分類プログラムは、コンピュータ10
4に読み取られ、コンピュータ104の動作を制御する
ことにより、コンピュータ104上に、図1に示したカ
テゴリ階層記憶部1、確率モデル記憶部2、学習部3お
よび文章分類部4、または図9に示したカテゴリ階層記
憶部1、確率モデル集合記憶部5、学習部6および文章
分類部7を実現する。
【0058】
【発明の効果】以上説明したように、本発明によれば、
階層構造をなすカテゴリに文章を自動分類することがで
き、かつ尤度比検定の理論に基づいた統計的信頼性の高
い文章分類ができる。
【図面の簡単な説明】
【図1】本発明の階層型文章分類装置の第1の実施例の
ブロック図である。
【図2】カテゴリ階層の例を示す図である。
【図3】本発明の階層型文章分類装置の第1の実施例に
おける学習アルゴリズムの一例を示すフローチャートで
ある。
【図4】本発明の階層型文章分類装置の第1の実施例に
おける文章分類のアルゴリズムの一例を示すフローチャ
ートである。
【図5】カテゴリ階層の例を示す図である。
【図6】文章における単語分布の例を示す図である。
【図7】線形結合モデルの学習例の説明図である。
【図8】負対数尤度の計算例の説明図である。
【図9】本発明の階層型文章分類装置の第2の実施例の
ブロック図である。
【図10】本発明の階層型文章分類装置の第2の実施例
における学習アルゴリズムの一例を示すフローチャート
である。
【図11】本発明の階層型文章分類装置の第2の実施例
における文章分類のアルゴリズムの一例を示すフローチ
ャートである。
【図12】確率的複雑度の計算例の説明図である。
【図13】本発明の階層型文章分類装置の第3の実施例
のブロック図である。
【符号の説明】
1 カテゴリ階層記憶部 2 確率モデル記憶部 3 学習部 4 文章分類部 5 確率モデル集合記憶部 6 学習部 7 文章分類部
フロントページの続き (56)参考文献 特開 平10−187754(JP,A) 特開 平9−233150(JP,A) 特開 平8−287097(JP,A) 特開 平8−263510(JP,A) 特開 平7−282078(JP,A) 特開 平6−282587(JP,A) 特開 平5−225260(JP,A) 李航、山西健司、「線形結合モデルを 用いたドキュメント分類」,情報処理学 会研究報告 Vol.97 No.53(97 −NL−119)(平成9年5月27日), pp.37−44 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 210 G06F 17/30 170 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 ノードが文章の分類されたカテゴリを表
    現し、リンクがカテゴリの上位下位関係を表現するグラ
    フとして、カテゴリの階層を記憶するカテゴリ階層記憶
    部、 前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
    各カテゴリに対して、より下位のカテゴリの単語空間上
    の確率モデルの重みつき平均を該カテゴリの線形結合モ
    デルとし、各カテゴリの線形結合モデルを記憶する確率
    モデル記憶部、 前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
    各カテゴリに分類された文章を基に、各カテゴリの線形
    結合モデルを、より下位のカテゴリの線形結合モデルか
    ら学習し、学習できた各カテゴリの線形結合モデルを前
    記確率モデル記憶部に記憶する学習部、 新しく文章を入力し、該入力文章を単語のデータ列と見
    なし、前記カテゴリ階層記憶部に記憶されるカテゴリの
    階層の各カテゴリに対して、前記確率モデル記憶部に記
    憶される該カテゴリの線形結合モデルの該入力文章に対
    する負対数尤度を計算し、計算された負対数尤度の最も
    小さいカテゴリに該入力文章を分類する文章分類部、 を備えることを特徴とする階層型文章分類装置。
  2. 【請求項2】 ノードが文章の分類されたカテゴリを表
    現し、リンクがカテゴリの上位下位関係を表現するグラ
    フとして、カテゴリの階層を記憶するカテゴリ階層記憶
    部、 前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
    各カテゴリに対して、より下位のカテゴリの、単語空間
    上の確率モデルの集合を該カテゴリの確率モデルの集合
    とし、各カテゴリの確率モデルの集合の全ての要素を記
    憶する確率モデル集合記憶部、 前記カテゴリ階層記憶部に記憶されるカテゴリの階層の
    各カテゴリに分類された文章を基に、各カテゴリの確率
    モデルの集合を、より下位のカテゴリの単語空間上の確
    率モデルの集合から学習し、学習できた各カテゴリの確
    率モデルの集合のすべての要素を前記確率モデル集合記
    憶部に記憶する学習部、 新しく文章を入力し、該入力文章を単語のデータ列と見
    なし、前記カテゴリ階層記憶部に記憶されるカテゴリの
    階層の各カテゴリに対して、前記確率モデル集合記憶部
    に記憶される該カテゴリの確率モデルの集合に対する該
    入力文章の確率的複雑度を計算し、計算された確率的複
    雑度の最も小さいカテゴリに該入力文章を分類する文章
    分類部、 を備えることを特徴とする階層型文章分類装置。
  3. 【請求項3】 コンピュータを、請求項1に記載する、
    カテゴリ階層記憶部、確率モデル記憶部、学習部、およ
    び文章分類部として機能させるプログラムを記録した機
    械読み取り可能な記録媒体。
  4. 【請求項4】 コンピュータを、請求項2に記載する、
    カテゴリ階層記憶部、確率モデル集合記憶部、学習部、
    および文章分類部として機能させるプログラムを記録し
    た機械読み取り可能な記録媒体。
JP06468298A 1998-02-27 1998-02-27 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体 Expired - Fee Related JP3178406B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06468298A JP3178406B2 (ja) 1998-02-27 1998-02-27 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06468298A JP3178406B2 (ja) 1998-02-27 1998-02-27 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH11250100A JPH11250100A (ja) 1999-09-17
JP3178406B2 true JP3178406B2 (ja) 2001-06-18

Family

ID=13265186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06468298A Expired - Fee Related JP3178406B2 (ja) 1998-02-27 1998-02-27 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3178406B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102081410B1 (ko) * 2017-11-02 2020-02-25 나상하 교반기 탈부착형 농약교반장치

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3587120B2 (ja) 2000-03-15 2004-11-10 日本電気株式会社 アンケート回答分析システム
WO2005008527A1 (ja) * 2003-07-16 2005-01-27 Fujitsu Limited 動的にカテゴライズされるブックマーク管理装置
US7287012B2 (en) * 2004-01-09 2007-10-23 Microsoft Corporation Machine-learned approach to determining document relevance for search over large electronic collections of documents
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
CN100419753C (zh) * 2005-12-19 2008-09-17 株式会社理光 数字化数据集中按照分类信息搜索目标文档的方法和装置
JP5346841B2 (ja) * 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP6163461B2 (ja) * 2014-07-16 2017-07-12 日本電信電話株式会社 クラス分類装置、方法、及びプログラム
CN105243111A (zh) * 2015-09-25 2016-01-13 常熟商数信息技术有限公司 基于层次关系组织的多语种词库管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李航、山西健司、「線形結合モデルを用いたドキュメント分類」,情報処理学会研究報告 Vol.97 No.53(97−NL−119)(平成9年5月27日),pp.37−44

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102081410B1 (ko) * 2017-11-02 2020-02-25 나상하 교반기 탈부착형 농약교반장치

Also Published As

Publication number Publication date
JPH11250100A (ja) 1999-09-17

Similar Documents

Publication Publication Date Title
US6868411B2 (en) Fuzzy text categorizer
US7873642B2 (en) Method and apparatus for ontology-based classification of media content
US8027977B2 (en) Recommending content using discriminatively trained document similarity
JP4141460B2 (ja) 自動分類生成
US8005858B1 (en) Method and apparatus to link to a related document
US6199103B1 (en) Electronic mail determination method and system and storage medium
EP1347395B1 (en) Systems and methods for determining the topic structure of a portion of text
US6938025B1 (en) Method and apparatus for automatically determining salient features for object classification
JP4647336B2 (ja) グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム
US7912868B2 (en) Advertisement placement method and system using semantic analysis
US8849787B2 (en) Two stage search
EP1736901B1 (en) Method for classifying sub-trees in semi-structured documents
US7584100B2 (en) Method and system for clustering using generalized sentence patterns
US20090292685A1 (en) Video search re-ranking via multi-graph propagation
US20020133483A1 (en) Systems and methods for computer based searching for relevant texts
US20020194158A1 (en) System and method for context-dependent probabilistic modeling of words and documents
US20080215313A1 (en) Speech and Textual Analysis Device and Corresponding Method
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
US20090157656A1 (en) Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP3178406B2 (ja) 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
Madsen et al. Pruning the vocabulary for better context recognition
WO2023246849A1 (zh) 回馈数据图谱生成方法及冰箱
CN116361446A (zh) 一种文本摘要的生成方法、装置和电子设备

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080413

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090413

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees