JP2836521B2

JP2836521B2 - 文章自動分類システム

Info

Publication number: JP2836521B2
Application number: JP7065722A
Authority: JP
Inventors: 航李; 直樹安倍
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1995-03-24
Filing date: 1995-03-24
Publication date: 1998-12-14
Anticipated expiration: 2013-12-14
Also published as: JPH08263510A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、情報検索システム、
文章データベースシステムなどの、自然言語処理システ
ムにおける文章自動分類システムに関する。

【０００２】

【従来の技術】来るマルチメディア時代においては、大
量の電子化されたテキストの分類や検索が、現在よりさ
らに頻繁にかつ身近に行われると考えられる。こうした
ニーズに応えるためには、正確かつ高速に文章を分類す
る技術の確立が必要である。例えば、文献１（G.Salto
n,M.McGill,Introduction to Modern Information Retr
ieval,New York,McGraw-Hill,1983）に示されているよ
うな、文章における単語の出現頻度をもとに、文章を自
動的に分類する方法が提案されている。この方法では、
各文章における単語の頻度ベクトルを求め、それぞれの
ベクトルを正規化し、２つの文章の単語頻度ベクトル間
の角度（コサインの値）の大きさをその２つの文章間の
距離として文章の分類を行う。この方法を利用すれば、
非常に簡単に文章を分類することができる。

【０００３】

【発明が解決しようとする課題】しかし、上述した従来
の方法では、数理統計学の理論に基づいたものではな
く、結果として得られた分類の質の高さなどについて、
理論的根拠や保証がないという問題があった。従来の、
単語頻度ベクトル間の角度の大きさをその２つの文章間
の距離として分類を行う方法では、単語頻度ベクトル間
の角度の大きさが、その２つの文章間の距離を正確にあ
らわしているという裏付けがない。そのため、分類の精
度に保証がなく、例えば、本来なら同一の分類とならな
いものが同一の分類になってしまう場合もある。

【０００４】この発明は、以上のような問題点を解消す
るためになされたものであり、数理統計学や情報理論に
基づき、高い精度を維持した状態で、簡単に文章を分類
できるようにすることを目的とする。

【０００５】

【課題を解決するための手段】この発明の文章自動分類
システムは、まず、入力した文章における単語の出現頻
度を統計することで文章における単語の出現頻度からな
る出現頻度ベクトルを形成する。また、その出現頻度ベ
クトルを確率的に生成する確率モデルが存在すると仮定
し、その確率モデルを文章のクラスタとそれに付随する
単語生成確率からなるモデルとして定義する。そして、
この出現頻度ベクトルが与えられた文章に対して、情報
量基準に基づきその出現頻度ベクトルをもっともよく説
明できる確率モデルを選択してその出現頻度ベクトルを
クラスタに分割することで前記文章をクラスタに分割
し、その分割したクラスタがそれ以上分けることができ
ないところまでその分割を繰り返していくことで、文章
の分類を行うことを特徴とする。

【０００６】

【作用】情報量基準により、分類対象の文章における単
語の出現頻度ベクトルを用いてその文章をクラスタに分
割し、この分割を繰り返していくようにしたので、文章
が一義的に分類される。

【０００７】

【実施例】以下この発明の１実施例を図を参照して説明
する。実施例１．図１は、この発明の１実施例である文章自動
分類システムの構成を示す構成図である。同図におい
て、１は統計処理部、２は文章自動分類部である。統計
処理部１は、入力された複数の文章より単語を取り出
し、取り出した単語の文章中の出現頻度を統計（集計）
し、図２に示すような単語の出現頻度ベクトルを作成す
る。文章自動分類部２は、その文章中の単語の出現頻度
ベクトルをデータとし、所定の情報量基準を用いて文章
の分類を行う。

【０００８】文章自動分類部２の行う文章の分類では、
まず分類対象の文章群を２つのクラスタに分ける（クラ
スタリング）ことから始まる。このクラスタリングは、
まず、文章群を任意に２つのクラスタに分け、このとき
の２つのクラスタの関係（全記述長）を求め、所定の情
報量基準に基づいてこれが最小となるように２つのクラ
スタの文章を入れ換えていくことにより行う。そして、
得られた２つのクラスタに対して再度クラスタリング
し、これ以上分割できないところまでその分割を行う。

【０００９】このことにより、最終的に、図３に示すよ
うな文章の分類木が得られる。すなわち、この発明にお
いては、分類の対象となる文章をクラスタに完全に分類
するものである。例えば、文章Ａはクラスタ１に分類
し、文章Ｂはクラスタ２に分類する。このため、この発
明によれば、文章を分類していくとき、文章が重複して
分類されていくことはなく、また、本来なら同一の分類
とならないものが同一の分類になってしまうようなこと
もない。なお、クラスタの分割は２つに限るものではな
く、３，４個に分割するようにしても良い。

【００１０】以下、それぞれ単語の出現頻度ベクトルが
得られた文章群を、２つのクラスタに分割する方法につ
いて詳細に説明する。ここでは、まず、前述したように
任意に分けた各々のクラスタが、１つの共起確率ベクト
ルをもつような確率モデル（クラスタの中心を示す）と
なっている状態を考える。

【００１１】各文章においては、その文章中の単語の出
現頻度ベクトルが存在するが、ここではまず、単語の出
現頻度ベクトルが得られる背景に、その出現頻度ベクト
ルを確率的に生成する確率モデルが存在するものと仮定
する。そして、この文章のクラスタリングは、その確率
モデルの推定問題ととらえることができる。ここでいう
確率モデルとは、クラスタとそれに付随する単語生成確
率ベクトルからなる。確率モデルの推定とは、観測デー
タはこれらのモデルの中の１つによって生成されたもの
であると仮定し、複数のモデルからデータを最も良く説
明するモデルを選ぶことである。

【００１２】すなわち、この実施例においては、分類対
象の文章それぞれの単語の出現頻度ベクトルが、この確
率モデルのクラス（集合）の中の１つから生成されたも
のであるとし、情報量基準として例えばＭＤＬ基準を用
い、その観測データ（文章群の特徴）を最も良く説明で
きる確率モデルを、２つのクラスタ間で文章を入れ換え
ていくことで選び出すようにする。

【００１３】ＭＤＬ（Minimum Description Length）基
準（ＭＤＬ原理ともいう）とは、数理統計学や情報理論
における確率モデルを推定するための基準であり、入力
として与えられたデータをもとに、複数の確率モデルの
中から最適なモデルを選択する基準を与えるものであ
る。具体的には、ＭＤＬ基準においては、「モデル記述
長」と呼ばれる量と、「パラメータ記述長」と呼ばれる
量と、「データ記述長」と呼ばれる量とがある。そして
これらの和である「全記述長」が最小になるようなモデ
ルが、最適な確率モデルとなる。

【００１４】「モデル記述長」＋「パラメータ記述長」
はモデルの複雑さを示し、「データ記述長」はモデルの
データに対する適合の度合いを示している。モデルが単
純であれば、「モデル記述長」＋「パラメータ記述長」
が小さくなり、モデルとデータの適合の度合いが悪くな
る。一方、モデルが複雑であれば、モデルとデータの適
合の度合いが良くなる。

【００１５】つまり、モデルの複雑さとモデルとデータ
の適合の度合いの良さの間に、トレードオフの関係があ
る。このトレードオフの関係を全記述長によって表現す
れば、直感的には全記述長が最小となるモデルが、最適
なモデルであることになる。すなわち、「全記述長」が
最小となるとき、このクラスタリングにより形成したク
ラスタが、前述した観測データを最も良く説明できる確
率モデルとなる。

【００１６】情報量基準としては、他に、ＡＩＣ（Akai
ke's Information Criterion）基準などもあるが、近
年、ＭＤＬ基準による確率モデルの推定に関する研究が
盛んに行われている（文献２：J.Rissanen,Modeling by
Shortest Data Description,Automatica,Vol.14,197
8，文献３：J.Rissanen,Universal Coding,Informatio
n,Prediction,and Estimation,IEEE Trans. on IT,Vol.
IT-30,1984）。また、理論的にも、ＭＤＬ基準による確
率モデルの推定が、多くのいい性質を持つことも明らか
にされている。

【００１７】以下、情報量として上述したＭＤＬ基準を
用いたクラスタリングについて説明する。前述したよう
に、初めは分類対象の文章群を任意に２分割する。すな
わち、２つのクラスタに分ける。このとき、以下に示す
ように、２つのクラスタの間の全記述長を求める。ま
ず、文章の数がｎで、全単語数をｍであるとすると、全
記述長Ｌは以下の数１で計算される。

【００１８】

【数１】

【００１９】文章のクラスタリングのとき、上述した記
述長を計算し、全記述長が最も小さいクラスタリングを
採用すればよい。例えば、図２に示したように、単語の
出現頻度ベクトルが得られている場合、２つのクラスタ
に分けるときはｋ＝２となり、対象となる文章数ｎ＝５
であり、全単語の総出現頻度Ｎ＝６＋７＋２＋４＋７＋
４＋２＝３２となる。そして、この場合、ｊは１か２で
あり、例えば、クラスタ１に「文章Ａ」，「文章Ｂ」，
「文章Ｃ」、クラスタ２に「文章Ｄ」，「文章Ｅ」と分
けた場合、Ｎ₁₁＝６，Ｎ₂₁＝０，Ｎ₁₂＝４，Ｎ₅₂＝４な
どとなる。

【００２０】以上のようにして、２つのクラスタ間の文
章を入れ換えてその都度データ記述長を求め、これが最
小となったとき、クラスタリングしたとする。ところ
で、このように行うクラスタリングは、組み合わせ最適
化問題としてとらえることができる。そこで、組み合わ
せ最適化問題の手法として良く知られているアニーリン
グ法（Simulated Annealing ）を用いれば、以下に示す
ようにして、クラスタリングすることができる。

【００２１】まず、第１に、前述したように、分類対象
の文章群を２つのクラスタに任意に分けて、このときの
２つのクラスタの全記述長を求める。この後、第２に、
ランダムに文章を１つ選び、その文章をそのとき属して
いたクラスタから削除し、もう一方のクラスタに入れ
る。そして、この入れ換えた状態で、２つのクラスタの
全記述長を求める。そして、第３に、入れ換える前の全
記述長と入れ換えた後の全記述長の変化ΔＬを見て、Δ
Ｌ＜０であれば、その入れ換えを確定する。

【００２２】一方、ΔＬ＜０でなければ、確率Ｐ＝ｅｘ
ｐ（−ΔＬ／Ｔ）で入れ換えを確定する。例えば、Ｐ＝
０．５となったなら、サイコロを振って偶数の目が出た
とき、この入れ替えを確定する。以上の操作を繰り返し
ていき、全記述長の値が収束した段階で、クラスタリン
グを終了する。なお、Ｔは初期値を１とし、入れ換えを
１０００回実行した後、その値を０．１下げていく。

【００２３】実施例２．以下、この発明の第２の実施例
について説明する。図４は、この発明の第２の実施例で
ある文章自動分類システムの構成を示す構成図である。
同図において、１ａは入力された文章中の単語を活用辞
書記憶部３を参照してその原型に変換して、その単語の
出現頻度を統計する統計処理部であり、他は図１と同様
である。

【００２４】例えば、英語の場合、統計処理部１ａは、
動詞「ｆｌｙ」の変形「ｆｌｉｅｓ」，「ｆｌｅｗ」，
「ｆｌｏｗｎ」，「ｆｌｙｉｎｇ」を全て原型「ｆｌ
ｙ」としてとらえ、対象の各文章の中のある主語（名
詞）に対する「ｆｌｙ」の出現頻度を統計する。そし
て、文章自動分類部２において、統計処理部１ａからの
各文章における単語の出現頻度ベクトルを入力し、前述
したように、情報量基準を用いて文章の分類を行う。こ
のように、この実施例によれば、複数の形態をとる単語
であっても、これを１つの単語とみなしてその出現頻度
を統計する。このため、単語の出現頻度ベクトルが文章
の特徴をより特化して示すものとなり、文章の分類がよ
り簡素化できる。

【００２５】実施例３．以下、この発明の第３の実施例
について説明する。図５は、この発明の第３の実施例で
ある文章自動分類システムの構成を示す構成図である。
同図において、２ａは、統計処理部１ａから各文章にお
ける単語の出現頻度ベクトルを入力として受け、単語分
類記憶部４を参照することにより、単語をグループにま
とめ、単語の出現頻度ベクトルを単語グループの出現頻
度ベクトルとして用い、これをデータとして前述したよ
うに所定の情報量基準を用いて文章の分類を行う文章自
動分類部であり、他は図４と同様である。

【００２６】この実施例において、文章自動分類部２ａ
は、例えば、「雀」と「鷲」を単語グループ「鳥」とし
てとらえ、「雀」，「鷲」の出現頻度はそれぞれ加算し
て、「鳥」の出現頻度として用い、単語グループの出現
頻度ベクトルを形成する。単語分類記憶部４には、この
ような単語の分類を行うため、単語をその使い方によっ
て分類してあるものである。このようにすることで、分
類が効率よく行いやすい場合がある。例えば、分類対象
の文章中に、「雀」はあまり出現していなく、「鷲」は
多く出現している場合、これらを「鳥」として出現頻度
を統計し、これを出現頻度ベクトルとしてとらえた方
が、分類が効率よく行いやすい。

【００２７】

【発明の効果】以上説明したように、この発明によれ
ば、分類対象の文章が分割するクラスタどれかに入るよ
うに、その文章に出現する単語の頻度よりなる出現頻度
ベクトルを基にその出現頻度ベクトルを確率的に生成す
る確率モデルが存在すると仮定し、その確率モデルを文
章のクラスタとそれに付随する単語生成確率からなるモ
デルとして定義し、所定の情報量基準を用いてその出現
頻度ベクトルをもっともよく説明できる確率モデルを選
択してその出現頻度ベクトルをクラスタに分割すること
で文章をクラスタに分割していき、この分割をそれ以上
できなくなるまで続けていくようにして、文章を分類す
るようにした。このように、この発明によれば、理論的
根拠を備えた情報量基準により文章が一義的に分類され
る。このため、本来なら同一の分類とならないものが同
一の分類になってしまうなどのことが起こらず、精度の
良い分類が行えるという効果を有する。

【図面の簡単な説明】

【図１】図１は、この発明の１実施例である文章自動
分類システムの構成を示す構成図である。

【図２】分類対象における単語の出現頻度ベクトルを
示す説明図である。

【図３】図１の文章自動分類システムにより得られる
文章の分類木の状態を示す説明図である。

【図４】この発明の第２の実施例である文章自動分類
システムの構成を示す構成図である。

【図５】この発明の第３の実施例である文章自動分類
システムの構成を示す構成図である。

【符号の説明】

１…統計処理部、２…文章自動分類部。

フロントページの続き (56)参考文献特開平２−158871（ＪＰ，Ａ) 特開平５−233707（ＪＰ，Ａ) 特開平２−105973（ＪＰ，Ａ) Ｊ．ＲＯＳＳＱＵＩＮＬＡＮａｎｄＲＯＮＡＬＤＬＲＩＶＥＳＴ, ＩｎｆｅｒｒｉｎｇＤｅｃｉｓｉｏｎＴｒｅｅｓＵｓｉｎｇｔｈｅＭｉｎｉｍｕｍＤｅｓｃｒｉｐｔｉｏｎＬｅｎｇｔｈｐｒｉｎｃｉｐｌｅ, ＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｐｕｔａｔｉｏｎＶｏｌｕｍｅ 80，Ｎｕｍｂｅｒ３，Ｍａｒｃｈ 1989 ｐｐ227−248（平成元年) 伊東秀一，ＭＤＬのパターン認識への応用，人工知能学会誌ｖｏｌ．７Ｎｏ．４ｐｐ608−614，平成４年山西健司，ＭＤＬ入門：計算論的学習理論の立場から，人工知能学会誌ｖｏｌ．７Ｎｏ．３ｐｐ．435−442，平成４年 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】入力した文章における単語の出現頻度を
統計することで文章における単語の出現頻度からなる出
現頻度ベクトルを形成する統計処理部と、所定の情報量基準により、前記出現頻度ベクトルを用い
て文章を分類していく文章自動分類部とを備え、前記出現頻度ベクトルを確率的に生成する確率モデルが
存在すると仮定し、その確率モデルを文章のクラスタと
それに付随する単語生成確率からなるモデルとして定義
し、前記出現頻度ベクトルが与えられた文章に対して、前記
情報量基準に基づきその出現頻度ベクトルをもっともよ
く説明できる前記確率モデルを選択して前記出現頻度ベ
クトルをクラスタに分割することで前記文章をクラスタ
に分割し、その分割したクラスタそれぞれがそれ以上分けることが
できないところまでその分割を繰り返していくことで文
章の分類を行うことを特徴とする文章自動分類システ
ム。
【請求項２】請求項１記載の文章自動分類システムに
おいて、単語をその使い方によって分類してある単語辞書を設
け、前記単語辞書を参照することで、前記出現頻度ベクトル
を単語グループの出現頻度ベクトルとして用いることを
特徴とする文章自動分類システム。
【請求項３】請求項１または２記載の文章自動分類シ
ステムにおいて、単語とその活用形との関係が格納されている活用辞書を
設け、前記活用辞書を参照することで、活用形が異なってもこ
れらの単語を同一とみなして出現頻度を統計することを
特徴とする文章自動分類システム。