JP2836521B2 - 文章自動分類システム - Google Patents

文章自動分類システム

Info

Publication number
JP2836521B2
JP2836521B2 JP7065722A JP6572295A JP2836521B2 JP 2836521 B2 JP2836521 B2 JP 2836521B2 JP 7065722 A JP7065722 A JP 7065722A JP 6572295 A JP6572295 A JP 6572295A JP 2836521 B2 JP2836521 B2 JP 2836521B2
Authority
JP
Japan
Prior art keywords
sentence
appearance frequency
word
automatic
classification system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7065722A
Other languages
English (en)
Other versions
JPH08263510A (ja
Inventor
航 李
直樹 安倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP7065722A priority Critical patent/JP2836521B2/ja
Publication of JPH08263510A publication Critical patent/JPH08263510A/ja
Application granted granted Critical
Publication of JP2836521B2 publication Critical patent/JP2836521B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、情報検索システム、
文章データベースシステムなどの、自然言語処理システ
ムにおける文章自動分類システムに関する。
【0002】
【従来の技術】来るマルチメディア時代においては、大
量の電子化されたテキストの分類や検索が、現在よりさ
らに頻繁にかつ身近に行われると考えられる。こうした
ニーズに応えるためには、正確かつ高速に文章を分類す
る技術の確立が必要である。例えば、文献1(G.Salto
n,M.McGill,Introduction to Modern Information Retr
ieval,New York,McGraw-Hill,1983)に示されているよ
うな、文章における単語の出現頻度をもとに、文章を自
動的に分類する方法が提案されている。この方法では、
各文章における単語の頻度ベクトルを求め、それぞれの
ベクトルを正規化し、2つの文章の単語頻度ベクトル間
の角度(コサインの値)の大きさをその2つの文章間の
距離として文章の分類を行う。この方法を利用すれば、
非常に簡単に文章を分類することができる。
【0003】
【発明が解決しようとする課題】しかし、上述した従来
の方法では、数理統計学の理論に基づいたものではな
く、結果として得られた分類の質の高さなどについて、
理論的根拠や保証がないという問題があった。従来の、
単語頻度ベクトル間の角度の大きさをその2つの文章間
の距離として分類を行う方法では、単語頻度ベクトル間
の角度の大きさが、その2つの文章間の距離を正確にあ
らわしているという裏付けがない。そのため、分類の精
度に保証がなく、例えば、本来なら同一の分類とならな
いものが同一の分類になってしまう場合もある。
【0004】この発明は、以上のような問題点を解消す
るためになされたものであり、数理統計学や情報理論に
基づき、高い精度を維持した状態で、簡単に文章を分類
できるようにすることを目的とする。
【0005】
【課題を解決するための手段】この発明の文章自動分類
システムは、まず、入力した文章における単語の出現頻
度を統計することで文章における単語の出現頻度からな
る出現頻度ベクトルを形成する。また、その出現頻度ベ
クトルを確率的に生成する確率モデルが存在すると仮定
し、その確率モデルを文章のクラスタとそれに付随する
単語生成確率からなるモデルとして定義する。そして、
この出現頻度ベクトルが与えられた文章に対して、情報
量基準に基づきその出現頻度ベクトルをもっともよく説
明できる確率モデルを選択してその出現頻度ベクトルを
クラスタに分割することで前記文章をクラスタに分割
し、その分割したクラスタがそれ以上分けることができ
ないところまでその分割を繰り返していくことで、文章
の分類を行うことを特徴とする。
【0006】
【作用】情報量基準により、分類対象の文章における単
語の出現頻度ベクトルを用いてその文章をクラスタに分
割し、この分割を繰り返していくようにしたので、文章
が一義的に分類される。
【0007】
【実施例】以下この発明の1実施例を図を参照して説明
する。 実施例1.図1は、この発明の1実施例である文章自動
分類システムの構成を示す構成図である。同図におい
て、1は統計処理部、2は文章自動分類部である。統計
処理部1は、入力された複数の文章より単語を取り出
し、取り出した単語の文章中の出現頻度を統計(集計)
し、図2に示すような単語の出現頻度ベクトルを作成す
る。文章自動分類部2は、その文章中の単語の出現頻度
ベクトルをデータとし、所定の情報量基準を用いて文章
の分類を行う。
【0008】文章自動分類部2の行う文章の分類では、
まず分類対象の文章群を2つのクラスタに分ける(クラ
スタリング)ことから始まる。このクラスタリングは、
まず、文章群を任意に2つのクラスタに分け、このとき
の2つのクラスタの関係(全記述長)を求め、所定の情
報量基準に基づいてこれが最小となるように2つのクラ
スタの文章を入れ換えていくことにより行う。そして、
得られた2つのクラスタに対して再度クラスタリング
し、これ以上分割できないところまでその分割を行う。
【0009】このことにより、最終的に、図3に示すよ
うな文章の分類木が得られる。すなわち、この発明にお
いては、分類の対象となる文章をクラスタに完全に分類
するものである。例えば、文章Aはクラスタ1に分類
し、文章Bはクラスタ2に分類する。このため、この発
明によれば、文章を分類していくとき、文章が重複して
分類されていくことはなく、また、本来なら同一の分類
とならないものが同一の分類になってしまうようなこと
もない。なお、クラスタの分割は2つに限るものではな
く、3,4個に分割するようにしても良い。
【0010】以下、それぞれ単語の出現頻度ベクトルが
得られた文章群を、2つのクラスタに分割する方法につ
いて詳細に説明する。ここでは、まず、前述したように
任意に分けた各々のクラスタが、1つの共起確率ベクト
ルをもつような確率モデル(クラスタの中心を示す)と
なっている状態を考える。
【0011】各文章においては、その文章中の単語の出
現頻度ベクトルが存在するが、ここではまず、単語の出
現頻度ベクトルが得られる背景に、その出現頻度ベクト
ルを確率的に生成する確率モデルが存在するものと仮定
する。そして、この文章のクラスタリングは、その確率
モデルの推定問題ととらえることができる。ここでいう
確率モデルとは、クラスタとそれに付随する単語生成確
率ベクトルからなる。確率モデルの推定とは、観測デー
タはこれらのモデルの中の1つによって生成されたもの
であると仮定し、複数のモデルからデータを最も良く説
明するモデルを選ぶことである。
【0012】すなわち、この実施例においては、分類対
象の文章それぞれの単語の出現頻度ベクトルが、この確
率モデルのクラス(集合)の中の1つから生成されたも
のであるとし、情報量基準として例えばMDL基準を用
い、その観測データ(文章群の特徴)を最も良く説明で
きる確率モデルを、2つのクラスタ間で文章を入れ換え
ていくことで選び出すようにする。
【0013】MDL(Minimum Description Length)基
準(MDL原理ともいう)とは、数理統計学や情報理論
における確率モデルを推定するための基準であり、入力
として与えられたデータをもとに、複数の確率モデルの
中から最適なモデルを選択する基準を与えるものであ
る。具体的には、MDL基準においては、「モデル記述
長」と呼ばれる量と、「パラメータ記述長」と呼ばれる
量と、「データ記述長」と呼ばれる量とがある。そして
これらの和である「全記述長」が最小になるようなモデ
ルが、最適な確率モデルとなる。
【0014】「モデル記述長」+「パラメータ記述長」
はモデルの複雑さを示し、「データ記述長」はモデルの
データに対する適合の度合いを示している。モデルが単
純であれば、「モデル記述長」+「パラメータ記述長」
が小さくなり、モデルとデータの適合の度合いが悪くな
る。一方、モデルが複雑であれば、モデルとデータの適
合の度合いが良くなる。
【0015】つまり、モデルの複雑さとモデルとデータ
の適合の度合いの良さの間に、トレードオフの関係があ
る。このトレードオフの関係を全記述長によって表現す
れば、直感的には全記述長が最小となるモデルが、最適
なモデルであることになる。すなわち、「全記述長」が
最小となるとき、このクラスタリングにより形成したク
ラスタが、前述した観測データを最も良く説明できる確
率モデルとなる。
【0016】情報量基準としては、他に、AIC(Akai
ke's Information Criterion)基準などもあるが、近
年、MDL基準による確率モデルの推定に関する研究が
盛んに行われている(文献2:J.Rissanen,Modeling by
Shortest Data Description,Automatica,Vol.14,197
8,文献3:J.Rissanen,Universal Coding,Informatio
n,Prediction,and Estimation,IEEE Trans. on IT,Vol.
IT-30,1984)。また、理論的にも、MDL基準による確
率モデルの推定が、多くのいい性質を持つことも明らか
にされている。
【0017】以下、情報量として上述したMDL基準を
用いたクラスタリングについて説明する。前述したよう
に、初めは分類対象の文章群を任意に2分割する。すな
わち、2つのクラスタに分ける。このとき、以下に示す
ように、2つのクラスタの間の全記述長を求める。ま
ず、文章の数がnで、全単語数をmであるとすると、全
記述長Lは以下の数1で計算される。
【0018】
【数1】
【0019】文章のクラスタリングのとき、上述した記
述長を計算し、全記述長が最も小さいクラスタリングを
採用すればよい。例えば、図2に示したように、単語の
出現頻度ベクトルが得られている場合、2つのクラスタ
に分けるときはk=2となり、対象となる文章数n=5
であり、全単語の総出現頻度N=6+7+2+4+7+
4+2=32となる。そして、この場合、jは1か2で
あり、例えば、クラスタ1に「文章A」,「文章B」,
「文章C」、クラスタ2に「文章D」,「文章E」と分
けた場合、N11=6,N21=0,N12=4,N52=4な
どとなる。
【0020】以上のようにして、2つのクラスタ間の文
章を入れ換えてその都度データ記述長を求め、これが最
小となったとき、クラスタリングしたとする。ところ
で、このように行うクラスタリングは、組み合わせ最適
化問題としてとらえることができる。そこで、組み合わ
せ最適化問題の手法として良く知られているアニーリン
グ法(Simulated Annealing )を用いれば、以下に示す
ようにして、クラスタリングすることができる。
【0021】まず、第1に、前述したように、分類対象
の文章群を2つのクラスタに任意に分けて、このときの
2つのクラスタの全記述長を求める。この後、第2に、
ランダムに文章を1つ選び、その文章をそのとき属して
いたクラスタから削除し、もう一方のクラスタに入れ
る。そして、この入れ換えた状態で、2つのクラスタの
全記述長を求める。そして、第3に、入れ換える前の全
記述長と入れ換えた後の全記述長の変化ΔLを見て、Δ
L<0であれば、その入れ換えを確定する。
【0022】一方、ΔL<0でなければ、確率P=ex
p(−ΔL/T)で入れ換えを確定する。例えば、P=
0.5となったなら、サイコロを振って偶数の目が出た
とき、この入れ替えを確定する。以上の操作を繰り返し
ていき、全記述長の値が収束した段階で、クラスタリン
グを終了する。なお、Tは初期値を1とし、入れ換えを
1000回実行した後、その値を0.1下げていく。
【0023】実施例2.以下、この発明の第2の実施例
について説明する。図4は、この発明の第2の実施例で
ある文章自動分類システムの構成を示す構成図である。
同図において、1aは入力された文章中の単語を活用辞
書記憶部3を参照してその原型に変換して、その単語の
出現頻度を統計する統計処理部であり、他は図1と同様
である。
【0024】例えば、英語の場合、統計処理部1aは、
動詞「fly」の変形「flies」,「flew」,
「flown」,「flying」を全て原型「fl
y」としてとらえ、対象の各文章の中のある主語(名
詞)に対する「fly」の出現頻度を統計する。そし
て、文章自動分類部2において、統計処理部1aからの
各文章における単語の出現頻度ベクトルを入力し、前述
したように、情報量基準を用いて文章の分類を行う。こ
のように、この実施例によれば、複数の形態をとる単語
であっても、これを1つの単語とみなしてその出現頻度
を統計する。このため、単語の出現頻度ベクトルが文章
の特徴をより特化して示すものとなり、文章の分類がよ
り簡素化できる。
【0025】実施例3.以下、この発明の第3の実施例
について説明する。図5は、この発明の第3の実施例で
ある文章自動分類システムの構成を示す構成図である。
同図において、2aは、統計処理部1aから各文章にお
ける単語の出現頻度ベクトルを入力として受け、単語分
類記憶部4を参照することにより、単語をグループにま
とめ、単語の出現頻度ベクトルを単語グループの出現頻
度ベクトルとして用い、これをデータとして前述したよ
うに所定の情報量基準を用いて文章の分類を行う文章自
動分類部であり、他は図4と同様である。
【0026】この実施例において、文章自動分類部2a
は、例えば、「雀」と「鷲」を単語グループ「鳥」とし
てとらえ、「雀」,「鷲」の出現頻度はそれぞれ加算し
て、「鳥」の出現頻度として用い、単語グループの出現
頻度ベクトルを形成する。単語分類記憶部4には、この
ような単語の分類を行うため、単語をその使い方によっ
て分類してあるものである。このようにすることで、分
類が効率よく行いやすい場合がある。例えば、分類対象
の文章中に、「雀」はあまり出現していなく、「鷲」は
多く出現している場合、これらを「鳥」として出現頻度
を統計し、これを出現頻度ベクトルとしてとらえた方
が、分類が効率よく行いやすい。
【0027】
【発明の効果】以上説明したように、この発明によれ
ば、分類対象の文章が分割するクラスタどれかに入るよ
うに、その文章に出現する単語の頻度よりなる出現頻度
ベクトルを基にその出現頻度ベクトルを確率的に生成す
る確率モデルが存在すると仮定し、その確率モデルを文
章のクラスタとそれに付随する単語生成確率からなるモ
デルとして定義し、所定の情報量基準を用いてその出現
頻度ベクトルをもっともよく説明できる確率モデルを選
択してその出現頻度ベクトルをクラスタに分割すること
で文章をクラスタに分割していき、この分割をそれ以上
できなくなるまで続けていくようにして、文章を分類す
るようにした。このように、この発明によれば、理論的
根拠を備えた情報量基準により文章が一義的に分類され
る。このため、本来なら同一の分類とならないものが同
一の分類になってしまうなどのことが起こらず、精度の
良い分類が行えるという効果を有する。
【図面の簡単な説明】
【図1】 図1は、この発明の1実施例である文章自動
分類システムの構成を示す構成図である。
【図2】 分類対象における単語の出現頻度ベクトルを
示す説明図である。
【図3】 図1の文章自動分類システムにより得られる
文章の分類木の状態を示す説明図である。
【図4】 この発明の第2の実施例である文章自動分類
システムの構成を示す構成図である。
【図5】 この発明の第3の実施例である文章自動分類
システムの構成を示す構成図である。
【符号の説明】
1…統計処理部、2…文章自動分類部。
フロントページの続き (56)参考文献 特開 平2−158871(JP,A) 特開 平5−233707(JP,A) 特開 平2−105973(JP,A) J.ROSS QUINLAN an d RONALD L RIVEST, Inferring Decision Trees Using the M inimum Description Length principle, Information and Co mputation Volume 80,Number3,March 1989 pp227−248(平成元年) 伊東秀一,MDLのパターン認識への 応用,人工知能学会誌vol.7 N o.4 pp608−614,平成4年 山西健司,MDL入門:計算論的学習 理論の立場から,人工知能学会誌vo l.7 No.3 pp.435−442,平 成4年 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力した文章における単語の出現頻度を
    統計することで文章における単語の出現頻度からなる出
    現頻度ベクトルを形成する統計処理部と、 所定の情報量基準により、前記出現頻度ベクトルを用い
    て文章を分類していく文章自動分類部とを備え、前記出現頻度ベクトルを確率的に生成する確率モデルが
    存在すると仮定し、その確率モデルを文章のクラスタと
    それに付随する単語生成確率からなるモデルとして定義
    し、 前記出現頻度ベクトルが与えられた文章に対して、前記
    情報量基準に基づきその出現頻度ベクトルをもっともよ
    く説明できる前記確率モデルを選択して前記出現頻度ベ
    クトルをクラスタに分割することで前記文章をクラスタ
    に分割し、 その分割したクラスタそれぞれがそれ以上分けることが
    できないところまでその分割を繰り返していくことで文
    章の分類を行うことを特徴とする文章自動分類システ
    ム。
  2. 【請求項2】 請求項1記載の文章自動分類システムに
    おいて、 単語をその使い方によって分類してある単語辞書を設
    け、 前記単語辞書を参照することで、前記出現頻度ベクトル
    を単語グループの出現頻度ベクトルとして用いることを
    特徴とする文章自動分類システム。
  3. 【請求項3】 請求項1または2記載の文章自動分類シ
    ステムにおいて、 単語とその活用形との関係が格納されている活用辞書を
    設け、 前記活用辞書を参照することで、活用形が異なってもこ
    れらの単語を同一とみなして出現頻度を統計することを
    特徴とする文章自動分類システム。
JP7065722A 1995-03-24 1995-03-24 文章自動分類システム Expired - Fee Related JP2836521B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7065722A JP2836521B2 (ja) 1995-03-24 1995-03-24 文章自動分類システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7065722A JP2836521B2 (ja) 1995-03-24 1995-03-24 文章自動分類システム

Publications (2)

Publication Number Publication Date
JPH08263510A JPH08263510A (ja) 1996-10-11
JP2836521B2 true JP2836521B2 (ja) 1998-12-14

Family

ID=13295203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7065722A Expired - Fee Related JP2836521B2 (ja) 1995-03-24 1995-03-24 文章自動分類システム

Country Status (1)

Country Link
JP (1) JP2836521B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3443515B2 (ja) * 1997-05-27 2003-09-02 東芝テック株式会社 ファクシミリ型電子メール装置
JP3266106B2 (ja) * 1998-07-17 2002-03-18 日本電気株式会社 文章自動分類装置及び方法
US8249871B2 (en) * 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
JP2007272843A (ja) * 2006-03-31 2007-10-18 Hideo Sunaga 1対多コミュニケーションシステム
JP5178357B2 (ja) * 2008-07-03 2013-04-10 Kddi株式会社 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
JP7347730B2 (ja) * 2018-12-13 2023-09-20 株式会社レスポン アンケートシステム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J.ROSS QUINLAN and RONALD L RIVEST,Inferring Decision Trees Using the Minimum Description Length principle,Information and Computation Volume 80,Number3,March 1989 pp227−248(平成元年)
伊東秀一,MDLのパターン認識への応用,人工知能学会誌vol.7 No.4 pp608−614,平成4年
山西健司,MDL入門:計算論的学習理論の立場から,人工知能学会誌vol.7 No.3 pp.435−442,平成4年

Also Published As

Publication number Publication date
JPH08263510A (ja) 1996-10-11

Similar Documents

Publication Publication Date Title
Luo et al. Learning multi-dimensional edge feature-based au relation graph for facial action unit recognition
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN113515770A (zh) 基于隐私保护确定目标业务模型的方法及装置
CN109710916A (zh) 一种标签提取方法、装置、电子设备及存储介质
CN107145516A (zh) 一种文本聚类方法及系统
JP2836521B2 (ja) 文章自動分類システム
CN115329075A (zh) 基于分布式机器学习的文本分类方法
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN111651596A (zh) 一种文本聚类的方法、装置、服务器及存储介质
Luqman et al. Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images
CN113869332A (zh) 一种特征选择方法、装置、存储介质和设备
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
JPH11143875A (ja) 単語自動分類装置及び単語自動分類方法
CN111078886B (zh) 基于dmcnn的特殊事件提取系统
CN114595336A (zh) 一种基于高斯混合模型的多关系语义解决模型
JP3304670B2 (ja) 単語自動分類システム
JP5829471B2 (ja) 意味分析装置およびそのプログラム
CN116361470B (zh) 一种基于话题描述的文本聚类清洗和合并方法
Metre et al. Optimization of Document Clustering Using UNL Document Vector Generation and Swarm Intelligence
CN116049414B (zh) 基于话题描述的文本聚类方法、电子设备和存储介质
JP7012811B1 (ja) 検索装置、検索方法、およびプログラム
CN117370678B (zh) 基于大数据的社区舆情监测方法及相关装置
CN118171648B (zh) 文本提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071009

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081009

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091009

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees