JP2001022727A

JP2001022727A - テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体

Info

Publication number: JP2001022727A
Application number: JP11191064A
Authority: JP
Inventors: Hiroyori Taira; 博順平
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-07-05
Filing date: 1999-07-05
Publication date: 2001-01-26

Abstract

(57)【要約】【課題】文書の特徴を表す高次元の特徴ベクトルをも
とに、高い精度の分類法を学習することが可能なテキス
ト分類学習方法及び装置及びテキスト分類学習プログラ
ムを格納した記憶媒体を提供する。【解決手段】本発明は、カテゴリ毎に分類されたテキ
ストの集合が与えられると、該テキストから単語の抽出
と選択及び特徴ベクトルの作成を行い、SupportVector
Machine（以下、ＳＶＭ）において、特徴ベクトルを用
いて分類法を学習する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト分類学習
方法及び装置及びテキスト分類学習プログラムを格納し
た記憶媒体に係り、特に、自然言語処理システム、文書
処理システム、情報検索システム等において、テキスト
を分類するための基準や規則を学習するために用いら
れ、テキストの分類法を学習するためのテキスト分類学
習方法及び装置及びテキスト分類学習プログラムを格納
した記憶媒体に関する。

【０００２】

【従来の技術】従来、文書を分類する方法を学習する場
合、次のように各文書の特徴ベクトルを作成する。対象
領域の文書に合われるすべての単語について、各テキス
トに出現するかどうかを１、０の属性値で表したベクト
ルや、各単語の出現頻度や情報量を属性とする実数ベク
トルを作成する。これらのベクトルを総称してここで
は、特徴ベクトルと呼ぶ。

【０００３】一般のテキストに現れる単語数は数十万
語、特定の領域に限っても数万の単語を含む。これは、
特徴ベクトルの属性の数、つまり、ベクトルの次元が数
万から数十万になることを意味する。しかし、従来のニ
ューラルネットワークや決定木の学習手法では、数万か
ら数十万の次元の特徴ベクトルを高い精度で分類するこ
とはできない。これは、従来の学習装置では、特徴ベク
トルが高次元になると、分類法を学習するプログラムの
処理速度が全く実用に耐えないほど遅くなるし、処理の
ために膨大なメモリが必要となるためである。さらに、
従来の学習手法は、高次元の特徴ベクトルに対して、過
剰適応（過学習）した分類法を学習してしまい、分類精
度が低下する。そこで、従来の手法では、特徴ベクトル
に現れる属性を数十個から数百個選択し、特徴ベクトル
の次元を低くすることにより学習させている。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
テキスト分類の学習手法では、数万から数十万次元の特
徴ベクトルを高い精度で分類する方法を学習することは
できない。また、そこで属性を数百程度選択していた
が、もともと数万から数十万の次元であった特徴ベクト
ルには、本来正しい分類に必要な属性が含まれているに
も関わらず、選択のときに、これらの属性が大幅に削除
されるため、精度の高い分類法を学習することができな
いという問題がある。

【０００５】本発明は、上記の点に鑑みなされたもの
で、文書の特徴を表す高次元の特徴ベクトルをもとに、
高い精度の分類法を学習することが可能なテキスト分類
学習方法及び装置及びテキスト分類学習プログラムを格
納した記憶媒体を提供することを目的とする。

【０００６】

【課題を解決するための手段】図１は、本発明の原理を
説明するための図である。本発明（請求項１）は、テキ
ストの分類法を学習するテキスト分類学習方法におい
て、カテゴリ毎に分類されたテキストの集合が与えられ
ると（ステップ１）、該テキストから単語の抽出と選択
及び特徴ベクトルの作成を行い（ステップ２）、Suppor
t Vector Machine（以下、ＳＶＭ）において、特徴ベク
トルを用いて分類法を学習する（ステップ３）。

【０００７】本発明（請求項２）は、抽出された単語の
品詞に基づいて特徴ベクトルを選択する。本発明（請求
項３）は、選択する単語として動詞、固有名詞、未知
語、普通名詞、サ変名詞を選択する。図２は、本発明の
原理構成図である。

【０００８】本発明（請求項４）は、テキストの分類法
を学習するテキスト分類学習装置であって、カテゴリ毎
に分類されたテキストの集合が与えられると、該テキス
トから単語の抽出と選択及び特徴ベクトルの作成を行う
単語抽出手段２と、特徴ベクトルを用いて分類法を学習
するSupport Vector Machine（以下、ＳＶＭ）３とを有
する。

【０００９】本発明（請求項５）は、単語抽出手段２に
おいて、抽出された単語の品詞に基づいて特徴ベクトル
を選択する特徴ベクトル選択手段を有する。本発明（請
求項６）は、単語抽出手段２において、選択する単語と
して動詞、固有名詞、未知語、普通名詞、サ変名詞を選
択する単語選択手段を有する。

【００１０】本発明（請求項７）は、テキストの分類法
を学習するテキスト分類学習プログラムを格納した記憶
媒体であって、カテゴリ毎に分類されたテキストの集合
が与えられると、該テキストから単語の抽出と選択及び
特徴ベクトルの作成を行う単語抽出プロセスと、単語抽
出プロセスで抽出・選択された特徴ベクトルを分類法を
学習するSupport Vector Machine（以下、ＳＶＭ）に渡
す転送プロセスとを有する。

【００１１】本発明（請求項８）は、単語抽出プロセス
において、抽出された単語の品詞に基づいて特徴ベクト
ルを選択する特徴ベクトル選択プロセスを有する。本発
明（請求項９）は、単語抽出プロセスにおいて、選択す
る単語として動詞、固有名詞、未知語、普通名詞、サ変
名詞を選択する単語選択プロセスを有する。

【００１２】上記のように、本発明では、テキストの単
語抽出し、抽出された単語のうち選択された単語につい
て、各文書から高次元の特徴ベクトルを作成し、ＳＶＭ
（数万〜数十万の次元の特徴ベクトルを扱うことができ
るSupport Vector Machine（以下、ＳＶＭ：参考文献：
V.Vapnik. The Natue of Statistical Learning Theor
y. Springer Verlag. New York. 1995 を参照）により
分類法を学習することにより、カテゴリに分けられたテ
キストが与えられると、テキストを分類するための基準
が得られる。

【００１３】

【発明の実施の形態】図３は、本発明のテキスト分類学
習装置の概略図である。同図に示すテキスト分類学習装
置１は、与えられたテキスト群について単語を抽出・選
択する単語抽出部２、分類法を学習するＳＶＭ３から構
成される。ここで、ＳＶＭ３として、ＳＶＭ（数万〜数
十万の次元の特徴ベクトルを扱うことができるSupport
Vector Machine（以下、ＳＶＭ：参考文献：V.Vapnik.
The Natue of Statistical Learning Theory. Springer
Verlag. New York. 1995を参照）を用いるものとす
る。

【００１４】図４は、本発明のテキスト分類学習装置の
詳細な構成を示す。同図に示すテキスト分類学習装置１
の単語抽出部２は、選択基準を記憶する選択基準記憶部
２３と、入力された訓練データ（テキストと正負データ
の組）について形態素解析を行う形態素解析部２１と、
形態素解析により抽出された単語列について選択基準記
憶部２３に格納されている選択基準に基づいて単語を選
択する単語選択部２２から構成される。

【００１５】次に、図４に示すテキスト分類学習装置の
動作を説明する。図５は、本発明のテキスト分類学習装
置の動作を示すフローチャートである。ステップ１０１）単語抽出部２にテキスト群を入力す
る。ステップ１０２）単語抽出部２の形態素解析部２１に
おいて、与えられたテキスト群について形態素解析によ
り単語を抽出する。

【００１６】ステップ１０３）単語抽出部２は、単語
が出現したときに１、出現しなかったときに０の値を持
つ要素からなる特徴ベクトルを作成するという選択基準
記憶部２３に格納されている選択基準に基づいて単語属
性ベクトルを生成すると共に、対象記事が分類カテゴリ
に属せば１、属さない場合には−１となるスカラ変数を
作成する。

【００１７】ステップ１０４）ＳＶＭ３において、特
徴ベクトルとスカラ変数から学習を行い、テキストの分
類法を出力する。

【００１８】

【実施例】以下、図面と共に本発明の実施例を説明す
る。本実施例における訓練データ及びテストデータに
は、ＲＷＣＰテキストコース（参考文献：豊浦潤、徳永
健伸、井佐原均、岡隆一、ＲＷＣにおける分類コード付
きテキストデータベースの開発、電子情報通信学会信学
技報ＮＬＣ96-13. 1996 参照）を用いて説明する。当該
コーパスは、１９９４年版の毎日新聞の約３万件の記事
に、国際十進分類法に基づくＵＤＣコード（参考文献：
情報科学技術協会、国際十進分類法、丸善、1994、参
照）を付与したものである。これらの記事の中から頻度
の高い１０種類の分類カテゴリ（スポーツ、刑法、政
府、教育、交通、軍事、国際関連、言語活動、演劇、作
物）が付与さえたデータ２０００記事を選び、１０００
記事を訓練データ、１０００記事をテストデータ、分類
対象データとした。

【００１９】訓練データとテストデータ数を以下の表に
示す。

【００２０】

【表１】

【００２１】記事の中に特定の普通名詞、固有名詞、サ
変名詞、未定義語、動詞の５品詞のいずれかに属す単語
が出現するか否かを記事の特徴とみなし、特徴ベクトル
を生成する。ＳＶＭ３は、上記の１０種類の分類を対象
にして、１０台の分類装置（ＳＶＭ）を構成する。例え
ば、スポーツに関する分類装置においては、スポーツの
分類コードが付与されたデータを正例、付与されていな
いデータを負例とし、テストデータに対して正例／負例
のいずれかのカテゴリに入るかを判定する。

【００２２】単語抽出装置２に訓練データとなる記事が
入力されると、形態素解析を行い、分割された単語毎に
品詞が特定され、普通名詞、固有名詞、サ変名詞、未定
義語、動詞の５品詞のいずれかに属す単語が抽出され
る。そして、単語抽出装置２は、単語が出現したときに
１、出現しなかったときに０の値を持つ要素からなる特
徴ベクトルを作成する。同時に、単語抽出装置２は、対
象記事が分類カテゴリに属せば１、属さない場合には−
１となるスカラ変数も作成する。例えば、テキストがス
ポーツカテゴリに属すか否かの分類法を学習している時
に、「私のパソコンのメールボックスに毎週届く心温ま
るメール。」という言語活動カテゴリに属す記事が単語
抽出装置２に入力されると、「私（普通名詞）の（名詞
接続助詞）パソコン（普通名詞）の（名詞接続助詞）メ
ールボックス（普通名詞）に（格助詞）毎週（時相名
詞）届く（動詞）、（読点）心（普通名詞）温まる（動
詞）メール（サ変名詞）。（句点）」と形態素解析され
る（ここで、括弧内は前の単語の品詞名である）。そし
て、上に挙げた５品詞に当てはまる単語「私」「パソコ
ン」「メールボックス」「届く」「心」「温まる」「メ
ール」が抽出される。そして、例えば、特徴ベクトルの
要素が、第１要素（「愛」の出現有無）、第２要素
（「温まる」の出現有無）、第３要素以下、同様に「カ
ラス」「心」「サッカー」「シュート」「届く」「パソ
コン」「メール」「メールボックス」「野球」「塁」
「私」「ワイド」…の出現有無を表しているとすると、
（０，１，０，０，０，１，１，１，１，０，０，１，
０，…）というベクトルが生成される。また、記事は、
言語活動カテゴリに属し、スポーツカテゴリには属さな
いため、スカラ変数として−１が作成される。

【００２３】このようにして得られた単語属性ベクトル
（特徴ベクトル）とスカラ変数がＳＶＭ３に入力され
る。ＳＶＭ３は、入力された特徴ベクトルとスカラ変数
から学習を行い、テキストの分類法を出力する。分類精
度を評価するために、適合率、再現率、Ｆ値（参考文
献：B.M. Sundheim. Overview of the Fourth Message
Understanding Evaluation and conference. Proceedin
gs of Fourth message Understanding conference, pp.
3-29, 1992. 参照）を用いた。各分類毎に、分類モデル
と正解の正事例と負事例の数から、・ａ：正解が正事例で分類モデルも正事例と判断した数・ｂ：正解が負事例で分類モデルも正事例と判断した数・ｃ：正解が正事例で分類モデルも負事例と判断した数を考えると、適合率（Ｐ）、再現率（Ｒ）は、次のよう
に定義される。

【００２４】

【数１】

【００２５】また、Ｆ値は適合率、Ｒ値は再現率より、

【００２６】

【数２】

【００２７】で表される。ここで、βは、重みづけパラ
メータで今回はβ＝１とした。上記のようにして求めら
れたＦ値を分類判定基準とする。図６は、本発明の一実
施例の分類学習結果を用いたテキスト分類装置の構成を
示す。同図に示すテキスト分類装置４は、入力された分
類対象テキストを形態素解析する形態素解析部４１、形
態素解析された単語列から選択基準を参照して単語を選
択する単語選択部４２、単語を選択するための選択基準
を記憶する選択基準記憶部４３、分類判定基準を参照し
て、入力された分類対象テキストの単語の分類を判別す
る判別部４４、及びテキスト分類学習装置１から出力さ
れた分類判定基準を記憶する分類判定基準記憶部４５か
ら構成される。

【００２８】上記の構成において、分類対象テキストが
入力されると、形態素解析部４１において、分類対象テ
キストの文字列を形態素解析し、次に、単語選択部４２
において、選択基準記憶部４３に格納されている選択基
準を参照して形態素解析された単語列から単語属性ベク
トルを生成し、判別部４４に渡す。これにより、判別部
４４は、単語属性ベクトルと分類判定基準記憶部４５に
格納されている分類判定基準を用いて分類対象テキスト
の各単語に対する分類を行い、テキスト全体の分類を判
定する。

【００２９】また、上記の実施例では、図３、図４に構
成に基づいてテキスト分類学習装置を説明したが、当該
テキスト分類学習装置の構成要素をプログラムとして構
築し、テキスト分類学習装置として利用されるコンピュ
ータに接続されるディスク装置や、フロッピーディス
ク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本
発明を実施する際にインストールすることにより容易に
本発明を実現できる。

【００３０】なお、本発明は、上記の実施例に限定され
ることなく特許請求の範囲内で種々変更・応用が可能で
ある。

【００３１】

【発明の効果】本発明において、５品詞を選択して分類
を行った場合と品詞を選択しない従来の方法を比較した
結果を以下に示す。

【００３２】

【表２】

【００３３】Ｆ値は、０から１までの値をとり、１に近
いほど精度が高いので、１カテゴリを除き、５品詞を予
め抽出した方が分類精度が高く、本発明がデータ分類の
精度を上げるのに有効であることが分かる。このよう
に、本発明は、テキスト群から単語を抽出・選択し、特
徴ベクトルを作成し、特徴ベクトルに基づき、ＳＶＭが
テキスト分類法を学習する。ＳＶＭは、高次元の特徴ベ
クトルを扱えるため、数万〜数十万の単語の特徴ベクト
ルを表す単語として選択することができる。

【００３４】また、ＳＶＭは、高次元のベクトルに対し
て、過学習をしないという特徴があるため、非常に高い
精度の分類を行うテキスト分類法を学習できる。

【図面の簡単な説明】

【図１】本発明の原理を説明するための図である。

【図２】本発明の原理構成図である。

【図３】本発明のテキスト分類学習装置の概略図であ
る。

【図４】本発明のテキスト分類学習装置の詳細な構成図
である。

【図５】本発明のテキスト分類学習装置の動作を示すフ
ローチャートである。

【図６】本発明の一実施例の分類学習結果を用いたテキ
スト分類装置の構成図である。

【符号の説明】

１テキスト分類学習装置２単語抽出手段、単語抽出部３ＳＶＭ４テキスト分類装置２１形態素解析部２２単語選択部２３選択基準記憶部４１形態素解析部４２単語選択部４３選択基準記憶部４４判別部４５分類判定基準記憶部

Claims

【特許請求の範囲】

【請求項１】テキストの分類法を学習するテキスト分
類学習方法において、カテゴリ毎に分類されたテキストの集合が与えられる
と、該テキストから単語の抽出と選択及び特徴ベクトル
の作成を行い、 Support Vector Machine（以下、ＳＶＭ）において、前
記特徴ベクトルを用いて分類法を学習することを特徴と
するテキスト分類学習方法。
【請求項２】抽出された単語の品詞に基づいて特徴ベ
クトルを選択する請求項１記載のテキスト分類学習方
法。
【請求項３】選択する単語として普通名詞、固有名
詞、サ変名詞、未知語、動詞を選択する請求項１記載の
テキスト分類学習方法。
【請求項４】テキストの分類法を学習するテキスト分
類学習装置であって、カテゴリ毎に分類されたテキストの集合が与えられる
と、該テキストから単語の抽出と選択及び特徴ベクトル
の作成を行う単語抽出手段と、前記特徴ベクトルを用いて分類法を学習するSupport Ve
ctor Machine（以下、ＳＶＭ）とを有することを特徴と
するテキスト分類学習装置。
【請求項５】前記単語抽出手段は、抽出された単語の品詞に基づいて特徴ベクトルを選択す
る特徴ベクトル選択手段を有する請求項４記載のテキス
ト分類学習装置。
【請求項６】前記単語抽出手段は、選択する単語として普通名詞、固有名詞、サ変名詞、未
知語、動詞を選択する単語選択手段を有する請求項４記
載のテキスト分類学習装置。
【請求項７】テキストの分類法を学習するテキスト分
類学習プログラムを格納した記憶媒体であって、カテゴリ毎に分類されたテキストの集合が与えられる
と、該テキストから単語の抽出と選択及び特徴ベクトル
の作成を行う単語抽出プロセスと、前記単語抽出プロセスで抽出・選択された前記特徴ベク
トルを、分類法を学習するSupport Vector Machine（以
下、ＳＶＭ）に渡す転送プロセスとを有することを特徴
とするテキスト分類学習プログラムを格納した記憶媒
体。
【請求項８】前記単語抽出プロセスは、抽出された単語の品詞に基づいて特徴ベクトルを選択す
る特徴ベクトル選択プロセスを有する請求項７記載のテ
キスト分類学習プログラムを格納した記憶媒体。
【請求項９】前記単語抽出プロセスは、選択する単語として普通名詞、固有名詞、サ変名詞、未
知語、動詞を選択する単語選択プロセスを有する請求項
７記載のテキスト分類学習プログラムを格納した記憶媒
体。