JPH11110409A

JPH11110409A - 情報分類方法及び装置

Info

Publication number: JPH11110409A
Application number: JP9274528A
Authority: JP
Inventors: Masami Hara; 正巳原; Tsuyoshi Kitani; 強木谷
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 1997-10-07
Filing date: 1997-10-07
Publication date: 1999-04-23

Abstract

(57)【要約】【課題】テキストの高精度な分類が可能となる情報分
類装置を提供する。【解決手段】テキスト入力部１１、単語処理部１２、
特徴ベクトル処理部１３、類似度処理部１４、カテゴリ
決定部１５を備え、外部または内部に、文書データベー
ス１６及び学習特徴ベクトル集合ファイル１７を具備し
て情報分類装置１を構成する。特徴ベクトル処理部１３
は、新規テキストにおける各項目毎の部分特徴ベクトル
及び各カテゴリ毎の特徴ベクトル集合を生成する。類似
度処理部１４は、既存の分類体系に基づく学習テキスト
と新規テキストとの類似度を算出する。カテゴリ決定部
１５では、類似度がより高いカテゴリから所定数個のも
のを新規テキストのカテゴリとして決定し、新規テキス
トの分類を行う。分類後の新規テキストは、文書データ
ベース１６に追加登録される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト（電子文
書データ、以下同じ）の効率的な情報分類方法に関す
る。

【０００２】

【従来の技術】テキストの分類手法として、学習用に用
意されたテキスト（以下、学習テキスト）特徴ベクトル
の類似度を比較してカテゴリを決定する手法がある。こ
の従来の手法は、下記の手順で行われる。

【０００３】まず、カテゴリの特徴を抽出するために利
用する学習テキスト群を用意する。この学習カテゴリ群
には、予め、Ｌ種類のカテゴリＣ１，Ｃ２，…、ＣＬが
各々付与されているものとする。次に、カテゴリＣｉ
（１≦ｉ≦Ｌ）の特徴を表す特徴ベクトルｐｉを作成す
るために学習テキスト群から単語を抽出し、各単語の重
みを表す重要度を決定する。そして、決定された重要度
を要素としてカテゴリＣｉの特徴ベクトルｐｉを作成す
る。単語の重要度の付与方法については、「ＴＦ・ＩＤ
Ｆ法」に代表される種々の手法が数多く提案されて利用
されている。例えば、「徳永他：「重み付きＩＤＦを用
いた文書の自動分類について」、情処学会自然語処理研
究会1997」、「長尾：「日本語文献における重要語の自
動抽出」、情処学会情報処理Vol.17 No.2、1976」等
に、単語の重要度の付与方法が詳しく紹介されている。

【０００４】次に、新規テキストＴについて、同様に特
徴ベクトルｑを作成する。新規テキストのカテゴリ決定
には、ベクトルｐｉとｑ間の距離ｄ（ｐｉ,ｑ）が利用
される。この距離計算では、以下の式（１）に示すよう
な両ベクトルの内積を利用する方法が最も一般的であ
る。

【０００５】

【数１】

【０００６】ベクトルｐｉとｑ間の距離ｄ（ｐｉ,ｑ）
は、両ベクトルのなす角の余弦を表し、その範囲は「‐
１≦ｄ（ｐｉ,ｑ）≦１」となっており、距離ｄ（ｐｉ,
ｑ）が大きいほど両ベクトルの指す方向が近い。すなわ
ち、新規テキストＴが、カテゴリＣｉに属する可能性が
高いことを意味している。このように、学習テキスト
群、及び新規テキストから各特徴ベクトルを作成する場
合には、カテゴリ毎にテキスト全文における単語の出現
頻度や出現件数等を利用して決定した重要度を用いるの
が一般的である。

【０００７】

【発明が解決しようとする課題】ところで、単語には、
カテゴリ毎に出現しやすい項目が異なる傾向を持つ単語
や、項目に依存することなく均一に出現する単語とが存
在する。従来は、このような単語の特徴を考慮せず、全
項目をまとめて処理していたため、カテゴリを表現する
特徴ベクトルにおいて、カテゴリの特徴が明確に表現で
きず、分類精度を高めることができないという問題があ
った。

【０００８】そこで本発明の課題は、既定の定型フォー
マットを持つテキストを、既存の分類体系に則して自動
的に分類し、利用者が必要な情報を正しく検索して活用
することができる、改良された情報分類方法を提供する
ことにある。本発明の他の課題は、上記情報分類方法の
実施に好適な情報分類装置を提供することにある。

【０００９】

【課題を解決するための手段】上記課題を解決する本発
明の情報分類方法は、予め項目分けされ、カテゴリが付
与されている複数の学習テキストの各々から項目毎の特
徴を表す学習特徴ベクトルと項目数に応じた数の学習特
徴ベクトルの組から成る学習特徴ベクトル集合とを生成
しておく。カテゴリが不明な新規テキストが入力された
ときは、当該新規テキストに対して前記学習特徴ベクト
ル及び学習特徴ベクトル集合と同一形式の分類対象特徴
ベクトル及び分類対象特徴ベクトル集合を生成するとと
もに、個々の分類対象特徴ベクトルと前記学習特徴ベク
トルとの特徴差に基づいて前記分類対象特徴ベクトル集
合に対する各カテゴリの学習特徴ベクトル集合の類似度
を判定し、判定結果に基づいて前記新規テキストのカテ
ゴリを特定することを特徴とする。

【００１０】上記他の課題を解決する本発明の情報分類
装置は、予め項目分けされ、カテゴリが付与されている
学習テキストの分類体系に即してカテゴリが不明な新規
テキストに付与すべきカテゴリを決定する装置であっ
て、以下の要素を備えて構成される。（１）前記複数の学習テキストの各々に含まれる項目毎
の特徴を表す学習特徴ベクトルと項目数に応じた数の学
習特徴ベクトルの組から成る学習特徴ベクトル集合とを
生成するとともに、前記新規テキストに対して前記生成
した学習特徴ベクトル及び学習特徴ベクトル集合と同一
形式の分類対象特徴ベクトル及び分類対象特徴ベクトル
集合を生成する特徴ベクトル処理手段、（２）個々の分
類対象特徴ベクトルと前記学習特徴ベクトルとの特徴差
に基づいて前記分類対象特徴ベクトル集合に対する各カ
テゴリの学習特徴ベクトル集合の類似度を判定する類似
度処理手段、（３）前記類似度処理手段による判定結果
に基づいて前記新規テキストに付与すべきカテゴリを決
定するカテゴリ決定手段。

【００１１】前記複数の学習テキスト及び前記新規テキ
ストがそれぞれ略定型フォーマットを有し、且つ当該フ
ォーマットに含まれる項目名を対比できるように構成す
ることで、カテゴリ決定がより容易になる。

【００１２】前記特徴ベクトル処理手段は、例えば、各
学習テキストからそれぞれ項目毎の文章を抜粋して複数
の学習単語を抽出し、抽出した個々の学習単語の出現頻
度及び出現件数を要素として当該項目の重要度を決定
し、決定した項目の重要度に応じて前記学習特徴ベクト
ルを生成するとともに、すべての項目についての学習特
徴ベクトルを項目順に集合させて前記学習特徴ベクトル
集合を生成する。分類対象特徴ベクトル及びその集合も
同様にして生成することができる。

【００１３】前記類似度処理手段は、例えば、個々の学
習特徴ベクトルと同一順の項目に対応する分類対象特徴
ベクトルとの間の距離を同一カテゴリ内に存する項目に
ついて合算し、この合算値を降順に並び替えるように構
成される。これにより、複数個のカテゴリ候補を順次探
索することができるようになる。

【００１４】前記カテゴリ決定手段は、前記並び替えら
れた合算値に対応する複数個のカテゴリ候補を視覚化し
て提示し、該提示に基づいて特定されたカテゴリ候補の
一つを前記新規テキストに付与すべきカテゴリとして決
定するように構成される。

【００１５】

【発明の実施の形態】以下、図面を参照して本発明にお
ける実施の形態を詳細に説明する。（第１実施形態）図１は、本実施形態による情報分類装
置の一実施形態を示す機能ブロック図である。この情報
分類装置１は、コンピュータ装置によって実現可能なも
ので、その内部記憶装置あるいは外部記憶装置に構築さ
れる文書データベース１６及び学習ベクトル集合ファイ
ル１７と、オペレーティングシステム（ＯＳ）を内蔵し
た上記コンピュータ装置が所定のプログラムを読み込ん
で実行することにより形成される、テキスト入力部１
１、単語処理部１２、特徴ベクトル処理部１３、類似度
処理部１４、カテゴリ決定部１５、の機能ブロックを備
えて構成される。

【００１６】上記プログラムは、通常、コンピュータ装
置の内部記憶装置あるいは外部記憶装置に格納されて随
時読み取られて実行されるようになっているが、コンピ
ュータ装置と分離可能な記録媒体、例えばＣＤ−ＲＯＭ
やＦＤ等のような可搬性媒体、あるいは構内ネットワー
クに接続されたプログラムサーバ等の固定媒体に格納さ
れ、使用時に上記内部または外部記憶装置にインストー
ルされて随時実行に供されるものであっても良い。

【００１７】文書データベース１６には、分類済みの文
書データが登録されるようになっている。また、新規に
分類対象となる文書データ（以下、新規テキスト）の特
徴を識別する際に、登録済みの文書データの特徴を表す
情報（以下、学習テキスト）を特徴ベクトル処理部１３
に出力するようになっている。なお、学習テキストに
は、予めＬ種類の分類のカテゴリＣ１、Ｃ２、…、ＣＬ
が付与されているものとする。また、学習テキスト（登
録済みの他の文書データも同様）と新規テキストは、そ
れぞれ略同一の項分けされた定型フォーマットに基づい
たテキストであり、項目名が対比できるものとする。具
体的には、それぞれ“項目１”、“項目２”、…“項目
Ｎ”のように、複数項目から構成されるテキストである
ものとする。学習ベクトル集合ファイル１７には、新規
テキストを分類する前にその特徴を学習するための学習
ベクトルの集合（学習ベクトル集合）が格納され、類似
度処理部１４において随時参照されるようになってい
る。この学習ベクトル集合は、適当な期間を経た後に更
新される。

【００１８】テキスト入力部１１は、新規テキストの入
力を受け付けて単語処理部１２に入力するものであり、
単語処理部１２は、入力された新規テキストに対して所
定の形態素解析を施し、名詞句に相当する単語の抽出を
行うとともに、抽出された複数の単語に対して重要度を
付与するものである。重要度の付与に際しては、前述の
ＴＦ・ＩＤＦ法等の重要度付与手法を用いることができ
る。重要度が付与された各単語は、それぞれ特徴ベクト
ル処理部１３に入力される。

【００１９】特徴ベクトル処理部１３は、単語処理部１
２で付与された重要度を要素として、各項目の特徴を表
す特徴ベクトルを抽出する。この特徴ベクトルは、文書
データベースから送られた学習テキストの特徴を表す学
習特徴ベクトルと、新規テキストの特徴を表す分類対象
特徴ベクトルである。特徴ベクトル処理部１３では、こ
れらの特徴ベクトルをそれぞれ項目順に並べて特徴ベク
トル集合（学習特徴ベクトル集合／分類対象特徴ベクト
ル集合）を生成する。

【００２０】具体的には、各学習テキストからそれぞれ
項目毎の文章を抜粋して複数の学習単語を抽出し、抽出
した個々の学習単語の出現頻度及び出現件数を要素とし
て当該項目の重要度を決定し、決定した項目の重要度に
応じて前記学習特徴ベクトルを生成するとともに、すべ
ての項目についての学習特徴ベクトルを項目順に集合さ
せて学習特徴ベクトル集合を生成する。こうして生成さ
れた学習特徴ベクトル集合が前述の学習ベクトル集合フ
ァイル１７に格納されることになる。また、新規テキス
トから項目毎の文章を抜粋して複数の新規単語を抽出
し、抽出した個々の新規単語の出現頻度及び出現件数を
要素として当該項目の重要度を決定し、決定した項目の
重要度に応じて分類対象特徴ベクトルを生成するととも
に、すべての項目についての分類対象特徴ベクトルを項
目順に集合させて分類対象特徴ベクトル集合を生成す
る。生成された特徴ベクトル集合は、それぞれ類似度処
理部１４に入力される。

【００２１】類似度処理部１４は、入力された各特徴ベ
クトル集合の特徴を検出して学習テキスト集合に対する
新規テキストの類似度を算出し、算出結果をカテゴリ決
定部１５に入力するものである。具体的には、個々の学
習特徴ベクトルと同一順の項目に対応する分類対象特徴
ベクトルとの間の距離を同一カテゴリ内に存する項目に
ついて合算し、この合算値を降順に並び替える。

【００２２】カテゴリ決定部１５は、並び替えられた合
算値に対応する複数個のカテゴリ候補からその一つを新
規テキストに付与すべきカテゴリとして決定する。この
決定されたカテゴリを新規テキストに付与して分類し、
文書データベース１６中に追加登録する。

【００２３】次に、上記情報分類装置１の全体の動作を
より詳細に説明する。まず、図２及び図３を参照して、
学習テキスト及び新規テキストから特徴ベクトル集合を
作成する手順について説明する。

【００２４】図２は、学習特徴ベクトル集合を作成する
場合の概念説明図である。図２に示されるように、ま
ず、単語処理部１２において、カテゴリＣｉ（１≦ｉ≦
Ｌ）が付与されているすべての学習テキストから、“項
目１”に属する全文章を抜粋し、抜粋した文章から単語
（学習単語）群を抽出してそれぞれに重要度を付与す
る。特徴ベクトル処理部１３では、“項目１”における
すべての学習単語の重要度から学習特徴ベクトルを作成
する。カテゴリＣｉの“項目１”における学習特徴ベク
トルをｐ（i,1)とすれば、学習特徴ベクトルは、当該カ
テゴリの項目毎に各々対応して１つ作成される。同様に
して、“項目１”〜“項目Ｎ”までのすべての項目につ
いて、学習特徴ベクトルｐ（i,2)、ｐ（i,3)、…、ｐ
（i,Ｎ)（１≦ｉ≦Ｎ）を作成する。これら全ての学習
特徴ベクトルｐから成る集合が学習特徴ベクトル集合と
なる。この学習特徴ベクトル集合Ｖｉは、以下のように
定義することができる。

【００２５】

【数２】Ｖｉ＝(ｐ（ｉ,１)，ｐ（ｉ,２)，…,ｐ（ｉ,Ｎ))

【００２６】図３は、分類対象特徴ベクトル集合を作成
する場合の概念説明図である。ここでは、上述した学習
特徴ベクトル集合の作成と同様に、新規テキストに基づ
いて生成した分類対象特徴ベクトル集合Ｗを以下のよう
に定義する。

【００２７】

【数３】Ｗ＝(ｑ(＊,１)，ｑ(＊,２)，…,ｑ(＊,Ｎ))

【００２８】ここで、ｑ(＊,ｊ)は、「不明」のカテゴ
リにおける“項目ｊ”から作成した分類対象特徴ベクト
ルを表す。これらの式に示すように、学習特徴ベクトル
集合Ｖｉと分類対象ベクトル集合Ｗとは同一形式のもの
となる。

【００２９】次に、あるカテゴリＣｉに対する分類対象
特徴ベクトル集合Ｗに対する各学習特徴ベクトル集合の
類似度判定方法、及びカテゴリの決定について説明す
る。図４は、分類対象ベクトル集合に付与すべきカテゴ
リの決定過程を示す概念説明図である。ここでの処理
は、類似度処理部１４及びキーワード決定部１５におい
て行う。すなわち、カテゴリＣｉの学習特徴ベクトル集
合Ｖｉにおいて、“項目１”を表す学習特徴ベクトルｐ
（i,1)と、分類対象特徴ベクトル集合Ｗにおける“項目
１”を表す分類対象特徴ベクトルｑ(＊,１)に各々着目
し、両ベクトル間の距離ｄ(ｐ（i,1),ｑ(＊,１))を算出
する。

【００３０】この距離ｄの算出は、“項目１”〜“項目
Ｎ”のすべてに対して実施し、これらの総和をとること
で各集合間の距離、つまり、カテゴリに対する新規テキ
ストの類似度が求まる。本実施形態では、カテゴリＣｉ
への新規テキストの類似度Ｄｉを、以下に示す式（２）
のように定義する（ステップＳ１）。

【００３１】

【数４】

【００３２】距離を算出する式として前述の式（１）を
用いれば、その算出値は、「−Ｎ≦Ｄｉ≦Ｎ」の範囲内
となる。類似度処理部１４では、この類似度Ｄｉの算出
を全てのカテゴリＣｉ（１≦ｉ≦Ｌ）について行う。算
出結果は、カテゴリ決定部１５に渡される。

【００３３】カテゴリ決定部１５では、これらの類似度
Ｄｉの算出値からカテゴリの決定を行う（ステップＳ
２）。カテゴリの決定は、例えば、類似度Ｄｉ及びそれ
に対応した学習特徴ベクトル集合、ないし学習テキスト
を各々降順に並べて類似度が最大となるものから順次図
示しないディスプレイ装置に提示する。そしてこの提示
に基づいて特定されたカテゴリを新規テキストに付与す
べきカテゴリとして決定する。このようにすれば、利用
者が必要とする情報に対して漠然としたイメージしか有
していない場合であっても、類似度が高い方から低い方
へ順に探索することで、必要な情報を容易に取得するこ
とができるようになる。このとき、類似度Ｄｉに対して
ある閾値を設定しておいて決定すべきカテゴリを絞り込
むようにしてもよい。カテゴリ決定後は、新規テキスト
に対してそのカテゴリを付与し、文書データベース１６
へ反映させる。

【００３４】このように、本実施形態の情報分類装置１
では、項目分けされたテキストに対して、項目毎の単語
の重要度を加味することでテキスト内の単語の重要度を
決定していることから、特定項目に出現しやすい傾向が
ある単語の識別が可能になる。また、特定の単語が項目
のどの部分に出現し易いかをカテゴリ毎に調査して単語
の重要度に反映させることによってカテゴリ特徴を表す
特徴ベクトルを明確に表現できることから、新規テキス
トにおける特徴ベクトルの品質が向上し、分類精度を向
上させることが可能となる。

【００３５】（第２実施形態）本発明は、公衆通信網を
通じて流通する大量のテキスト情報に対して自動的な分
類処理を行うシステム、例えば、情報分類装置であると
ころの情報分類サーバ、情報取得装置であるところのク
ライアント、を配備した情報分類システムの形態で実施
することも可能である。

【００３６】この場合の情報分類サーバは、例えば、イ
ンターネット環境上における複数の大規模なデータベー
スに対するサーチエンジンとして位置付けられる。その
構成例としては、コンピュータ装置の内部あるいは外部
記憶装置に、上記文書データベース１６と同一のデータ
ベースを構築し、公衆通信網を介してクライアントと通
信を行う通信制御部を具備する。さらに、上記情報分類
装置１と同様の機能ブロック、すなわち、テキスト入力
部１１、単語処理部１２、特徴ベクトル処理部１３、類
似度処理部１４、カテゴリ決定部１５、を具備して構成
する。

【００３７】この情報分類サーバが上記情報分類装置１
と相違する点は、通信制御を行う公知の通信制御部を具
備する点であり、この通信制御部を介して公衆通信網上
を流通する新規テキストをテキスト入力部１１に入力す
るとともに、クライアントからの分類要求を受け付ける
ように構成する。この分類要求には、例えば、分類対象
となる新規テキストを識別するための情報を用いればよ
い。一方、分類結果も同様に、通信制御部を介してクラ
イアントに対して送信を行うように構成する。この分類
結果としては、例えば、新規テキストが属するカテゴ
リ、あるいは分類結果に係るすべての情報等を用いる。

【００３８】なお、以上の説明は、新規テキストを文書
データベース１６と独立に入力して分類対象特徴ベクト
ル集合を生成し、文書データベース１６内の学習テキス
トに基づく学習特徴ベクトル集合と項目毎に対比する場
合の例であるが、文書データベース１６に登録済みの文
書データと同様に新規テキストを蓄積しておき、適宜、
分類対象とすべき新規テキストのみを抽出してテキスト
入力部１１に渡すように構成することも可能である。ま
た、学習特徴ベクトル集合は、類似度処理部１４で参照
できるようにすればよいので、文書データベース１６
内、あるいは図示しない他の記憶手段に格納するように
してもよい。

【００３９】

【発明の効果】以上の説明から明らかなように、本発明
によれば、既定の定型フォーマットで構成されるテキス
トの分類を、既存の分類体系に則して自動的に行うこと
ができるので、利用者は、この分類結果を利用すること
で必要な情報を容易に検索できるようになる。また、こ
の分類は、テキストにおける項目及びカテゴリに係る重
要度に基づいて行われることから、高精度の分類結果が
得られるようになる。本発明を検索システム等に適用さ
せた場合には、検索効率及びその実用性が格段に向上す
るシステムの提供が可能となる効果がある。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る情報分類装置におけ
る機能ブロック図。

【図２】学習テキスト群からの特徴ベクトル集合の作成
過程を示す概念説明図。

【図３】新規テキストからの特徴ベクトル集合の作成過
程を示す概念説明図。

【図４】分類対象ベクトル集合のカテゴリ決定過程を示
す概念説明図。

【図５】従来の特徴ベクトル作成の概念説明図。

【符号の説明】

１情報分類装置１１テキスト入力部１２単語処理部１３特徴ベクトル処理部１４類似度処理部１５カテゴリ決定部１６文書データベース１７学習特徴ベクトル集合ファイル

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１０年２月２日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】図面の簡単な説明

【補正方法】変更

【補正内容】

【図面の簡単な説明】

【符号の説明】１情報分類装置１１テキスト入力部１２単語処理部１３特徴ベクトル処理部１４類似度処理部１５カテゴリ決定部１６文書データベース１７学習特徴ベクトル集合ファイル

Claims

【特許請求の範囲】

【請求項１】予め項目分けされ、カテゴリが付与され
ている複数の学習テキストの各々から項目毎の特徴を表
す学習特徴ベクトルと項目数に応じた数の学習特徴ベク
トルの組から成る学習特徴ベクトル集合とを生成してお
き、カテゴリが不明な新規テキストが入力されたときに、当
該新規テキストに対して前記学習特徴ベクトル及び学習
特徴ベクトル集合と同一形式の分類対象特徴ベクトル及
び分類対象特徴ベクトル集合を生成するとともに、個々
の分類対象特徴ベクトルと前記学習特徴ベクトルとの特
徴差に基づいて前記分類対象特徴ベクトル集合に対する
各カテゴリの学習特徴ベクトル集合の類似度を判定し、
判定結果に基づいて前記新規テキストのカテゴリを特定
することを特徴とする情報分類方法。
【請求項２】前記類似度の判定は、同一順の項目に対
する各カテゴリの前記学習特徴ベクトルと前記分類対象
特徴ベクトルとの間の距離を当該カテゴリ内のすべての
項目について合算し、この合算値を比較することにより
行うことを特徴とする請求項１記載の情報分類方法。
【請求項３】前記合算値を降順に並び替えて複数の分
類カテゴリ候補を順次探索し得るようにしたことを特徴
とする請求項１または２記載の情報分類方法。
【請求項４】予め項目分けされ、カテゴリが付与され
ている学習テキストの分類体系に即してカテゴリが不明
な新規テキストに付与すべきカテゴリを決定する装置で
あって、前記複数の学習テキストの各々に含まれる項目毎の特徴
を表す学習特徴ベクトルと項目数に応じた数の学習特徴
ベクトルの組から成る学習特徴ベクトル集合とを生成す
るとともに、前記新規テキストに対して前記生成した学
習特徴ベクトル及び学習特徴ベクトル集合と同一形式の
分類対象特徴ベクトル及び分類対象特徴ベクトル集合を
生成する特徴ベクトル処理手段と、個々の分類対象特徴ベクトルと前記学習特徴ベクトルと
の特徴差に基づいて前記分類対象特徴ベクトル集合に対
する各カテゴリの学習特徴ベクトル集合の類似度を判定
する類似度処理手段と、前記類似度処理手段による判定結果に基づいて前記新規
テキストに付与すべきカテゴリを決定するカテゴリ決定
手段と、を備えたことを特徴とする情報分類装置。
【請求項５】前記複数の学習テキスト及び前記新規テ
キストがそれぞれ略同一の定型フォーマットを有し、当
該定型フォーマットに含まれる項目名を対比できるよう
に構成されていることを特徴とする請求項４記載の情報
分類装置。
【請求項６】前記特徴ベクトル処理手段は、各学習テ
キストからそれぞれ項目毎の文章を抜粋して複数の学習
単語を抽出し、抽出した個々の学習単語の出現頻度及び
出現件数を要素として当該項目の重要度を決定し、決定
した項目の重要度に応じて前記学習特徴ベクトルを生成
するとともに、すべての項目についての学習特徴ベクト
ルを項目順に集合させて前記学習特徴ベクトル集合を生
成することを特徴とする請求項４記載の情報分類装置。
【請求項７】前記特徴ベクトル処理手段は、前記新規
テキストから項目毎の文章を抜粋して複数の新規単語を
抽出し、抽出した個々の新規単語の出現頻度及び出現件
数を要素として当該項目の重要度を決定し、決定した項
目の重要度に応じて前記分類対象特徴ベクトルを生成す
るとともに、すべての項目についての分類対象特徴ベク
トルを項目順に集合させて前記分類対象特徴ベクトル集
合を生成することを特徴とする請求項４記載の情報分類
装置。
【請求項８】前記類似度処理手段は、個々の学習特徴
ベクトルと同一順の項目に対応する分類対象特徴ベクト
ルとの間の距離を同一カテゴリ内に存する項目について
合算し、この合算値を降順に並び替えるように構成され
ていることを特徴とする請求項４記載の情報分類装置。
【請求項９】前記カテゴリ決定手段は、前記並び替え
られた合算値に対応する複数個のカテゴリ候補を視覚化
して提示し、該提示に基づいて特定されたカテゴリ候補
の一つを前記新規テキストに付与すべきカテゴリとして
決定するように構成されることを特徴とする請求項５記
載の情報分類装置。
【請求項１０】請求項４ないし９のいずれかの項に記
載された情報分類装置を公衆通信網と通信可能に接続
し、前記公衆通信網を通じて流通する前記新規テキスト
が前記情報分類装置に取り込まれるように構成された情
報分類システム。