JP3488063B2 - 情報分類方法、装置及びシステム - Google Patents

情報分類方法、装置及びシステム

Info

Publication number
JP3488063B2
JP3488063B2 JP33430997A JP33430997A JP3488063B2 JP 3488063 B2 JP3488063 B2 JP 3488063B2 JP 33430997 A JP33430997 A JP 33430997A JP 33430997 A JP33430997 A JP 33430997A JP 3488063 B2 JP3488063 B2 JP 3488063B2
Authority
JP
Japan
Prior art keywords
category
word
text
classification
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33430997A
Other languages
English (en)
Other versions
JPH11167581A (ja
Inventor
正巳 原
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP33430997A priority Critical patent/JP3488063B2/ja
Publication of JPH11167581A publication Critical patent/JPH11167581A/ja
Application granted granted Critical
Publication of JP3488063B2 publication Critical patent/JP3488063B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語処理や情
報検索技術分野において、電子化されたテキスト群を効
率的に分類する情報分類手法に関する。
【0002】
【従来の技術】電子化情報の分類手法として、ベクトル
表現したカテゴリの特徴と未分類の電子化情報とを比較
することによりカテゴリを決定する手法が知られてい
る。以下、この手法の概要を説明する。前提条件とし
て、カテゴリの特徴を抽出するために利用する学習用電
子化情報(以下、学習テキスト)群には、予めN種類の
カテゴリC1,C2,…、CNが各々付与されているも
のとする。
【0003】まず、カテゴリCi(1≦i≦N)の特徴
を表す特徴ベクトルpiを作成するために、カテゴリC
iが付与されている学習テキスト群から単語を抽出す
る。そして、学習テキストにおける各単語の重要度をカ
テゴリ毎に決定する。重要度の決定方法としては、情報
検索の分野で提案されたTF・IDF法が広く知られて
いる(「Introduction to Modern Information Retriev
al:G.Salton著、McGraw-Hill」参照)。このTF・I
DF法における単語の重要度は、出現頻度tfと、出現
件数dfの逆数idfとを用いて定義される。具体的に
は、カテゴリCiにおける単語tkの重要度W(tk,
Ci)は、以下に示す式(1)で算出される。 W(tk,Ci)=tf(tk,Ci)log(Li/df(tk,Ci)+1) ・・・(1) ここでtf(tk,Ci)は、カテゴリCiにおける単
語tkの出現頻度を表し、またdf(tk,Ci)は、
カテゴリCiにおける単語tkの出現件数を表してい
る。一方、Liは、カテゴリCiにおける総テキスト件
数を表している。
【0004】次に、学習テキスト集合に出現するすべて
の単語t1,t2,〜,tMについて上記式(1)によ
りカテゴリCiにおける重要度を各々算出し、算出され
た各重要度を要素としたベクトルをカテゴリCiの特徴
ベクトルpiとする。未分類テキストTについても同様
に、特徴ベクトルqを算出する。この場合の特徴ベクト
ルの要素となる単語の重要度には、主に出現頻度tfが
用いられる。未分類テキストTにおけるカテゴリの決定
には、各カテゴリの特徴ベクトルpi(1≦i≦N)と
未分類テキストTの特徴ベクトルqとの類似度d(p
i,q)が用いられる。この類似度計算の代表的な例に
は、両ベクトルの内積を算出する方法や集合論的測度を
利用する方法等が知られており、「情報検索:伊藤哲朗
著、昭晃堂」に詳しく記述されている。
【0005】このように、カテゴリ毎に上述の類似度d
(pi,q)を算出して利用することにより、未分類テ
キストTと類似の度合いが近いカテゴリを複数選択して
分類先となるカテゴリを決定する。
【0006】
【発明が解決しようとする課題】上述のように、TF・
IDF法は、例えば検索語と検索データベース内のテキ
ストとを比較するためのベクトル作成に利用される手法
であり、出現頻度tfが大きいほど出現件数の逆数id
fが大きい、即ち出現件数dfが小さいほど重要度が高
くなるものである。
【0007】しかし、テキストの分類では、ベクトル作
成の対象となるテキスト群は、通常、同一カテゴリに属
しており、カテゴリを考慮しない情報検索とはテキスト
の特徴が異なったものとなる。そのため、カテゴリの特
徴となるような重要な単語(以下、特徴語)は、同一カ
テゴリに属するテキストに着目した場合には、多くのテ
キストに出現する、即ち出現件数dfが大きいことが考
えられる。このことは、出現件数dfの逆数を用いたi
dfを利用するTF・IDF法では、特徴語に低い重要
度を付与してしまう可能性があることを意味する。この
結果、TF・IDF法を利用して単語の重要度を決定す
ると、カテゴリの特徴を明確に表現した特徴ベクトルの
作成が困難となり、また、分類精度も低下してしまうと
いう問題があった。
【0008】一方、出現件数dfを利用する場合でも、
出現件数dfの多い単語群にはカテゴリに依存すること
なく出現する一般的な語(以下、一般語)も含まれてお
り、出現件数dfが多い語が必ずしも特徴語であるとは
いえない。このため、特徴語の重要度に出現件数df自
体が利用されることは殆どなかった。
【0009】そこで、本発明の課題は、学習テキストに
おけるカテゴリの特徴語となる単語の重要度を考慮する
ことにより、高精度の分類を可能にする新規な情報分類
方法を提供することにある。また、本発明の他の課題
は、上記情報分類方法の実施に適した情報分類装置、及
び情報分類システムを提供することにある。
【0010】
【課題を解決するための手段】上記課題を解決するた
め、本発明は、属すべきカテゴリが既知の学習用テキス
トから単語を抽出し、抽出した単語毎に、その出現件数
及び出現するカテゴリ数に基づく重要度を算出するとと
もに、算出された重要度を要素としてカテゴリ毎の特徴
を表す学習特徴ベクトルを生成する過程と、カテゴリが
不明な分類対象テキストに対して当該分類対象テキスト
中の単語毎の出現頻度に基づく重要度を算出し、算出さ
れた重要度を要素としてテキスト毎の特徴を表す分類対
象特徴ベクトルを生成する過程と、分類対象特徴ベクト
ルと前記カテゴリ毎の学習特徴ベクトルとの類似度を判
定する過程とを含み、前記分類対象テキストとの類似度
が所定範囲内の学習特徴ベクトル、または類似度の高い
順に並べたときに上位から予め定めた件数以上の学習特
徴ベクトルに対応するカテゴリを当該分類対象テキスト
に付与すべきカテゴリ候補とする、情報分類方法を提供
する。
【0011】この情報分類方法において、前記学習特徴
ベクトルを生成する過程は、例えば、前記学習用テキス
ト中の単語の出現傾向に着目してカテゴリの特徴を表す
指標となる特徴語及びカテゴリに依存しない一般語を判
別し、前記単語の出現するカテゴリ数に基づいて前記一
般語の重要度を低減させることで前記特徴語の重要度が
相対的に高く反映された学習特徴ベクトルを生成するこ
とを特徴とする。
【0012】上記他の課題を解決する本発明の情報分類
装置は、1または複数のカテゴリが付与された学習用テ
キストの分類体系に即してカテゴリが不明な分類対象テ
キストに付与すべきカテゴリを決定して分類処理を行う
装置であって、以下の要素を備えて構成される。 (1)前記学習用テキスト及び分類対象テキストの各々
から単語を抽出するとともに抽出した単語毎の重要度を
算出する単語処理手段。この単語処理手段は、例えば、
前記学習用テキスト中の総カテゴリ数を特定の単語が出
現するカテゴリ数による除算に基づくカテゴリ頻度係数
を算出する手段を有し、特定のカテゴリに出現する単語
の出現件数と前記カテゴリ頻度係数との乗算により前記
学習用テキスト中の単語毎の重要度を算出するととも
に、出現件数が相対的に多く且つカテゴリへの依存が相
対的に少ない単語の重要度を低減させるように構成され
る。また、特定のカテゴリに出現する単語の出現件数と
前記カテゴリ頻度係数との乗算による算出値に、さらに
当該単語の出現頻度を乗算することにより前記学習用テ
キスト中の単語毎の重要度を算出するように構成され
る。あるいは、前記分類対象テキスト中の単語の出現頻
度を計測する手段を有し、出現頻度が低い単語ほど当該
分類対象テキスト中の重要度が高くするように構成され
る。 (2)前記単語毎の重要度を要素として、前記学習用テ
キストの特徴をカテゴリ毎に表現した学習特徴ベクト
ル、及び分類対象テキストの特徴をテキスト毎に表現し
た分類対象特徴ベクトルを生成するベクトル処理手段。 (3)個々の分類対象特徴ベクトルと前記学習特徴ベク
トルとの特徴差に基づいてカテゴリ毎の学習特徴ベクト
ルに対する前記分類対象特徴ベクトルの類似度を判定す
る類似度処理手段。この類似度処理手段は、例えば、個
々の学習特徴ベクトル及び分類対象特徴ベクトル間の内
積に基づいて両ベクトルの余弦を算出するとともに、こ
の余弦の算出値を所定順に整列して両ベクトルの特徴差
を定量化するように構成される。 (4)前記類似度処理手段による判定結果に基づいて、
前記分類対象テキストに付与すべきカテゴリを決定する
カテゴリ決定手段。
【0013】好ましくは、前記分類対象テキストに対す
る類似度が所定範囲内となる1または複数の学習特徴ベ
クトルに対応するカテゴリを視認可能にして提示する提
示手段をさらに備える。この場合、前記カテゴリ決定手
段は、前記提示手段による提示に対応して特定されたカ
テゴリを当該分類対象テキストに付与すべきカテゴリと
して決定するように構成する。
【0014】上記他の課題を解決する本発明の情報分類
システムは、上記本発明の情報分類装置と、通信回線を
介して流通する前記分類対象テキストを前記情報分類装
置に取り込むテキスト入力手段とを備えたことを特徴と
する。前記テキスト入力手段は、前記分類対象テキスト
をエージェント機能を通じて前記情報分類装置に入力す
るように構成することが望ましい。
【0015】
【発明の実施の形態】以下、図面を参照して本発明にお
ける実施の形態を詳細に説明する。 (第1実施形態)図1は、本実施形態による情報分類装
置の一実施形態を示す機能ブロック図である。本実施形
態の情報分類装置1は、スタンドアロン型コンピュータ
装置の内部あるいは外部記憶装置に構築される文書デー
タベース17と、上記コンピュータ装置が所定のプログ
ラムを読み込んで実行することにより形成される、テキ
スト入力部11、単語処理部12、ベクトル処理部1
3、学習特徴ベクトル集合ファイル14、類似度処理部
15、カテゴリ決定部16、を備えて構成される。
【0016】なお、上記プログラムは、通常、コンピュ
ータ装置の内部記憶装置あるいは外部記憶装置に格納さ
れ、随時読み取られて実行されるようになっているが、
コンピュータ装置とは分離可能な記録媒体、例えばCD
−ROMやFD等の可搬性記録媒体、あるいは当該コン
ピュータ装置と構内ネットワークに接続されたプログラ
ムサーバ等に格納され、使用時に上記内部記憶装置また
は外部記憶装置にインストールされて随時実行に供され
るものであってもよい。
【0017】文書データベース17は、電子化された複
数の文書データ(以下、テキスト)が蓄積されるもので
ある。このテキスト群は、予め蓄積された学習用のテキ
スト群(以下、学習テキスト)と、当該学習テキストに
対して新規に分類対象となる1または複数のテキスト
(以下、分類対象テキスト)の分類結果とが蓄積される
ように構成されている。
【0018】また、この学習テキストには、予めN種類
のカテゴリC1、C2、…、CNのいずれかがテキスト
毎に1または複数付与されているものとしている。カテ
ゴリが付与された学習テキストは単語処理部12に入力
される。
【0019】テキスト入力部11は、図示しない入力手
段により、分類対象テキストの入力を受け付けて単語処
理部12への入力を行うものである。単語処理部12
は、入力されたテキストに対して所定の形態素解析を施
して単語の抽出を行うとともに、抽出された複数の単語
に対して、各々、重要度を付与するものである。重要度
が付与された単語群は、特徴ベクトル処理部13に入力
される。なお、重要度の付与の仕方については後述す
る。
【0020】ベクトル処理部13は、単語処理部12で
付与された重要度を要素としてカテゴリ毎の特徴ベクト
ルまたは特徴ベクトル集合を抽出するものである。学習
テキストから抽出された場合の特徴ベクトル集合(以
下、学習特徴ベクトル集合)は、学習特徴ベクトル集合
ファイル14に入力されて保持され、分類対象テキスト
から抽出された特徴ベクトルは類似度処理部15に入力
されるようになっている。
【0021】類似度処理部15は、分類対象テキストに
対応する特徴ベクトルと、学習特徴ベクトル集合ファイ
ル14に対応する特徴ベクトル集合とに基づいて、分類
対象テキストの学習テキストに対する類似度をカテゴリ
毎に算出するものである。算出された類似度は、カテゴ
リ決定部16に入力される。なお、類似度算出処理につ
いては後述する。
【0022】カテゴリ決定部16は、算出されたカテゴ
リ毎の類似度に基づいて分類対象テキストに付与すべき
カテゴリを決定するものである。このカテゴリ決定部1
6は、例えば類似度が最大となるものから順次図示しな
いディスプレイ装置等を通じて利用者に提示し、この提
示に基づいて利用者から特定されたカテゴリを分類対象
テキストに付与すべきカテゴリとして決定するように構
成される。このようにすれば、利用者等が必要とする情
報に対して漠然としたイメージしか有していない場合で
あっても、類似度が高い方から低い方へ順に探索するこ
とで、必要な情報を容易に取得することが可能となる。
カテゴリ決定部16は、また、決定されたカテゴリを分
類対象テキストに付与して文書データベース17に送出
するように構成される。これにより、文書データベース
17は、分類対象テキストをカテゴリ毎に蓄積できるよ
うになる。
【0023】次に、本実施形態の情報分類装置1を用い
た情報分類方法を、学習テキスト及び分類対象テキスト
における重要度の付与、特徴ベクトルの作成、及び類似
度の判定の処理を中心に説明する。単語処理部12で
は、まず、学習テキストに出現する複数の単語tk(1
≦k≦M)を抽出し、カテゴリCi(1≦i≦N)に属
する学習テキストにおける単語tkの出現件数df(t
k,Ci)を算出する。この出現件数の算出は、抽出さ
れたすべての単語t1,t2,…,tMに対応する出現
件数df(t1,Ci),df(t2,Ci),…,d
f(tM,Ci)を各々算出するものである。
【0024】ここで、出現件数dfの大きい単語群は、
必ずしもカテゴリにおける重要な単語のみとなるもので
はなく、前述のように特徴語と一般語とが混在している
という問題がある。具体的には、特徴語は特定のカテゴ
リでのみ高い出現件数を表すのに対して、一般語は多く
のカテゴリで共通して高い出現件数を表すものと考えら
れる。そこで単語処理部12では、単語の一般性を判定
するために、カテゴリ頻度cfを定義する。例えば、す
べてのカテゴリ数Nにおいて特定の単語tkがn個のカ
テゴリに出現するような場合のカテゴリ頻度cf(t
k)は、n(n≦N)で表される。即ち、特定の単語が
出現するカテゴリ数を当該単語のカテゴリ頻度として定
義することができる。このカテゴリ頻度cf(tk)が
大きいほど、単語tkは、カテゴリへの依存の少ない一
般的な単語として特定可能となる。
【0025】次に、単語tkのカテゴリCiにおける重
要度W(tk,Ci)を、例えば、単語の出現件数d
f、及びカテゴリ頻度cfの逆数を利用した値icf
(カテゴリ頻度係数)を用いて、以下に示す式(2)及
び(3)のように定義する。 W(tk,Ci)=df(tk,Ci)×icf(tk) ・・・(2) icf(tk)=log(N/cf(tk)) ・・・(3) 出現件数df及びカテゴリ頻度cfに基づく上記式
(2)を用いることにより、出現件数dfの高い単語群
における一般的な単語の重要度を低減させることがで
き、また、特徴語となる単語に対してより高い重要度を
付与することが可能となる。図2に、単語の重要度算出
を表す概念図を示す。
【0026】なお、単語の重要度は、上記式(2)以外
にも、例えば、単語の出現頻度tfをさらに乗算する
等、従来手法により利用されているパラメータとの融合
により算出するように定義することもできる。
【0027】図3は、学習テキストに対応する特徴ベク
トルの抽出手順説明図である。学習テキストにおけるカ
テゴリCiの特徴ベクトルpiは、具体的には、上記式
(2)で定義した単語の重要度を各要素として、以下に
示す式(4)で算出することができる。 pi=(W(t1,Ci),W(t2,Ci),…,W(tM,Ci)) ・・・(4)
【0028】ベクトル処理部13では、上記式(4)に
基づいて、すべてのカテゴリC1、C2、…、CNにつ
いての特徴ベクトルp1,p2,…,pNを、出現件数
df及びカテゴリ頻度cfに基づいて各々算出する(ス
テップS101〜102)。これらのカテゴリ別の特徴
ベクトルから成る集合、即ち学習特徴ベクトル集合は、
学習特徴ベクトル集合ファイル17に保持される(ステ
ップS103)。
【0029】一方、未分類、即ちカテゴリが付与されて
いない分類対象テキストTにおける特徴ベクトルqは、
q=(W’(t1),W’(t2),…,W’(t
M))で算出される。ここで、W’(tk)は、分類対
象テキストTにおける単語tkの重要度であり、例え
ば、分類対象テキストT中における単語の出現頻度tf
等に基づいて算出されるものである。
【0030】この分類対象テキストTの特徴ベクトルq
を用いて、類似度処理部15では、学習テキストのカテ
ゴリに対する分類対象テキストTの類似度を算出する。
この類似度は、例えば、従来手法で採用されている公知
のベクトル間の内積を利用した以下の式(5)により算
出することができる。
【0031】
【数1】
【0032】上記式(5)における「d(pi,q)」
は、両特徴ベクトルのなす角の余弦を表しており、その
値は、「−1≦d(pi,q)≦1」の範囲となる。こ
の余弦d(pi,q)が大きいほど両特徴ベクトルの指
す方向が近い、換言すれば、分類対象テキストTがカテ
ゴリCiに属する可能性が高いことを意味する。この余
弦d(pi,q)が即ち類似度となるものであり、カテ
ゴリ決定部16では、分類対象テキストTと類似度が高
いと判定されるカテゴリから所定の順で分類先のカテゴ
リを決定する。
【0033】図4は、分類対象テキストの分類処理の手
順説明図である。なお、ここでは、学習テキストにおけ
る学習特徴ベクトル集合は既に抽出済みであり、学習特
徴ベクトル集合ファイル14に保持されているものとす
る。
【0034】分類対象テキストはテキスト入力部11を
介して単語処理部12に入力され、単語が抽出される。
そして、抽出された各単語の当該テキストにおける出現
頻度と、出現頻度に基づいた重要度とが算出される。ベ
クトル処理部13では、算出された各単語の重要度を要
素として、分類対象テキストの特徴ベクトルqを抽出す
る(ステップS201)。なお、分類対象テキストが複
数の場合には、テキスト毎に特徴ベクトルqが抽出され
る。類似度処理部15は、分類対象テキストの特徴ベク
トルqと学習特徴ベクトル集合ファイル14中の各特徴
ベクトルpiとの類似度Di(=d (ベクトルpi,ベ
クトルq))を、すべてのカテゴリについて各々算出す
る(ステップS202〜203)。
【0035】類似度Diが算出された後、カテゴリ決定
部16は、各類似度を算出値の大きさで降順に整列し
(ステップS204)、当該算出値が最大となるものか
ら所定数を選択して当該算出値に係るカテゴリ群を分類
対象テキストの属するカテゴリ候補として決定する。当
該算出値が所定範囲内となるカテゴリ群を当該分類対象
テキストに付与すべきカテゴリ候補とするようにしても
良い。これにより分類対象テキストは、当該カテゴリで
分類され(ステップS205)、文書データーベース1
7に蓄積される。なお、ステップS204〜205にお
けるカテゴリの決定は、類似度の算出値の大きさに着目
したものであるが、この例に限定することなく、カテゴ
リ決定に係る閾値を適宜設定して、決定すべきカテゴリ
を絞り込むように構成することも可能である。
【0036】このように、本実施形態の情報分類装置1
では、学習テキストにおける単語の重要度を決定する際
に、出現件数及びカテゴリ頻度(またはカテゴリ頻度係
数)を用いるようにしたので、カテゴリの特徴語となる
単語の候補を容易に選択できるようになった。
【0037】また、すべてのカテゴリに出現する単語の
割合を重要度に反映させるようにしたので、出現件数の
高い単語群における一般語の重要度を低減させ、一般語
よりも高い重要度を特徴語に対して付与することができ
るようになった。これにより、学習特徴ベクトルの品質
及び分類精度が大幅に向上した。
【0038】(第2実施形態)本発明は、インタネット
等の公衆網を介して流通する大量の電子化情報に対して
自動的な分類処理を行うシステム、例えば、上記情報分
類装置として機能するところの情報分類サーバ、情報取
得装置として機能するところのクライアント、を配備し
た情報分類システムの形態での実施も可能である。この
場合の情報分類サーバは、例えば、インタネット環境上
における複数の大規模なデータベースに対するサーチエ
ンジンとして位置付けられる。
【0039】この情報分類サーバは、第1実施形態の情
報分類装置1と同様、コンピュータ装置の内部あるいは
外部記憶装置に、上記文書データベース17と同一のデ
ータベースを構築し、公衆網を介してクライアントと通
信を行う通信制御部、を具備するとともに、上記情報分
類装置1と同様の機能ブロック、テキスト入力部11、
単語処理部12、特徴ベクトル処理部13、学習特徴ベ
クトル集合ファイル14、類似度処理部15、カテゴリ
決定部16、を具備して構成される(符号は図1に従っ
ている)。
【0040】この情報分類サーバが上記情報分類装置1
と相違する点は、通信制御を行う公知の通信制御部を具
備する点であり、この通信制御部を介して流通する電子
化情報群をテキスト入力部11に入力するとともに、ク
ライアントからの分類要求を受けるように構成する。こ
の分類要求には、例えば、分類対象となる電子化情報を
識別するための情報等を用いれば良い。分類結果も同様
に、通信制御部を介してクライアントに対して送信を行
うように構成することで代替が可能であり、上記情報分
類装置1と同等の効果を得ることができる。この場合の
分類結果としては、例えば、対象となるテキストの属す
るカテゴリを用いれば良い。
【0041】また、情報分類サーバへのテキスト手段と
して、インタネット環境下におけるエージェント機能を
用いることにより、流通する大量の電子化情報群に対し
て自動的な情報分類及び管理を行うことができるシステ
ム構築が可能となる。従って、例えばクライアント側の
利用者等が必要とするテキストに対して漠然としたイメ
ージしか有していない場合であっても、テキストの分類
に係る上位レベルから下位レベルへ順次分類処理を施
し、その経過を辿っていくことにより、必要な情報を容
易に取得することが可能となる。
【0042】
【発明の効果】以上の説明から明らかなように、本発明
によれば、学習特徴ベクトルを明確に表現できるので、
高精度の分類が可能となる。また、学習テキストにおけ
る既存の分類体系に則した本発明の分類処理を自動的に
行うことにより、利用者等が必要とする情報を容易に検
索して活用することが可能となる。さらに、本発明を情
報検索システム等に適合させた場合には、検索処理の効
率及び実用性が格段に向上するシステムの提供が可能と
なる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報分類装置におけ
る機能ブロック図。
【図2】単語の重要度算出を表す概念図。
【図3】学習特徴ベクトル集合作成における処理手順
図。
【図4】分類処理における処理手順図。
【符号の説明】
1 情報分類装置 11 テキスト入力部 12 単語処理部 13 特徴ベクトル処理部 14 学習特徴ベクトル集合ファイル 15 類似度処理部 16 カテゴリ決定部 17 文書データベース
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−110948(JP,A) 湯浅夏樹、外2名,大量文書データ中 の単語間共起を利用した文書分類,情報 処理学会論文誌,1995年 8月15日,第 36巻,第8号,p.1819−1827 湯浅夏樹、外1名,概念識別子の頻度 分布を利用した文書分類,情報処理学会 研究報告95−FI−39,1995年 9月14 日,第95巻,第87号,p.33−40 菅井猛、外1名,WWW上の電子新聞 に対する情報フィルタリングとその評 価,情報処理学会研究報告96−FI− 43,1996年 9月13日,第96巻,第88 号,p.89−96 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 1または複数のカテゴリが付与された学
    習用テキストの分類体系に即して分類処理を行う装置で
    あって、当該装置は、単語処理手段と、ベクトル処理手
    段と、類似度処理手段と、カテゴリ決定手段と、を有
    し、 前記単語処理手段は、前記学習用テキスト及び分類対象
    テキストの各々から単語を抽出するとともに抽出した単
    語毎の重要度を算出するものであり、 前記ベクトル処理手段は、前記単語毎の重要度を要素と
    して、前記学習用テキストの特徴をカテゴリ毎に表現し
    た学習特徴ベクトル、及び分類対象テキストの特徴をテ
    キスト毎に表現した分類対象特徴ベクトルを生成するも
    のであり、 前記類似度処理手段は、個々の分類対象特徴ベクトルと
    前記学習特徴ベクトルとの特徴差に基づいてカテゴリ毎
    の学習特徴ベクトルに対する前記分類対象特徴ベクトル
    の類似度を算出するものであり、 前記カテゴリ決定手段は、前記分類対象テキストとの類
    似度が所定範囲内の学習特徴ベクトルに対応するカテゴ
    リを当該分類対象テキストに付与すべきカテゴリ候補と
    するものであり、 更に、 前記単語処理手段は、前記学習用テキスト中の
    カテゴリ数のうち特定の単語が出現するカテゴリ数の逆
    に基づくカテゴリ頻度係数を算出し、特定のカテゴリ
    に出現する単語の出現件数と前記カテゴリ頻度係数との
    乗算により前記学習用テキスト中の単語毎の重要度を算
    出するとともに、出現件数が相対的に多く且つカテゴリ
    への依存が相対的に少ない単語の重要度を低減させるも
    のであることを特徴とする情報分類装置。
  2. 【請求項2】 1または複数のカテゴリが付与された学
    習用テキストの分類体系に即して分類処理を行う装置で
    あって、当該装置は、単語処理手段と、ベクトル処理手
    段と、類似度処理手段と、カテゴリ決定手段と、を有
    し、 前記単語処理手段は、前記学習用テキスト及び分類対象
    テキストの各々から単語を抽出するとともに抽出した単
    語毎の重要度を算出するものであり、 前記ベクトル処理手段は、前記単語毎の重要度を要素と
    して、前記学習用テキストの特徴をカテゴリ毎に表現し
    た学習特徴ベクトル、及び分類対象テキストの特徴をテ
    キスト毎に表現した分類対象特徴ベクトルを生成するも
    のであり、 前記類似度処理手段は、個々の分類対象特徴ベクトルと
    前記学習特徴ベクトルとの特徴差に基づいてカテゴリ毎
    の学習特徴ベクトルに対する前記分類対象特徴ベクトル
    の類似度を算出するものであり、 前記カテゴリ決定手段は、前記算出された各類似度を算
    出値の大きさで降順に整列し、当該算出値が最大となる
    ものから所定数を選択して当該算出値に係るカテゴリを
    分類対象テキストに付与すべきカテゴリ候補とするもの
    であり、 更に、 前記単語処理手段は、前記学習用テキスト中の
    カテゴリ数のうち特定の単語が出現するカテゴリ数の逆
    に基づくカテゴリ頻度係数を算出し、特定のカテゴリ
    に出現する単語の出現件数と前記カテゴリ頻度係数との
    乗算により前記学習用テキスト中の単語毎の重要度を算
    出するとともに、出現件数が相対的に多く且つカテゴリ
    への依存が相対的に少ない単語の重要度を低減させるも
    のであることを特徴とする情報分類装置。
  3. 【請求項3】 前記単語処理手段は、特定のカテゴリに
    出現する単語の出現件数と前記カテゴリ頻度係数との乗
    算による算出値に、さらに当該単語の出現頻度を乗算す
    ることにより前記学習用テキスト中の単語毎の重要度を
    算出するものであることを特徴とする請求項1又は2
    載の情報分類装置。
  4. 【請求項4】 前記単語処理手段は、前記分類対象テキ
    スト中の単語の出現頻度を計測する手段を有し、前記単
    語の出現頻度と前記カテゴリ頻度係数との積に基づい
    て、分類対象テキストにおける出現頻度が低い単語ほど
    当該分類対象テキスト中の重要度を高くするものである
    ことを特徴とする請求項1又は2記載の情報分類装置。
  5. 【請求項5】 前記類似度処理手段は、個々の学習特徴
    ベクトル及び分類対象特徴ベクトル間の内積に基づいて
    両ベクトルの余弦を算出するとともに、この余弦の算出
    値を前記類似度とするものであることを特徴とする請求
    1又は2記載の情報分類装置。
  6. 【請求項6】 前記分類対象テキストに対する類似度が
    所定範囲内となる1または複数の学習特徴ベクトルに対
    応するカテゴリを視認可能にして前記情報分類装置の利
    用者に提示する提示手段をさらに備えるように構成され
    ていることを特徴とする請求項1又は2記載の情報分類
    装置。
  7. 【請求項7】 請求項1ないし6のいずれかの項に記載
    された情報分類装置と、通信回線を介して流通する前記
    分類対象テキストを前記情報分類装置に取り込むテキス
    ト入力手段とを備えたことを特徴とする情報分類システ
    ム。
JP33430997A 1997-12-04 1997-12-04 情報分類方法、装置及びシステム Expired - Fee Related JP3488063B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33430997A JP3488063B2 (ja) 1997-12-04 1997-12-04 情報分類方法、装置及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33430997A JP3488063B2 (ja) 1997-12-04 1997-12-04 情報分類方法、装置及びシステム

Publications (2)

Publication Number Publication Date
JPH11167581A JPH11167581A (ja) 1999-06-22
JP3488063B2 true JP3488063B2 (ja) 2004-01-19

Family

ID=18275918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33430997A Expired - Fee Related JP3488063B2 (ja) 1997-12-04 1997-12-04 情報分類方法、装置及びシステム

Country Status (1)

Country Link
JP (1) JP3488063B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009188951A (ja) * 2008-02-08 2009-08-20 Sharp Corp 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU764415B2 (en) * 1999-08-06 2003-08-21 Lexis-Nexis System and method for classifying legal concepts using legal topic scheme
FR2799023B1 (fr) * 1999-09-24 2003-04-18 France Telecom Procede de classification thematique de documents, module de classification thematique et moteur de recherche incorporant un tel module
JP3587120B2 (ja) 2000-03-15 2004-11-10 日本電気株式会社 アンケート回答分析システム
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP4510483B2 (ja) * 2004-02-23 2010-07-21 株式会社エヌ・ティ・ティ・データ 情報検索装置
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP4747752B2 (ja) * 2005-09-14 2011-08-17 日本電気株式会社 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP4539616B2 (ja) * 2006-07-28 2010-09-08 日本電気株式会社 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
WO2010061535A1 (ja) * 2008-11-28 2010-06-03 日本電気株式会社 情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体
JP4521459B2 (ja) * 2008-12-18 2010-08-11 株式会社日立製作所 文書分類装置、文書分類方法およびプログラム
JP6007784B2 (ja) 2012-12-21 2016-10-12 富士ゼロックス株式会社 文書分類装置及びプログラム
JP6040138B2 (ja) * 2013-10-17 2016-12-07 日本電信電話株式会社 文書分類装置、文書分類方法および文書分類プログラム
JP6275758B2 (ja) * 2016-03-01 2018-02-07 Necパーソナルコンピュータ株式会社 情報処理システム、情報処理方法、およびプログラム
JP6505755B2 (ja) * 2017-01-20 2019-04-24 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
湯浅夏樹、外1名,概念識別子の頻度分布を利用した文書分類,情報処理学会研究報告95−FI−39,1995年 9月14日,第95巻,第87号,p.33−40
湯浅夏樹、外2名,大量文書データ中の単語間共起を利用した文書分類,情報処理学会論文誌,1995年 8月15日,第36巻,第8号,p.1819−1827
菅井猛、外1名,WWW上の電子新聞に対する情報フィルタリングとその評価,情報処理学会研究報告96−FI−43,1996年 9月13日,第96巻,第88号,p.89−96

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009188951A (ja) * 2008-02-08 2009-08-20 Sharp Corp 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
CN101505349B (zh) * 2008-02-08 2011-08-17 夏普株式会社 图像处理方法、装置及系统、图像读取装置和形成装置
US8300944B2 (en) 2008-02-08 2012-10-30 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, and storage medium

Also Published As

Publication number Publication date
JPH11167581A (ja) 1999-06-22

Similar Documents

Publication Publication Date Title
JP3488063B2 (ja) 情報分類方法、装置及びシステム
US8280886B2 (en) Determining candidate terms related to terms of a query
US9317593B2 (en) Modeling topics using statistical distributions
US9081852B2 (en) Recommending terms to specify ontology space
US8280892B2 (en) Selecting tags for a document by analyzing paragraphs of the document
Zhao et al. Topical keyphrase extraction from twitter
US8108405B2 (en) Refining a search space in response to user input
EP2045733A2 (en) Determining a document specificity
US8788494B2 (en) Method, device and system for processing, browsing and searching an electronic documents
JP2002092305A (ja) スコア算出方法及びスコア提供方法
WO2007037139A1 (ja) 情報処理装置、方法、およびプログラム
KR20020075600A (ko) 이미지 검색방법과 장치
EP2045732A2 (en) Determining the depths of words and documents
CN111241212B (zh) 知识图谱的构建方法及装置、存储介质、电子设备
GB2395807A (en) Information retrieval
Nazemi et al. Visual analytics for analyzing technological trends from text
US20050138079A1 (en) Processing, browsing and classifying an electronic document
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
US20040098389A1 (en) Document search method with interactively employed distance graphics display
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
KR20100115600A (ko) 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
JPH11110409A (ja) 情報分類方法及び装置
JP3646011B2 (ja) 検索システム、及び、当該検索システムのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081031

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091031

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101031

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees