JPH07114572A - 文書分類装置 - Google Patents
文書分類装置Info
- Publication number
- JPH07114572A JPH07114572A JP5259809A JP25980993A JPH07114572A JP H07114572 A JPH07114572 A JP H07114572A JP 5259809 A JP5259809 A JP 5259809A JP 25980993 A JP25980993 A JP 25980993A JP H07114572 A JPH07114572 A JP H07114572A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- word
- feature vector
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
し、その特徴ベクトルをもとに文書を分類することで、
意味的な異なりを用いた自動分類を可能にする。 【構成】 文書分類装置において、文書データを記憶す
る記憶部101と、文書データを解析する文書解析部1
02と、文書中の単語間の共起関係を用いて各単語の特
徴を表現する特徴ベクトルを自動的に生成する単語ベク
トル生成部103と、その特徴ベクトルを記憶する単語
ベクトル記憶部104と、文書内に含まれている単語の
特徴ベクトルから文書の特徴ベクトルを生成する文書ベ
クトル生成部105と、その特徴ベクトルを記憶する文
書ベクトル記憶部106と、文書の特徴ベクトル間の類
似度を利用して文書を分類する分類部107と、その分
類した結果を記憶する結果記憶部108と、特徴ベクト
ル生成時に使用する単語が登録されている特徴ベクトル
生成用辞書109を備える。
Description
する文書自動分類機やワープロ/ファイリングシステム
などに利用される文書分類装置に関する。
ーザが手動で分類を行なったり、文書中のキーワードを
抽出し、あらかじめ作成されたシソーラスを用いて分類
を行なっていた。また自動分類と称しているシステムで
も分類のための基本的なデータは基本例文などの形で人
手によって入力しておく必要があった。
うな分類では人手による作業がボトルネックなるため、
大量の文書の分類作業は大変困難である。
ので、人手を介することなく自動的に文書の分類を行な
う文書分類装置を提供することを目的とする。
文書分類装置において、文書データを記憶する記憶部
と、文書データを解析する文書解析部と、文書中の単語
間の共起関係を用いて各単語の特徴を表現する特徴ベク
トルを自動的に生成する単語ベクトル生成部と、その特
徴ベクトルを記憶する単語ベクトル記憶部と、文書内に
含まれている単語の特徴ベクトルから文書の特徴ベクト
ルを生成する文書ベクトル生成部と、その特徴ベクトル
を記憶する文書ベクトル記憶部と、文書の特徴ベクトル
間の類似度を利用して文書を分類する分類部と、その分
類した結果を記憶する結果記憶部と、特徴ベクトル生成
時に使用する単語が登録されている特徴ベクトル生成用
辞書とを備え、大量の文書ファイル中の単語間の共起関
係を用いて、各単語の特徴を表現する特徴ベクトルを自
動的に生成し、文書を自動的に分類することができるこ
とを特徴とする。
加え、結果記憶部に記憶されている分類結果を利用して
分類時に有用な単語を選出する有用単語選出部を更に備
え、大量の文書ファイルを分類した後でその分類された
各分類群ごとに単語の出現率を調べることで、分類に有
用な単語を選出し、分類に有用な単語のみを用いること
で分類の精度を向上させることができることを特徴とす
る。
加え、結果記憶部に記憶されている分類結果を利用して
各分類群を代表する特徴ベクトルを求める代表ベクトル
生成部と、代表ベクトル生成部で生成された代表ベクト
ルを記憶する代表ベクトル記憶部を更に備え、大量の文
書ファイルを分類した後でその分類された各分類群ごと
の単語や文書の特徴ベクトルを用いて、その分野を代表
する特徴ベクトルを求めることができることを特徴とす
る。
用を説明する。文書記憶部に記憶されている大量の文書
ファイルの内容が文書解析部に渡されて文の解析(形態
素解析など)が行なわれ、単語ベクトル生成部で単語の
共起関係や出現頻度等を分析して各単語の特徴ベクトル
を生成する。こうして生成された単語の特徴ベクトルは
単語ベクトル記憶部に記憶される。このようにして単語
の特徴ベクトルの学習が行なわれる。特徴ベクトルを生
成する単語は特徴ベクトル生成用辞書に登録されている
単語に制限することで特徴ベクトルの記憶空間が巨大に
なりすぎるのを防ぐ。
る。文章の分類を行なう時には、文書記憶部に記憶され
ている文書ファイルの内容が文書解析部に渡されて文の
解析(形態素解析など)が行なわれ、文書ベクトル生成
部では文書解析部で文の解析をした時に出現する単語の
特徴ベクトルを単語ベクトル記憶部を参照して求め、文
書に含まれる単語の特徴ベクトルから文書の特徴ベクト
ルを生成する。こうして生成された文書の特徴ベクトル
は文書ベクトル記憶部に記憶され、この文書の特徴ベク
トル間の類似度によって分類部で文書を分類する。この
分類結果は結果記憶部に記憶される。
分類を実行した後、有用単語選出部にて、結果記憶部に
記憶されている分類結果を利用して分類時に有用な単語
を選出する。有用単語選出部によって選出された単語だ
けを特徴ベクトル生成用辞書に登録してから再び単語の
特徴ベクトルの学習を行なわせ、そうして得られた単語
の特徴ベクトルを用いて再び分類を行なうことによっ
て、請求項1の構成よりも特徴ベクトルの記憶空間を削
減したり、また分類の精度をあげることもできる。
分類を実行した後、代表ベクトル生成部にて、結果記憶
部に記憶されている分類結果を利用して各分類群を代表
する特徴ベクトルを求める。代表ベクトル生成部で生成
された代表ベクトルは代表ベクトル記憶部に記憶され
る。一度各分類群の代表ベクトルを生成してしまえば、
新たな文書データを分類する時には、その文書の特徴ベ
クトルと各分類群の代表ベクトルとの比較を行なうだけ
でその文書がどの分類群に属すかを判定できる。
詳述する。
す。文書分類装置は、文書データを記憶する記憶部10
1と、文書データを解析する文書解析部102と、文書
中の単語間の共起関係を用いて各単語の特徴を表現する
特徴ベクトルを自動的に生成する単語ベクトル生成部1
03と、その特徴ベクトルを記憶する単語ベクトル記憶
部104と、文書内に含まれている単語の特徴ベクトル
から文書の特徴ベクトルを生成する文書ベクトル生成部
105と、その特徴ベクトルを記憶する文書ベクトル記
憶部106と、文書の特徴ベクトル間の類似度を利用し
て文書を分類する分類部107と、その分類した結果を
記憶する結果記憶部108と、特徴ベクトル生成時に使
用する単語が登録されている特徴ベクトル生成用辞書1
09とから構成される。
数は非常に多いため、特徴ベクトルを作成する際に用い
る単語を制限しておく方が現実的である。このために用
いるのが特徴ベクトル生成用辞書109で、ここに登録
されている単語のみを用いて単語の特徴ベクトルを作成
することで、特徴ベクトルの記憶空間の巨大化を抑える
ことができる。
テム構成を示し、単語の特徴ベクトルの学習時には、学
習用の大量の文書データ文書記憶部101に記憶させて
おき、文書記憶部101から読み出した文書データは記
事、段落、一文等の適当な塊ごとに文書解析部102に
読み込まれ、文書解析部102でその文書データを解析
して単語が抽出される。ここで抽出された単語列をもと
にして単語ベクトル生成部103で単語の特徴ベクトル
を生成し、単語ベクトル生成部103で生成された単語
の特徴ベクトルは単語ベクトル記憶部104に記憶され
る。こうして単語の特徴ベクトルを学習する。
文書の分類をする時には、分類する文書のデータを文書
記憶部101に記憶させておき、文書記憶部101から
読み出した文書データは分類を行なわせたい単位(例え
ば記事単位)ごとに文書解析部102に読み込まれ、文
書解析部102でその文書データの解析をして単語が抽
出される。ここで抽出された単語の特徴ベクトルを10
4の単語ベクトル記憶部の内容を参照して求める。通常
は文書データの一つの単位(例えば一つの記事)から複
数の単語が抽出されるがこの時には求められるすべての
単語の特徴ベクトルの値を平均化することで文書の特徴
ベクトルが計算される。この時、単純に平均化するので
はなく、各特徴ベクトルをその出現頻度の逆数に応じて
重み付けをしてから(例えば、大量の記事からその単語
の出現している記事数を調査し、log(全記事数/そ
の単語が出現している記事数)をその単語の特徴ベクト
ルに掛けてから)平均化するとより良い値が得られる場
合がある。
ラスタリングの手法を適用することで文書の分類を行な
うことができる。これは例えば文書の特徴ベクトル間の
距離が近い文書同士は同じ分野に属するとみなせば良
い。
を選び、その文書から抽出される単語の特徴ベクトルか
らその分類群の仮の代表ベクトルを生成しておき、文書
記憶部101から読み込まれる文書の特徴ベクトルがど
の分類群の仮の代表ベクトルに近いかで文書を分類する
こともできる。このような分類手法でも文書記憶部10
1から大量に文書データを読み込ませれば仮の代表ベク
トルを人間が選んでいるという誤差の影響が少なくな
り、最終的には各分野毎のかなり一般的な代表ベクトル
を生成することができる。
を説明する。単語の特徴ベクトルは、一塊の文書データ
の中に含まれている単語の出現頻度分布に、その単語の
その一塊の文書データ中での出現頻度を掛けたものを加
算していくことによって得られる。具体的な例で説明す
る。
ム規制の抜本的な見直しを提案してきた。」 例文B「規制対象国が兵器の製造につながる工業製品の
輸出を規制することを条件に、ココムの規制品目を大幅
に削減する意向のようだ。」 という文書データからどのように単語の特徴ベクトルを
作成するかを説明する。ここでは、文書データは「一
文」という単位で読み込まれることとするが、これは一
記事など他の単位でも構わない。
徴ベクトル生成用辞書に登録されている単語数が21)
で各要素が「アメリカ、政府、先進、主要、国、ココ
ム、規制、抜本的、見直し、提案、対象、兵器、製造、
工業、製品、輸出、条件、品目、大幅、削減、意向」と
いう単語に対応しているとする。
憶部101から読み込まれると、文書解析部102が解
析されて「アメリカ、政府、先進、主要、国、ココム、
規制、抜本的、見直し、提案」が抽出される。この時単
語ベクトル生成部103ではこれらの単語すべての特徴
ベクトルのこれらの単語に対応する要素に1を加算す
る。すると、「アメリカ」「政府」等、例文Aに出現す
る単語の特徴ベクトルには(1,1,1,1,1,1,
1,1,1,1,0,0,0,0,0,0,0,0,
0,0,0)を加算する。これを図解したものが図8で
ある。
まれると、文書解析部102で解析されて、「規制、対
象、国、兵器、製造、工業、製品、輸出、規制、条件、
ココム、規制、品目、大幅、削減、意向」が抽出され
る。
(0,0,0,0,1,1,3,0,0,0,1,1,
1,1,1,1,1,1,1,1,1)である。「規
制」は3回出現しているので、この単語出現頻度分布を
3倍したベクトルである(0,0,0,0,3,3,
9,0,0,0,3,3,3,3,3,3,3,3,
3,3,3)を「規制」の特徴ベクトルに加算し、「対
象」「国」等、例文Bに1回しか出現しない単語の特徴
ベクトルには(0,0,0,0,1,1,3,0,0,
0,1,1,1,1,1,1,1,1,1,1,1)を
加算する。これを図解したものが図9である。
では文の長さによって加算するベクトルの大きさが変化
してしまうので、加算するベクトルの絶対値を1に正規
化したり、出現頻度分布のベクトルの絶対値を1に正規
化してから出現数に比例した値を掛けた後に加算する方
法なども考えられる。
絶対値を1に正規化しておく。
語ベクトル記憶部104に記憶され、文書の分類時に利
用される。
成の処理を、具体例として以下の例文Cが読み込まれた
時をあげて説明する。
した。」 例文Cが文書記憶部101から読み込まれると、文書解
析部102で解析されて「アメリカ、政府、兵器、削
減、提案」が抽出される。すると文書ベクトル生成部1
05では単語ベクトル記憶部104の内容を参照して
「アメリカ」「政府」等、例文Cに出現する単語の特徴
ベクトルを加算していき、例文Cの特徴ベクトルとして
(3,3,3,3,5,5,9,3,3,3,2,2,
2,2,2,2,2,2,2,2,2)を得る。これを
図解したものが図10である。図10ではわかりやすさ
を優先するためにベクトルの正規化を行なっていない
が、実際の処理では加算する前に各単語の特徴ベクトル
の絶対値を1に正規化してから加算を行なう。得られた
特徴ベクトルは文書ベクトル記憶群106に記憶され
る。
徴ベクトルをどのように利用するのかを説明する。簡単
には、まず求まった文書の特徴ベクトルの絶対値を1に
正規化してから、K−means法などの従来からある
手法を用いて分類したり、分類群の(仮)代表ベクトル
との類似度(距離を求めたり内積を計算することによっ
て得られる)で分類すれば良いが、本手法で得られる特
徴ベクトルは「多く出現する単語に対応する要素の値が
非常に大きくなる」という特徴があるため、この特徴が
分類に悪影響を与えないように工夫した方が良い分類結
果が得られる場合が多い。例えば距離を求める場合には
要素間の差が拡大しないような計算による距離(通常は
各要素間の差の自乗和の平方根を計算するが、例えば各
要素間の差の絶対値の和を計算するなどして求めた距
離)を利用するようにしたほうが良いし、内積を求める
前に全要素をlogをとったり冪乗根をとったりしてか
ら正規化して値を均してから計算すると良い。
それぞれの分類群の代表ベクトルが以下のように求めら
れていたとしよう。
1,0,0,0,0,0,0,0,0,0,0,0,
0,0,1,1,1,1) 分類群2の代表ベクトル(1,1,1,1,1,1,
1,1,1,1,5,5,5,5,5,5,5,5,
5,5,5) 分類群3の代表ベクトル(4,4,4,4,6,6,
6,3,3,3,1,1,1,1,1,1,1,1,
1,1,1) 類似度の尺度として、文書の特徴ベクトル、分類群の代
表ベクトル共に絶対値を1に正規化してから両者の内積
を計算し、一番大きな値をとるものが一番類似度が高い
とすると、例文Cの特徴ベクトル
3,2,2,2,2,2,2,2,2,2,2,2) 分類群1の代表ベクトル
0,0,0,0,0,0,0,0,1,1,1,1) 分類群2の代表ベクトル
1,5,5,5,5,5,5,5,5,5,5,5) 分類群3の代表ベクトル
3,1,1,1,1,1,1,1,1,1,1,1) なので、例文Cの特徴ベクトルと各分類群の代表ベクト
ルとの内積は分類群1との内積
の代表ベクトルに一番近いことがわかるので、例文Cは
分類群3に分類される。これを図解したのが図11であ
る。図11も図10と同様わかりやすさを優先するため
にベクトルの正規化を行なっていないが、実際の処理で
は比較を行なう前に各ベクトルの絶対値を1に正規化し
てから比較を行なう。分類した結果は結果記憶部108
に記憶される。
に示す。ここで、符号201〜209で表されるものは
図1の符号101〜109で表されるものと夫々同じも
のである。
憶部201と、文書データを解析する文書解析部202
と、文書中の単語間の共起関係を用いて各単語の特徴を
表現する特徴ベクトルを自動的に生成する単語ベクトル
生成部203と、その特徴ベクトルを記憶する単語ベク
トル記憶部204と、文書内に含まれている単語の特徴
ベクトルから文書の特徴ベクトルを生成する文書ベクト
ル生成部205と、その特徴ベクトルを記憶する文書ベ
クトル記憶部206と、文書の特徴ベクトル間の類似度
を利用して文書を分類する分類部207と、その分類し
た結果を記憶する結果記憶部208と、特徴ベクトル生
成時に使用する単語が登録されている特徴ベクトル生成
用辞書209と、結果記憶部208に記憶されている分
類結果を利用して分類時に有用な単語を選出する有用単
語選出部210とからなる。
示す図である。最初は請求項1の実施例と同様の方法に
よって、単語の特徴ベクトルを学習し、それをもとに大
量の文書データを分類する。分類した結果は結果記憶部
208に記憶されているが、この結果を元にして、有用
単語選出部210で有用単語の選出を行なう。これは、
分類群ごとに各単語の頻度を求め、どの分類群にも同じ
ような割合で含まれている単語を除去したり(方法1:
最高頻度と最低頻度との比がある閾値以下のものを除
去)、ある分類群にだけ高い割合で含まているものを選
出したり(方法2:最高頻度と第二位頻度との比がある
閾値以上のものを選出)する。なお、有用単語選出部2
10で選出を行なう単語は必ずしも特徴ベクトル生成用
辞書209に登録されている単語からでなくても良く、
もっと広い範囲の単語から選出を行なうことができる。
ったとして、特徴ベクトル生成用辞書209に登録され
ている単語が「政治、日本、国際」の三つだったとす
る。そして分類群ごとに各単語(特徴ベクトル生成用辞
書209に登録されている単語以外に「選挙」「問題」
についても頻度を調べるとする)の頻度が次のようだっ
たとする。
35%,選挙10%,問題20% 分類群b 政治 3%,日本55%,国際35%,選挙
2%,問題 5% 分類群c 政治 3%,日本30%,国際35%,選挙
2%,問題30% すると、方法1を用いると「国際」はどの分類群にも同
じような割合で含まれているので、特徴ベクトル生成用
辞書から除去することになる。「政治」「日本」「選
挙」「問題」は分類群ごとの頻度に偏りがあるので、有
用単語として選出され、特徴ベクトル生成用辞書209
に登録する(この時登録単語数を抑えたい場合は、頻度
に偏りのある単語の中で、合計の出現頻度の順番に登録
したい個数だけ取ってくれば良い)。方法2を用いた場
合「政治」と「選挙」だけが選出され特徴ベクトル生成
用辞書209に登録し、「日本」や「国際」や「問題」
は特徴ベクトル生成用辞書209には登録しない。方法
1と方法2の中間的な方法として、第1位の頻度と第n
位(nは3以上、分類群の個数−1以下)の頻度との比
がある閾値以上であるかどうかで有用単語を選出する方
法も考えられる。また、頻度の比ではなく、頻度の分散
の値が大きいものを選出する方法も考えられる。
度の比(あるいは頻度の分散)に応じた重要度を持って
いると考えることができるので、文書の特徴ベクトルを
計算する時にはその文書内の単語の特徴ベクトルをこの
比(あるいは分散)に応じて重み付けをしてから(例え
ば、log(頻度の比)をその特徴ベクトルに掛けてか
ら)平均化するとより良い文書の特徴ベクトル地が得ら
れる場合がある。
に、分類に有用な単語だけを登録し、もう一度、単語の
特徴ベクトルを学習し、それを用いて文書を分類する
と、特徴ベクトル生成用辞書をより小さくできたり、分
類の精度をあげることができる。
す。ここで、符号301〜310で表されるものは図4
の201〜210で表されるものと夫々同じものであ
る。
憶部301と、文書データを解析する文書解析部302
と、文書中の単語間の共起関係を用いて各単語の特徴を
表現する特徴ベクトルを自動的に生成する単語ベクトル
生成部303と、その特徴ベクトルを記憶する単語ベク
トル記憶部304と、文書内に含まれている単語の特徴
ベクトルから文書の特徴ベクトルを生成する文書ベクト
ル生成部305と、その特徴ベクトルを記憶する文書ベ
クトル記憶部306と、文書の特徴ベクトル間の類似度
を利用して文書を分類する分類部307と、その分類し
た結果を記憶する結果記憶部308と、特徴ベクトル生
成時に使用する単語が登録されている特徴ベクトル生成
用辞書309と、結果記憶部308に記憶されている分
類結果を利用して分類時に有用な単語を選出する有用単
語選出部310と、結果記憶部308に記憶されている
分類結果を利用して各分類群を代表する特徴ベクトルを
求める代表ベクトル生成部311と、代表ベクトル生成
部311で生成された代表ベクトルを記憶する代表ベク
トル記憶部312とからなる。
システムを構成する場合には有用単語選出部310が無
いシステムとなる。
示す図である。最初は請求項1の実施例や請求項2の実
施例と同様の方法によって、単語の特徴ベクトルを学習
し、それをもとに大量の文書データを分類する。分類し
た結果は結果記憶部308に記憶されているが、この結
果を元にして、代表ベクトル生成部311で代表ベクト
ルを生成する。これは例えば、分類群ごとの各単語の頻
度を求め、ある分類群にだけ高い割合で含まれている単
語を選出し、このような単語の特徴ベクトルの平均をと
ることよって生成できる。具体例として分類群がa,
b,cの三つあったとして、特徴ベクトル生成用辞書3
09に登録されている単語が「政治、国会、国際」の三
つだったとする。そして分類群ごとの各単語の頻度が次
のようだったとする。
クトルと「国会」の特徴ベクトルの平均として与えられ
る。なお単なる平均ではなく、出現割合によって、重み
をつけることも考えられる。例えば「政治」の出現頻度
が「国会」の出現頻度の2倍なら、「政治」の特徴ベク
トルの2倍と「国会」の特徴ベクトルとを加算し、3で
割ったものを分類群aの代表ベクトルとする等である。
クトルの平均をとったものを分類群aの代表ベクトルと
する方法も考えられる。
れを代表ベクトル記憶部312に記憶しておくことで、
以後の文書の分類時にはこの代表ベクトルを参照するこ
とで、文書記憶部301から読み込まれた文書は、その
文書の特徴ベクトルにもっとも類似した代表ベクトルに
対応する分類群に分類することができるようになる。
子メールや電子ニュースを自動的に分類したり、電子メ
ールの中や電子ニュースの中からユーザーの興味を持ち
そうなものを選出したり(ユーザーがそれまでに読んだ
メールやニュースの特徴ベクトルとの類似度で判定でき
る)、あいまい検索(検索キーワードの特徴ベクトル
と、検索対象文書の特徴ベクトルとの類似度が一定の閾
値以上になる文書を検索するようにすることで、検索キ
ーワードに正確にマッチしていなくても関連のキーワー
ドで検索できる)に利用できたり、仮名漢字変換におけ
る同音意義語の選択(それまでに変換した内容から得ら
れる特徴ベクトルとの類似度で同音意義語を選択する)
に利用できたり、音声認識・手書き文字認識などにおい
て過去の文脈に最も適合した変換結果を選択する方法を
とる(それまでに認識した内容から得られる特徴ベクト
ルとの類似度で認識結果を選択する)際にも利用できた
り、認識時等において単語等の検索空間を狭める(それ
までに認識した内容から得られる特徴ベクトルの要素の
うち一定の閾値以上になっている要素に対応する単語だ
けを検索するようにする)際にも利用できる。
作成することができ、文書の分類を自動的に行なうこと
ができるようになる。またこの方法で作成されたれ単語
の特徴ベクトルは文書の分類時だけでなく、あいまい検
索や、仮名漢字変換における同音意義語の選択にも利用
できるし、音声認識・手書文字認識などにおいて、過去
の文脈に最も適合した認識結果を選択する方法をとる際
にも利用できる。
すブロック図である。
示すブロック図である。
示すブロック図である。
すブロック図である。
構成を示すブロック図である。
すブロック図である。
構成を示すブロック図である。
る。
る。
る。
Claims (3)
- 【請求項1】 文書分類装置において、文書データを記
憶する記憶部と、文書データを解析する文書解析部と、
文書中の単語間の共起関係を用いて各単語の特徴を表現
する特徴ベクトルを自動的に生成する単語ベクトル生成
部と、その特徴ベクトルを記憶する単語ベクトル記憶部
と、文書内に含まれている単語の特徴ベクトルから文書
の特徴ベクトルを生成する文書ベクトル生成部と、その
特徴ベクトルを記憶する文書ベクトル記憶部と、文書の
特徴ベクトル間の類似度を利用して文書を分類する分類
部と、その分類した結果を記憶する結果記憶部と、特徴
ベクトル生成時に使用する単語が登録されている特徴ベ
クトル生成用辞書とを備え、大量の文書ファイル中の単
語間の共起関係を用いて、各単語の特徴を表現する特徴
ベクトルを自動的に生成し、文書を自動的に分類するこ
とができることを特徴とする文書分類装置。 - 【請求項2】 請求項1の文書分類装置の構成に加え
て、結果記憶部に記憶されている分類結果を利用して分
類時に有用な単語を選出する有用単語選出部を備え、大
量の文書ファイルを分類した後でその分類された各分類
群ごとに単語の出現率を調べることで、分類に有用な単
語を選出し、分類に有用な単語のみを用いることで分類
の精度を向上させることができることを特徴とする文書
分類装置。 - 【請求項3】 請求項1あるいは請求項2の文書分類装
置の構成に加えて、結果記憶部に記憶されている分類結
果を利用して各分類群を代表する特徴ベクトルを求める
代表ベクトル生成部と、代表ベクトル生成部で生成され
た代表ベクトルを記憶する代表ベクトル記憶部とを備
え、大量の文書ファイルを分類した後でその分類された
各分類群ごとの単語や文書の特徴ベクトルを用いて、そ
の分野を代表する特徴ベクトルを求めることができるこ
とを特徴とする文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5259809A JP2978044B2 (ja) | 1993-10-18 | 1993-10-18 | 文書分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5259809A JP2978044B2 (ja) | 1993-10-18 | 1993-10-18 | 文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07114572A true JPH07114572A (ja) | 1995-05-02 |
JP2978044B2 JP2978044B2 (ja) | 1999-11-15 |
Family
ID=17339307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5259809A Expired - Lifetime JP2978044B2 (ja) | 1993-10-18 | 1993-10-18 | 文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2978044B2 (ja) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08234789A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 統合認識対話装置 |
EP0750266A1 (en) * | 1995-06-19 | 1996-12-27 | Sharp Kabushiki Kaisha | Document classification unit and document retrieval unit |
JPH09101990A (ja) * | 1995-07-31 | 1997-04-15 | Toshiba Corp | 情報フィルタリング装置 |
JPH09128402A (ja) * | 1995-10-30 | 1997-05-16 | Fuji Xerox Co Ltd | 文書類似度計算装置および文書分類装置 |
JPH10111869A (ja) * | 1996-10-07 | 1998-04-28 | Fujitsu Ltd | 情報分類装置とその方法 |
JPH10228486A (ja) * | 1997-02-14 | 1998-08-25 | Nec Corp | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
JPH10260991A (ja) * | 1997-01-14 | 1998-09-29 | Seiko Epson Corp | 情報検索方法および情報検索装置 |
JPH11259504A (ja) * | 1998-03-11 | 1999-09-24 | Mitsubishi Electric Corp | データベース作成装置およびデータベース検索装置 |
JPH11259485A (ja) * | 1998-03-06 | 1999-09-24 | Fujitsu Ltd | 文書検索装置及び記録媒体 |
JPH11282859A (ja) * | 1998-03-27 | 1999-10-15 | Osaka Gas Co Ltd | 文章分類装置および通信文書受付システム |
JPH11296552A (ja) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000035963A (ja) * | 1998-07-17 | 2000-02-02 | Nec Corp | 文章自動分類装置及び方法 |
JP2000242646A (ja) * | 1999-02-18 | 2000-09-08 | Real World Computing Partnership | 情報検索方法及び情報検索装置 |
JP2001067360A (ja) * | 1999-08-24 | 2001-03-16 | Sharp Corp | 利用者に対する情報提供装置ならびに情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体 |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003510689A (ja) * | 1999-09-24 | 2003-03-18 | フランス テレコム | ドキュメントをテーマ別に分類する方法、テーマ別分類モジュールおよび斯かるモジュールを取入れた検索エンジン |
US6549752B2 (en) | 2001-01-29 | 2003-04-15 | Fujitsu Limited | Apparatus and method accumulating cases to be learned |
JP2003256441A (ja) * | 2002-03-01 | 2003-09-12 | Hewlett Packard Co <Hp> | 文書分類方法及び装置 |
US6826724B1 (en) | 1998-12-24 | 2004-11-30 | Ricoh Company, Ltd. | Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer |
US7194471B1 (en) | 1998-04-10 | 2007-03-20 | Ricoh Company, Ltd. | Document classification system and method for classifying a document according to contents of the document |
JP2007072610A (ja) * | 2005-09-05 | 2007-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報処理方法及び装置及びプログラム |
JP2007122145A (ja) * | 2005-10-25 | 2007-05-17 | Just Syst Corp | 電子メール評価装置および電子メール評価方法 |
JP2007122147A (ja) * | 2005-10-25 | 2007-05-17 | Just Syst Corp | 電子メッセージ分類装置および電子メッセージ分類方法 |
WO2007066704A1 (ja) * | 2005-12-09 | 2007-06-14 | Nec Corporation | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
CN1327334C (zh) * | 2001-11-08 | 2007-07-18 | 住友电气工业株式会社 | 文件分组装置 |
WO2007097419A1 (ja) * | 2006-02-23 | 2007-08-30 | Pioneer Corporation | 楽曲検索装置及び方法、並びにコンピュータプログラム |
WO2010113396A1 (ja) * | 2009-03-31 | 2010-10-07 | 日本電気株式会社 | 読み方判断装置、方法、プログラム、及びそのコンピュータ可読媒体、並びに音声合成装置 |
JP2012118369A (ja) * | 2010-12-02 | 2012-06-21 | Kobe Steel Ltd | 教材コンテンツ生成システム、教材コンテンツ生成方法、及びコンピュータプログラム |
JP2012194690A (ja) * | 2011-03-15 | 2012-10-11 | Ntt Comware Corp | 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム |
JP2013519152A (ja) * | 2010-02-02 | 2013-05-23 | アリババ グループ ホールディング リミテッド | テキスト分類の方法及びシステム |
CN107291896A (zh) * | 2017-06-21 | 2017-10-24 | 北京小度信息科技有限公司 | 数据更新方法及装置 |
WO2018212055A1 (ja) * | 2017-05-17 | 2018-11-22 | 日本電信電話株式会社 | ドキュメント識別装置、ドキュメント識別方法、プログラム |
JP2019003254A (ja) * | 2017-06-12 | 2019-01-10 | ヤフー株式会社 | カテゴリ選択装置、広告配信システム、カテゴリ選択方法、およびプログラム |
JP2019028958A (ja) * | 2017-08-04 | 2019-02-21 | 株式会社日立製作所 | 設計書学習装置および設計書学習方法 |
JP2020013521A (ja) * | 2018-07-20 | 2020-01-23 | カーベーセー グループ エンフェーKBC Groep NV | 改善された要求ハンドリング |
WO2024116974A1 (ja) * | 2022-11-30 | 2024-06-06 | 東京エレクトロン株式会社 | コンピュータプログラム、回答判定方法、回答判定装置、学習済モデル生成方法及び学習済モデル生成装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006252047A (ja) | 2005-03-09 | 2006-09-21 | Fuji Xerox Co Ltd | 言語処理装置および言語処理プログラム |
-
1993
- 1993-10-18 JP JP5259809A patent/JP2978044B2/ja not_active Expired - Lifetime
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08234789A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 統合認識対話装置 |
EP0750266A1 (en) * | 1995-06-19 | 1996-12-27 | Sharp Kabushiki Kaisha | Document classification unit and document retrieval unit |
JPH096799A (ja) * | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
JPH09101990A (ja) * | 1995-07-31 | 1997-04-15 | Toshiba Corp | 情報フィルタリング装置 |
JPH09128402A (ja) * | 1995-10-30 | 1997-05-16 | Fuji Xerox Co Ltd | 文書類似度計算装置および文書分類装置 |
JPH10111869A (ja) * | 1996-10-07 | 1998-04-28 | Fujitsu Ltd | 情報分類装置とその方法 |
JPH10260991A (ja) * | 1997-01-14 | 1998-09-29 | Seiko Epson Corp | 情報検索方法および情報検索装置 |
JPH10228486A (ja) * | 1997-02-14 | 1998-08-25 | Nec Corp | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
JPH11259485A (ja) * | 1998-03-06 | 1999-09-24 | Fujitsu Ltd | 文書検索装置及び記録媒体 |
JPH11259504A (ja) * | 1998-03-11 | 1999-09-24 | Mitsubishi Electric Corp | データベース作成装置およびデータベース検索装置 |
JPH11282859A (ja) * | 1998-03-27 | 1999-10-15 | Osaka Gas Co Ltd | 文章分類装置および通信文書受付システム |
US7194471B1 (en) | 1998-04-10 | 2007-03-20 | Ricoh Company, Ltd. | Document classification system and method for classifying a document according to contents of the document |
JPH11296552A (ja) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000035963A (ja) * | 1998-07-17 | 2000-02-02 | Nec Corp | 文章自動分類装置及び方法 |
US6826724B1 (en) | 1998-12-24 | 2004-11-30 | Ricoh Company, Ltd. | Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer |
JP2000242646A (ja) * | 1999-02-18 | 2000-09-08 | Real World Computing Partnership | 情報検索方法及び情報検索装置 |
JP2001067360A (ja) * | 1999-08-24 | 2001-03-16 | Sharp Corp | 利用者に対する情報提供装置ならびに情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体 |
JP2003510689A (ja) * | 1999-09-24 | 2003-03-18 | フランス テレコム | ドキュメントをテーマ別に分類する方法、テーマ別分類モジュールおよび斯かるモジュールを取入れた検索エンジン |
JP4718076B2 (ja) * | 1999-09-24 | 2011-07-06 | フランス・テレコム | ドキュメントをテーマ別に分類する方法、ドキュメントをテーマ別に分類するコンピュータ、ドキュメントをテーマ別に分類するコンピュータの用法及び検索エンジンコンピュータ |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6549752B2 (en) | 2001-01-29 | 2003-04-15 | Fujitsu Limited | Apparatus and method accumulating cases to be learned |
CN1327334C (zh) * | 2001-11-08 | 2007-07-18 | 住友电气工业株式会社 | 文件分组装置 |
JP2003256441A (ja) * | 2002-03-01 | 2003-09-12 | Hewlett Packard Co <Hp> | 文書分類方法及び装置 |
JP2007072610A (ja) * | 2005-09-05 | 2007-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報処理方法及び装置及びプログラム |
JP2007122145A (ja) * | 2005-10-25 | 2007-05-17 | Just Syst Corp | 電子メール評価装置および電子メール評価方法 |
JP4688629B2 (ja) * | 2005-10-25 | 2011-05-25 | 株式会社ジャストシステム | 電子メッセージ分類装置および電子メッセージ分類方法 |
JP2007122147A (ja) * | 2005-10-25 | 2007-05-17 | Just Syst Corp | 電子メッセージ分類装置および電子メッセージ分類方法 |
JP4868170B2 (ja) * | 2005-12-09 | 2012-02-01 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
US8229956B2 (en) | 2005-12-09 | 2012-07-24 | Nec Corporation | Text mining device, text mining method, and text mining program |
WO2007066704A1 (ja) * | 2005-12-09 | 2007-06-14 | Nec Corporation | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
WO2007097419A1 (ja) * | 2006-02-23 | 2007-08-30 | Pioneer Corporation | 楽曲検索装置及び方法、並びにコンピュータプログラム |
JPWO2007097419A1 (ja) * | 2006-02-23 | 2009-07-16 | パイオニア株式会社 | 楽曲検索装置及び方法、並びにコンピュータプログラム |
JP4792497B2 (ja) * | 2006-02-23 | 2011-10-12 | パイオニア株式会社 | 楽曲検索装置及び方法、並びにコンピュータプログラム |
JP5533853B2 (ja) * | 2009-03-31 | 2014-06-25 | 日本電気株式会社 | 読み方判断装置、方法、プログラム、及び音声合成装置 |
WO2010113396A1 (ja) * | 2009-03-31 | 2010-10-07 | 日本電気株式会社 | 読み方判断装置、方法、プログラム、及びそのコンピュータ可読媒体、並びに音声合成装置 |
JP2013519152A (ja) * | 2010-02-02 | 2013-05-23 | アリババ グループ ホールディング リミテッド | テキスト分類の方法及びシステム |
JP2012118369A (ja) * | 2010-12-02 | 2012-06-21 | Kobe Steel Ltd | 教材コンテンツ生成システム、教材コンテンツ生成方法、及びコンピュータプログラム |
JP2012194690A (ja) * | 2011-03-15 | 2012-10-11 | Ntt Comware Corp | 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム |
WO2018212055A1 (ja) * | 2017-05-17 | 2018-11-22 | 日本電信電話株式会社 | ドキュメント識別装置、ドキュメント識別方法、プログラム |
JPWO2018212055A1 (ja) * | 2017-05-17 | 2020-03-12 | 日本電信電話株式会社 | ドキュメント識別装置、ドキュメント識別方法、プログラム |
JP2019003254A (ja) * | 2017-06-12 | 2019-01-10 | ヤフー株式会社 | カテゴリ選択装置、広告配信システム、カテゴリ選択方法、およびプログラム |
CN107291896A (zh) * | 2017-06-21 | 2017-10-24 | 北京小度信息科技有限公司 | 数据更新方法及装置 |
JP2019028958A (ja) * | 2017-08-04 | 2019-02-21 | 株式会社日立製作所 | 設計書学習装置および設計書学習方法 |
JP2020013521A (ja) * | 2018-07-20 | 2020-01-23 | カーベーセー グループ エンフェーKBC Groep NV | 改善された要求ハンドリング |
WO2024116974A1 (ja) * | 2022-11-30 | 2024-06-06 | 東京エレクトロン株式会社 | コンピュータプログラム、回答判定方法、回答判定装置、学習済モデル生成方法及び学習済モデル生成装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2978044B2 (ja) | 1999-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2978044B2 (ja) | 文書分類装置 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
Ahonen et al. | Applying data mining techniques for descriptive phrase extraction in digital document collections | |
JP3726263B2 (ja) | 文書分類方法及び装置 | |
US7899816B2 (en) | System and method for the triage and classification of documents | |
US7031969B2 (en) | System and method for identifying relationships between database records | |
US8019699B2 (en) | Machine learning system | |
EP0750266B1 (en) | Document classification unit and document retrieval unit | |
El et al. | Authorship analysis studies: A survey | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
EP1168202A2 (en) | Apparatus for retrieving similar documents and apparatus for extracting relevant keywords | |
CN106651696B (zh) | 一种近似题推送方法及系统 | |
US8510312B1 (en) | Automatic metadata identification | |
WO2002091216A1 (en) | Very-large-scale automatic categorizer for web content | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
Hoch | Using IR techniques for text classification in document analysis | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
JP3198932B2 (ja) | 文書検索装置 | |
CN110968693A (zh) | 基于集成学习的多标签文本分类计算方法 | |
CN105224689A (zh) | 一种东巴文献分类方法 | |
JPH06314297A (ja) | 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 | |
JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
Junker et al. | Evaluating ocr and non-ocr text representations for learning document classifiers | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120910 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 14 |
|
EXPY | Cancellation because of completion of term |