JPH1078971A - 文書分類装置及び文書分類方法 - Google Patents

文書分類装置及び文書分類方法

Info

Publication number
JPH1078971A
JPH1078971A JP8248522A JP24852296A JPH1078971A JP H1078971 A JPH1078971 A JP H1078971A JP 8248522 A JP8248522 A JP 8248522A JP 24852296 A JP24852296 A JP 24852296A JP H1078971 A JPH1078971 A JP H1078971A
Authority
JP
Japan
Prior art keywords
document
vector
category
clustering
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8248522A
Other languages
English (en)
Inventor
Noriko Otani
紀子 大谷
Shiro Ito
史朗 伊藤
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP8248522A priority Critical patent/JPH1078971A/ja
Publication of JPH1078971A publication Critical patent/JPH1078971A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書を文書ベクトルに基づいていずれかのカ
テゴリに分類する際に、1つのカテゴリのトレーニング
文書の文書ベクトルの分布が小群に分けられる場合でも
適切なカテゴリ範囲を決定することが可能な文書分類装
置及び文書分類方法を提供する。 【解決手段】 文書ベクトルを計算する文書ベクトル計
算部104と、各カテゴリの文書ベクトルをその分布状
況に応じてクラスタリングする文書ベクトルクラスタリ
ング部106と、各クラスタの文書ベクトルの平均を計
算する平均ベクトル計算部108と、各カテゴリの範囲
を計算するカテゴリ範囲計算部110と、目的文書のカ
テゴリを決定するカテゴリ決定部113とを具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書分類装置及び
文書分類方法に係り、更に詳しくは、文書の内容を示す
文書ベクトルに基づきカテゴリを決定する文書分類装置
及び文書分類方法に関する。
【0002】
【従来の技術】従来、文書自動分類装置の技術の一つ
に、文書ベクトルを利用した技術が知られている。文書
ベクトルとは、文書中に出現する単語のうち、文書の分
類に有用な単語を基に設定された、文書の内容を示すベ
クトルのことである。
【0003】文書ベクトルを利用した文書自動分類装置
においては、予め正しく分類されたトレーニング文書か
ら、各カテゴリの特徴を表す平均ベクトルを学習してお
く。カテゴリの平均ベクトルとは、各カテゴリに属する
トレーニング文書の文書ベクトルの平均をとったもので
ある。文書の分類を行う際には、分類の対象となってい
る文書の文書ベクトルを計算し、計算により得られた文
書ベクトルと或るカテゴリの平均ベクトルとの距離が定
められたしきい値以下である場合に、そのカテゴリに属
すると判断する。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来技術においては下記のような問題があった。即
ち、上記従来の装置においては、カテゴリの範囲は平均
ベクトルからの距離のしきい値に基づき指定しているた
め、トレーニング文書の文書ベクトルの分布が小群に分
けられるときには、しきい値の値によって、例えば図5
(a)に示す如く、必要な文書を分類し損ねたり、例え
ば図5(b)に示す如く、余計な文書まで分類したりす
るという不具合があった。
【0005】本発明は、上述した点に鑑みなされたもの
であり、文書を文書ベクトルに基づいていずれかのカテ
ゴリに分類する際に、1つのカテゴリのトレーニング文
書の文書ベクトルの分布が小群に分けられる場合でも適
切なカテゴリ範囲を決定することが可能な文書分類装置
及び文書分類方法を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、請求項1の発明は、分類対象となる目的文書とカテ
ゴリが既知であるトレーニング文書とのそれぞれの文書
内容を示す文書ベクトルに基づきカテゴリを決定する文
書分類装置であって、指示入力されたトレーニング文書
と分類対象となる目的文書を、トレーニング文書と目的
文書が保存された文書データベース手段から取り出し、
文書ベクトルを計算する文書ベクトル計算手段と、該文
書ベクトル計算手段により計算されたトレーニング文書
の文書ベクトルを参照し、各カテゴリの文書ベクトルを
その分布状況に応じてクラスタリングする文書ベクトル
クラスタリング手段と、前記文書ベクトル計算手段によ
り計算されたトレーニング文書の文書ベクトルと前記文
書ベクトルクラスタリング手段によりクラスタリングさ
れたクラスタリング結果とを参照し、各クラスタの文書
ベクトルの平均を計算する平均ベクトル計算手段と、前
記文書ベクトル計算手段により計算されたトレーニング
文書の文書ベクトルと前記文書ベクトルクラスタリング
手段によりクラスタリングされたクラスタリング結果と
前記平均ベクトル計算手段により計算された各クラスタ
の平均ベクトルとを参照し、各カテゴリの範囲を計算す
るカテゴリ範囲計算手段と、前記平均ベクトル計算手段
により計算された各クラスタの平均ベクトルと前記カテ
ゴリ範囲計算手段により計算された各カテゴリの範囲と
前記文書ベクトル計算手段により計算された目的文書の
文書ベクトルとを参照し、目的文書のカテゴリを決定す
るカテゴリ決定手段とを具備することを特徴とする。
【0007】上記目的を達成するため、請求項2の発明
は、前記請求項1記載の文書分類装置において、前記カ
テゴリ決定手段により決定された分類結果を出力する分
類結果出力手段を具備することを特徴とする。
【0008】上記目的を達成するため、請求項3の発明
は、前記請求項1記載の文書分類装置において、分類対
象となる目的文書を一度に複数指示入力することが可能
であることを特徴とする。
【0009】上記目的を達成するため、請求項4の発明
は、前記請求項1記載の文書分類装置において、トレー
ニング文書と分類対象となる目的文書を両方一度に指示
入力することが可能であることを特徴とする。
【0010】上記目的を達成するため、請求項5の発明
は、前記請求項1記載の文書分類装置において、分類対
象となる目的文書の文書ベクトルから一番近いクラスタ
の平均ベクトルを計算してそのカテゴリに分類すること
が可能であることを特徴とする。
【0011】上記目的を達成するため、請求項6の発明
は、前記請求項1記載の文書分類装置において、文書ベ
クトルの分布が小群に分けられない場合は、トレーニン
グ文書の文書ベクトルの分布状況に応じてクラスタリン
グを行わないことが可能であることを特徴とする。
【0012】上記目的を達成するため、請求項7の発明
は、前記請求項1記載の文書分類装置において、種々の
クラスタリングアルゴリズムを適用することが可能であ
ることを特徴とする。
【0013】上記目的を達成するため、請求項8の発明
は、前記請求項2記載の文書分類装置において、前記分
類結果出力手段によりクラスタリング結果を出力するこ
とが可能であることを特徴とする。
【0014】上記目的を達成するため、請求項9の発明
は、分類対象となる目的文書とカテゴリが既知であるト
レーニング文書とのそれぞれの文書内容を示す文書ベク
トルに基づきカテゴリを決定する文書分類方法であっ
て、指示入力されたトレーニング文書と分類対象となる
目的文書を、トレーニング文書と目的文書が保存された
文書データベース手段から取り出し、文書ベクトルを計
算する文書ベクトル計算ステップと、該文書ベクトル計
算ステップで計算されたトレーニング文書の文書ベクト
ルを参照し、各カテゴリの文書ベクトルをその分布状況
に応じてクラスタリングする文書ベクトルクラスタリン
グステップと、前記文書ベクトル計算ステップで計算さ
れたトレーニング文書の文書ベクトルと前記文書ベクト
ルクラスタリングステップでクラスタリングされたクラ
スタリング結果とを参照し、各クラスタの文書ベクトル
の平均を計算する平均ベクトル計算ステップと、前記文
書ベクトル計算ステップで計算されたトレーニング文書
の文書ベクトルと前記文書ベクトルクラスタリングステ
ップでクラスタリングされたクラスタリング結果と前記
平均ベクトル計算ステップで計算された各クラスタの平
均ベクトルとを参照し、各カテゴリの範囲を計算するカ
テゴリ範囲計算ステップと、前記平均ベクトル計算ステ
ップで計算された各クラスタの平均ベクトルと前記カテ
ゴリ範囲計算ステップで計算された各カテゴリの範囲と
前記文書ベクトル計算ステップで計算された目的文書の
文書ベクトルとを参照し、目的文書のカテゴリを決定す
るカテゴリ決定ステップとを有することを特徴とする。
【0015】上記目的を達成するため、請求項10の発
明は、前記請求項9記載の文書分類方法において、前記
カテゴリ決定ステップで決定された分類結果を出力する
分類結果出力ステップを有することを特徴とする。
【0016】上記目的を達成するため、請求項11の発
明は、前記請求項9記載の文書分類方法において、分類
対象となる目的文書を一度に複数指示入力することが可
能であることを特徴とする。
【0017】上記目的を達成するため、請求項12の発
明は、前記請求項9記載の文書分類方法において、トレ
ーニング文書と分類対象となる目的文書を両方一度に指
示入力することが可能であることを特徴とする。
【0018】上記目的を達成するため、請求項13の発
明は、前記請求項9記載の文書分類方法において、分類
対象となる目的文書の文書ベクトルから一番近いクラス
タの平均ベクトルを計算してそのカテゴリに分類するこ
とが可能であることを特徴とする。
【0019】上記目的を達成するため、請求項14の発
明は、前記請求項9記載の文書分類方法において、文書
ベクトルの分布が小群に分けられない場合は、トレーニ
ング文書の文書ベクトルの分布状況に応じてクラスタリ
ングを行わないことが可能であることを特徴とする。
【0020】上記目的を達成するため、請求項15の発
明は、前記請求項9記載の文書分類方法において、種々
のクラスタリングアルゴリズムを適用することが可能で
あることを特徴とする。
【0021】上記目的を達成するため、請求項16の発
明は、前記請求項10記載の文書分類方法において、ク
ラスタリング結果を出力することが可能であることを特
徴とする。
【0022】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。
【0023】先ず、本実施の形態に係る文書自動分類装
置の機能構成を図1に基づき説明する。文書自動分類装
置は、文書指示入力部101と、文書指示内容保持部1
02と、文書データベース(DB)103と、文書ベク
トル計算部104と、トレーニング文書の文書ベクトル
保持部105と、文書ベクトルクラスタリング部106
と、クラスタリング結果保持部107と、平均ベクトル
計算部108と、平均ベクトル保持部109と、カテゴ
リ範囲計算部110と、カテゴリ範囲保持部111と、
目的文書の文書ベクトル保持部112と、カテゴリ決定
部113と、分類結果保持部114と、分類結果表示部
115とを備えた機能構成となっている。
【0024】上記各部の機能を詳述すると、文書指示入
力部101は、カテゴリの特徴を学習するために用いる
トレーニング文書と分類の対象となる目的文書を指示す
るためのものである。文書指示内容保持部102は、文
書指示入力部101により入力された文書指示内容を保
持する。文書データベース103には、トレーニング文
書と目的文書が保存されている。文書ベクトル計算部1
04は、文書データベース103から文書指示内容保持
部102に保持された内容により指定された文書を取り
出し、文書ベクトルを計算する。
【0025】トレーニング文書の文書ベクトル保持部1
05は、文書ベクトル計算部104で求められたトレー
ニング文書の文書ベクトルを保持する。文書ベクトルク
ラスタリング部106は、トレーニング文書の文書ベク
トル保持部105に保持された文書ベクトルを参照し
て、各カテゴリの文書ベクトルをその分布状況に応じて
クラスタリングする。クラスタリング結果保持部107
は、文書ベクトルクラスタリング部106により求めら
れたクラスタリング結果を保持する。
【0026】平均ベクトル計算部108は、トレーニン
グ文書の文書ベクトル保持部105に保持された文書ベ
クトルと、クラスタリング結果保持部107に保持され
たクラスタリング結果とを参照して、各クラスタの文書
ベクトルの平均を計算する。平均ベクトル保持部109
は、平均ベクトル計算部108により求められた各クラ
スタの平均ベクトルを保持する。
【0027】カテゴリ範囲計算部110は、トレーニン
グ文書の文書ベクトル保持部105に保持された文書ベ
クトルと、クラスタリング結果保持部107に保持され
たクラスタリング結果と、平均ベクトル保持部109に
保持された各クラスタの平均ベクトルとを参照して、各
カテゴリの範囲を計算する。カテゴリ範囲保持部111
は、カテゴリ範囲計算部110により求められた各カテ
ゴリの範囲を保持する。
【0028】目的文書の文書ベクトル保持部112は、
文書ベクトル計算部104で求められた目的文書の文書
ベクトルを保持する。カテゴリ決定部113は、平均ベ
クトル保持部109に保持された各クラスタの平均ベク
トルと、カテゴリ範囲保持部111に保持された各カテ
ゴリの範囲と、目的文書の文書ベクトル保持部112に
保持された目的文書の文書ベクトルとを参照して、目的
文書のカテゴリを決定する。
【0029】分類結果保持部114は、カテゴリ決定部
113により求められた分類結果を保持する。分類結果
表示部115は、分類結果保持部114に保持された分
類結果を表示出力する。
【0030】次に、本実施の形態に係る文書自動分類装
置のハードウエア構成を図2に基づき説明する。文書自
動分類装置は、制御メモリ201と、メモリ202と、
中央処理装置203と、ディスク204と、入力部20
5と、出力部206と、バス207とを備えたハードウ
エア構成となっている。
【0031】上記各部の機能を詳述すると、制御メモリ
201は、後述する図3のフローチャートに示す制御手
順を記憶するものであり、ROMを用いてもよく或いは
RAMを用いてもよい。メモリ202は、文書指示内容
保持部102と、トレーニング文書の文書ベクトル保持
部105と、クラスタリング結果保持部107と、平均
ベクトル保持部109と、カテゴリ範囲保持部111
と、分類結果保持部114と、上記プログラム(図3の
フローチャート)の動作に必要な記憶領域とを提供す
る。
【0032】中央処理装置203は、制御メモリ201
に記憶されている制御手順に従って所定の処理を行う。
ディスク204は、文書データベース103を実現す
る。入力部205は、例えばマウスやキーボード等から
構成されており、文書指示入力部101によるトレーニ
ング文書と分類すべき文書の指定等、各種の指示を入力
するためのものである。出力部206は、分類結果表示
部115を実現するものであり、CRTディスプレイ或
いは液晶ディスプレイ等、任意の装置を用いることがで
きる。バス207は、各構成要素を接続する。
【0033】次に、本実施の形態に係る文書自動分類装
置による文書自動分類処理手順を図3のフローチャート
に基づき説明する。
【0034】先ず、使用者による文書指示入力部101
からのトレーニング文書指示入力を待機し、トレーニン
グ文書指示入力が行われると、入力された文書指示内容
は文書指示内容保持部102に保持される(ステップS
301)。文書ベクトル計算部104は、文書から文書
指示内容保持部102に保持された内容に従って、文書
データベース103に保持された文書からトレーニング
文書を取り出し、取り出した文書の文書ベクトルを計算
する。計算により求められた文書ベクトルの各成分は、
トレーニング文書の文書ベクトル保持部105に保持す
る(ステップS302)。
【0035】文書ベクトルクラスタリング部106は、
各カテゴリの文書ベクトルを最大距離アルゴリズムに基
づいてクラスタリングし、その結果得られたクラスタの
文書番号をクラスタリング結果保持部107に保持する
(ステップS303)。平均ベクトル計算部108は、
トレーニング文書の文書ベクトル保持部105に保持さ
れた文書ベクトルと、クラスタリング結果保持部107
に保持されたクラスタリング結果とを参照して、各クラ
スタの平均ベクトルを計算し、計算により求められた平
均ベクトルの各成分を平均ベクトル保持部109に保持
する(ステップS304)。
【0036】カテゴリ範囲計算部110は、トレーニン
グ文書の文書ベクトル保持部105に保持された文書ベ
クトルと、クラスタリング結果保持部107に保持され
たクラスタリング結果と、平均ベクトル保持部109に
保持された各カテゴリの平均ベクトルとを参照して、あ
るクラスタに属するトレーニング文書の文書ベクトルの
うち、そのクラスタの平均ベクトルから最も遠い文書ベ
クトルまでの距離をそのクラスタの範囲を指定するしき
い値として設定し、設定された各クラスタのしきい値を
カテゴリ範囲保持部111に保持する(ステップS30
5)。
【0037】使用者による文書指示入力部101からの
文書指示入力を待機し、文書指示入力が行われると、入
力された文書指示内容は文書指示内容保持部102に保
持される(ステップS306)。文書ベクトル計算部1
04は、文書指示内容保持部102に保持された文書指
示内容に従って、文書データベース103に保持された
文書から目的文書を取り出し、取り出した文書の文書ベ
クトルを計算する。計算により求められた文書ベクトル
は、目的文書の文書ベクトル保持部112に保持する
(ステップS307)。
【0038】カテゴリ決定部113は、平均ベクトル保
持部109に保持された各クラスタの平均ベクトルと、
カテゴリ範囲保持部111に保持された各クラスタのし
きい値と、目的文書の文書ベクトル保持部112に保持
された文書ベクトルとを参照して、あるクラスタの範囲
に目的文書の文書ベクトルを含んでいる場合は、目的文
書はそのクラスタのカテゴリに属すると判断し、分類結
果を分類結果保持部114に保持する(ステップS30
8)。最後に、分類結果出力部115は、分類結果保持
部114に保持された分類結果を出力する(ステップS
309)。以上で動作を終了する。
【0039】図5は、或るカテゴリに属するトレーニン
グ文書の文書ベクトルが2つの小群に分けられる場合
に、カテゴリの平均ベクトルからの距離でカテゴリ範囲
を指定した従来技術の例である。図5(a)に示す如
く、なるべく余計な文書が入らないようにカテゴリ範囲
を狭くすると、カテゴリ範囲に含まれないトレーニング
文書の文書ベクトルが発生し、当該カテゴリに属すべき
文書が分類されない可能性がある。また、図5(b)に
示す如く、トレーニング文書の文書ベクトルを全て含む
ようにカテゴリ範囲を指定すると、文書ベクトルの分布
していないところまでもがカテゴリ範囲に含まれ、余計
な文書が分類されてしまう可能性がある。
【0040】図4は、上記図5と同じカテゴリのトレー
ニング文書の文書ベクトルをその分布状況に応じてクラ
スタリングし、クラスタ毎に平均ベクトルと範囲を求め
た本実施の形態に係る例である。図4の例では、クラス
タ毎に適切な範囲指定ができるので、余計な文書が入っ
たり、必要な文書が漏れたりする可能性が低くなり、ト
レーニング文書で指定した通りの分類が上記図5の場合
よりも確実に実現することができる。
【0041】上述したように、本実施の形態によれば、
カテゴリの特徴を学習するために用いるトレーニング文
書と分類の対象となる目的文書を指示する文書指示入力
部101と、文書指示入力部101により入力された文
書指示内容を保持する文書指示内容保持部102と、ト
レーニング文書と目的文書を保存した文書データベース
103と、文書データベース103から文書指示内容保
持部102に保持された内容により指定された文書を取
り出して文書ベクトルを計算する文書ベクトル計算部1
04と、文書ベクトル計算部104により計算されたト
レーニング文書の文書ベクトルを保持するトレーニング
文書の文書ベクトル保持部105と、トレーニング文書
の文書ベクトル保持部105に保持された文書ベクトル
を参照して各カテゴリの文書ベクトルをその分布状況に
応じてクラスタリングする文書ベクトルクラスタリング
部106と、文書ベクトルクラスタリング部106によ
るクラスタリング結果を保持するクラスタリング結果保
持部107と、トレーニング文書の文書ベクトル保持部
105に保持された文書ベクトルとクラスタリング結果
保持部107に保持されたクラスタリング結果とを参照
して各クラスタの文書ベクトルの平均を計算する平均ベ
クトル計算部108と、平均ベクトル計算部108によ
り計算された各クラスタの平均ベクトルを保持する平均
ベクトル保持部109と、トレーニング文書の文書ベク
トル保持部105に保持された文書ベクトルとクラスタ
リング結果保持部107に保持されたクラスタリング結
果と平均ベクトル保持部109に保持された平均ベクト
ルとを参照して各カテゴリの範囲を計算するカテゴリ範
囲計算部110と、カテゴリ範囲計算部110により計
算された各カテゴリの範囲を保持するカテゴリ範囲保持
部111と、文書ベクトル計算部104により計算され
た目的文書の文書ベクトルを保持する目的文書の文書ベ
クトル保持部112と、平均ベクトル保持部109に保
持された各クラスタの平均ベクトルとカテゴリ範囲保持
部111に保持された各カテゴリの範囲と目的文書の文
書ベクトル保持部112に保持された目的文書の文書ベ
クトルとを参照して目的文書のカテゴリを決定するカテ
ゴリ決定部113と、カテゴリ決定部113により決定
された分類結果を保持する分類結果保持部114と、分
類結果保持部114に保持された分類結果を出力する分
類結果表示部115とを具備しているため、トレーニン
グ文書の文書ベクトルの分布状況に応じてカテゴリを複
数のクラスタに分割し、分割したそれぞれのクラスタに
対する平均ベクトルとしきい値からカテゴリの範囲を設
定することで、トレーニング文書の文書ベクトルの分布
が小群に分かれている場合でも、トレーニング文書によ
り指定されたカテゴリに対する適切な分類を実現するこ
とができる。
【0042】尚、上記実施の形態では、説明を簡略化す
るため、文書指示入力部101により分類の対象とする
文書を一文書のみ指定するよう説明しているが、これに
限定されるものではなく、文書指示入力部101により
一度に複数の文書を指定して、上記図3のステップS3
07からステップS309の動作を繰り返し行うことも
できる。
【0043】また、上記実施の形態では、トレーニング
文書と目的文書の指示を分けて行うよう説明している
が、これに限定されるものではなく、処理の始めにトレ
ーニング文書と目的文書を一度に指示することもでき
る。
【0044】また、上記実施の形態では、クラスタの範
囲を決め、目的文書の文書ベクトルがその範囲に入って
いれば、そのクラスタのカテゴリに分類するよう説明し
ているが、これに限定されるものではなく、クラスタの
範囲を決めず、目的文書の文書ベクトルから一番近いク
ラスタの平均ベクトルを求め、そのカテゴリに分類する
こともできる。
【0045】また、上記実施の形態では、トレーニング
文書の文書ベクトルの分布状況に応じてクラスタリング
を行うよう説明しているが、これに限定されるものでは
なく、カテゴリによっては文書ベクトルの分布が小群に
分けられないこともあるので、クラスタリングの結果か
ら小群にわけられないと判断された場合には、1つのク
ラスタからなるカテゴリとして扱う。
【0046】また、上記実施の形態では、クラスタリン
グ手法として最大距離アルゴリズムを適用すると説明し
ているが、クラスタリングには多くの方法があり、その
結果の良否は一概に決定できないため、階層的クラスタ
リングやK平均アルゴリズムなど、様々なクラスタリン
グアルゴリズムを適用してもよい。
【0047】また、上記実施の形態では、クラスタリン
グ結果を表示するとは説明していないが、各クラスタに
属するトレーニング文書を提示し、トレーニング文書に
付与されているカテゴリを分割することを使用者に提案
することもできる。
【0048】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器からなる装置に適用
してもよい。前述した実施形態の機能を実現するソフト
ウエアのプログラムコードを記憶した記憶媒体を、シス
テム或いは装置に供給し、そのシステム或いは装置のコ
ンピュータ(またはCPUやMPU)が記憶媒体に格納
されたプログラムコードを読み出し実行することによっ
ても、達成されることは言うまでもない。
【0049】この場合、記憶媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。
【0050】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
【0051】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOSなどが実
際の処理の一部または全部を行い、その処理によって前
述した実施形態の機能が実現される場合も含まれること
は言うまでもない。
【0052】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0053】
【発明の効果】以上説明したように、請求項1の発明に
よれば、分類対象となる目的文書とカテゴリが既知であ
るトレーニング文書とのそれぞれの文書内容を示す文書
ベクトルに基づきカテゴリを決定する文書分類装置であ
って、指示入力されたトレーニング文書と分類対象とな
る目的文書を、トレーニング文書と目的文書が保存され
た文書データベース手段から取り出し、文書ベクトルを
計算する文書ベクトル計算手段と、該文書ベクトル計算
手段により計算されたトレーニング文書の文書ベクトル
を参照し、各カテゴリの文書ベクトルをその分布状況に
応じてクラスタリングする文書ベクトルクラスタリング
手段と、前記文書ベクトル計算手段により計算されたト
レーニング文書の文書ベクトルと前記文書ベクトルクラ
スタリング手段によりクラスタリングされたクラスタリ
ング結果とを参照し、各クラスタの文書ベクトルの平均
を計算する平均ベクトル計算手段と、前記文書ベクトル
計算手段により計算されたトレーニング文書の文書ベク
トルと前記文書ベクトルクラスタリング手段によりクラ
スタリングされたクラスタリング結果と前記平均ベクト
ル計算手段により計算された各クラスタの平均ベクトル
とを参照し、各カテゴリの範囲を計算するカテゴリ範囲
計算手段と、前記平均ベクトル計算手段により計算され
た各クラスタの平均ベクトルと前記カテゴリ範囲計算手
段により計算された各カテゴリの範囲と前記文書ベクト
ル計算手段により計算された目的文書の文書ベクトルと
を参照し、目的文書のカテゴリを決定するカテゴリ決定
手段とを具備しているため、トレーニング文書の文書ベ
クトルの分布状況に応じて文書ベクトルをクラスタリン
グし、1つのカテゴリを複数のクラスタに分け、それぞ
れに対して範囲を指定することが可能となり、トレーニ
ング文書の文書ベクトルの分布が小群に分けられる場合
でも適切なカテゴリ範囲を表現することができるという
効果がある。
【0054】請求項2の発明によれば、前記請求項1記
載の文書分類装置において、前記カテゴリ決定手段によ
り決定された分類結果を出力する分類結果出力手段を具
備しているため、請求項1の発明と同様の効果を奏する
と共に、分類結果を的確に把握することができる。
【0055】請求項3の発明によれば、前記請求項1記
載の文書分類装置において、分類対象となる目的文書を
一度に複数指示入力することが可能であるため、請求項
1の発明と同様の効果を奏すると共に、文書分類の処理
効率の向上を図ることができる。
【0056】請求項4の発明によれば、前記請求項1記
載の文書分類装置において、トレーニング文書と分類対
象となる目的文書を両方一度に指示入力することが可能
であるため、請求項1の発明と同様の効果を奏すると共
に、文書分類の処理効率の向上を図ることができる。
【0057】請求項5の発明によれば、前記請求項1記
載の文書分類装置において、分類対象となる目的文書の
文書ベクトルから一番近いクラスタの平均ベクトルを計
算してそのカテゴリに分類することが可能であるため、
請求項1の発明と同様の効果を奏すると共に、カテゴリ
に分類する処理を効率良く行うことができる。
【0058】請求項6の発明によれば、前記請求項1記
載の文書分類装置において、文書ベクトルの分布が小群
に分けられない場合は、トレーニング文書の文書ベクト
ルの分布状況に応じてクラスタリングを行わないことが
可能であるため、請求項1の発明と同様の効果を奏する
と共に、カテゴリによっては文書ベクトルの分布が小群
に分けられない場合に的確に対応することができる。
【0059】請求項7の発明によれば、前記請求項1記
載の文書分類装置において、種々のクラスタリングアル
ゴリズムを適用することが可能であるため、請求項1の
発明と同様の効果を奏すると共に、文書分類装置の汎用
性を向上させることができる。
【0060】請求項8の発明によれば、前記請求項2記
載の文書分類装置において、前記分類結果出力手段によ
りクラスタリング結果を出力することが可能であるた
め、請求項1及び請求項2の発明と同様の効果を奏する
と共に、トレーニング文書に付与されているカテゴリを
分割することを使用者に促すこともできる。
【0061】請求項9の発明によれば、分類対象となる
目的文書とカテゴリが既知であるトレーニング文書との
それぞれの文書内容を示す文書ベクトルに基づきカテゴ
リを決定する文書分類方法であって、指示入力されたト
レーニング文書と分類対象となる目的文書を、トレーニ
ング文書と目的文書が保存された文書データベース手段
から取り出し、文書ベクトルを計算する文書ベクトル計
算ステップと、該文書ベクトル計算ステップで計算され
たトレーニング文書の文書ベクトルを参照し、各カテゴ
リの文書ベクトルをその分布状況に応じてクラスタリン
グする文書ベクトルクラスタリングステップと、前記文
書ベクトル計算ステップで計算されたトレーニング文書
の文書ベクトルと前記文書ベクトルクラスタリングステ
ップでクラスタリングされたクラスタリング結果とを参
照し、各クラスタの文書ベクトルの平均を計算する平均
ベクトル計算ステップと、前記文書ベクトル計算ステッ
プで計算されたトレーニング文書の文書ベクトルと前記
文書ベクトルクラスタリングステップでクラスタリング
されたクラスタリング結果と前記平均ベクトル計算ステ
ップで計算された各クラスタの平均ベクトルとを参照
し、各カテゴリの範囲を計算するカテゴリ範囲計算ステ
ップと、前記平均ベクトル計算ステップで計算された各
クラスタの平均ベクトルと前記カテゴリ範囲計算ステッ
プで計算された各カテゴリの範囲と前記文書ベクトル計
算ステップで計算された目的文書の文書ベクトルとを参
照し、目的文書のカテゴリを決定するカテゴリ決定ステ
ップとを有するため、トレーニング文書の文書ベクトル
の分布状況に応じて文書ベクトルをクラスタリングし、
1つのカテゴリを複数のクラスタに分け、それぞれに対
して範囲を指定することが可能となり、トレーニング文
書の文書ベクトルの分布が小群に分けられる場合でも適
切なカテゴリ範囲を表現することができるという効果が
ある。
【0062】請求項10の発明によれば、前記請求項9
記載の文書分類方法において、前記カテゴリ決定ステッ
プで決定された分類結果を出力する分類結果出力ステッ
プを有するため、請求項9の発明と同様の効果を奏する
と共に、分類結果を的確に把握することができる。
【0063】請求項11の発明によれば、前記請求項9
記載の文書分類方法において、分類対象となる目的文書
を一度に複数指示入力することが可能であるため、請求
項9の発明と同様の効果を奏すると共に、文書分類の処
理効率の向上を図ることができる。
【0064】請求項12の発明によれば、前記請求項9
記載の文書分類方法において、トレーニング文書と分類
対象となる目的文書を両方一度に指示入力することが可
能であるため、請求項9の発明と同様の効果を奏すると
共に、文書分類の処理効率の向上を図ることができる。
【0065】請求項13の発明によれば、前記請求項9
記載の文書分類方法において、分類対象となる目的文書
の文書ベクトルから一番近いクラスタの平均ベクトルを
計算してそのカテゴリに分類することが可能であるた
め、請求項9の発明と同様の効果を奏すると共に、カテ
ゴリに分類する処理を効率良く行うことができる。
【0066】請求項14の発明によれば、前記請求項9
記載の文書分類方法において、文書ベクトルの分布が小
群に分けられない場合は、トレーニング文書の文書ベク
トルの分布状況に応じてクラスタリングを行わないこと
が可能であるため、請求項9の発明と同様の効果を奏す
ると共に、カテゴリによっては文書ベクトルの分布が小
群に分けられない場合に的確に対応することができる。
【0067】請求項15の発明によれば、前記請求項9
記載の文書分類方法において、種々のクラスタリングア
ルゴリズムを適用することが可能であるため、請求項9
の発明と同様の効果を奏すると共に、文書分類方法の汎
用性を向上させることができる。
【0068】請求項16の発明によれば、前記請求項1
0記載の文書分類方法において、クラスタリング結果を
出力することが可能であるため、請求項9及び請求項1
0の発明と同様の効果を奏すると共に、トレーニング文
書に付与されているカテゴリを分割することを使用者に
促すこともできる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る文書自動分類装置の
機能構成を示すブロック図である。
【図2】本発明の実施の形態に係る文書自動分類装置の
ハードウエア構成を示すブロック図である。
【図3】本発明の実施の形態に係る文書自動分類装置に
よる文書自動分類処理手順を示すフローチャートであ
る。
【図4】本発明の実施の形態に係る文書自動分類装置に
より或るカテゴリに属するトレーニング文書の文書ベク
トルをその分布に応じてクラスタリングしてクラスタ毎
に平均ベクトルと範囲を求めた一例を示す説明図であ
る。
【図5】従来技術により或るカテゴリに属するトレーニ
ング文書の文書ベクトルが2つの小群に分けられる場合
にカテゴリの平均ベクトルからの距離でカテゴリ範囲を
指定した一例を示す説明図であり、(a)は必要な文書
を分類し損ねた場合を示す説明図、(b)は余計な文書
まで分類した場合を示す説明図である。
【符号の説明】
101 文書指示入力部 102 文書指示内容保持部 103 文書データベース 104 文書ベクトル計算部 105 トレーニング文書の文書ベクトル保持部 106 文書ベクトルクラスタリング部 107 クラスタリング結果保持部 108 平均ベクトル計算部 109 平均ベクトル保持部 110 カテゴリ範囲計算部 111 カテゴリ範囲保持部 112 目的文書の文書ベクトル保持部 113 カテゴリ決定部 114 分類結果保持部 115 分類結果表示部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 分類対象となる目的文書とカテゴリが既
    知であるトレーニング文書とのそれぞれの文書内容を示
    す文書ベクトルに基づきカテゴリを決定する文書分類装
    置であって、 指示入力されたトレーニング文書と分類対象となる目的
    文書を、トレーニング文書と目的文書が保存された文書
    データベース手段から取り出し、文書ベクトルを計算す
    る文書ベクトル計算手段と、 該文書ベクトル計算手段により計算されたトレーニング
    文書の文書ベクトルを参照し、各カテゴリの文書ベクト
    ルをその分布状況に応じてクラスタリングする文書ベク
    トルクラスタリング手段と、 前記文書ベクトル計算手段により計算されたトレーニン
    グ文書の文書ベクトルと前記文書ベクトルクラスタリン
    グ手段によりクラスタリングされたクラスタリング結果
    とを参照し、各クラスタの文書ベクトルの平均を計算す
    る平均ベクトル計算手段と、 前記文書ベクトル計算手段により計算されたトレーニン
    グ文書の文書ベクトルと前記文書ベクトルクラスタリン
    グ手段によりクラスタリングされたクラスタリング結果
    と前記平均ベクトル計算手段により計算された各クラス
    タの平均ベクトルとを参照し、各カテゴリの範囲を計算
    するカテゴリ範囲計算手段と、 前記平均ベクトル計算手段により計算された各クラスタ
    の平均ベクトルと前記カテゴリ範囲計算手段により計算
    された各カテゴリの範囲と前記文書ベクトル計算手段に
    より計算された目的文書の文書ベクトルとを参照し、目
    的文書のカテゴリを決定するカテゴリ決定手段とを具備
    することを特徴とする文書分類装置。
  2. 【請求項2】 前記請求項1記載の文書分類装置におい
    て、前記カテゴリ決定手段により決定された分類結果を
    出力する分類結果出力手段を具備することを特徴とする
    文書分類装置。
  3. 【請求項3】 前記請求項1記載の文書分類装置におい
    て、分類対象となる目的文書を一度に複数指示入力する
    ことが可能であることを特徴とする文書分類装置。
  4. 【請求項4】 前記請求項1記載の文書分類装置におい
    て、トレーニング文書と分類対象となる目的文書を両方
    一度に指示入力することが可能であることを特徴とする
    文書分類装置。
  5. 【請求項5】 前記請求項1記載の文書分類装置におい
    て、分類対象となる目的文書の文書ベクトルから一番近
    いクラスタの平均ベクトルを計算してそのカテゴリに分
    類することが可能であることを特徴とする文書分類装
    置。
  6. 【請求項6】 前記請求項1記載の文書分類装置におい
    て、文書ベクトルの分布が小群に分けられない場合は、
    トレーニング文書の文書ベクトルの分布状況に応じてク
    ラスタリングを行わないことが可能であることを特徴と
    する文書分類装置。
  7. 【請求項7】 前記請求項1記載の文書分類装置におい
    て、種々のクラスタリングアルゴリズムを適用すること
    が可能であることを特徴とする文書分類装置。
  8. 【請求項8】 前記請求項2記載の文書分類装置におい
    て、前記分類結果出力手段によりクラスタリング結果を
    出力することが可能であることを特徴とする文書分類装
    置。
  9. 【請求項9】 分類対象となる目的文書とカテゴリが既
    知であるトレーニング文書とのそれぞれの文書内容を示
    す文書ベクトルに基づきカテゴリを決定する文書分類方
    法であって、 指示入力されたトレーニング文書と分類対象となる目的
    文書を、トレーニング文書と目的文書が保存された文書
    データベース手段から取り出し、文書ベクトルを計算す
    る文書ベクトル計算ステップと、 該文書ベクトル計算ステップで計算されたトレーニング
    文書の文書ベクトルを参照し、各カテゴリの文書ベクト
    ルをその分布状況に応じてクラスタリングする文書ベク
    トルクラスタリングステップと、 前記文書ベクトル計算ステップで計算されたトレーニン
    グ文書の文書ベクトルと前記文書ベクトルクラスタリン
    グステップでクラスタリングされたクラスタリング結果
    とを参照し、各クラスタの文書ベクトルの平均を計算す
    る平均ベクトル計算ステップと、 前記文書ベクトル計算ステップで計算されたトレーニン
    グ文書の文書ベクトルと前記文書ベクトルクラスタリン
    グステップでクラスタリングされたクラスタリング結果
    と前記平均ベクトル計算ステップで計算された各クラス
    タの平均ベクトルとを参照し、各カテゴリの範囲を計算
    するカテゴリ範囲計算ステップと、 前記平均ベクトル計算ステップで計算された各クラスタ
    の平均ベクトルと前記カテゴリ範囲計算ステップで計算
    された各カテゴリの範囲と前記文書ベクトル計算ステッ
    プで計算された目的文書の文書ベクトルとを参照し、目
    的文書のカテゴリを決定するカテゴリ決定ステップとを
    有することを特徴とする文書分類方法。
  10. 【請求項10】 前記請求項9記載の文書分類方法にお
    いて、前記カテゴリ決定ステップで決定された分類結果
    を出力する分類結果出力ステップを有することを特徴と
    する文書分類方法。
  11. 【請求項11】 前記請求項9記載の文書分類方法にお
    いて、分類対象となる目的文書を一度に複数指示入力す
    ることが可能であることを特徴とする文書分類方法。
  12. 【請求項12】 前記請求項9記載の文書分類方法にお
    いて、トレーニング文書と分類対象となる目的文書を両
    方一度に指示入力することが可能であることを特徴とす
    る文書分類方法。
  13. 【請求項13】 前記請求項9記載の文書分類方法にお
    いて、分類対象となる目的文書の文書ベクトルから一番
    近いクラスタの平均ベクトルを計算してそのカテゴリに
    分類することが可能であることを特徴とする文書分類方
    法。
  14. 【請求項14】 前記請求項9記載の文書分類方法にお
    いて、文書ベクトルの分布が小群に分けられない場合
    は、トレーニング文書の文書ベクトルの分布状況に応じ
    てクラスタリングを行わないことが可能であることを特
    徴とする文書分類方法。
  15. 【請求項15】 前記請求項9記載の文書分類方法にお
    いて、種々のクラスタリングアルゴリズムを適用するこ
    とが可能であることを特徴とする文書分類方法。
  16. 【請求項16】 前記請求項10記載の文書分類方法に
    おいて、クラスタリング結果を出力することが可能であ
    ることを特徴とする文書分類方法。
JP8248522A 1996-09-02 1996-09-02 文書分類装置及び文書分類方法 Pending JPH1078971A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8248522A JPH1078971A (ja) 1996-09-02 1996-09-02 文書分類装置及び文書分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8248522A JPH1078971A (ja) 1996-09-02 1996-09-02 文書分類装置及び文書分類方法

Publications (1)

Publication Number Publication Date
JPH1078971A true JPH1078971A (ja) 1998-03-24

Family

ID=17179444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8248522A Pending JPH1078971A (ja) 1996-09-02 1996-09-02 文書分類装置及び文書分類方法

Country Status (1)

Country Link
JP (1) JPH1078971A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123111A (ja) * 2006-11-09 2008-05-29 Kyushu Institute Of Technology 文書類似性導出装置及びそれを用いた回答支援システム
JP2009259250A (ja) * 2008-04-18 2009-11-05 Nec (China) Co Ltd 文書の分類器を生成する方法とそのシステム
WO2014097670A1 (ja) * 2012-12-21 2014-06-26 富士ゼロックス株式会社 文書分類装置及びプログラム
JP2019049909A (ja) * 2017-09-11 2019-03-28 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
WO2019181675A1 (ja) * 2018-03-19 2019-09-26 日本電気株式会社 識別器修正装置、識別器修正方法、および記憶媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123111A (ja) * 2006-11-09 2008-05-29 Kyushu Institute Of Technology 文書類似性導出装置及びそれを用いた回答支援システム
JP2009259250A (ja) * 2008-04-18 2009-11-05 Nec (China) Co Ltd 文書の分類器を生成する方法とそのシステム
WO2014097670A1 (ja) * 2012-12-21 2014-06-26 富士ゼロックス株式会社 文書分類装置及びプログラム
JP2014123286A (ja) * 2012-12-21 2014-07-03 Fuji Xerox Co Ltd 文書分類装置及びプログラム
US10353925B2 (en) 2012-12-21 2019-07-16 Fuji Xerox Co., Ltd. Document classification device, document classification method, and computer readable medium
JP2019049909A (ja) * 2017-09-11 2019-03-28 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
WO2019181675A1 (ja) * 2018-03-19 2019-09-26 日本電気株式会社 識別器修正装置、識別器修正方法、および記憶媒体
JPWO2019181675A1 (ja) * 2018-03-19 2021-02-04 日本電気株式会社 識別器修正装置、識別器修正方法、およびプログラム

Similar Documents

Publication Publication Date Title
US7099819B2 (en) Text information analysis apparatus and method
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
Ojala et al. Texture discrimination with multidimensional distributions of signed gray-level differences
CN109544568A (zh) 目标图像分割方法、装置及设备
CN105144239A (zh) 图像处理装置、程序及图像处理方法
JPH10187754A (ja) ドキュメント分類装置及び方法
CN111031346A (zh) 一种增强视频画质的方法和装置
US10373014B2 (en) Object detection method and image search system
CN113689436B (zh) 图像语义分割方法、装置、设备及存储介质
KR100390866B1 (ko) 컬러 영상 처리 방법 및 그 장치
KR102234013B1 (ko) 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
US5920644A (en) Apparatus and method of recognizing pattern through feature selection by projecting feature vector on partial eigenspace
JP3634574B2 (ja) 情報処理方法及び装置
JPH1078971A (ja) 文書分類装置及び文書分類方法
CN113222043A (zh) 一种图像分类方法、装置、设备及存储介质
CN110659631A (zh) 车牌识别方法和终端设备
KR102282343B1 (ko) 평행 초평면을 이용한 데이터 포인트 분류 방법 및 장치
CN105224957A (zh) 一种基于单样本的图像识别的方法及系统
KR102234014B1 (ko) 클러스터링 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치
CN110414845B (zh) 针对目标交易的风险评估方法及装置
CN113240032A (zh) 一种图像分类方法、装置、设备及存储介质
US6697080B2 (en) Scalable smoothing of generalized polygons
JPH11110542A (ja) パターン抽出方法および装置、そのプログラムを記録した媒体
JP3676577B2 (ja) ベクトル量子化装置および方法、記録媒体