JPH1115848A - 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体 - Google Patents

情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体

Info

Publication number
JPH1115848A
JPH1115848A JP9170282A JP17028297A JPH1115848A JP H1115848 A JPH1115848 A JP H1115848A JP 9170282 A JP9170282 A JP 9170282A JP 17028297 A JP17028297 A JP 17028297A JP H1115848 A JPH1115848 A JP H1115848A
Authority
JP
Japan
Prior art keywords
folder
information
document
classification
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9170282A
Other languages
English (en)
Inventor
Natsuki Yuasa
夏樹 湯浅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP9170282A priority Critical patent/JPH1115848A/ja
Publication of JPH1115848A publication Critical patent/JPH1115848A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書情報の分類の際、予め人手で分類情報を
定義する必要なく、カテゴリ別に分類された複数の基本
例を用意せず、ユーザが普通に使用しているだけで自然
に最適な分類が行われていくシステムを構築し、該シス
テムの要素技術を提供する。 【解決手段】 フォルダ作成手段105により、ユーザ
の好みでフォルダを作成し文書保存手段103に保存す
る。ユーザの作成した各フォルダの文書の特徴をユーザ
分類分析手段104が分析し、その分析結果を用い、分
類手段102は、新しい文書を自動分類し適切なフォル
ダに格納する。分類手段102で行われた自動分類を修
正することもできる。制御手段101では、これらの手
段をまとめて制御する。この構成により、ユーザの分類
結果を生かした自動分類を行うことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書や電子メール
等の情報を管理するための分類の方法に関し、より詳細
には、情報検索装置/文書処理装置/ワープロ/PDA
/ファイリングシステムなどの分野の情報の管理に利用
される情報分類技術に関する。
【0002】
【従来の技術】従来から文書分類の方法には、各種のも
のが存在している。例えば、特開平6−348755号
公報「文書分類方法およびそのシステム」では、それ以
前の文書分類方式が持っていた文書を分類するための分
類用の情報を人手により定義しなければならないという
問題を解決するために、一分類が一文書データ以上から
なる分類済みの文書データから分類別のキーワードとな
る語を抽出し分類用辞書を作成する方法を提案してい
る。
【0003】また、特開平4−351134号公報「電
子メール装置」では、ファジィ推論によって電子メール
の蓄積,転送および分類等の優先順位を決定し、利用者
によるルールの変更を容易にしている。
【0004】
【発明が解決しようとする課題】従来の文書分類方法
は、大別すると次の2つに分けることができた。 1.予め人手で分類用情報を定義する必要があるもの。 2.カテゴリ別に分類された複数の基本例文を用意する
必要があるもの。 前者は、人手の手間がかかるという欠点と、人によって
作成される分類用情報がばらついてしまい、安定した分
類ができないという欠点があった。また、後者は、基本
例文の質によって、分類結果が大きく左右されてしまう
という欠点があった。また、特開平4−351134号
公報「電子メール装置」では、ファジィ推論によって利
用者によるルールの変更を容易にしてはいるものの、結
局はルールは利用者が作成,変更しなければならず、
「予め人手で分類用情報を定義する必要がある」ことに
は変わりはなかった。
【0005】本発明は、こうした従来技術における問題
点に鑑みてなされたもので、文書等の情報の分類にあた
って、予め人手で分類用情報を定義する必要もなく、カ
テゴリ別に分類された複数の基本例文を用意することも
なく、ユーザが普通に使用しているだけで自然に最適な
分類が行われていくようなシステムを構築し、そうした
システムの要素技術を提供することをその目的とするも
のである。
【0006】
【課題を解決するための手段】請求項1の発明は、入力
される管理可能な情報の集まりを分析し、分析結果にも
とづいて分類すべきフォルダを定める分類手段と、マニ
ュアル入力に従ってフォルダ名を生成し、生成した該フ
ォルダ名を入力される管理可能な情報の集まりに対して
付しフォルダを作成するフォルダ作成手段と、入力され
る管理可能な前記情報の集まりを前記分類手段により定
められたフォルダ及び前記フォルダ作成手段で作成され
たフォルダに従いフォルダ名毎に保存する情報保存手段
とを有する情報分類装置において、前記情報保存手段に
保存され前記フォルダ作成手段によりフォルダの付され
た情報について、フォルダ毎にその特徴の分析を行うユ
ーザ分類分析手段を備え、前記分類手段において、入力
される管理可能な前記情報の集まりの特徴の分析を行い
得た特徴データと前記ユーザ分類分析手段より得た各フ
ォルダの特徴データとを用い、入力される管理可能な該
情報の集まりに付すフォルダを判定するようにしたもの
である。
【0007】請求項2の発明は、請求項1の発明におい
て、入力される管理可能な前記情報の集まりが電子メー
ル受信手段により受信した電子メールであって、前記フ
ォルダ作成手段は、該電子メールに対し前記マニュアル
入力によって任意のフォルダを付すことができるように
したものである。
【0008】請求項3の発明は、請求項1又は2の発明
において、前記フォルダ作成手段/前記情報保存手段の
フォルダにおいて、間違って自動分類された情報を、マ
ニュアルで分類し直す自動分類手段を備えるようにした
ものである。
【0009】請求項4の発明は、入力される管理可能な
文書情報を分析し、分析結果にもとづいて該文書情報に
対し分類すべきフォルダを定める文書情報分類方法にお
いて、前記文書情報に含まれる単語の文書中の頻度分布
から該文書情報の特徴ベクトルを求める特徴ベクトル算
出ステップと、文書情報の前記特徴ベクトルを判断し分
類すべきフォルダを定める分類ステップとを有し、文書
情報の前記分析は分類すべき文書情報及び既にマニュア
ル入力によりフォルダに分類されている文書情報につい
て前記特徴ベクトル算出ステップを用いて特徴ベクトル
を算出し、文書情報分類ステップでは、前記特徴ベクト
ル算出ステップで算出した特徴ベクトルから分類すべき
文書情報と各フォルダの文書情報の類似度を求め類似度
にもとづいてフォルダを定めるようにしたものである。
【0010】請求項5の発明は、請求項4の発明におい
て、前記類似度にもとづくフォルダの判定を所定の閾値
以上及び/又は最大値を判定要素として行うようにした
ものである。
【0011】請求項6の発明は、請求項4又は5記載の
文書情報の分類方法を実行するためのプログラム及び/
又はデータを読み出し可能に保持した記録媒体としたも
のである。
【0012】
【発明の実施の形態】 (実施形態1)図1は、本発明の実施形態1の文書情報
分類装置の構成の概要を示すブロック図である。図1を
参照して、以下にこの文書情報分類装置の構成をその動
作とともに説明する。この装置の初期状態では、文書保
存手段103には、フォルダは1つしか存在せず、全て
の文書がこの1つのフォルダに保存されているとする。
ユーザが文書の入力にあたり、「この文書は新しくフォ
ルダを作ってそこに保存したい」と思ったら、フォルダ
作成手段105によってユーザの好みのフォルダを作成
し、そのフォルダに文書を分類することができる。この
ようにして、文書保存手段103には、文書がフォルダ
に分類されて保存されていく。
【0013】また、既に作成されているフォルダへの分
類は、分類手段102で行われる。この実施形態のユー
ザ分類分析手段104では、各フォルダ内の文書のう
ち、ユーザがマニュアル(手動)で分類した文書の特徴
を分析し、その結果を用いて分類手段102で新たな入
力文書について自動分類を行う。なお、前述のように、
ユーザの好みに応じた手動分類をすることもできる。こ
れらの手段をまとめて制御するのが制御手段101であ
る。
【0014】ユーザが使用していくにつれてフォルダが
作成され、文書が分類されていく様子を図2に示す。初
期状態では、フォルダ1のみが存在し、新たな文書(メ
ール)はこのフォルダ1に格納されていく。図2の左の
図は、3つの文書(メール1〜3)がフォルダ1に格納
された状態を示している。この段階でユーザは「メール
3は新しくフォルダを作成して、そこに分類した方がよ
い」と判断し、フォルダ2を作成してメール3をフォル
ダ2に移動させたとする(図2の真中の図)。
【0015】この後、メール4はフォルダ1へ分類し、
メール5については、ユーザが「メール5はさらに新し
くフォルダを作成して、そこに分類した方がよい」と判
断し、フォルダ3を作成してメール5をフォルダ3へ分
類し、メール6はフォルダ3へ分類し、メール7はフォ
ルダ1へ分類し、メール8はフォルダ2へ分類した時が
図2の右の図である。ここで、メール4,メール6,メ
ール7,メール8については、ユーザが手動で分類した
可能性もあるし、自動で分類させた可能性もある。ここ
では、ユーザ分類分析手段104は、手動分類された文
書のみの特徴を用いる。
【0016】ユーザ分類分析手段104の処理として
は、以下のものを用いることができる。 1.文書情報中に用いられている単語の頻度分布から特
徴ベクトルを作成し、この特徴ベクトルを用いて、分類
する文書と各フォルダ内の文書との類似度を計算する。
具体的には、特徴ベクトルを正規化して内積を取り、そ
れを類似度とする。 2.文書情報中に定型フォーマットで出現するキーワー
ド等を用いて、分類する文書と各フォルダ内の文書との
類似度を計算する。 1はどのような文書データに対しても用いることができ
るが、2は特に電子メールのようなヘッダ情報(宛先,
差出人,題名,日時,返信元等)があるものに対して特
に有効である。
【0017】いずれにしても、各フォルダ内の文書と、
これから分類する文書との類似度を求め、この類似度を
元にして分類手段が適切なフォルダへ自動分類を行う。
この適切なフォルダへの分類方法についても、色々な方
法が考えられるが、ここでは、以下の3つの方法を示し
ておく。それぞれの方法については、後の実施形態にお
いて、より詳しく説明する。 i)最も類似度の高いフォルダ1つのみに分類する(実
施形態4)。 ii)ある閾値より高い類似度になるフォルダ全てに分類
する(実施形態5)。ただし、この場合に、どのフォル
ダにも分類されない文書ができる可能性があり、また、
複数のフォルダに分類される文書ができる可能性もあ
る。 iii)最も類似度が高く、しかも、ある閾値より高い類
似度が得られたフォルダに分類する(実施形態6)。た
だし、この場合に、どのフォルダにも分類されない文書
ができる可能性がある。 なお、上記ii)やiii)の閾値はシステム側で勝手に設
定されていてもよいし、ユーザが好きな値を設定できる
ようにしてもよい。
【0018】上記1の具体的な手法としては、例えば、
特開平7−114572号公報で示されている手法を用
いることができる。この手法を用いると、文書から特徴
ベクトルを算出し、その特徴ベクトル同士の内積(類似
度)から、文書間の意味の類似度を求めることができる
ので、ユーザが分類した各フォルダ内の文書の特徴ベク
トルと、自動分類したい文書の特徴ベクトルとについ
て、両者の絶対値を1に正規化してから内積をとったも
のを、「そのフォルダ内の文書と自動分類したい文書の
類似度」の値として用いることができる。
【0019】上記2の具体的な手法として、電子メール
のヘッダ情報である「宛先」,「差出人」,「題名」,
「日時」,「返信元」を利用する場合について説明す
る。このヘッダ情報の利用の仕方であるが、ここでは、
3つの方法を示す。 a)全てのヘッダ情報を平等に扱い、「一致したヘッダ
情報÷全ヘッダ情報」を類似度とする。 b)ユーザがヘッダ情報の種類に対して重み付けを行っ
ておき、ヘッダ情報ごとに「一致したヘッダ情報÷全ヘ
ッダ情報」を計算し、これに重みをかけた値を、全ヘッ
ダ情報について加算したものを類似度とする。ここで
は、必要に応じて正規化する。 c)フォルダ間の類似度ができるだけ小さくなるように
ヘッダ情報の重みを自動的に計算し、この重みに従っ
て、b)の方法で類似度を計算する。
【0020】ぞれぞれの方法について、より詳しく説明
するが、その前に記号を定義しておく。分類したい文書
のヘッダ情報に記述されている「宛先」,「差出人」,
「題名」,「日時」,「返信元」をそれぞれh1,h2
3,h4,h5とし、フォルだi内の文書jのヘッダ情
報に記述されている「宛先」,「差出人」,「題名」,
「日時」,「返信元」をそれぞれHij1,Hij2
ij3,Hij4,Hij5とする。ただし、文書jが、フォ
ルダiに属していない場合は、これら(Hij1,Hij2
ij3,Hij4,Hij5)は未定義である。また、文書j
にヘッダ情報xが含まれていない場合のHijxも未定義
である。また、ユーザによって分類された文書には、1
からaまでの通し番号がついているとし、ユーザによっ
て分類された全文書数はa個とする。また、フォルダは
1からbまでのb個あるとし、m番目のフォルダ内の文
書の個数をcmとする。
【0021】また、「一致」を判定する次の関数を用意
する。
【0022】
【数1】
【0023】なお、ここで言う「一致」に関しては、
「文字列が完全に一致」,「大文字小文字を無視すれば
一致」,「類義語も一致と見なす」等を考えることがで
きる。また、文書に何種類のヘッダ情報が含まれている
かを示す以下の関数を定義する。
【0024】
【数2】
【0025】また、ヘッダ情報hに対する重みをwh
表す。
【0026】以上、定義したものを使用して、分類した
い文書とフォルダiとの類似度Siの計算方法を以下に
示す。 a)以下の式で類似度Siを計算する。
【0027】
【数3】
【0028】b)以下の式で類似度Siを計算する。
【0029】
【数4】
【0030】c)以下の式ができるだけ小さくなるよう
にwkを定め(この場合に最小にできなくても構わな
い)、そのwkを用いて、b)の計算方法を用いる。
【0031】
【数5】
【0032】ここでは、ヘッダ情報の種類は、「宛
先」,「差出人」,「題名」,「日時」,「返信元」の
5種類(k=1〜5)としたが、他のヘッダ情報を用い
る場合も同様に計算できる。
【0033】ユーザの分類分析手段104の処理として
記述した2つの方法それぞれの具体例を図3及び図4に
示す。図3は、単語の頻度分布による特徴ベクトルを用
いた分類方法による例を示し、図4は、電子メールのヘ
ッダ情報を用いた分類方法による例を示す。なお、図2
にもとづいて説明した「ベクトルの内積」は本来は「例
文の特徴ベクトル」,「フォルダ内の文書の特徴ベクト
ル」双方ともに絶対値を1に正規化してから内積を取る
が、図3では、説明をわかりやすくするため、正規化前
の値で内積を取っている。実際の処理では内積をとる前
に正規化する方が好ましい。
【0034】また、図4では、フォルダ「特許」とフォ
ルダ「パーティ」の2つのフォルダについて、メール1
〜メール3がすでに手動で分類されているとした時に、
新しく届いたメールを分類する様子を示している。この
例では、ヘッダ情報が完全に一致していた場合に類似度
に1を加算し、ヘッダ情報のうち「題名」についてだけ
は4文字以上の連続している部分が一致しているれば
0.5加算するという計算方法をとっている。また、分
類方法としては、「最も類似度の高いフォルダ1つのみ
に分類する」という方法を採用している。「新しく届い
たメール」と「メール1」との類似度を調ベると、「題
名(Subject)」だけが部分一致をしており、他のヘッ
ダ情報で完全一致しているものはない。従って、類似度
は0.5となる。「新しく届いたメール」と「メール
2」との類似度を調べると、一致しているヘッダ情報は
ない。従って、類似度は0となる。「新しく届いたメー
ル」と「メール3」との類似度を調べると、「題名(Su
bject)」は部分一致をしており、「返信元(Reply-T
o)」は完全一致をしている。従って、類似度は0.5+
1=1.5となる。以上より、「新しく届いたメール」
と最も類似度が高い関係にあるメールは、「メール3」
であり、「新しく届いたメール」は「メール3」が属す
るフォルダ「特許」に自動分類される。
【0035】(実施形態2)図5は、本発明の実施形態
2の電子メールに適用した文書情報分類装置の構成の概
要を示すブロック図である。図5を参照して、以下にこ
の文書情報分類装置の構成をその動作とともに説明す
る。この装置の初期状態では、電子メール保存手段20
3には、フォルダは1つしか存在せず、全ての電子メー
ルがこの1つのフォルダに保存されているとする。ユー
ザが文書情報の入力に際し、「この電子メールは新しく
フォルダを作ってそこに保存したい」と思ったら、フォ
ルダ作成手段205によってユーザの好みのフォルダを
作成し、そのフォルダに電子メールを分類することがで
きる。電子メール受信手段206で受信された電子メー
ルは、このようにして、電子メール保存手段203に、
フォルダに分類されて保存されていく。
【0036】また、既に作成されているフォルダへの分
類は、分類手段202で行われる。この実施形態では、
ユーザ分類分析手段204では、各フォルダ内の電子メ
ールのうち、ユーザがマニュアル(手動)で分類した電
子メールの特徴を分析し、その結果を用いて分類手段2
02で自動分類を行う。なお、前述のように、ユーザの
好みに応じた手動分類をすることもできる。これらの手
段をまとめて制御するのが制御手段201である。ユー
ザ分類分析手段204の処理としては、前述した実施形
態1でのユーザ分類分析手段104の処理と同様の処理
でよい。また、フォルダへの分類の処理についても前述
した実施形態1での処理と同様の処理でよい。
【0037】(実施形態3)図6は、本発明の実施形態
3の文書情報分類装置の構成の概要を示すブロック図で
ある。図6を参照して、以下にこの構成をその動作とと
もに説明する。この装置の初期状態では、文書保存手段
303には、フォルダは1つしか存在せず、全ての文書
がこの1つのフォルダに保存されているとする。ユーザ
が文書情報の入力に際し、「この文書は新しくフォルダ
を作ってそこに保存したい」と思ったら、フォルダ作成
手段305によってユーザの好みのフォルダを作成し、
そのフォルダに文書を分類することができる。このよう
にして、文書保存手段303には、文書がフォルダに分
類されていく。
【0038】既に作成されているフォルダへの分類は分
類手段302で行われる。この実施形態において、ユー
ザ分類分析手段304では、各フォルダ内の文書のう
ち、ユーザが手動で分類した文書の特徴を分析し、その
結果を用いて、分類手段302で自動分類を行う。な
お、前述のように、ユーザの好みに応じた手動分類をす
ることもできる。自動分類訂正手段306では、自動分
類の結果がユーザの望まない分類だった場合に、ユーザ
よって手動で分類をし直すことができる。これらの手段
をまとめて制御するのが制御手段301である。
【0039】自動分類訂正手段306では、自動分類さ
れた文書がユーザの望む分類先に分類されていない場合
に、ユーザの望む分類先に分類し直すものである。な
お、この手段は、分類手段302の内部に入っていても
よい。自動分類訂正手段306によって分類先フォルダ
を修正させられた文書は、「ユーザによって分類された
文書」になるため、以後の自動分類では、この訂正され
た文書も使って自動分類を行うようになるため、一層ユ
ーザの望む分類が行われるようになる。図7は、自動分
類訂正手段407が分類される情報として受信メールを
扱う電子メール分類装置に適用された実施形態の概要を
示すブロック図である。図7の実施形態は、図5に示さ
れる実施形態に上記した自動分類訂正手段を備えたもの
で、訂正機能そのものには変わりがないので、詳細な説
明は省略する。
【0040】(実施形態4)図8は、本発明による文書
情報分類方法の実施形態の概要を示すフローチャートで
ある。図8にもとづき、以下にその手順を説明する。ま
ず、分類したい文書Aの特徴ベクトル(これをVで表す
ことにする)を求める(ステップS101)。次に、各
フォルダ内の文書の特徴ベクトル(これをWiで表すこ
とにする)を求める(ステップS102)。なお、ここ
では、フォルダ毎に特徴ベクトルを求める(この場合、
例えば、そのフォルダ内の全文書についての特徴ベクト
ルからその平均値を求め、それをフォルダの特徴ベクト
ルとしてもよい)方法と、全文書について特徴ベクトル
を求める方法とがあるが、分類精度の点からは後者の方
法がよい。ここでは、フォルダによらずに全文書に通し
番号が振ってあるとし、i番目の文書(これを「文書
i」と記述することにする)の特徴ベクトルをWiで表
すことにする。次に、文書Aと文書iとの類似度Si
以下の式で求める(ステップS102)。
【0041】
【数6】
【0042】次に、類似度が最大となる文書の番号を求
める(ステップS104)。つまり、Sm=maxSiとな
るSmを求める。そして、文書Aを、文書mが属するフ
ォルダに分類する(ステップS105)。1つの文書
は、必ず1つのフォルダに分類されるので、フォルダへ
の分類方法については、unix等のオペレーティングシス
テムで用いられている階層ディレクトリを使用する方法
をとることができる。
【0043】(実施形態5)図9は、本発明の文書情報
分類方法の他の実施形態の概要を示すフローチャートで
ある。図9にもとづき、以下にその手順を説明する。ま
ず、分類したい文書Aの特徴ベクトル((これをVで表
すことにする)を求める(ステップS201)。次に、
各フォルダ内の文書の特徴ベクトル(これをWiで表す
ことにする)を求める(ステップS202)。なお、こ
こでは、フォルダ毎に特徴ベクトルを求める(この場合
に、例えば、そのフォルダ内の全文書についての特徴ベ
クトルからその平均値を求め、それをフォルダの特徴ベ
クトルとしてもよい)方法と、全文書について特徴ベク
トルを求める方法とがあるが、分類精度の点からは後者
の方法がよい。ここでは、フォルダによらずに全文書に
通し番号が振ってあるとし、i番目の文書(これを「文
書i」と記述することにする)の特徴ベクトルをWi
表すことにする。次に、文書Aと文書iとの類似度Si
を以下の式で求める(ステップS203)。
【0044】
【数7】
【0045】次に、類似度がある閾値tより大きくなる
文書すべてについて、その文書が属するフォルダをすべ
て求め、フォルダ集合Fとする(ステップS204)。
そして、文書Aを、フォルダの集合Fに含まれているす
べてのフォルダに分類する(ステップS205)。1つ
の文書が複数のフォルダに分類される可能性があるた
め、フォルダへの分類方法としては、unix等のオペレー
ティングシステムで用いられている階層ディレクトリを
使用する方法をとることはできないが、文書Aがどのフ
ォルダに分類しているかを示す情報ファイルFAを用意
することで、1つの文書を複数のフォルダに分類するこ
とができる。例えば、文書Aが、2つのフォルダ「コン
ピュータ」,「書籍」に属している場合は、この情報フ
ァイルFAには、「コンピュータ」と「書籍」を記述し
ておけばよい。他の文書についても同様である。また、
フォルダBにどの文書が属しているかを示す情報ファイ
ルDBを用意すると、各フォルダに属している文書を探
しやすくなる。従って、実際のシステムでは、文書Aが
どのフォルダに属しているかを示す情報ファイルFA
フォルダBにどの文書が属しているかを示す情報DB
を用意しておくことが望ましい。
【0046】(実施形態6)図10は、本発明の文書情
報分類方法の他の実施形態を示すフローチャートであ
る。図10にもとづき、以下にその手順を説明する。ま
ず、分類したい文書Aの特徴ベクトル(これをVで表す
ことにする)を求める(ステップS301)。次に、各
フォルダ内の文書の特徴ベクトル(これをWiで表すこ
とにする)を求める(ステップS302)。なお、ここ
では、フォルダ毎に特徴ベクトルを求める(この場合
に、例えば、そのフォルダ内の全文書についての特徴ベ
クトルからその平均値を求め、それをフォルダの特徴ベ
クトルとしてもよい)方法と、全文書について特徴ベク
トルを求める方法とがあるが、分類精度の点からは後者
の方法がよい。ここでは、フォルダによらずに全文書に
通し番号が振ってあるとし、i番目の文書(これを「文
書i」と記述することにする)の特徴ベクトルをWi
表すことにする。
【0047】次に、文書Aと文書iとの類似度Siを以
下の式で求める(ステップS303)。
【0048】
【数8】
【0049】次に、類似度が最大となる文書の番号を求
める(ステップS304)。つまり、Sm=maxSiとな
るSmを求める。そして、この類似度Smがある閾値tよ
り大きければ、文書Aを、文書mが属するフォルダに分
類する(ステップS305)。
【0050】1つの文書は、もし分類されるのであれ
ば、必ず1つのフォルダに分類されるので、フォルダへ
の分類方法については、unix等のオペレーティングシス
テムで用いられている階層ディレクトリを使用する方法
をとることができる。
【0051】(実施形態7)本発明による文書情報分類
方法を実行するために用いるプログラムやデータを提供
する手段について、その実施形態を以下に説明する。こ
の手段は、上記したところの文書情報分類方法を実行す
るためのプログラムやデータを保存した記録媒体として
提供される。記録媒体としては、具体的には、ROM
(リード・オンリー・メモリ),フラッシュメモリ,フ
ロッピーディスク,ハードディスク,光磁気ディスク,
CD−ROM等が想定できる。文字,文字列検索用の装
置、或いは、検索機能をもつコンピュータ等の情報処理
装置にこうした記録媒体をインストールすることによっ
て簡単に本文書情報分類装置を構成することができ、本
装置により、記録媒体から読み出されたかかるプログラ
ムやデータに従って文書情報の分類処理を実行すること
によって、文書等の自動分類を行うことができる。
【0052】
【発明の効果】請求項1に対応する効果:既にユーザに
よりフォルダに分類されている文書情報等の管理可能な
情報の集まりをユーザ分類分析手段により分析し、得た
結果とこれから分類しようとする文書情報等の管理可能
な情報の集まりに対し同じ分析手法を用いて得た分析結
果とからそれらの間の関係を求め、分類を定めるように
しているので、予め人手で分類用情報を定義する必要が
なく、ユーザの手間を要さずにユーザのニーズに合った
分類を行うことができる。
【0053】請求項2に対応する効果:請求項1の効果
に加えて、受信した電子メールを分類の対象とすること
を可能とし、メールにユーザが任意のフォルダ種別を与
えることができるようにしてユーザの利便性を向上させ
る。
【0054】請求項3に対応する効果:請求項1及び2
の効果に加えて、本装置の分類手段により分類した結果
をユーザが修正することによって、修正以後に行われる
自動分類にその訂正結果が反映されるため、より精度の
高い分類が可能となり、ユーザが使用すればする程、ユ
ーザのニーズにより適合する分類が行われるようにな
る。
【0055】請求項4に対応する効果:文書情報の分類
を定める方法として、ユーザがマニュアルでフォルダの
分類を入力した文書と分類しようとする文書の分析を文
書に含まれる特徴ベクトルの算出というステップで行
い、得た結果についてそれらの間の類似度にもとづき類
似度が高い文書のフォルダの分類を入力文書の分類と定
めるようにしたことにより、従来の人手で予め分類用情
報を定義するという方法に比べてより手間のかからない
ユーザのニーズに合った分類を定めることができる。
【0056】請求項5に対応する効果:請求項4の効果
に加えて、類似度の最も高いフォルダのみに分類するこ
とにより、当該分類方法を簡単に実行でき、unix等のオ
ペレーティングシステムで用いられている階層ディレク
トリを使用することができ、また、閾値操作により分類
することにより、分類が複数のフォルダを選択すること
になるが、分類にもとづく検索を行う場合に検索上のも
れが起きにくくなる。
【0057】請求項6に対応する効果:請求項4及び5
の文書情報分類方法を実行するためのプログラム/デー
タを読み出し可能な記録媒体に保持することで、汎用の
コンピュータ等の情報処理装置にこの記録媒体をインス
トールさせ、請求項1ないし3の装置を構成することが
可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態1の文書分類装置の構成の概
要を示すブロック図である。
【図2】本発明による分類装置を用いて作成されるフォ
ルダの遷移を説明するための概念図である。
【図3】本発明による特徴ベクトルを用いた分類手法を
具体例により説明するための図を示すものである。
【図4】本発明におけるメールのヘッダ情報による分類
手法をの具体例により説明するための図である。
【図5】本発明の実施形態2の電子メールに用いた文書
分類装置の構成の概要を示すブロック図である。
【図6】本発明の実施形態3の文書分類装置の構成の概
要を示すブロック図である。
【図7】受信メールに用いた文書分類装置に自動分類訂
正手段を設けた実施形態の概要を示すブロック図であ
る。
【図8】本発明による文書情報分類方法の実施形態の概
要を示すフローチャートである。
【図9】本発明による文書情報分類方法の他の実施形態
の概要を示すフローチャートである。
【図10】本発明によるの文書情報分類方法の他の実施
形態を示すフローチャートである。
【符号の説明】 101,201,301…制御手段、102,202,
302…分類手段、103,303…文書保存手段、1
04,204,304…ユーザ分類分析手段、105,
205,305…フォルダ作成手段、203…電子メー
ル保存手段、206…電子メール受信手段、306,4
07…自動分類訂正手段。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力される管理可能な情報の集まりを分
    析し、分析結果にもとづいて分類すべきフォルダを定め
    る分類手段と、マニュアル入力に従ってフォルダ名を生
    成し、生成した該フォルダ名を入力される管理可能な情
    報の集まりに対して付しフォルダを作成するフォルダ作
    成手段と、入力される管理可能な前記情報の集まりを前
    記分類手段により定められたフォルダ及び前記フォルダ
    作成手段で作成されたフォルダに従いフォルダ名毎に保
    存する情報保存手段とを有する情報分類装置において、
    前記情報保存手段に保存され前記フォルダ作成手段によ
    りフォルダの付された情報について、フォルダ毎にその
    特徴の分析を行うユーザ分類分析手段を備え、前記分類
    手段において、入力される管理可能な前記情報の集まり
    の特徴の分析を行い得た特徴データと前記ユーザ分類分
    析手段より得た各フォルダの特徴データとを用い、入力
    される管理可能な該情報の集まりに付すフォルダを判定
    するようにしたことを特徴とする情報分類装置。
  2. 【請求項2】 入力される管理可能な前記情報の集まり
    が電子メール受信手段により受信した電子メールであっ
    て、前記フォルダ作成手段は、該電子メールに対し前記
    マニュアル入力によって任意のフォルダ名を付すことが
    できるようにしたことを特徴とする請求項1記載の情報
    分類装置。
  3. 【請求項3】 前記フォルダ作成手段/前記情報保存手
    段のフォルダにおいて、間違って自動分類された情報
    を、マニュアルで分類し直す自動分類手段を備えるよう
    にしたことを特徴とする請求項1又は2記載の情報分類
    装置。
  4. 【請求項4】 入力される管理可能な文書情報を分析
    し、分析結果にもとづいて該文書情報に対し分類すべき
    フォルダを定める文書情報分類方法において、前記文書
    情報に含まれる単語の文書中の頻度分布から該文書情報
    の特徴ベクトルを求める特徴ベクトル算出ステップと、
    文書情報の前記特徴ベクトルを判断し分類すべきフォル
    ダを定める分類ステップとを有し、文書情報の前記分析
    は分類すべき文書情報及び既にマニュアル入力によりフ
    ォルダに分類されている文書情報について前記特徴ベク
    トル算出ステップを用いて特徴ベクトルを算出し、文書
    情報分類ステップでは、前記特徴ベクトル算出ステップ
    で算出した特徴ベクトルから分類すべき文書情報と各フ
    ォルダの文書情報の類似度を求め類似度にもとづいてフ
    ォルダを定めるようにしたことを特徴とする文書情報の
    分類方法。
  5. 【請求項5】 前記類似度にもとづくフォルダの判定を
    所定の閾値以上及び/又は最大値を判定要素として行う
    ようにしたことを特徴する請求項4記載の文書情報の分
    類方法。
  6. 【請求項6】 請求項4又は5記載の文書情報の分類方
    法を実行するためのプログラム及び/又はデータを読み
    出し可能に保持した記録媒体。
JP9170282A 1997-06-26 1997-06-26 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体 Pending JPH1115848A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9170282A JPH1115848A (ja) 1997-06-26 1997-06-26 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9170282A JPH1115848A (ja) 1997-06-26 1997-06-26 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体

Publications (1)

Publication Number Publication Date
JPH1115848A true JPH1115848A (ja) 1999-01-22

Family

ID=15902065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9170282A Pending JPH1115848A (ja) 1997-06-26 1997-06-26 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体

Country Status (1)

Country Link
JP (1) JPH1115848A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288088A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 分類自動学習機能を備えた電子メール返信装置
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
JPWO2004084096A1 (ja) * 2003-03-19 2006-06-22 富士通株式会社 事例分類装置および方法
JP2008176665A (ja) * 2007-01-19 2008-07-31 Ricoh Co Ltd ファイル保管場所監視装置、ファイル保管場所監視プログラム、記録媒体
WO2011155231A1 (ja) * 2010-06-08 2011-12-15 株式会社ソニー・コンピュータエンタテインメント 情報提供システム、情報提供方法、情報提供装置、プログラム及び情報記憶媒体
JP2013030098A (ja) * 2011-07-29 2013-02-07 Kddi R & D Laboratories Inc 重要度判定装置、重要度判定方法およびプログラム
JP2013037519A (ja) * 2011-08-08 2013-02-21 Kddi R & D Laboratories Inc 重要度判定装置、重要度判定方法およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP2002288088A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 分類自動学習機能を備えた電子メール返信装置
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
JPWO2004084096A1 (ja) * 2003-03-19 2006-06-22 富士通株式会社 事例分類装置および方法
JP2008176665A (ja) * 2007-01-19 2008-07-31 Ricoh Co Ltd ファイル保管場所監視装置、ファイル保管場所監視プログラム、記録媒体
WO2011155231A1 (ja) * 2010-06-08 2011-12-15 株式会社ソニー・コンピュータエンタテインメント 情報提供システム、情報提供方法、情報提供装置、プログラム及び情報記憶媒体
JP2011257916A (ja) * 2010-06-08 2011-12-22 Sony Computer Entertainment Inc 情報提供システム及び情報提供方法
US9088811B2 (en) 2010-06-08 2015-07-21 Sony Corporation Information providing system, information providing method, information providing device, program, and information storage medium
JP2013030098A (ja) * 2011-07-29 2013-02-07 Kddi R & D Laboratories Inc 重要度判定装置、重要度判定方法およびプログラム
JP2013037519A (ja) * 2011-08-08 2013-02-21 Kddi R & D Laboratories Inc 重要度判定装置、重要度判定方法およびプログラム

Similar Documents

Publication Publication Date Title
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
US6778941B1 (en) Message and user attributes in a message filtering method and system
US6912550B2 (en) File classification management system and method used in operating systems
CN101877837B (zh) 一种短信过滤的方法和装置
JP4429236B2 (ja) 分類ルール作成支援方法
US7971150B2 (en) Document categorisation system
US7099819B2 (en) Text information analysis apparatus and method
US6199103B1 (en) Electronic mail determination method and system and storage medium
US7043468B2 (en) Method and system for measuring the quality of a hierarchy
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
CN111708888A (zh) 基于人工智能的分类方法、装置、终端和存储介质
JP3682529B2 (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
EP3506131A1 (en) Analysis method using graph theory, analysis program, and analysis system
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN116501875A (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
JPH1115848A (ja) 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体
CN103514168B (zh) 数据处理方法和设备
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品
JP2003067304A (ja) 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
CN117171331A (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
Trivedi et al. A modified content-based evolutionary approach to identify unsolicited emails
JPH11250100A (ja) 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
US20020143806A1 (en) System and method for learning and classifying genre of document
JP2001312501A (ja) 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体