JP2000305948A - 文書群分類装置および文書群分類方法 - Google Patents

文書群分類装置および文書群分類方法

Info

Publication number
JP2000305948A
JP2000305948A JP11118795A JP11879599A JP2000305948A JP 2000305948 A JP2000305948 A JP 2000305948A JP 11118795 A JP11118795 A JP 11118795A JP 11879599 A JP11879599 A JP 11879599A JP 2000305948 A JP2000305948 A JP 2000305948A
Authority
JP
Japan
Prior art keywords
document
subset
information
classification
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11118795A
Other languages
English (en)
Inventor
Makoto Yamazaki
真湖人 山崎
Tatsuo Miyaji
達生 宮地
Atsuo Shimada
敦夫 嶋田
Eiji Kenmochi
栄治 剣持
Kazuhisa Takeya
一寿 武谷
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11118795A priority Critical patent/JP2000305948A/ja
Publication of JP2000305948A publication Critical patent/JP2000305948A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)

Abstract

(57)【要約】 【課題】 分類された文書部分集合の性格を利用者が容
易に理解でき、したがって、所望の文書を容易に見つけ
ることができるし、分類作業も効率的に行える文書群分
類装置などを提供する。 【解決手段】 文書群を分類する文書群分類装置におい
て、処理部2が、文書群を複数の文書部分集合に分類
し、分類結果として生成された文書部分集合情報を表示
部3に表示させ、操作部4により表示内容を修正させる
か文書部分集合定義に係わる情報を入力させ、前記文書
部分集合情報および操作部4により修正/入力された情
報に基づいて文書部分集合を定義し、また、自動分類さ
れた各文書部分集合のメンバー情報を表示させ、操作部
4により表示内容を修正させるか文書部分集合のメンバ
ー定義に係わる情報を入力させ、自動分類された各文書
部分集合のメンバー情報および修正/入力された情報に
基づいて各文書部分集合のメンバーを定義する構成にし
た。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された文書群
を文書の内容に従って複数の文書部分集合に分類する文
書群分類装置などに係わり、特に、適切な文書部分集合
を得ることができる文書群分類装置などに関する。
【0002】
【従来の技術】近年、インターネットなどの普及によ
り、大量の文書群へのアクセスが可能になり、その結
果、そのような文書群を様々な利用者の意図に基づい
て、且つ効率的に利用できるようにする必要性が高まっ
ている。そのため、大量の文書群を意味のある文書部分
集合(クラスタ)に分類するというような作業が行われ
始めている。しかし、このような分類作業を人的に行お
うとすると、その人的/時間的コストが膨大なものにな
るとか、また、分類のための知識を分類者のみが有する
ことになるため、分類担当者が代わると分類基準も変わ
ってしまうとかいうような問題がある。そのため、文書
群を人間が分類するような分類基準で自動的に分類しう
る文書分類装置が望まれており、特開平7-114572号公報
に示されているように、文書に含まれる単語から特徴ベ
クトルを抽出して、文書群を複数の文書部分集合(クラ
スタ)に分類する技術などが提供されるに至っている。
しかし、生成された文書部分集合が適切でなかったり、
一つの文書部分集合内にその文書部分集合と関連のない
文書データが含まれたりするため、利用者が文書部分集
合の特徴を容易に理解できず、そのため、所望の文書が
容易に見つからないというような問題がある。なお、本
発明に係わる文書管理方法に関する従来技術として、階
層構造を有したノードによって文書部分集合を表示し、
リストなどによってそのメンバー文書(当該文書部分集
合に属する文書)を表示する方法や表示された内容を利
用者が編集(修正)する方法などが知られている。ま
た、特開平5-108288号公報に示された情報分類支援装置
では、付加手段が、指示情報に基づいて、表示画面上に
散在して表示されたデータに分類用のシンボルマークを
付加し、移動手段が、前記シンボルマークの付加された
データをそのシンボルマークの属性に基づいて表示画面
上で移動させ、前記属性毎にデータを整理し、整理され
たデータを保存するようにしている。
【0003】
【発明が解決しようとする課題】前記のように、従来技
術においては、生成された文書部分集合が適切でなかっ
たり、一つの文書部分集合内にその文書部分集合と関連
のない文書データが含まれたりするため、利用者が文書
部分集合の特徴を容易に理解できず、そのため、所望の
文書が容易に見つからないというような問題がある。な
お、階層構造を有したノードによって文書部分集合を表
示する従来技術は、階層構造に表示される分だけ、各文
書部分集合の全体との関係などがわかりやすくはある
が、前記の問題を解決する手段は提供していない。ま
た、特開平5-108288号公報に示された情報分類支援装置
では、分類作業がすべて手動で行われるので、作業効率
が悪い。本発明の課題は、前記のような従来技術の問題
を解決し、分類された文書部分集合の特徴・性格を利用
者が容易に理解でき、したがって、所望の文書を容易に
見つけることができると共に、分類作業も効率的に行う
ことができる文書群分類装置などを提供することにあ
る。
【0004】
【課題を解決するための手段】前記の課題を解決するた
めに、請求項1記載の発明では、文書の内容に従って文
書群を分類する文書群分類装置において、複数の文書か
ら成る文書群のそれぞれの文書データを保持する文書保
持手段と、前記文書保持手段に文書データが保持された
文書を文書の内容に従って複数の文書部分集合に自動的
に分類する文書自動分類手段と、前記文書自動分類手段
による分類結果として生成された文書部分集合情報を表
示させ、場合により表示内容を修正させるか文書部分集
合定義に係わる情報を入力させる部分集合表示・操作手
段と、前記文書自動分類手段により生成された文書部分
集合情報および部分集合表示・操作手段により修正/入
力された情報、またはどちらか一方に基づいて文書部分
集合を定義する部分集合定義手段と、前記文書自動分類
手段による分類結果として分類された各文書部分集合の
メンバー情報を表示させ、場合により表示内容を修正さ
せるか文書部分集合のメンバー定義に係わる情報を入力
させる部分集合メンバー表示・操作手段と、前記文書自
動分類手段により分類された各文書部分集合のメンバー
情報および/または前記部分集合メンバー表示・操作手
段により修正/入力された情報に基づいて各文書部分集
合のメンバーを定義する部分集合メンバー定義手段とを
備えた。また、請求項2記載の発明では、請求項1記載
の発明において、分類された文書部分集合または定義さ
れた文書部分集合にその内容を表現した属性情報を付加
する部分集合属性情報定義手段を備え、前記部分集合属
性情報定義手段により付加された属性情報を表示させる
構成にした。また、請求項3記載の発明では、請求項1
または請求項2記載の発明において、分類された文書部
分集合または定義された文書部分集合に対し、その文書
群全体における位置および/または文書部分集合相互の
関係を示す構造を定義する部分集合構造定義手段を備
え、部分集合表示・操作手段が前記部分集合構造定義手
段により定義された内容を表示させ、場合により表示内
容を修正させる構成にした。
【0005】また、請求項4記載の発明では、請求項1
または請求項2記載の発明において、分類された各文書
部分集合のメンバー文書または定義された各文書部分集
合のメンバー文書に対し、その文書部分集合内部におけ
る位置および一つの文書部分集合に属するメンバー文書
相互の関係を示す構造、またはどちらか一方を定義する
部分集合メンバー構造定義手段を備え、部分集合メンバ
ー表示・操作手段が前記部分集合メンバー構造定義手段
により定義された内容を表示させ、場合により表示内容
を修正させる構成にした。また、請求項5記載の発明で
は、請求項1〜4のいずれかに記載の発明において、部
分集合メンバー定義手段が同一メンバー文書を複数の文
書部分集合に帰属させることを可能にする構成にした。
また、請求項6記載の発明では、請求項1〜4のいずれ
かに記載の発明において、表示または印刷する文書部分
集合関連情報の表示仕様を指定させる表示指定手段を備
え、前記表示指定手段による指定に従って文書部分集合
およびメンバー文書に関する情報、またはどちらか一方
を表示または印刷させる構成にした。また、請求項7記
載の発明では、請求項1〜4のいずれかに記載の発明に
おいて、部分集合定義手段により定義された文書部分集
合を文書自動分類手段の処理対象文書群とする構成にし
た。また、請求項8記載の発明では、請求項1〜4のい
ずれかに記載の発明において、文書自動分類手段が、部
分集合定義手段の定義した文書部分集合に係わる分類結
果情報を新たな分類のための条件として用いる構成にし
た。また、請求項9記載の発明では、請求項1〜4のい
ずれかに記載の発明において、処理対象にしているすべ
ての文書のうち、帰属する文書部分集合が少なくともま
だ一つも定まっていない文書を帰属させる文書部分集合
を定義するように部分集合定義手段を構成した。また、
請求項10記載の発明では、文書の内容に従って文書群
を分類する文書群分類方法において、文書データが保持
された文書を文書の内容に従って複数の文書部分集合に
自動的に分類し、分類結果として生成された文書部分集
合情報を表示させ、場合により表示内容を修正させる
か、文書部分集合定義に係わる情報を入力させ、生成さ
れた前記文書部分集合情報および修正/入力された情
報、またはどちらか一方に基づいて文書部分集合を定義
し、また、分類結果として分類された各文書部分集合の
メンバー情報を表示させ、必要に応じて表示内容を修正
させるか、文書部分集合のメンバー定義に係わる情報を
入力させ、分類された各文書部分集合のメンバー情報お
よび修正/入力された情報、またはどちらか一方に基づ
いて各文書部分集合のメンバーを定義する方法にした。
【0006】また、請求項11記載の発明では、請求項
10記載の発明において、分類された文書部分集合また
は定義された文書部分集合にその内容を表現した属性情
報を付加し、付加された属性情報を表示させる方法にし
た。また、請求項12記載の発明では、請求項10また
は請求項11記載の発明において、分類された文書部分
集合または定義された文書部分集合に対し、その文書群
全体における位置および文書部分集合相互の関係を示す
構造、またはどちらか一方を定義し、定義された内容を
表示させ、場合に応じて表示内容を修正させる方法にし
た。また、請求項13記載の発明では、請求項10また
は請求項11記載の発明において、分類された各文書部
分集合のメンバー文書または定義された各文書部分集合
のメンバー文書に対し、その文書部分集合内部における
位置および一つの文書部分集合に属するメンバー文書相
互の関係を示す構造、またはどちらか一方を定義し、定
義された内容を表示させ、場合により表示内容を修正さ
せる方法にした。また、請求項14記載の発明では、請
求項10〜13のいずれかに記載の発明において、同一
メンバー文書を複数の文書部分集合に帰属させることを
可能にした。また、請求項15記載の発明では、請求項
10〜13のいずれかに記載の発明において、表示また
は印刷する文書部分集合関連情報の表示仕様を指定さ
せ、指定に従って文書部分集合およびメンバー文書に関
する情報、またはどちらか一方を表示または印刷させる
方法にした。また、請求項16記載の発明では、請求項
10〜13のいずれかに記載の発明において、定義され
た文書部分集合を文書自動分類の処理対象文書群とする
方法にした。また、請求項17記載の発明では、請求項
10〜13のいずれかに記載の発明において、定義した
文書部分集合に係わる分類結果情報を新たな分類のため
の条件として用いる方法にした。また、請求項18記載
の発明では、請求項10〜13のいずれかに記載の発明
において、処理対象にしているすべての文書のうち、帰
属する文書部分集合が少なくともまだ一つも定まってい
ない文書を帰属させる文書部分集合を定義する方法にし
た。
【0007】
【作用】前記のような手段にしたので、請求項1および
請求項10記載の発明では、分類結果として生成された
文書部分集合情報が表示され、場合により表示内容が修
正されるか、文書部分集合定義に係わる情報が入力さ
れ、生成された前記文書部分集合情報や修正/入力され
た情報に基づいて文書部分集合が定義され、また、分類
結果として分類された各文書部分集合のメンバー情報が
表示され、必要に応じて表示内容が修正されるか、文書
部分集合のメンバー定義に係わる情報が入力され、分類
された各文書部分集合のメンバー情報や修正/入力され
た情報に基づいて各文書部分集合のメンバーが定義され
る。請求項2および請求項11記載の発明では、請求項
1または請求項10記載の発明において、分類された文
書部分集合または定義された文書部分集合にその内容を
表現した属性情報が付加され、付加された属性情報が表
示される。請求項3および請求項12記載の発明では、
請求項1、請求項2、請求項10または請求項11記載
の発明において、分類された文書部分集合または定義さ
れた文書部分集合に対し、その文書群全体における位置
や文書部分集合相互の関係を示す構造が定義され、定義
された内容が表示され、必要に応じて表示内容が修正さ
れる。請求項4および請求項13記載の発明では、請求
項1、請求項2、請求項10または請求項11記載の発
明において、分類された各文書部分集合のメンバー文書
または定義された各文書部分集合のメンバー文書に対
し、その文書部分集合内部における位置や一つの文書部
分集合に属するメンバー文書相互の関係を示す構造が定
義され、定義された内容が表示され、必要に応じて表示
内容が修正される。
【0008】請求項5および請求項14記載の発明で
は、請求項1〜4、または請求項10〜13記載の発明
において、同一メンバー文書を複数の文書部分集合に帰
属させることができる。請求項6および請求項15記載
の発明では、請求項1〜4、または請求項10〜13記
載の発明において、表示または印刷する文書部分集合関
連情報の表示仕様が指定され、指定に従って文書部分集
合やメンバー文書に関する情報が表示または印刷され
る。請求項7および請求項16記載の発明では、請求項
1〜4、または請求項10〜13記載の発明において、
定義された文書部分集合が文書自動分類の処理対象文書
群とされる。請求項8および請求項17記載の発明で
は、請求項1〜4、または請求項10〜13記載の発明
において、定義した文書部分集合に係わる分類結果情報
が新たな分類のための条件として用いられる。請求項9
および請求項18記載の発明では、請求項1〜4、また
は請求項10〜13記載の発明において、処理対象にし
ているすべての文書のうち、帰属する文書部分集合が少
なくともまだ一つも定まっていない文書を帰属させる文
書部分集合が定義される。
【0009】
【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図1は本発明の各実施の形態の
文書群分類装置の構成ブロック図である。図示したよう
に、この実施の形態の文書群分類装置は、文書データ群
を入力する文書入力部1、プログラムを記憶したメモリ
およびそのプログラムに従って動作するCPUを有し
て、文書自動分類手段、部分集合定義手段、部分集合メ
ンバー定義手段、部分集合属性情報定義手段、部分集合
構造定義手段、部分集合メンバー構造定義手段などとし
て動作する処理部2、文書データや文書部分集合に係わ
る情報などを表示する表示部3、文書部分集合に係わる
情報などを入力する操作部4、例えばハードディスク装
置やRAMなどを有して、文書データを保持(記憶)す
る文書保持手段および文書部分集合に係わる情報(文書
部分集合関連情報と称す)を保持する保持手段などとし
て働く記憶部5などを備えている。また、処理部2、表
示部3、および操作部4は、部分集合表示・操作手段お
よび部分集合メンバー表示・操作手段を構成し、処理部
2および表示部3は部分集合属性情報表示手段を構成す
る。なお、前記文書自動分類手段は入力された文書デー
タを内容に従って複数の文書部分集合(クラスタ)に自
動的に分類し、部分集合表示・操作手段は文書自動分類
手段による分類結果として生成された文書部分集合を表
示させ、必要に応じて表示内容を修正させるか、生成さ
れた前記文書部分集合と無関係に文書部分集合形成に係
わる情報を入力させ、部分集合定義手段は文書自動分類
手段により生成された文書部分集合や部分集合表示・操
作手段により修正/入力された情報に基づいて文書部分
集合を定義し、部分集合メンバー表示・操作手段は文書
自動分類手段による分類結果として分類された各文書部
分集合のメンバー文書の文書名などを表示させ、必要に
応じて表示内容を修正させるか、分類された前記文書名
などと無関係に文書部分集合のメンバー情報を入力さ
せ、部分集合メンバー定義手段は文書自動分類手段によ
り分類された各文書部分集合のメンバー情報や部分集合
メンバー表示・操作手段により修正/入力された情報に
基づいて各文書部分集合のメンバー文書を定義し、部分
集合属性情報定義手段は文書部分集合にその内容を表現
した属性情報(例えば、集合名,タイトル)を付加し、
部分集合属性情報表示手段は部分集合属性情報定義手段
により付加された属性情報を表示させ、部分集合構造定
義手段は定義された文書部分集合に対しその文書群全体
における位置や文書部分集合相互の関係を示す構造を定
義し、部分集合メンバー構造定義手段は定義された各文
書部分集合のメンバー文書に対しその文書部分集合内部
における位置や一つの文書部分集合に属するメンバー文
書相互の関係を示す構造を定義する。
【0010】図2に、本発明の第1の実施の形態の動作
フローを示す。以下、図1および図2などに従って、こ
の実施の形態の文書分類装置、文書分類方法の動作を詳
細に説明する。まず、文書入力部1により、文書群を入
力する(S1)。この文書入力部1はキーボード(操作
部4と共有)、OCR装置、着脱型記録媒体、またはネ
ットワーク通信手段を備え、それらのいずれかを介して
文書データ群を入力するのである。なお、入力された個
々の文書データは例えば一つの文書が一つのファイルに
対応付けられるファイルとして記憶部5に保持(記憶)
される。この後、処理部2が記憶された前記文書データ
群を取得し、その文書データ群を複数の文書部分集合
(クラスタ)に分類する(S2)。例えば、個々の文書
データに対して言語処理を行って文書データを単語に分
け、それぞれの単語の出現頻度を計数し、それに基づい
てそれぞれの文書の特徴を計量的に表す特徴ベクトルを
求め、それらの特徴ベクトルに対してカイ自乗法、判別
分析手法、またはクラスタ分析手法などを適用すること
により文書分類を行うのである。図3に、12個の文書デ
ータを分類対象とした分類事例における各文書データの
特徴ベクトル算出例を示す。ベクトルの成分数は分類対
象文書データ群に生起するすべての単語の種類数になる
が、ここでは、いくつかの単語が縮退した3次元ベクト
ルに線形変換している。また、図4に、12個の文書デー
タをそれらの有する計量的特徴ベクトルを用いて3つの
文書部分集合(クラスタ)に分類した場合の分類結果例
などを示す。文書データの有する計量的な3次元ベクト
ルに対して例えばクラスタ分析手法の一つであるWard法
などを適用することで特徴ベクトル値の近いもの同士を
まとめ、3つの文書部分集合に分類することができる。
つまり、各文書データは(b)図に示したように3つの
文書部分集合(クラスタ)のうちのいずれか一つに属す
る。なお、(a)図に示した代表値とは、所属文書デー
タの特徴ベクトルの平均値(所属文書データの重心)で
ある。
【0011】さらに、処理部2が各文書部分集合に属す
る文書データの各文書部分集合における順位(類似順)
関係を示す特徴値として、文書データの特徴ベクトルと
その文書データの属する文書部分集合の代表値との距離
を求める。クラスタ(文書部分集合)12に所属している
文書データ13の距離を求める例を次に示す。 ((3.00−2.66)2+(2.00−2.00)2+(4.00−3.66)
2)1/2=0.48 図4(b)に示した距離はこのようにして求めたものであ
る。所属している文書部分集合の代表値との距離が小さ
いほど、その文書部分集合に属する平均的文書との類似
度が高いということになり、この距離から文書部分集合
における順位関係を示す特徴値として類似度を求めるこ
とができる。分類処理後、処理部(文書自動分類手段)
2は分類結果(特徴値を含む)を分類結果情報として記
憶部5に記憶する。なお、文書自動分類処理が行われて
いる間にその処理対象文書群を追加したりクラスタ初期
重心を変化させたりすると(後者はクラスタ初期重心を
与える方式の場合)、文書自動分類処理に悪影響が生じ
る場合があるので、文書自動分類処理が行われている
間、あるいはさらに、後述する分類結果の表示・修正が
終了するまでの間は、前記のようなことを行えないよう
にする。続いて、処理部2は分類結果を例えば図5に示
すように表示させる(S3)。この例では画面を三つの
領域に分け、左側を文書部分集合およびその構造などの
定義・表示部とし、この領域には分類結果としての文書
部分集合を例えば階層構造で表示させる(図5参照)。
なお、図示の各ノード(表示形式例の左側に示した個々
のボックス)は個々の文書部分集合を示しており、この
ノード内には例えばクラスタ番号を記載する。あるい
は、表示形式例として図示したように、個々の文書部分
集合に対応したアイコンを関連度(類似度)に従って2
次元座標上での表示位置を決め、グルーピングして表示
させてもよい。つまり、文書部分集合の前記した代表値
が近いものをグルーピングして表示させたり、代表値の
値に応じてアイコン間の距離を変化させたりするのであ
る。なお、グルーピングに際しては、図示したように、
グループを線画(矩形)で囲んでもよい。また、階層表
示した例では、同一階層内のノード表示(記載)位置順
は例えば文書部分集合の代表値順である。
【0012】また、左側の領域には、分類対象の文書群
全体とその文書群全体を分類した文書部分集合との関連
がわかるように表示させる。例えば階層表示の例で言え
ば、最上位のノード(ボックス)が例えば自動分類され
た分類対象の文書群全体であることがわかるように表示
させる。また、アイコンを2次元的に配列させた表示形
式であれば、アイコンを包含した矩形内に、その矩形が
どのようなものであるかを示す情報を記載させる。ま
た、図5に示したように、画面の右上の領域は、選択さ
れた文書部分集合のタイトル(集合名)など文書部分集
合の属性情報(メタ情報)の定義・表示部とする。但
し、この実施の形態では、分類結果の表示時、この領域
は空欄になっている。さらに、画面の右下の領域は選択
された文書部分集合のメンバー文書(個々の文書)およ
びその構造などの定義・表示部とし、文書自動分類後の
最初の表示では、この領域に分類結果としてのメンバー
文書を例えばリスト形式で表示させる(図5参照)。な
お、このリストの表示順は例えば当該文書部分集合の代
表値との距離順(文書部分集合との類似度順)である。
あるいは、表示形式例として図示したように、個々のメ
ンバー文書に対応したアイコンを関連度(類似度)に従
って2次元座標上での表示位置を決め、グルーピングし
て表示させてもよい。つまり、文書部分集合の代表値と
の距離が近いものをグルーピングして表示させるのであ
る。また、後者の表示形式の場合、図5に示したように
関連文書を矢印で示すようにしてもよいし、この矢印を
操作部4を用いて指示し削除したり追加したりすること
も可能である。
【0013】次に、処理部(部分集合定義手段)2は利
用者が表示部3および操作部4により行う文書部分集合
の修正を受け付け、文書部分集合を定義する(S4)。
それには、まず、例えば新しい文書部分集合を定義す
る。図5の左側の領域には図示していない文書部分集合
追加ボタンがあり、操作部4を構成しているマウスなど
によりそのボタンを指示(クリック)すると、処理部
(部分集合定義手段)2が新しいクラスタ番号を採り
(採番し)、メンバーの属していないそのクラスタ番号
のノードを画面上に追加表示させる。なお、新しく生成
した文書部分集合は複数であってもよく、生成したとき
かその後に(後述)それらの文書部分集合にタイトルを
付ける。つまり、利用者は例えば自分の構想に従って自
動分類結果とは関係なく文書部分集合を生成することが
できるのである。続いて、図5において左側に表示され
た各ノード(個々の文書部分集合)をマウスなどにより
次々に指示(クリック)し、各文書部分集合に属するメ
ンバー文書の名称(個々の文書の文書名)を図5の右下
の領域に表示させ、各文書部分集合のタイトルを操作部
4から入力させる。利用者が各文書部分集合に属するメ
ンバー文書の名称から各文書部分集合の特徴を理解し、
その特徴に整合したタイトルを入力するのである。な
お、新しく生成した文書部分集合には例えば「その他」
というようなタイトルとか利用者の構想に従ったタイト
ルを付ける。また、各文書部分集合のタイトルを付けた
時点で、ノード内に記載したクラスタ番号をタイトルの
一部(短いタイトルならばそのすべて)に置換すること
が可能である。
【0014】次に、利用者は、各文書部分集合のタイト
ルとそれに属するメンバー文書の名称とを比べたりし
て、当該文書部分集合よりも他の文書部分集合に属させ
た方が適切であるメンバー文書があると、そのメンバー
文書を前記他の文書部分集合に移す。例えば、図5に示
した右下の領域に当該文書部分集合のメンバー文書を表
示させ、マウスなどにより前記メンバー文書をドラッグ
し、左側の欄に示した移動先文書部分集合のノード(ま
たはアイコン)内にドロップするのである。また、当該
文書部分集合に不適であり、他の文書部分集合にも不適
であるメンバー文書があった場合は、そのメンバー文書
を新しく生成した例えば「その他」という名称の文書部
分集合に移すか、自分の描いている構想に従って複数の
新しい文書部分集合中の一つに移す。また、移動により
メンバー文書が少なくなってしまった文書部分集合を削
除することも可能であり、その場合、残っていたメンバ
ーは「その他」の文書部分集合などに移動させる。な
お、文書自動分類手段が分類対象にしなかった文書を操
作部4により所望の文書部分集合のメンバー文書として
加えることもできる。こうして、各文書部分集合とそれ
らの文書部分集合に属するメンバー文書が確定すると、
処理部(部分集合定義手段、部分集合メンバー定義手段
など)2は各文書部分集合および各文書部分集合のメン
バーを確定した内容のものとして定義する(S4)。な
お、この際、含める(取り込む)文書部分集合を意図的
に文書群全体中の一部としてもよく、文書部分集合につ
いて定義内容を再度述べると、含める文書部分集合を選
択して、その文書部分集合のクラスタ番号と集合名(タ
イトル)とを対応付けて定義し、さらに、部分集合構造
定義手段により、選択した文書部分集合全体の構造を表
現する表示形式を定義し、それらの文書部分集合間のつ
ながり方や関連性など全体の構造や各文書部分集合を表
しているノード(またはアイコン)の表示順(表示位
置)などを定義するのである。
【0015】続いて、前記のように定義した定義内容で
ある文書部分集合関連情報を記憶部5に記憶する(S
5)。例えば、文書部分集合関連情報ファイルを作成
し、その中に、各文書部分集合のクラスタ番号と集合名
(タイトル)とを対応付けて表示順(例えば類似度順)
に書き込み、全体の表示形式を書き込み、各クラスタ番
号と対応付けてそれに属するメンバー文書の文書名とフ
ァイル番号を表示順(例えば類似度順)に書き込むので
ある(図6参照)。なお、前記ファイル番号はOSに備
わっているファイル管理手段から取得したものである。
つまり、各文書データはファイル管理手段を介してファ
イルとして記憶されるということである。また、図6の
例では、表示形式の種別を数値で示している。「表示形
式」という文字列は説明の都合上記載したものであり、
実際には書き込まれない。同様にクラスタ番号も、実際
には、「クラスタ9」ではなく、単に「9」と書き込
む。また、「0367」というのはファイル番号で、クラス
タ番号の右に記載されているのは集合名、ファイル番号
の右に記載されているのは文書名である。この結果、そ
の後、図6に示したような文書部分集合関連情報ファイ
ルを読み出すことにより図5に示すような画面を表示す
ることができ、利用者はその画面上で所望の文書部分集
合をマウスなどにより選択し、メンバー文書の文書名リ
ストを表示させ、それを参照することで所望の文書を見
つけ、その文書を開くことができるし、文書分類結果の
再修正や追加を行うことができる。なお、図5に示した
ような画面の代わりに、画面を2画面に分け、最初の画
面にはメンバー文書リストを表示せず、右側の領域には
すべての文書部分集合のタイトル(集合名)をクラスタ
番号に対応付けて示し、次の画面にメンバー文書リスト
を表示するようにしてもよい(図9参照)。
【0016】こうして、この実施の形態によれば、各文
書が各文書部分集合に適切に分類されるので、分類され
た文書部分集合の特徴を利用者が容易に理解でき、した
がって、所望の文書を容易に見つけることができるし、
分類作業の多くは文書自動分類手段により自動的に行わ
れ、手作業は補完的に行われるだけであるので、分類作
業も効率的に行うことができる。なお、前記において
は、文書部分集合のタイトル(集合名)を利用者が入力
して付けるようにしたが、処理部(部分集合属性情報定
義手段)2が自動的に付けるようにすることも可能であ
る。例えば、当該文書部分集合に属しているメンバー文
書の文書名に含まれる名詞(複合名詞を含む)中で最も
出現頻度の多いものをタイトルとするのである。あるい
は、複合名詞は複数の名詞として扱って、その名詞中か
ら最も出現頻度の多い名詞を一つ選ぶと共に最も出現頻
度の多い複合名詞を一つ選んで、その二つを列挙してタ
イトルとしてもよい。自動的に付けられたタイトルを利
用者が修正することも可能である。また、タイトルを自
動的に付ける場合は、自動分類が終了した直後に付け、
分類結果表示の最初からタイトル欄(図5参照)に表示
させてもよい。このように、文書部分集合のタイトル
(集合名)を処理部2が自動的に付けるようにした実施
の形態では、その分だけ利用者の手間が省けるし、分類
結果表示の最初からタイトル欄に表示させれば、利用者
は前記した文書部分集合などの定義時により容易に文書
部分集合の性格を理解することができる。また、前記し
た実施の形態において、一つの文書部分集合のメンバー
として他の指示された文書部分集合を入れることも可能
である。例えば、図5のような画面で、移動先の文書部
分集合のメンバーリストを右側の領域に表示させてお
き、左側の領域中の文書部分集合を示すノード中の一つ
をドラッグし、そのノードを右側のメンバーリスト中に
ドロップするのである。これにより、処理部(部分集合
メンバー定義手段)2は前記ノードのクラスタ番号を図
6に示したような部分集合情報中のメンバー情報中に書
き込む。また、図5に示した例で、階層を3段や4段に
したり、包含関係を2重、3重にすることも可能であ
る。例えば、自動分類の結果、同じ層の一部が似たノー
ドから成っていたとき、処理部2はそれらをまとめた一
つのノード(文書部分集合)を表示部3および操作部4
を用いて作成させ、マウスなどにより前記似たノードを
ドラッグし、それらのノードを新たに作成したノード
(文書部分集合)に属させるのである。
【0017】また、前記した実施の形態において、マウ
スなどによりノード(文書部分集合)やメンバー文書を
ドラッグし、表示順や表示位置を入れ替えたりすること
も可能である。また、アイコンで表現された文書部分集
合の全体構造を表現する表現形式としてはアイコンの形
や色を変えた表現も可能である。例えば、「赤」から
「紫」に至る色系列を用い、文書部分集合の代表値が最
大のものを「赤」にし、最小のものを「紫」にし、代表
値がその間のものはその値に従って「赤」と「紫」の間
のいずれかの色にするのである。また、一つの文書部分
集合内のリスト表示順を例えば登録順とし、関連度(類
似度)を前記のように色で表現してもよい。また、前記
した実施の形態において、処理部2は、部分集合メンバ
ー定義手段により、同一メンバー文書を複数の文書部分
集合に帰属させることができる。つまり、記憶部5に記
憶されれている文書データとしては一つだが、その文書
データのファイル番号と文書名を複数の文書部分集合に
対応付けて文書部分集合関連情報ファイル(図6参照)
中の複数箇所に書き込んでおき、メンバー文書を表示さ
せる際は複数の文書部分集合のメンバー文書リスト中に
表示させるのである。これにより、例えば多義的な内容
を有する文書を参照する際、その文書を容易に見つけた
りすることができる。また、前記した実施の形態におい
て、定義された文書部分集合を文書自動分類手段の処理
対象文書群とすることができる。例えば、不適なメンバ
ー文書が多数含まれている複数の文書部分集合と、それ
以外の文書部分集合から抽出した不適なメンバー文書を
集めた新たな文書部分集合とをマウスなどにより選択
し、選択した文書部分集合群を文書自動分類手段の処理
対象文書群として再度分類を行わせるのである。これに
より、前の分類結果よりも適切な分類結果を得ることも
可能になる。また、一つの文書部分集合を指定して自動
分類を行わせ、その文書部分集合を細分類することも可
能である。
【0018】また、文書自動分類手段が分類に際してク
ラスタ初期重心を指定するような文書分類方法である場
合、文書自動分類手段が、部分集合定義手段の定義した
文書部分集合に係わる分類結果情報を新たな分類のため
の条件として用いることができる。例えば、文書分類時
に、既に前記のようにして定義されている個々の文書部
分集合なかから利用者が複数の文書部分集合を指定する
と、処理部(文書自動分類手段)2は記憶部5に記憶さ
れている指定された複数の文書部分集合(クラスタ)の
重心を取得し、それらをクラスタ初期重心とする文書部
分集合に新たな文書群を分類する。なお、分類する文書
群中に文書部分集合定義の際の対象であった文書群のす
べてまたは一部が含まれてもよい。また、重心を用いる
代わりに、中心的単語や中心的文書、またはそれらの組
み合わせを分類のための条件として用いることもでき
る。また、初期重心を与える一つの文書部分集合を、前
記のようにして定義した複数の文書部分集合から生成し
てもよい。この場合、初期重心は前記複数の文書部分集
合に属するメンバー文書の特徴ベクトルの平均値にな
る。また、前記した実施の形態において、文書部分集合
やそのメンバー文書を定義する際、ケースによっては、
文書自動分類手段の分類結果を用いずに、それらを定義
するための情報をすべて操作部4により入力させてもよ
い。
【0019】本発明の第2の実施の形態では、図7に示
すように、例えば画面の右上に設けた文書部分集合の属
性情報(メタ情報)定義・表示部に、文書部分集合のタ
イトル(集合名)だけでなく、その文書部分集合の内容
・性格を的確に表現したメモ(例えば要約文)を文書部
分集合に関する属性情報(メタ情報)として部分集合属
性情報定義手段により付加する。そして、その後、保持
されている所望の文書を参照したりする際、あるいは分
類した文書を追加する際、図7に示したような画面を表
示させる。なお、メモを付加する際には、まず、図5に
示した画面の左側に表示された所望のノード(文書部分
集合)を操作部4を構成しているマウスなどにより指示
(クリック)して所望の文書部分集合の属性情報定義・
表示部を表示させ、例えばカーソルを「タイトル」とい
う文字列の下に移動させ、操作部4によりメモする文章
を入力するのである。こうして、この実施の形態によれ
ば、その後の文書分類時(追加分類)、あるいは文書参
照などにおいて、各文書部分集合の内容・性格がよくわ
かるので、適切な追加分類およびすばやい文書参照など
が可能になる。
【0020】本発明の第3の実施の形態では、前記各実
施の形態において、表示または印刷される文書部分集合
関連情報(文書部分集合やそのメンバー文書など)の表
示項目、表示文字サイズ、表示位置、図の表示形式など
表示仕様のうちの一部またはすべてを指定する表示指定
手段を備え、この表示指定手段による指定に従って文書
部分集合関連情報を表示または印刷させる。なお、前記
表示指定手段は、処理部2、表示部3、操作部4、印刷
させる場合はさらに図示していないプロッタなどから構
成される。図8に、この実施の形態で表示される画面の
一部を示す。例えば分類結果を表示させる際の画面の上
方に図示のようなボタンを表示させるのである。そし
て、例えばマウスなどにより「表示項目」ボタンが指示
されると、処理部(表示指定手段)2はその指示を知っ
てどの項目を表示させるのかを求めるメニューを表示さ
せる。さらに、利用者がそのメッセージに応じて例えば
「部分集合定義・表示部とタイトル」の表示を選択する
と、図9に示すようにそれら二つの領域を表示させる。
なお、その際、タイトルは例えばすべての文書部分集合
について示される(図9参照)。また、「文字サイズ」
ボタンが指示されると、処理部2は対応可能な文字サイ
ズを表示させ、利用者がそのうちの一つを選択すると、
以後、処理部(部分集合表示・操作手段,部分集合メン
バー表示・操作手段)2は所定部分に表示する文字サイ
ズを指定された文字サイズにする。
【0021】また、「表示位置」ボタンが指示される
と、マウスなどによるレイアウト編集を可能にさせる。
例えば、図5や図9などに示される各表示領域の境界ラ
インをマウスによりドラッグさせて境界ラインの位置を
変更させたり、ノードやアイコンをドラッグさせてその
位置を変更させたりするのである。また、「図表示形
式」ボタンが指示されると、処理部(表示指定手段)2
は「階層表示」「アイコン・線画表示」など複数のメニ
ューを表示させ、選択させる。そして、この後、複数の
文書部分集合を示す複数のノードやアイコンから成る集
合の構造などを指定された表示形式で表示させる。ま
た、処理部2は前記のようにして指定させた表示指定情
報を記憶部5に記憶させ、以後の文書部分集合関連情報
表示時(図5に示したような画面を表示させるとき)、
記憶させておいた前記表示指定情報を読み出し、それに
従って文書部分集合関連情報を表示させる。なお、記憶
させる表示指定情報には識別符号を付けることにより複
数組の表示指定情報を指定することができ、表示指定情
報を読み出す際には前記識別符号を指定することにより
所望の組の表示指定情報に従って文書部分集合関連情報
を表示させることができる。また、表示指定情報は文書
部分集合関連情報とは独立しているので、例えば分類対
象の文書群が異なればそれに伴って異なる様々な文書部
分集合関連情報を同じ表示指定情報に従って表示させる
ことができる。また、記憶させる表示指定情報の記述を
一般的に用いられている構造化文書の形式(例えばSG
ML)とし、そのレイアウト形式を一般的に用いられて
いる文書型記述言語(例えばXMLにおけるDTD)に
よって表現することが可能である。こうして、この実施
の形態によれば、利用者の目的にあった表現で文書部分
集合やそのメンバー文書などを表示または印刷させるこ
とができるし、文書部分集合関連情報とは独立している
表示指定情報を複数組用意できるので、そのための操作
が簡単になる。
【0022】本発明の第4の実施の形態では、第1の実
施の形態において、処理対象にしているすべての文書の
うち、帰属する文書部分集合が少なくともまだ一つも定
まっていない文書を帰属させる文書部分集合を定義する
ことにより、文書分類結果の分析作業(修正作業)が終
了したか否かを利用者が容易にわかるようにすることが
できる。以下、図10に示したフロー図などに従って、
この実施の形態の動作を説明する。図示したように、ま
ず、処理部(部分集合定義手段)2が分析済み部分集合
と未分析部分集合を定義する(S11)。この二つの文
書部分集合は互いに共通のメンバー文書を持たない関係
になっている。また、利用者が分析作業を始める前の時
点で、処理部2は処理対象のすべての文書を未分析部分
集合に帰属させる(S12)。したがって、この時点で
は、分析済み部分集合にはメンバーが存在しない状態で
ある。このような状態で、処理部2は分析済み文書部分
集合または文書の発生、分析状況閲覧要求の発生を監視
する(S13でNo→S16でNo→S19でNo→S1
3)。前記のような状態のなかで、利用者は文書分類結
果の分析作業を始める。そして、分析していた一つの文
書部分集合のメンバー構成が意味的一貫性などの面から
妥当であると判断すると、利用者はその文書部分集合を
分析済みとしてその文書部分集合の分析を終わりにする
(S13でYes)。なお、この状態のとき、図5に示し
たような画面に分析済み部分集合のノードまたはアイコ
ンを加えた画面を表示させておく。こうして、利用者は
分析の終了した文書部分集合をマウスなどを用いて分析
済み部分集合のノードまたはアイコンへドラッグし、ド
ロップさせる。そうすると、処理部2はその文書部分集
合を分析済み部分集合のメンバーとして帰属させ(S1
4)、この分析済み部分集合に属するメンバー文書を未
分析部分集合のメンバーから外す(S15)。
【0023】引き続き、分析作業を続けたとして、分析
済みの文書部分集合があると(S13でYes)、同様に
その文書部分集合を分析済み部分集合に帰属させる(S
14)。そして、その文書部分集合のメンバーがすべて
このときまで未分析部分集合に属していたならばそのす
べてのメンバー文書を未分析部分集合から外す(S1
5)。それに対して、このとき分析済み部分集合に移し
た部分集合のメンバー文書の一部が既に分析済み部分集
合に移されている文書部分集合のメンバー文書と重複し
ていて、それらが未分析部分集合から既に外されている
場合はまだ外されていない文書のみ未分析部分集合から
外す(S15)。なお、第1の実施の形態で示したよう
に、一つの文書を文書部分集合間で移したとき、移す前
に属していた文書部分集合が分析済み部分集合内にな
く、移した後の文書部分集合が分析済み部分集合内にあ
る場合は、帰属が文書単位で分析済み部分集合へ移る
(S14)。また、逆に、一つの文書を文書部分集合間
で移したとき、移す前に属していた文書部分集合が分析
済み部分集合内にあり、移した後の文書部分集合が分析
済み部分集合内にない場合、つまり、文書の戻しが発生
した場合は(S16でYes)、この文書が分析済み部分
集合内の他の文書部分集合にも重複して存在していない
かどうか判定し(S17)、重複して存在していなけれ
ば、その文書を未分析部分集合に帰属させる(S1
8)。
【0024】一方、利用者が操作部4により分析状況閲
覧要求を出すと(S19でYes)、処理部2は未分析部
分集合内のメンバー文書を表示させる(S20)。これ
により、利用者は分析が終了したか否かを知ることがで
き、終了を指示すると(S21でYes)この動作フロー
が終わり、そうでなければ(S21でNo)ステップS1
3へ戻る。なお、前記においては、一つでも属する文書
部分情報が確定した文書は未分析部分集合から外した
が、たとえ一つの属する文書が確定しても、利用者がそ
の文書を他の文書部分集合にも加える構想などを持って
いてその文書についての分析が終了していないとみなし
たときは、その文書を未分析部分集合に帰属させたまま
にしておくようにすることもできる。以上、本発明の文
書管理装置および文書管理方法について説明したが、こ
の文書管理方法をプログラミングしたプログラムを着脱
可能な記憶媒体に記憶させ、その記憶媒体をパーソナル
コンピュータなど情報処理装置に装填することにより、
それまで本発明によった文書管理が行えなかった情報処
理装置においても本発明によった文書管理を行えるよう
にすることができる。
【0025】
【発明の効果】以上説明したように、本発明によれば、
請求項1および請求項10記載の発明では、分類結果と
して自動的に生成された文書部分集合情報が表示され、
場合により表示内容が修正されるか文書部分集合定義に
係わる情報が入力され、生成された前記文書部分集合情
報や修正/入力された情報に基づいて文書部分集合が定
義され、また、分類結果として分類された各文書部分集
合のメンバー情報が表示され、場合により表示内容が修
正されるか文書部分集合のメンバー定義に係わる情報が
入力され、分類された各文書部分集合のメンバー情報や
修正/入力された情報に基づいて各文書部分集合のメン
バーが定義されるので、適切な文書分類が可能となり、
したがって、分類された文書部分集合の性格を利用者が
容易に理解でき、その結果、所望の文書を容易に見つけ
ることができると共に、少なくとも自動分類結果が生か
される分だけ分類作業も効率的に行うことができる。ま
た、請求項2および請求項11記載の発明では、請求項
1または請求項10記載の発明において、分類された文
書部分集合または定義された文書部分集合にその内容を
表現した属性情報が付加され、付加された属性情報が表
示されるので、分類結果の修正時やその後の文書取り出
し時に、利用者が各文書部分集合の性格を容易に知るこ
とができる。また、請求項3および請求項12記載の発
明では、請求項1、請求項2、請求項10または請求項
11記載の発明において、分類された文書部分集合また
は定義された文書部分集合に対し、その文書群全体にお
ける位置や文書部分集合相互の関係を示す構造が定義さ
れ、定義された内容が表示され、場合により表示内容が
修正されるので、分類結果の修正時やその後の文書取り
出し時に、利用者は個々の文書部分集合の性格を適切に
且つ容易に理解でき、したがって、作業効率がさらに向
上する。
【0026】また、請求項4および請求項13記載の発
明では、請求項1、請求項2、請求項10または請求項
11記載の発明において、分類された各文書部分集合の
メンバー文書または定義された各文書部分集合のメンバ
ー文書に対し、その文書部分集合内部における位置や一
つの文書部分集合に属するメンバー文書相互の関係を示
す構造が定義され、定義された内容が表示され、場合に
より表示内容が修正されるので、分類結果の修正時やそ
の後の文書取り出し時に、利用者は個々の文書部分集合
の性格をさらに適切に且つ容易に理解でき、したがっ
て、作業効率がさらに向上する。また、請求項5および
請求項14記載の発明では、請求項1〜4、または請求
項10〜13記載の発明において、同一メンバー文書を
複数の文書部分集合に帰属させることができるので、多
義的な内容を含む文書を文書部分集合に適切に帰属させ
ることができるし、文書分類も容易になるし、多義的な
内容を有する文書を参照する際、その文書を容易に見つ
けることも可能になる。また、請求項6および請求項1
5記載の発明では、請求項1〜4、または請求項10〜
13記載の発明において、表示または印刷する文書部分
集合関連情報の表示仕様が指定され、指定に従って文書
部分集合やメンバー文書に関する情報が表示または印刷
されるので、利用者の目的にあった表現で文書部分集合
やそのメンバー文書などを表示または印刷させることが
できる。また、請求項7および請求項16記載の発明で
は、請求項1〜4、または請求項10〜13記載の発明
において、定義された文書部分集合が文書自動分類の処
理対象文書群とされるので、定義された複数の文書部分
集合を自動的に再分類させ、より適切な分類結果を得る
ことができるし、一つの定義された文書部分集合を自動
的に細分類することもできる。また、請求項8および請
求項17記載の発明では、請求項1〜4、または請求項
10〜13記載の発明において、定義した文書部分集合
に係わる分類結果情報が新たな分類のための条件として
用いられるので、クラスタ初期重心を指定して自動分類
を行うような場合、指定作業が容易になる。また、請求
項9および請求項18記載の発明では、請求項1〜4、
または請求項10〜13記載の発明において、処理対象
にしているすべての文書のうち、帰属する文書部分集合
が少なくともまだ一つも定まっていない文書を帰属させ
る文書部分集合が定義されるので、分類修正作業の状況
などを容易に把握することができる。
【図面の簡単な説明】
【図1】本発明の各実施の形態の文書群分類装置の構成
ブロック図である。
【図2】本発明の第1の実施の形態を示す文書群分類装
置および文書群分類方法の動作フロー図である。
【図3】本発明の第1の実施の形態を示す文書群分類装
置および文書群分類方法の説明図である。
【図4】(a)(b)は本発明の第1の実施の形態を示す文書
群分類装置および文書群分類方法の他の説明図である。
【図5】本発明の第1の実施の形態を示す文書群分類装
置および文書群分類方法の画面図である。
【図6】本発明の第1の実施の形態を示す文書群分類装
置および文書群分類方法のデータ構成図である。
【図7】本発明の第2の実施の形態を示す文書群分類装
置および文書群分類方法の画面図である。
【図8】本発明の第3の実施の形態を示す文書群分類装
置および文書群分類方法の画面図である。
【図9】本発明の第3の実施の形態を示す文書群分類装
置および文書群分類方法の他の画面図である。
【図10】本発明の第4の実施の形態を示す文書群分類
装置および文書群分類方法の動作フロー図である。
【符号の説明】
1:文書入力部 2:処理部 3:表示部 4:操作部 5:記憶部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/401 310A (72)発明者 剣持 栄治 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 武谷 一寿 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 (72)発明者 長束 哲郎 東京都大田区中馬込1丁目3番6号 株式 会社リコー内 Fターム(参考) 5B009 SA14 5B069 AA01 BA01 BA04 BC10 FA06 HA07 JA02 5B075 NK04 NK46 NR02 NR12 PP03 PQ02 PQ15 PQ23 PQ32 PQ36 PQ62 PR06 QM08 UU06 5E501 AA01 AC18 AC20 AC33 BA03 BA09 CA02 CB09 EA05 EA11 EB05 FA04 FA22 FA44 FB28 FB43

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 文書の内容に従って文書群を分類する文
    書群分類装置において、複数の文書から成る文書群のそ
    れぞれの文書データを保持する文書保持手段と、前記文
    書保持手段に文書データが保持された文書を文書の内容
    に従って複数の文書部分集合に自動的に分類する文書自
    動分類手段と、前記文書自動分類手段による分類結果と
    して生成された文書部分集合情報を表示させ、場合によ
    り表示内容を修正させるか文書部分集合定義に係わる情
    報を入力させる部分集合表示・操作手段と、前記文書自
    動分類手段により生成された文書部分集合情報および/
    または部分集合表示・操作手段により修正/入力された
    情報に基づいて文書部分集合を定義する部分集合定義手
    段と、前記文書自動分類手段による分類結果として分類
    された各文書部分集合のメンバー情報を表示させ、場合
    により表示内容を修正させるか文書部分集合のメンバー
    定義に係わる情報を入力させる部分集合メンバー表示・
    操作手段と、前記文書自動分類手段により分類された各
    文書部分集合のメンバー情報および/または前記部分集
    合メンバー表示・操作手段により修正/入力された情報
    に基づいて各文書部分集合のメンバーを定義する部分集
    合メンバー定義手段とを備えたことを特徴とする文書群
    分類装置。
  2. 【請求項2】 請求項1記載の文書群分類装置におい
    て、分類された文書部分集合または定義された文書部分
    集合にその内容を表現した属性情報を付加する部分集合
    属性情報定義手段を備え、前記部分集合属性情報定義手
    段により付加された属性情報を表示させる構成にしたこ
    とを特徴とする文書群分類装置。
  3. 【請求項3】 請求項1または請求項2記載の文書群分
    類装置において、分類された文書部分集合または定義さ
    れた文書部分集合に対し、その文書群全体における位置
    および/または文書部分集合相互の関係を示す構造を定
    義する部分集合構造定義手段を備え、部分集合表示・操
    作手段が前記部分集合構造定義手段により定義された内
    容を表示させ、場合により表示内容を修正させる構成に
    したことを特徴とする文書群分類装置。
  4. 【請求項4】 請求項1または請求項2記載の文書群分
    類装置において、分類された各文書部分集合のメンバー
    文書または定義された各文書部分集合のメンバー文書に
    対し、その文書部分集合内部における位置および/また
    は一つの文書部分集合に属するメンバー文書相互の関係
    を示す構造を定義する部分集合メンバー構造定義手段を
    備え、部分集合メンバー表示・操作手段が前記部分集合
    メンバー構造定義手段により定義された内容を表示さ
    せ、場合により表示内容を修正させる構成にしたことを
    特徴とする文書群分類装置。
  5. 【請求項5】 請求項1〜4のいずれかに記載の文書群
    分類装置において、部分集合メンバー定義手段が同一メ
    ンバー文書を複数の文書部分集合に帰属させることを可
    能にする構成にしたことを特徴とする文書群分類装置。
  6. 【請求項6】 請求項1〜4のいずれかに記載の文書群
    分類装置において、表示または印刷する文書部分集合関
    連情報の表示仕様を指定させる表示指定手段を備え、前
    記表示指定手段による指定に従って文書部分集合および
    /またはメンバー文書に関する情報を表示または印刷さ
    せる構成にしたことを特徴とする文書群分類装置。
  7. 【請求項7】 請求項1〜4のいずれかに記載の文書群
    分類装置において、部分集合定義手段により定義された
    文書部分集合を文書自動分類手段の処理対象文書群とす
    る構成にしたことを特徴とする文書群分類装置。
  8. 【請求項8】 請求項1〜4のいずれかに記載の文書群
    分類装置において、文書自動分類手段が、部分集合定義
    手段の定義した文書部分集合に係わる分類結果情報を新
    たな分類のための条件として用いる構成にしたことを特
    徴とする文書群分類装置。
  9. 【請求項9】 請求項1〜4のいずれかに記載の文書群
    分類装置において、処理対象にしているすべての文書の
    うち、帰属する文書部分集合が少なくともまだ一つも定
    まっていない文書を帰属させる文書部分集合を定義する
    ように部分集合定義手段を構成したことを特徴とする文
    書群分類装置。
  10. 【請求項10】 文書の内容に従って文書群を分類する
    文書群分類方法において、文書データが保持された文書
    を文書の内容に従って複数の文書部分集合に自動的に分
    類し、分類結果として生成された文書部分集合情報を表
    示させ、場合により表示内容を修正させるか文書部分集
    合定義に係わる情報を入力させ、生成された前記文書部
    分集合情報および/または修正/入力された情報に基づ
    いて文書部分集合を定義し、また、分類結果として分類
    された各文書部分集合のメンバー情報を表示させ、場合
    により表示内容を修正させるか文書部分集合のメンバー
    定義に係わる情報を入力させ、分類された各文書部分集
    合のメンバー情報および/または修正/入力された情報
    に基づいて各文書部分集合のメンバーを定義することを
    特徴とする文書群分類方法。
  11. 【請求項11】 請求項10記載の文書群分類方法にお
    いて、分類された文書部分集合または定義された文書部
    分集合にその内容を表現した属性情報を付加し、付加さ
    れた属性情報を表示させることを特徴とする文書群分類
    方法。
  12. 【請求項12】 請求項10または請求項11記載の文
    書群分類方法において、分類された文書部分集合または
    定義された文書部分集合に対し、その文書群全体におけ
    る位置および/または文書部分集合相互の関係を示す構
    造を定義し、定義された内容を表示させ、場合により表
    示内容を修正させることを特徴とする文書群分類方法。
  13. 【請求項13】 請求項10または請求項11記載の文
    書群分類方法において、分類された各文書部分集合のメ
    ンバー文書または定義された各文書部分集合のメンバー
    文書に対し、その文書部分集合内部における位置および
    /または一つの文書部分集合に属するメンバー文書相互
    の関係を示す構造を定義し、定義された内容を表示さ
    せ、場合により表示内容を修正させることを特徴とする
    文書群分類方法。
  14. 【請求項14】 請求項10〜13のいずれかに記載の
    文書群分類方法において、同一メンバー文書を複数の文
    書部分集合に帰属させることを可能にしたことを特徴と
    する文書群分類方法。
  15. 【請求項15】 請求項10〜13記載の文書群分類装
    置において、表示または印刷する文書部分集合関連情報
    の表示仕様を指定させ、指定に従って文書部分集合およ
    び/またはメンバー文書に関する情報を表示または印刷
    させることを特徴とする文書群分類方法。
  16. 【請求項16】 請求項10〜13記載の文書群分類方
    法において、定義された文書部分集合を文書自動分類の
    処理対象文書群とすることを特徴とする文書群分類方
    法。
  17. 【請求項17】 請求項10〜13記載の文書群分類方
    法において、定義した文書部分集合に係わる分類結果情
    報を新たな分類のための条件として用いることを特徴と
    する文書群分類方法。
  18. 【請求項18】 請求項10〜13記載の文書群分類方
    法において、処理対象にしているすべての文書のうち、
    帰属する文書部分集合が少なくともまだ一つも定まって
    いない文書を帰属させる文書部分集合を定義することを
    特徴とする文書群分類方法。
JP11118795A 1999-04-26 1999-04-26 文書群分類装置および文書群分類方法 Pending JP2000305948A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11118795A JP2000305948A (ja) 1999-04-26 1999-04-26 文書群分類装置および文書群分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11118795A JP2000305948A (ja) 1999-04-26 1999-04-26 文書群分類装置および文書群分類方法

Publications (1)

Publication Number Publication Date
JP2000305948A true JP2000305948A (ja) 2000-11-02

Family

ID=14745306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11118795A Pending JP2000305948A (ja) 1999-04-26 1999-04-26 文書群分類装置および文書群分類方法

Country Status (1)

Country Link
JP (1) JP2000305948A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2010108173A (ja) * 2008-10-29 2010-05-13 Toshiba Corp 文書処理装置
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2010108173A (ja) * 2008-10-29 2010-05-13 Toshiba Corp 文書処理装置
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统

Similar Documents

Publication Publication Date Title
US9679049B2 (en) System and method for providing visual suggestions for document classification via injection
US20070185876A1 (en) Data handling system
JP3303926B2 (ja) 構造化文書分類装置及び方法
JP6002159B2 (ja) 電子文書の検索方法及び電子文書検索のグラフィカル表示方法
CN100462961C (zh) 组织多个文档的方法以及显示多个文档的设备
JP4583003B2 (ja) 検索処理方法及びプログラム
US20060224999A1 (en) Graphical visualization of data product using browser
US20060224974A1 (en) Method of creating graphical application interface with a browser
JP2001092825A (ja) 情報処理装置および情報処理方法
US20080313158A1 (en) Database file management system, integration module and browsing interface of database file management system, database file management method
JP2000067065A (ja) 文書画像識別方法および記録媒体
WO2005086029A1 (en) Data handling system
JP5215046B2 (ja) 文書分類装置
US20080140608A1 (en) Information Managing Apparatus, Method, and Program
US20060224975A1 (en) System for creating a graphical application interface with a browser
US8612882B1 (en) Method and apparatus for creating collections using automatic suggestions
JP2001282819A (ja) データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2000305948A (ja) 文書群分類装置および文書群分類方法
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JPH07121552A (ja) 文書群分析装置
JPH11282882A (ja) 文書管理方法
JP2006048521A (ja) 文書検索装置及びその制御方法、並びに制御プログラム
JP2000259658A (ja) 文書分類装置
JP2003167893A (ja) 特許文献の理解支援システムおよび特許文献の理解支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050113

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080415