JP2001312503A - 文書群分類装置、文書群分類方法及び文書群分類プログラムを記録した記録媒体 - Google Patents

文書群分類装置、文書群分類方法及び文書群分類プログラムを記録した記録媒体

Info

Publication number
JP2001312503A
JP2001312503A JP2000131374A JP2000131374A JP2001312503A JP 2001312503 A JP2001312503 A JP 2001312503A JP 2000131374 A JP2000131374 A JP 2000131374A JP 2000131374 A JP2000131374 A JP 2000131374A JP 2001312503 A JP2001312503 A JP 2001312503A
Authority
JP
Japan
Prior art keywords
document
subset
map
document subset
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000131374A
Other languages
English (en)
Inventor
Makoto Yamazaki
真湖人 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000131374A priority Critical patent/JP2001312503A/ja
Publication of JP2001312503A publication Critical patent/JP2001312503A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】複数の異なる分析観点による文書分類を円滑に
行うことを支援し、文書群を利用して求める知識を獲得
する作業を効率化する文書群分類装置を提供することを
目的とする。 【解決手段】文書の内容に従って複数の文書から成る文
書集合を分類する文書群分類装置において、文書集合を
一つ以上の文書部分集合に分類する分類処理手段と、文
書部分集合のセットについて、各文書部分集合と特定の
評価基準との関係、又は文書部分集合相互間の関係を表
示するための情報である文書部分集合マップを保持する
文書部分集合マップ保持手段と、文書部分集合マップに
基づいて文書部分集合のセットを表示する文書部分集合
表示手段と、文書部分集合マップを編集する文書部分集
合マップ編集手段とを備えるよう構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、分類された文書群
の整理を行うことを支援し、文書群を利用して必要な知
識を獲得する作業を効率化する技術に関する。
【0002】
【従来の技術】近年、インターネット等の普及により、
大量の文書群へのアクセスが可能になり、そのような文
書群を様々な利用者の意図に基づいて、且つ効率的に利
用できるようにする必要性が高まっている。このような
作業では、大量の文書群を意味のある文書部分集合(ク
ラスタ)に分類し、整理しながらその内容を理解、ある
いは解釈し、求める知識を抽出することが一般的であ
る。
【0003】このような分類作業を人的に行おうとする
と、その人的/時間的コストが膨大なものになる。この
間題を解決するために、文書群を自動的に分類する文書
分類装置の技術が提出されている。このような技術の例
としては、特開平7−114572号公報に示されてい
るように、文書に含まれるそれぞれの単語の出現頻度か
ら特徴ベクトルを抽出して、文書群を複数の文書部分集
合に分類する技術がある。
【0004】また、文書分類によって得られた文書部分
集合を分析の目的に応じて整理し、文書群の理解行う作
業を効率化するための技術や、分析でまだ利用されてい
ない分類観点を自動的に抽出し、分析者に知らせること
によって分類観点の偏りを無くすための技術もある。
【0005】
【発明が解決しようとする課題】ここで、分析者が文書
群を分類しながら求める知識を得る際には、一通りの文
書分類を行うだけでは不十分であり、複数の異なる分析
観点から文書分類を行い、生成された文書部分集合を整
理する必要がある。また、文書を分類・整理する際に
は、情報の表現や操作の方法が、行うべき分析に適した
ものであることが求められる。
【0006】また分析作業は、一連の操作や検討が分析
の進展に従って柔軟な順番で行われる複雑なプロセスと
なっており、この作業を円滑に進行するためには、分析
作業に関する情報を整理された形式で表示しなければな
らない。より具体的には、分析作業全体に関する情報を
保持するとともに、当面行うべき一連の操作・検討に集
中できるよう配慮することが必要となる。
【0007】更に、効率的な分析方略を分析者が記録し
ておき、それを再利用可能とすることによって、分析作
業を効率化することも求められる。
【0008】従来提供されている文書分類装置の技術で
は、このような要求に応えることは困難である。
【0009】本発明の課題は、このような従来技術の問
題を解決し、複数の異なる分析観点による文書分類を円
滑に行うことを支援し、また分析者が分析方略を記録・
再利用可能とすることによって、文書群を利用して求め
る知識を獲得する作業を効率化する文書群分類装置を提
供することにある。
【0010】
【課題を解決するための手段】上記の課題を解決するた
めに本発明は次のように構成される。
【0011】請求項1に記載の発明は、文書の内容に従
って複数の文書から成る文書集合を分類する文書群分類
装置において、一つ以上の文書部分集合について、各文
書部分集合と特定の評価基準との関係、又は文書部分集
合相互間の関係を表示するための情報である文書部分集
合マップを保持する文書部分集合マップ保持手段と、文
書部分集合マップに基づいて該関係を表示する文書部分
集合表示手段とを備える。
【0012】本発明によれば、文書部分集合マップを用
いるので、例えば文書部分集合マップを分析者の要求に
応じて変えることにより、分析者の要求に応じた形式で
各文書部分集合と特定の評価基準あるいは各文書部分集
合相互間の関係を表示することが可能となり、文書群の
分類・整理を効率化することができる。
【0013】請求項2に記載の発明は、文書の内容に従
って複数の文書から成る文書集合を分類する文書群分類
装置において、文書集合を一つ以上の文書部分集合に分
類する分類処理手段と、文書部分集合のセットについ
て、各文書部分集合と特定の評価基準との関係、又は文
書部分集合相互間の関係を表示するための情報である文
書部分集合マップを保持する文書部分集合マップ保持手
段と、文書部分集合マップに基づいて文書部分集合のセ
ットを表示する文書部分集合表示手段と、文書部分集合
マップを編集する文書部分集合マップ編集手段とを備え
る。
【0014】本発明によれば、文書部分集合マップを編
集する文書部分集合マップ編集手段を設けたので、容易
に文書部分集合マップを分析者の要求に応じて編集する
ことができ、的確な表示を行うことが可能となり、文書
群の分類・整理を効率化することができる。
【0015】請求項3に記載の発明は、請求項1又は2
の記載において、文書部分集合マップにおけるテンプレ
ートを保持する文書部分集合マップテンプレート保持手
段を更に備え、前記文書部分集合マップ保持手段は該テ
ンプレートを入力するようにする。
【0016】このようにテンプレートを使用することに
より、文書部分集合を配置する枠組み等をテンプレート
として保存し、再利用でき、保存された分析ノウハウを
分析者が再利用することが可能となり、文書群の分類・
整理を効率化することができる。
【0017】請求項4に記載の発明は、請求項3の記載
において、前記文書部分集合マップテンプレート保持手
段は、文書部分集合マップの枠組み及び文書部分集合マ
ップに配置されるべき文書部分集合を取得する一つ以上
の文書分類基準を保持し、前記分類処理手段はその文書
分類基準に従って少なくとも一つの文書部分集合を得る
ようにする。
【0018】本発明によれば、文書部分集合を配置する
枠組みに加え、配置すべき文書部分集合をもたらす文書
分類基準をテンプレートが有することとしたため、テン
プレートに基づき、分析に適した文書部分集合を容易に
生成することが可能となり、文書群の分類・整理を更に
効率化することができる。
【0019】請求項5に記載の発明は、請求項1又は2
の記載において、前記文書部分集合マップ保持手段は、
複数の文書部分集合マップを保持し、前記文書部分集合
表示手段はそのうちから選択された文書部分集合マップ
に基づいて表示を行うようにする。
【0020】本発明によれば、複数保持されたテンプレ
ートに基づく複数の文書部分集合マップを保持し、当面
行うべき分析に適切なものを選択することが可能にな
り、異なる目的で分析が行われる場合でもそれぞれに適
切な表示・操作を実現することができる。
【0021】請求項6に記載された発明は、請求項2の
記載において、前記文書部分集合マップ編集手段は、表
示された文書部分集合のセットに関して各文書部分集合
と特定の概念あるいは評価基準との関係、又は文書部分
集合相互間の関係を編集させるようにする。
【0022】本発明によれば、分析者が文書部分集合の
関係を編集できるので、より的確な表示を行うことが可
能となる。
【0023】請求項7に記載の発明は、請求項1又は2
の記載において、文書部分集合マップの内容に応じた所
定の値を文書に付与しておき、文書部分集合毎に該所定
の値の集計値を求め、該集計値に対応させて文書部分集
合を文書部分集合マップに配置する手段を有する。
【0024】本発明によれば、文書部分集合を自動的に
配置することが可能となり、迅速に分析を行うことが可
能となる。自動的に表示した後、文書部分集合マップ編
集手段にて編集することもできる。
【0025】請求項8に記載の発明は、請求項1ないし
7のうちのいずれか1項の記載において、文書部分集合
マップの枠組み及び文書部分集合マップに配置されるべ
き文書部分集合をもたらす一つ以上の文書分類基準を含
むテンプレートを生成する手段を有する。これにより、
分析者の要求に合ったテンプレートを生成できる。ま
た、特殊な分析の目的やノウハウに対応した様々なテン
プレートを分析者が生成できるようになる。
【0026】請求項9に記載の発明は、前記分類処理手
段は前記文書部分集合マップ編集手段において指定され
た編集操作に応じて、新たな文書部分集合を生成するよ
うにする。
【0027】本発明によれば、文書部分集合マップ上で
行われた分析者の操作に応じて新たな文書部分集合を生
成することを可能にしているので、分析者が必要と感じ
た分類処理を速やかに行うことができ、これによって文
書群分類作業を効率化することができる。
【0028】請求項10〜13に記載された発明は、文
書群分類方法であり、上記の文書分類装置と同様な作用
効果を奏する。また、請求項14〜22に記載された発
明は、文書群分類プログラムを記録したコンピュータ読
み取り可能な記録媒体であり、このプログラムをコンピ
ュータにインストールし、実行させることにより、上記
の文書群分類装置と同様な作用効果を奏する。
【0029】
【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。
【0030】図1は本発明の一実施例を示す文書群分類
装置の構成図である。図示したように、この実施例の文
書群分類装置は、複数の文書からなる文書集合(文書
群)のそれぞれの文書データを保持する文書保持手段で
ある文書保持部1、文書集合を複数の文書部分集合に分
類する文書分類処理手段である分類処理部2、分類処理
部2の処理結果である一つ以上の文書部分集合を保持す
る文書部分集合保持部3、文書部分集合のセットについ
て、各文書部分集合と特定の概念あるいは評価基準との
関係、または文書部分集合相互間の関係を表示するため
の情報を保持する文書部分集合マップ保持手段である文
書部分集合マップ保持部4、文書部分集合マップに関し
て既に定義されたテンプレートを保持する文書部分集合
マップテンプレート保持部5、文書部分集合マップに基
づいて文書部分集合のセットを表示する文書部分集合表
示手段である文書部分集合表示生成部6およびCRTデ
ィスプレイ等の表示装置7、各文書部分集合と特定の概
念あるいは評価基準との関係を分析者が編集する文書部
分集合マップ編集手段である文書部分集合マップ編集部
8およびキーボードやマウス等から成る入力装置9を有
する。
【0031】なお、本発明の文書群分類装置の構成は、
図1に示した例に限定されることなく、各々の構成要件
をソフトウェア(プログラム)で構築し、ディスク装置
等に記録しておき、必要に応じて文書群分類処理を行う
コンピュータにインストールして後述する本発明の処理
を行うことも可能である。更に、構築されたプログラム
をフロッピー(登録商標)ディスク、メモリカード、C
D−ROM等の可搬記録媒体に格納し、このような文書
群分類処理を用いる場面で汎用的に使用することも可能
である。
【0032】図2は、文書群分類装置として使用される
コンピュータの構成例を示す図である。本コンピュータ
は、CPU(中央処理装置)101、メモリ102、入
力装置103、表示装置104、CD−ROMドライブ
105、ハードディスク106を有する。CPU101
は装置の全体を制御する。メモリ102はCPU101
で処理するデータやプログラムを保持する。入力装置1
03はキーボードやマウス等のデータを入力するための
装置である。表示装置104はディスプレイ等の装置で
ある。CD−ROMドライブ105はCD−ROM等を
駆動し、読み書きを行う。ハードディスク106には、
プログラムや、本発明の処理に関わる文書データが格納
される。本発明の処理を実行するプログラムは、コンピ
ュータに予めインストールされていてもよいし、例えば
CD−ROMに格納され、CD−ROMドライブ105
を介してハードディスク106にロードするようにして
もよい。プログラムが起動されると、所定のプログラム
部分がメモリ102に展開され、処理が実行される。
【0033】また、図1に示した例の文書群分類装置の
各部において、分類処理部2、文書部分集合表示生成部
5、文書部分集合マップ編集部8はメモリおよびCPU
を共有するよう構成することもできる。また、前記文書
保持部1、文書部分集合保持部3、文書部分集合マップ
保持部4、文書部分集合マップテンプレート保持部5は
例えばハードディスクおよびメモリの部分領域として構
成することもできる。以下、図1に示した文書群分類装
置の各部について更に説明する。
【0034】文書保持部1には、文書データベース方式
やリレーショナルデータベース方式等を用いることがで
きる。なお、文書データベース方式とは、例えば各文書
のインデックス情報として、文書番号、文書名、登録
日、登録者名、キーワード等を登録し、そのインデック
ス情報に対応付けて文書コンテンツを保管するようにし
た方式である。保持される文書には、その構成要素とし
て、数値、テキスト、画像、音声等様々な形式のデータ
を含むことができる。構造化文書の形態を用いた場合に
は、構成要素に関する制約条件、構成要素間の関係情報
もまた、文書に内包することができる。
【0035】分類処理部2は、文書群をその内容に従っ
て分類するものであればよく、文書から抽出した特徴量
をベクトル空間として表現し、ベクトル間の類似性によ
って文書の分類を行う手法等が利用可能である。これは
例えば、文書に含まれるテキストから形態素解析等の自
然言語処理によって単語を抽出し、個々の単語を軸とし
た特徴空間に表現されるそれぞれの文書に対応した特徴
ベクトルを求め、求められた特徴ベクトルに対してカイ
自乗法、判別分析手法、またはクラスタ分析手法等を適
用することにより文書群分類を行う手法である。
【0036】分類処理部2において、指定された文書分
類基準に基づいて文書群を分類するようにすることもで
きる。文書分類基準とは、ある文書部分集合にある文書
が属するかどうかを判断する際の基準となる条件であ
り、これは例えば「ある単語Aを含むこと」という単語
の含有条件、「ある単語Bを含まないこと」という単語
の非含有条件として指定する。単語の含有・非含有条件
はテキストの全文検索技術を用い、文書が含むテキスト
の内容を走査して、特定文書がその部分集合に属するか
否かの判断を行うことによって実現が可能である。
【0037】文書部分集合保持部3では、分類処理部2
によって生成された文書部分集合を保持する。図3に、
文書部分集合保持部3にて管理される文書群の例を示
す。この例では、文書に文書IDを付与して保持し、分
類がなされている。また、文書部分集合にも、各文書部
分集合に対しユニークなIDを付与して管理している。
文書部分集合保持部3では、このような情報をテーブル
あるいはそれに類似した形式によって保持する。
【0038】文書部分集合マップ保持部4では、文書部
分集合マップを表示するための種々の情報を保持する。
その情報として、表示の枠組み、評価基準、各文書部分
集合、等を表示する位置、表示アイコンの形態等を保持
する。ここで表示の枠組みとは、文書部分集合を配置す
る視覚的構造である。分析の目的によって、適する枠組
みは異なるため、種々の枠組みを表示できるよう、文書
部分集合マップ保持部4では様々な枠組みを持つ文書部
分集合マップを保持し、文書部分集合表示生成部6はそ
れらに関する表示データを生成する。
【0039】枠組みの例と、その枠組みによって適切に
表現できる関係性について、以下に示す。
【0040】 枠組み 表現するのに適した関係性 階層ツリー、アウトライン 階層・包含関係 2次元・3次元マップ 近接関係、各軸方向の順位性 表形式 対比 時系列配置 トレンド、推移 リスト(1次元マップ) 並置、順位性 ネットワーク 関係の有無・種類(強さ等) ベン図 包含関係 グラフ 特定の値に関する対比、分布等 評価基準とは、文書部分集合を2次元マップ、3次元マ
ップのような枠組みに配置した場合には、2次元空間、
または3次元空間において想定する軸のラベルに相当す
る。また、表の枠組みに従って文書部分集合を配置する
場合、評価基準は列あるいは行に関するラベルに相当す
る。文書部分集合マップ保持部4では、これらの情報を
テーブルあるいはそれに類似した形式によって保持す
る。
【0041】文書部分集合マップテンプレート保持部5
は、上記の枠組みや評価基準をテンプレートとして保管
しており、文書部分集合生成に際しそのテンプレートを
呼び出して利用する。また、テンプレートは文書部分集
合マップに配置されるべき文書部分集合をもたらす一つ
以上の文書分類基準も有する。この文書分類基準を利用
して文書分類部2にて分類処理を行う。
【0042】また、例えば文書部分集合マップ保持部4
に保持された文書部分集合マップから、文書部分集合マ
ップの典型的な枠組み、ならびに文書部分集合マップに
配置されるべき文書部分集合をもたらす一つ以上の文書
分類基準を含む文書部分集合マップテンプレートを容易
に生成することもできる。このように、文書部分集合マ
ップのテンプレートをユーザーが容易に編集できるの
で、分析の特殊な目的やノウハウに対応した様々なテン
プレートを分析者が生成できる。
【0043】文書部分集合表示生成部6では、文書部分
集合に関する情報、ならびに文書部分集合マップ保持部
4に保持された文書部分集合マップの情報に基づいて、
文書部分集合のセットとして表示すべき画像等のデータ
を生成する。表示においては、文書部分集合を代表する
アイコン等に加え、各文書部分集合の特徴的な情報を合
わせて表示することにより、表示内容と文書部分集合と
の関係をわかりやすくし、文書群全体に関する理解を促
進することができる。
【0044】このような情報としては、各文書部分集合
の名称、それが含む文書の数、また、ユーザーによって
入力された、あるいは文書の特定の構成要素を用いて生
成した文書部分集合の内容に関する要約等が含まれる。
文書部分集合が含む文書数等に対応して、文書部分集合
を代表するアイコン等の大きさ、色等を変化させること
により、表示内容を簡潔にし、そのわかりやすさを向上
させることができる。表示にはCRTディスプレイ等の
表示装置7を用いる。
【0045】文書部分集合マップ編集部8およびキーボ
ードやマウス等から成る入力装置9は、表示された文書
部分集合マップの内容を分析者が編集する手段を提供す
る。この編集操作の内容は指定された文書部分集合マッ
プの枠組みによって異なる。次に、上述した枠組みの具
体例を説明する。
【0046】(二次元マップ)図4は、本発明の文書群
分類装置をある製品について寄せられた顧客要望の分析
に応用した際の、画面表示例である。ここでは枠組みと
して2次元マップを採用した例を示している。このよう
な表示を得ることで、分析者は例えば「要望が強く、対
応の容易なものから対応を考えよう。そのような要望の
内容は何か」等の問いに対する検討を容易に行うことが
できる。
【0047】なお、この図で「外形デザインの改善」等
は文書部分集合に付されたタイトルであり、それに近接
して示された円は文書部分集合を代表するアイコンであ
る。二つの軸に付された「対応困難−対応容易」、「強
い−弱い」は分析者が任意に指定した評価基準のラベル
であり、このように文書部分集合以外の情報を表示させ
ることによって、配置の基準とすべき概念を明らかに
し、また配置操作の容易さを向上させることができる。
【0048】各文書に要望の強さや、対応の容易さの度
合いを示す値があらかじめ付与されている場合には、各
文書部分集合に含まれる文書について、その値を集計し
た値(集計値)を求め、値を対応づける各評価軸上の位
置を決定することによって、文書群部分集合アイコンを
2次元マップ上に配置する位置を自動的に求めることも
できる。ここで集計値としては、所属する文書について
の値の合計、平均値、中央値や、所属する文書の数等を
利用することができる。
【0049】また、各文書に評価基準として直接利用可
能な値が含まれていない場合でも、文書部分集合の内容
に従い、この軸によって構成された平面上の位置とし
て、分析者が任意に文書部分集合を配置することができ
る。この操作は、例えば文書部分集合を表すアイコン
を、マウスを用いてドラッグ&ドロップ換作することに
よって行う。更に、上述のように集計値を用いて自動的
に配置された文書部分集合アイコンの表示に対して、分
析者がマウス操作等によって表示位置や大きさを任意に
変更することを可能とすれば、分析者が強調等を加えて
表したい情報を適切に示した表現を得ることができる。
【0050】文書部分集合アイコンの属性を、文書部分
集合の特徴に応じて変化させることにより、二次元マッ
プが表す情報を更に豊富にすることができる。例えば、
個々の文書部分集合に含まれる文書の数に応じて文書部
分集合アイコンの大きさを設定させることにより、分析
者が各文書部分集合の大きさ(文書数)を容易に把握す
ることができる。図4の表現に、アイコンの大きさによ
る文書数の表現を加えた例を、図5に示す。
【0051】本発明の文書群分類装置では、例えばこの
例に示された、2次元マップという枠組みの種類、二つ
の評価基準(「解決困難−解決容易」、「強い−弱
い」)、また、分析者が任意に設定した各文書部分集合
の配置を文書部分集合マップテンプレート保持部5にテ
ンプレートとして保管しておき、顧客要望を示す文書の
集合を分析する際に呼び出して利用する。
【0052】(表形式)図6は、本発明の文書群分類装
置を特許情報の分析に応用した際の画面表示例を示す図
である。ここでは、枠組みとして表の形式を採用し、評
価基準として「企業名(X社、Y社、Z社)」、「技術
分野(音声、画像、動画)」を指定している。部分集合
A−Iとして示された矩形は、各評価基準に対応する文
書部分集合を代表するアイコンである。
【0053】本発明における文書群分類装置では、テン
プレートに含まれた文書分類基準を用いて文書部分集合
を生成するが、これは例えば、「出願人が企業名X杜で
あり、技術分野が音声である」を意味する文書分類基準
を利用して文書部分集合Aを生成し、同様に他の文書部
分集合についてもテンプレートに含まれる文書分類基準
を用いて生成することによって、必要な文書部分集合お
よび文書部分集合マップを獲得、表示することにより行
う。この場合、分類処理部2は文書分類基準を設定でき
る方法を実現できればよく、例えば、分類処理部2にリ
レーショナルデータベースの検索機能を用い、SQL文
として表規された文書分類基草を用いて分類処理を実行
することができる。
【0054】(時系列配置)特許情報等では、各文書部
分集合に属するそれぞれの文書を作成日や出願日等の時
期に対応づけて表示することによって効率的に分析を行
うことが可能となる。図7は、ある時期に出願された特
許の文書集合を出願人によってX社、Y社、Z社の3つ
に分類し、属する特許文書の出願時期を時系列表示形式
で表現した図である。各企業名の段にある黒い矩形は、
当該企業により特許の出願が行われた時期を示す。すな
わち、黒い矩形は、出願日がその範囲にある特許出願資
料が存在することを示す。この矩形の幅と表示位置は、
文書中の特許出願日を参照し、その値の最大値および最
小値を得ることによって求めることができる。このよう
な表示を見ることによって、分析者は各企業がどの時期
に特許の出願を行っているか等の情報を効率的に把握す
ることができる。
【0055】図7の表示に対して、更に、色や濃度等
を、各時期に対応する所属文書の数に従って変化させる
ことによって、出願の密度(一定の時期に出願された特
許の数)を知ることができる。図8は、図7に濃度によ
る出願の密度に関する情報を加えた表現を示す図であ
る。ここでは、濃度の濃い部分ほど、多くの特許が出願
されている時期を示している。
【0056】(階層ツリー)図9は、一群の文書部分集
合に対して分析者が設定した階層関係に基づいて、文書
部分集合を配置した表示の例を示す。矩形は各文書部分
集合を示し、矩形を結ぶ線分は文書部分集合の間にある
階層関係を表現している。この例では、文書部分集合
「購入動機」は下位の集合「価格の安さ」と「機能のよ
さ」を包含し、「機能のよさ」は更に「印刷速度」と
「静音性」を含んでいることが表現されている。文書部
分集合間の関係は、それぞれに含まれる文書群の意味を
考慮して分析者が任意に設定することができる。この操
作は、表示画面上でポインティングデバイスを用いたド
ラッグ&ドロップ操作等により直接行うことができる。
これにより操作者は分析に適した表示を効率的に行うこ
とができる。
【0057】図9では矩形に文書部分集合の名称(「購
入動機」等)を示したが、各文書部分集合について、含
まれる文書の数等付加的な情報を同時に表示することに
より、それぞれの文書部分集合の特徴をより豊富に示す
ことも可能である。この例を図10に示す。各名称に文
書の数を示した例である。
【0058】本発明の文書群分類装置では、文書部分集
合マップを複数保持する。これにより、ある目的で行わ
れる分析作業に、視点を異にした複数の分析作業が含ま
れる場合でも効率的に分析を行うことが可能である。
【0059】例えば、特許情報を利用した技術動向の分
析作業に、(1)企業毎に数年間の技術分野のトレンド
を把握する分析作業と、(2)企業毎に共通の技術分野
によって分類し、その分布を把握する分析作業とが含ま
れている場合、(1)、(2)に対応する2つの文書部
分集合マップを保持しておき、それを必要に応じて切り
替えながら、(1)、(2)の作業を順次、あるいは並
行させながら行うことが可能となる。
【0060】切り替えの具体的操作の例として、文書部
分集合表示生成部6において複数の文書部分集合マップ
に対応した表示内容をGUI環境における各ウィンドウ
の内容として生成し、それをマウスクリックによる選択
操作によって切り替える方法がある。
【0061】本発明の文書群分類装置では、文書部分集
合マップ編集部8に対して指示された分析者からの指示
に応じて、分類処理部2に対して文書部分集合の分類実
行がトリガされ、その結果が文書部分集合保持部3に保
持される。得られた新たな文書部分集合は、直ちに文書
部分集合表示生成部6によって表示する。
【0062】図4を例にとれば、分析者は文書部分集合
「外形デザイン改善」のアイコンをマウスのクリック等
によって指示し、分類を実行ナることにより、外形のど
の部分のデザインに対し改善の要求があるのか等のより
群細な検討を行うことができる。
【0063】図4−図10に示したような画面表示にお
いては、表示されたアイコンを例えばマウスのクリック
によって指示することにより、そのアイゴンに対応した
文書部分集合の特徴や、それに属する文書のリストを表
示するよう、文書群分類装置を構成することも可能であ
る。これによって分析者は、ある文書部分集合につい
て、その内容と他の文書部分集合との相互関係とを交互
に閲覧しながら、より適切に分析を行うことが可能にな
る。
【0064】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
【0065】
【発明の効果】上記の通り本発明によれば、分析者の要
求に応じた形式で各文書部分集合と特定の評価基準ある
いは各文書部分集合相互間の関係を表示することが可能
となり、文書部分集合を配置する枠組み等をテンプレー
トとして保存し再利用することを可能としたために、保
存された分析ノウハウを分析者が再利用することが可能
となる。従って、文書群の分類・整理を効率化すること
ができる。
【0066】また、文書部分集合を配置する枠組みに加
え、配置すべき文書部分集合をもたらす文書分類基準を
保存し、再利用することを可能としたために、文書群の
分類・整理を更に効率化することができる。
【0067】また、複数保持されたテンプレートから、
当面行うべき分析に適切なものを選択することが可能に
なり、異なる目的で分析が行われる場合でもそれぞれに
適切な表示・操作を実現することができる。
【0068】また、文書部分集合マップのテンプレート
をユーザーが容易に編集する手段を提供しており、これ
によって分析の特殊な目的やノウハウに対応した様々な
テンプレートを分析者が生成できるようになる。
【0069】更に、文書部分集合マップ上で行われた分
析者の操作に応じて新たな文書部分集合を生成すること
を可能にしているので、分析者が必要と感じた分類実行
を速やかに行うことができ、これによって文書群分類作
業を効率化することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す文書群分類装置の構成
図である。
【図2】文書群分類装置として使用できるコンピュータ
の構成例を示す図である。
【図3】文書部分集合保持部3にて管理される文書群の
例を示す図である。
【図4】本発明の文書群分類装置をある製品について寄
せられた顧客要望の分析に応用した際の画面表示例であ
る。
【図5】図4の表現に、アイコンの大きさによる文書数
の表現を加えた例である。
【図6】本発明の文書群分類装置を特許情報の分析に応
用した際の画面表示例である。
【図7】特許文書の出願時期を時系列表示形式で表現し
た図である。
【図8】図7に濃度による出願の密度に関する情報を加
えた表現を示す図である。
【図9】一群の文書部分集合に対して分析者が設定した
階層関係に基づいて、文書部分集合を配置した表示の例
である。
【図10】図9に示す例において、付加的な情報として
文書の数を表示した図である。
【符号の説明】
1 文書保持部 2 分類処理部 3 文書部分集合保持部 4 文書部分集合マップ保持部 5 文書部分集合マップテンプレート保持部 6 文書部分集合表示生成部 7 表示装置 8 文書部分集合マップ編集部 9 入力装置 101 CPU 102 メモリ 103 入力装置 104 表示装置 105 CD−ROMドライブ 106 ハードディスク

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 文書の内容に従って複数の文書から成る
    文書集合を分類する文書群分類装置において、 一つ以上の文書部分集合について、各文書部分集合と特
    定の評価基準との関係、又は文書部分集合相互間の関係
    を表示するための情報である文書部分集合マップを保持
    する文書部分集合マップ保持手段と、 文書部分集合マップに基づいて該関係を表示する文書部
    分集合表示手段とを備えたことを特徴とする文書群分類
    装置。
  2. 【請求項2】 文書の内容に従って複数の文書から成る
    文書集合を分類する文書群分類装置において、 文書集合を一つ以上の文書部分集合に分類する分類処理
    手段と、 文書部分集合のセットについて、各文書部分集合と特定
    の評価基準との関係、又は文書部分集合相互間の関係を
    表示するための情報である文書部分集合マップを保持す
    る文書部分集合マップ保持手段と、 文書部分集合マップに基づいて文書部分集合のセットを
    表示する文書部分集合表示手段と、 文書部分集合マップを編集する文書部分集合マップ編集
    手段とを備えたことを特徴とする文書群分類装置。
  3. 【請求項3】 文書部分集合マップにおけるテンプレー
    トを保持する文書部分集合マップテンプレート保持手段
    を更に備え、 前記文書部分集合マップ保持手段は該テンプレートを入
    力する請求項1又は2に記載の文書群分類装置。
  4. 【請求項4】 前記文書部分集合マップテンプレート保
    持手段は、文書部分集合マップの枠組み及び文書部分集
    合マップに配置されるべき文書部分集合を取得する一つ
    以上の文書分類基準を保持し、 前記分類処理手段はその文書分類基準に従って少なくと
    も一つの文書部分集合を得る請求項3に記載の文書群分
    類装置。
  5. 【請求項5】 前記文書部分集合マップ保持手段は、複
    数の文書部分集合マップを保持し、前記文書部分集合表
    示手段はそのうちから選択された文書部分集合マップに
    基づいて表示を行う請求項1又は2に記載の文書群分類
    装置。
  6. 【請求項6】 前記文書部分集合マップ編集手段は、表
    示された文書部分集合のセットに関して各文書部分集合
    と特定の概念あるいは評価基準との関係、又は文書部分
    集合相互間の関係を編集させる請求項2に記載の文書群
    分類装置。
  7. 【請求項7】 文書部分集合マップの内容に応じた所定
    の値を文書に付与しておき、文書部分集合毎に該所定の
    値の集計値を求め、該集計値に対応させて文書部分集合
    を文書部分集合マップに配置する手段を有する請求項1
    又は2に記載の文書群分類装置。
  8. 【請求項8】 文書部分集合マップの枠組み及び文書部
    分集合マップに配置されるべき文書部分集合をもたらす
    一つ以上の文書分類基準を含むテンプレートを生成する
    手段を有する請求項1ないし7のうちいずれか1項に記
    載の文書群分類装置。
  9. 【請求項9】 前記分類処理手段は前記文書部分集合マ
    ップ編集手段において指定された編集操作に応じて、新
    たな文書部分集合を生成する請求項2ないし8のうちい
    ずれか1項に記載の文書群分類装置。
  10. 【請求項10】 文書の内容に従って複数の文書から成
    る文書集合を分類する文書群分類方法において、 文書集合を一つ以上の文書部分集合に分類し、 文書部分集合のセットについて、各文書部分集合と特定
    の評価基準との関係、又は文書部分集合相互間の関係を
    表示するための情報である文書部分集合マップを保持
    し、 文書部分集合マップに基づいて文書部分集合のセットを
    表示することを特徴とする文書群分類方法。
  11. 【請求項11】 文書部分集合マップの生成においてテ
    ンプレートを使用し、該テンプレートは文書部分集合マ
    ップの枠組み及び文書部分集合マップに配置されるべき
    文書部分集合を取得する一つ以上の文書分類基準を有す
    る請求項10に記載の文書群分類方法。
  12. 【請求項12】 複数の文書部分集合マップを保持し、
    そのうちから選択された文書部分集合マップに基づいて
    表示を行う請求項10に記載の文書群分類方法。
  13. 【請求項13】 文書部分集合マップの内容に応じた所
    定の値を文書に付与しておき、文書部分集合毎に該所定
    の値の集計値を求め、該集計値に対応させて文書部分集
    合を文書部分集合マップに配置する請求項10に記載の
    文書群分類方法。
  14. 【請求項14】 文書の内容に従って複数の文書から成
    る文書集合を分類する処理をコンピュータに実行させる
    文書群分類プログラムを記録したコンピュータ読み取り
    可能な記録媒体において、 一つ以上の文書部分集合について、各文書部分集合と特
    定の評価基準との関係、又は文書部分集合相互間の関係
    を表示するための情報である文書部分集合マップを保持
    する文書部分集合マップ保持手順と、 文書部分集合マップに基づいて該関係を表示する文書部
    分集合表示手順とをコンピュータに実行させる文書群分
    類プログラムを記録したコンピュータ読み取り可能な記
    録媒体。
  15. 【請求項15】 文書の内容に従って複数の文書から成
    る文書集合を分類する処理をコンピュータに実行させる
    文書群分類プログラムを記録したコンピュータ読み取り
    可能な記録媒体において、 文書集合を一つ以上の文書部分集合に分類する分類処理
    手順と、 文書部分集合のセットについて、各文書部分集合と特定
    の評価基準との関係、又は文書部分集合相互間の関係を
    表示するための情報である文書部分集合マップを保持す
    る文書部分集合マップ保持手順と、 文書部分集合マップに基づいて文書部分集合のセットを
    表示する文書部分集合表示手順と、 文書部分集合マップを編集する文書部分集合マップ編集
    手順とをコンピュータに実行させる文書群分類プログラ
    ムを記録したコンピュータ読み取り可能な記録媒体。
  16. 【請求項16】 文書部分集合マップにおけるテンプレ
    ートを保持する文書部分集合マップテンプレート保持手
    順を更に備え、 前記文書部分集合マップ保持手順は該テンプレートを入
    力とする請求項14又は15に記載の文書群分類プログ
    ラムを記録したコンピュータ読み取り可能な記録媒体。
  17. 【請求項17】 前記文書部分集合マップテンプレート
    保持手順は、文書部分集合マップの枠組み及び文書部分
    集合マップに配置されるべき文書部分集合を取得する一
    つ以上の文書分類基準を保持する手順を有し、 前記分類処理手順はその文書分類基準に従って少なくと
    も一つの文書部分集合を得る請求項16に記載の文書群
    分類プログラムを記録したコンピュータ読み取り可能な
    記録媒体。
  18. 【請求項18】 前記文書部分集合マップ保持手順は、
    複数の文書部分集合マップを保持する手順を有し、前記
    文書部分集合表示手順はそのうちから選択された文書部
    分集合マップに基づいて表示を行う手順を有する請求項
    14又は15に記載の文書群分類プログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  19. 【請求項19】 前記文書部分集合マップ編集手順は、
    表示された文書部分集合のセットに関して各文書部分集
    合と特定の概念あるいは評価基準との関係、又は文書部
    分集合相互間の関係を編集させる手順を有する請求項1
    5に記載の文書群分類プログラムを記録したコンピュー
    タ読み取り可能な記録媒体。
  20. 【請求項20】 文書部分集合マップの内容に応じた所
    定の値を文書に付与しておき、文書部分集合毎に該所定
    の値の集計値を求め、該集計値に対応させて文書部分集
    合を文書部分集合マップに配置する手順を有する請求項
    14又は15に記載の文書群分類プログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  21. 【請求項21】 文書部分集合マップの枠組み及び文書
    部分集合マップに配置されるべき文書部分集合をもたら
    す一つ以上の文書分類基準を含むテンプレートを生成す
    る手順を有する請求項14ないし20のうちいずれか1
    項に記載の文書群分類プログラムを記録したコンピュー
    タ読み取り可能な記録媒体。
  22. 【請求項22】 前記分類処理手順は前記文書部分集合
    マップ編集手順において指定された編集操作に応じて、
    新たな文書部分集合を生成する手順を有する請求項15
    ないし21のうちいずれか1項に記載の文書群分類プロ
    グラムを記録したコンピュータ読み取り可能な記録媒
    体。
JP2000131374A 2000-04-28 2000-04-28 文書群分類装置、文書群分類方法及び文書群分類プログラムを記録した記録媒体 Pending JP2001312503A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000131374A JP2001312503A (ja) 2000-04-28 2000-04-28 文書群分類装置、文書群分類方法及び文書群分類プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000131374A JP2001312503A (ja) 2000-04-28 2000-04-28 文書群分類装置、文書群分類方法及び文書群分類プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001312503A true JP2001312503A (ja) 2001-11-09

Family

ID=18640282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000131374A Pending JP2001312503A (ja) 2000-04-28 2000-04-28 文書群分類装置、文書群分類方法及び文書群分類プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001312503A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014174632A (ja) * 2013-03-06 2014-09-22 Fujitsu Ltd 電子データ承認方法、及び電子データ承認サーバ
JP2015026355A (ja) * 2013-06-17 2015-02-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014174632A (ja) * 2013-03-06 2014-09-22 Fujitsu Ltd 電子データ承認方法、及び電子データ承認サーバ
JP2015026355A (ja) * 2013-06-17 2015-02-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
US9659088B2 (en) 2013-06-17 2017-05-23 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
JP3577819B2 (ja) 情報探索装置及び情報探索方法
JP4583003B2 (ja) 検索処理方法及びプログラム
US20070078873A1 (en) Computer assisted domain specific entity mapping method and system
US20060116994A1 (en) System and method for interactive multi-dimensional visual representation of information content and properties
WO2006065823A1 (en) Computer assisted domain specific entity mapping method and system
WO2006065816A1 (en) Domain-specific data entity mapping method and system
JPH0589173A (ja) 構造化文書分類装置
US20060224974A1 (en) Method of creating graphical application interface with a browser
JPS603056A (ja) 情報整理装置
JP2000285140A (ja) 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US20060224984A1 (en) Apparatus for creating graphical visualization of data with a browser
US20060136417A1 (en) Method and system for search, analysis and display of structured data
EP1667034A2 (en) System and method for interactive multi-dimensional visual representation of information content and properties
US20080184107A1 (en) Method and apparatus for creating a tool for generating an index for a document
Koch et al. Iterative integration of visual insights during patent search and analysis
Hearst et al. Sewing the seams of sensemaking: A practical interface for tagging and organizing saved search results
JP3577822B2 (ja) 情報提示装置及び情報提示方法
US11816770B2 (en) System for ontological graph creation via a user interface
US20060224975A1 (en) System for creating a graphical application interface with a browser
Cardoso et al. The Multimodal Annotation Software Tool (MAST)
JP2008234670A (ja) 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4886266B2 (ja) 文献調査方法、文献調査システムおよび文献調査プログラム
Chen et al. DCTracVis: a system retrieving and visualizing traceability links between source code and documentation
Elias Enhancing User Interaction with Business Intelligence Dashboards
JP2001312503A (ja) 文書群分類装置、文書群分類方法及び文書群分類プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080408