JP2003141129A - 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2003141129A
JP2003141129A JP2001342327A JP2001342327A JP2003141129A JP 2003141129 A JP2003141129 A JP 2003141129A JP 2001342327 A JP2001342327 A JP 2001342327A JP 2001342327 A JP2001342327 A JP 2001342327A JP 2003141129 A JP2003141129 A JP 2003141129A
Authority
JP
Japan
Prior art keywords
document
classification
categories
designated
designating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001342327A
Other languages
English (en)
Inventor
Tomoaki Deguchi
知哲 出口
Koji Yukiya
光二 雪屋
Itsuki Shimokooriyama
敬己 下郡山
Yasuhiko Asakawa
泰彦 浅川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2001342327A priority Critical patent/JP2003141129A/ja
Publication of JP2003141129A publication Critical patent/JP2003141129A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の文書を自動かつ詳細に分類するととも
に、その分類体系や分類された各文書の概要を分かりや
すく操作者に提示すること。 【解決手段】 与えられた複数の文書をベクトル空間法
にもとづいて複数のカテゴリに分類する、「CBCla
ssifier」のような文書分類エンジンを再帰的に
呼び出すことで、図4に示すように、前段の分類である
カテゴリに分類された文書群を後段の分類でさらに複数
のカテゴリに分類するような多段階の文書分類をおこな
う。さらに、各段階で使用されたカテゴリの上下関係を
ツリー状に画面表示し、ツリーの末端のカテゴリが指定
されると、当該カテゴリに分類された文書の一覧を画面
表示する。なお、一つの文書が末端のカテゴリの複数に
重複して分類されている場合は、すべての分類経路すな
わち当該文書に到達するための上記ツリー上の全経路を
あわせて表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、電子文書をあら
かじめ用意された複数のカテゴリに分類する文書分類装
置、文書分類方法、その方法をコンピュータに実行させ
るプログラムおよびそのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】インターネットに存在するWEBページ
の数は数億とも言われ、そこから引き出せる情報量は今
や膨大なものとなっている。そして、ネットワークに氾
濫する大量の電子文書の中から、目的とする情報の記述
された文書を取り出したい、あるいは取り出した文書を
そこに記述された情報の分野ごとに選り分けたいといっ
た、文書検索・文書分類の需要もますます高いものにな
ってきている。
【0003】そして、大量の電子文書(WEBページに
限らない)を対象とする検索・分類を高精度におこなう
ための、各種の手法が開発され、すでに商用のサーチエ
ンジンなどとして実用化されている。これら従来技術の
中には、情報検索技術の多様化にともない、キーワード
の出現頻度などにもとづく統計情報によって文書を検索
・分類するものがいくつか存在する。
【0004】たとえば、本出願人が開発した文書分類エ
ンジンである「CBClassifier」では、「ベ
クトル空間法」と呼ばれる手法により複数の文書を複数
のカテゴリ(グループあるいは区分などと言ってもよ
い)に分類する。まず、カテゴリごとにそこに分類され
るべき文書の手本を複数用意し(コーパス)、それらに
含まれるキーワードの出現頻度などを要素値とするn次
元の特徴ベクトル(プロファイル)を作成する。
【0005】つぎに、分類対象となる個々の文書ごとに
その特徴ベクトルを作成し、各カテゴリの特徴ベクトル
との距離を計算する。そして、この距離にもとづいて各
文書の各カテゴリに対する適合度(マッチ度)のスコア
を算出し、このスコアが所定値以上となったカテゴリ
(必ずしも一つとは限らない)へ文書を分類する。
【0006】この手法によれば、各カテゴリに分類され
るのは出現するキーワードの傾向が全体としてそのプロ
ファイルに類似する文書であるので、各文書は分野や話
題といった大筋で一致するカテゴリに分類される可能性
が高く、分類結果中のノイズを減少させることができ
る。
【0007】ただし、この手法も必ずしも精度が高いわ
けではなく、重要なキーワードのいずれかをまったく含
んでいない文書も、全体的なキーワードの出現傾向がプ
ロファイルとある程度類似する限り、そのカテゴリに分
類されてしまうという問題を有している。
【0008】たとえば「病院の経営問題」というカテゴ
リに、「病院」の語しか含まない「病院が提供できる治
療に関する情報」、「経営」の語しか含まない「ある破
綻した企業の経営責任」といった文書が分類されてしま
うことがある。これは、多数のキーワードをORで結合
した検索式による検索結果中に、ノイズが含まれやすい
のと同じ現象である。
【0009】この点、一般的なサーチエンジン(たとえ
ば「Google」)、あるいは一般的な自動巡回ソフ
ト(たとえば「インターネットNinja」)において
は、検索式においてキーワードをANDで結合すること
で、指定したキーワードのすべてを含む文書のみを検索
することができる。ただし、ANDで結合すべき複数の
キーワード(見つけ出したい文書に必ず含まれるキーワ
ードの組、と言ってもよい)を最初から的確に選択する
ことは困難である。
【0010】そこで一般的なサーチエンジン(たとえば
「Google」)では、ある検索式による検索結果に
さらに別の検索式を適用することで、目的とする文書を
段階的に絞り込んでゆけるようになっている。また、任
意の段階に戻って前回とは別の検索式を適用することも
できる。図17は、従来技術における多段階の絞り込み
の過程を模式的に示す説明図である。操作者は、図示す
るツリーを上下に辿りながら、それぞれの絞り込みの結
果を見つつ、適切なキーワードを取捨選択してゆくこと
ができる。
【0011】しかしながら、こうした多段階の絞り込み
のGUIは従来使いづらいものであった。第一に、それ
ぞれの段階で逐一検索式を入力しなければならず、煩雑
である。第二に、上記ツリーの構造すなわちどのキーワ
ードによる絞り込みでどのような結果が得られたかは操
作者の記憶にしか残らないため、誤った方向に来たと分
かっても、ツリーの分岐のどこまで戻ってやり直すのが
効率的なのか分からないことが多い。
【0012】また、図17においてたとえば「書籍案内
−病院リスクマネジメント」に到達するためには、「病
院→問題→経営」と「政治→薬害」との、少なくとも二
つの経路(絞り込み手順、と言ってもよい)が存在す
る。これは上記文書の内容が、病院の経営問題という側
面のほかに、政治問題や薬害問題といった側面も有する
ことを示している。
【0013】
【発明が解決しようとする課題】しかしながら、従来技
術ではこれらの関係が分からないため、ある特定の切り
口以外に別の重要な切り口を有する文書もそうでない文
書の中に埋没してしまい、絞り込み結果の中から所望の
文書を特定するのが困難であるという問題点があった。
従来技術でも、要約文を付加するなどして文書の特定の
容易化をはかってはいるが、限られた字数の要約文で
は、文書が有する多面性を漏れなく表現することは困難
であり、またその作成の手数もかかってしまう。
【0014】本発明は従来技術が有する上記問題点に鑑
みてなされたものであって、複数の文書を自動かつ詳細
に分類するとともに、その分類体系や分類された各文書
の概要を分かりやすく操作者に提示することが可能な文
書分類装置、文書分類方法、その方法をコンピュータに
実行させるプログラムおよびそのプログラムを記録した
コンピュータ読み取り可能な記録媒体を提供することを
目的とする。
【0015】
【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1に記載の発明にかかる文
書分類装置は、電子文書をあらかじめ用意された複数の
カテゴリに分類する文書分類装置において、少なくとも
一つの電子文書を指定する第1の分類対象指定手段と、
前記第1の分類対象指定手段により指定された電子文書
を分類するための複数のカテゴリを指定する第1の分類
条件指定手段と、前記第1の分類対象指定手段により指
定された電子文書を前記第1の分類条件指定手段により
指定された複数のカテゴリに分類する第1の文書分類手
段と、前記第1の文書分類手段により、前記第1の分類
条件指定手段により指定された複数のカテゴリのうちい
ずれか一つのカテゴリに分類されたすべての電子文書を
指定する第2の分類対象指定手段と、前記第2の分類対
象指定手段により指定された電子文書を分類するための
複数のカテゴリを指定する第2の分類条件指定手段と、
前記第2の分類対象指定手段により指定された電子文書
を前記第2の分類条件指定手段により指定された複数の
カテゴリに分類する第2の文書分類手段と、を備えたこ
とを特徴とする。
【0016】この請求項1に記載の発明によれば、ある
カテゴリに分類された文書は、当該カテゴリにあらかじ
め対応づけられた複数のカテゴリによりさらに細かく分
類される。
【0017】また、請求項2に記載の文書分類装置は、
前記請求項1に記載の発明において、さらに、前記第1
の分類条件指定手段により指定された複数のカテゴリの
うち、前記第2の分類対象指定手段により指定された電
子文書が分類されていた前記いずれか一つのカテゴリを
特定できる情報と対応づけて、前記第2の分類条件指定
手段により指定された複数のカテゴリを特定できる情報
を表示する分類体系表示手段を備えたことを特徴とす
る。
【0018】この請求項2に記載の発明によれば、多段
階の分類に使用されたカテゴリ間の上下関係がツリー状
に画面表示される。
【0019】また、請求項3に記載の文書分類装置は、
前記請求項1または請求項2に記載の発明において、さ
らに、前記第1の分類対象指定手段または前記第2の分
類対象指定手段により指定された電子文書の本文を表示
する文書内容表示手段と、あらかじめ指定されたキーワ
ードのうち、前記文書内容表示手段により表示された本
文に含まれるキーワードを表示するキーワード表示手段
と、を備えたことを特徴とする。
【0020】この請求項3に記載の発明によれば、画面
表示されたキーワードから各文書の記述内容をある程度
推測することができる。
【0021】また、請求項4に記載の文書分類装置は、
前記請求項1〜請求項3のいずれか一つに記載の発明に
おいて、さらに、前記第2の分類対象指定手段により指
定された各電子文書につき、当該電子文書が前記第1の
文書分類手段により分類されたすべてのカテゴリを特定
できる情報、および当該文書が前記第2の文書分類手段
により分類されたすべてのカテゴリを特定できる情報を
表示する分類経路表示手段を備えたことを特徴とする。
【0022】この請求項4に記載の発明によれば、画面
表示された分類経路から各文書の記述内容をある程度推
測することができる。
【0023】また、請求項5に記載の文書分類装置は、
前記請求項1〜請求項4のいずれか一つに記載の発明に
おいて、さらに、前記第1の分類対象指定手段により指
定された各電子文書の、前記第1の分類条件指定手段に
より指定された各カテゴリに対する適合度を算出する第
1の適合度算出手段と、前記第2の分類対象指定手段に
より指定された各電子文書の、前記第2の分類条件指定
手段により指定された各カテゴリに対する適合度を算出
する第2の適合度算出手段と、前記第1の適合度算出手
段および前記第2の適合度算出手段により算出された適
合度の重み付き和にもとづいて、前記第2の分類対象指
定手段により指定された各電子文書の重要度を算出する
重要度算出手段と、前記第2の文書分類手段により、前
記第2の分類条件指定手段により指定された複数のカテ
ゴリのうちいずれか一つのカテゴリに分類されたすべて
の電子文書を特定できる情報を、前記重要度算出手段に
より算出された重要度の順に表示する文書一覧表示手段
と、を備えたことを特徴とする。
【0024】この請求項5に記載の発明によれば、同一
カテゴリ内の文書を操作者にとって重要なものから優先
的に画面表示することができる。
【0025】また、請求項6に記載の文書分類方法は、
電子文書をあらかじめ用意された複数のカテゴリに分類
する文書分類方法において、少なくとも一つの電子文書
を指定する第1の分類対象指定工程と、前記第1の分類
対象指定工程で指定された電子文書を分類するための複
数のカテゴリを指定する第1の分類条件指定工程と、前
記第1の分類対象指定工程で指定された電子文書を前記
第1の分類条件指定工程で指定された複数のカテゴリに
分類する第1の文書分類工程と、前記第1の文書分類工
程で、前記第1の分類条件指定工程で指定された複数の
カテゴリのうちいずれか一つのカテゴリに分類されたす
べての電子文書を指定する第2の分類対象指定工程と、
前記第2の分類対象指定工程で指定された電子文書を分
類するための複数のカテゴリを指定する第2の分類条件
指定工程と、前記第2の分類対象指定工程で指定された
電子文書を前記第2の分類条件指定工程で指定された複
数のカテゴリに分類する第2の文書分類工程と、を含ん
だことを特徴とする。
【0026】この請求項6に記載の発明によれば、ある
カテゴリに分類された文書は、当該カテゴリにあらかじ
め対応づけられた複数のカテゴリによりさらに細かく分
類される。
【0027】また、請求項7に記載の文書分類方法は、
前記請求項6に記載の発明において、さらに、前記第1
の分類条件指定工程で指定された複数のカテゴリのう
ち、前記第2の分類対象指定工程で指定された電子文書
が分類されていた前記いずれか一つのカテゴリを特定で
きる情報と対応づけて、前記第2の分類条件指定工程で
指定された複数のカテゴリを特定できる情報を表示する
分類体系表示工程を含んだことを特徴とする。
【0028】この請求項7に記載の発明によれば、多段
階の分類に使用されたカテゴリ間の上下関係がツリー状
に画面表示される。
【0029】また、請求項8に記載の文書分類方法は、
前記請求項6または請求項7に記載の発明において、さ
らに、前記第1の分類対象指定工程または前記第2の分
類対象指定工程で指定された電子文書の本文を表示する
文書内容表示工程と、あらかじめ指定されたキーワード
のうち、前記文書内容表示工程で表示された本文に含ま
れるキーワードを表示するキーワード表示工程と、を含
んだことを特徴とする。
【0030】この請求項8に記載の発明によれば、画面
表示されたキーワードから各文書の記述内容をある程度
推測することができる。
【0031】また、請求項9に記載の文書分類方法は、
前記請求項6〜請求項8のいずれか一つに記載の発明に
おいて、さらに、前記第2の分類対象指定工程で指定さ
れた各電子文書につき、当該電子文書が前記第1の文書
分類工程で分類されたすべてのカテゴリを特定できる情
報、および当該文書が前記第2の文書分類工程で分類さ
れたすべてのカテゴリを特定できる情報を表示する分類
経路表示工程を含んだことを特徴とする。
【0032】この請求項9に記載の発明によれば、画面
表示された分類経路から各文書の記述内容をある程度推
測することができる。
【0033】また、請求項10に記載の文書分類方法
は、前記請求項6〜請求項9のいずれか一つに記載の発
明において、さらに、前記第1の分類対象指定工程で指
定された各電子文書の、前記第1の分類条件指定工程で
指定された各カテゴリに対する適合度を算出する第1の
適合度算出工程と、前記第2の分類対象指定工程で指定
された各電子文書の、前記第2の分類条件指定工程で指
定された各カテゴリに対する適合度を算出する第2の適
合度算出工程と、前記第1の適合度算出工程および前記
第2の適合度算出工程で算出された適合度の重み付き和
にもとづいて、前記第2の分類対象指定工程で指定され
た各電子文書の重要度を算出する重要度算出工程と、前
記第2の文書分類工程で、前記第2の分類条件指定工程
で指定された複数のカテゴリのうちいずれか一つのカテ
ゴリに分類されたすべての電子文書を特定できる情報
を、前記重要度算出工程で算出された重要度の順に表示
する文書一覧表示工程と、を含んだことを特徴とする。
【0034】この請求項10に記載の発明によれば、同
一カテゴリ内の文書を操作者にとって重要なものから優
先的に画面表示することができる。
【0035】また、請求項11に記載のプログラムは、
前記請求項6〜請求項10のいずれか一つに記載の方法
をコンピュータに実行させることを特徴とする。
【0036】この請求項11に記載の発明によれば、前
記請求項6〜請求項10のいずれか一つに記載の方法が
コンピュータにより実行される。
【0037】また、請求項12に記載の記録媒体は、前
記請求項11に記載のプログラムを記録したことを特徴
とする。
【0038】この請求項12に記載の発明によれば、前
記請求項11に記載のプログラムがコンピュータにより
読み取られて実行される。
【0039】
【発明の実施の形態】以下に添付図面を参照して、本発
明にかかる文書分類装置、文書分類方法、その方法をコ
ンピュータに実行させるプログラムおよびそのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体の好
適な実施の形態を詳細に説明する。
【0040】(実施の形態1)図1は、本発明の実施の
形態1にかかる文書分類装置のハードウェア構成を示す
説明図である。同図において、101は装置全体を制御
するCPUを、102は基本入出力プログラムを記憶し
たROMを、103はCPU101のワークエリアとし
て使用されるRAMを、それぞれ示している。
【0041】また、104はCPU101の制御にした
がってHD(ハードディスク)105に対するデータの
リード/ライトを制御するHDD(ハードディスクドラ
イブ)を、105はHDD104の制御にしたがって書
き込まれたデータを記憶するHDを、それぞれ示してい
る。
【0042】また、106はCPU101の制御にした
がってFD(フロッピー(登録商標)ディスク)107
に対するデータのリード/ライトを制御するFDD(フ
ロッピーディスクドライブ)を、107はFDD106
の制御にしたがって書き込まれたデータを記憶する着脱
自在のFDを、それぞれ示している。
【0043】また、108はカーソル、メニュー、ウィ
ンドウ、あるいは文字や画像などの各種データを表示す
るディスプレイを、109は通信ケーブル110を介し
てネットワークに接続され、当該ネットワークとCPU
101とのインターフェースとして機能するネットワー
クインターフェースを、それぞれ示している。
【0044】また、111は文字、数値、各種指示など
の入力のための複数のキーを備えたキーボードを、11
2は各種指示の選択や実行、処理対象の選択、カーソル
の移動などをおこなうマウスを、それぞれ示している。
また、113は着脱可能な記録媒体であるCD−ROM
を、114はCD−ROM113に対するデータのリー
ドを制御するCD−ROMドライブを、100は上記各
部を接続するためのバスまたはケーブルを、それぞれ示
している。
【0045】つぎに、図2は本発明の実施の形態1にか
かる文書分類装置の構成を機能的に示す説明図である。
まず、200は分類対象文書記憶部であり、後述する文
書分類部203により分類される個々の文書と、その形
態素解析結果(文書内に出現するキーワードの一覧な
ど)、および各文書につき計算されたその特徴ベクトル
を保持している。なお、本実施の形態における分類対象
文書は、自動巡回ソフトによりインターネットから収集
されてきた多数のWEBページであるものとする。
【0046】201はプロファイルセット記憶部であ
り、任意のプロファイルを組み合わせた複数のプロファ
イルセットを保持している。図3は、本発明におけるプ
ロファイルとプロファイルセットとの関係を模式的に示
す説明図である。プロファイルとは上述のように、分類
先となる各カテゴリの特徴ベクトルであって、ベクトル
内の各要素値は対応するキーワードの出現頻度などにも
とづいて決定される。
【0047】ここで、キーワードとは何らかの概念を指
し示す最小の語句単位であって、文法上の一単語とは限
らず、複数の単語からなる複合語などもキーワードとな
りうる。もっとも、「キーワード」と言うと一つの単語
と限定的に解釈されやすいため、本出願人は上記の意味
でのキーワードを特に「ターム(term)」と呼ぶこ
とがある。
【0048】つぎに、プロファイルセットとは同種のプ
ロファイルを少なくとも一つ以上、通常は二つ以上組み
合わせたものであって、たとえば名称が「業種」のプロ
ファイルセットは「金融」カテゴリのプロファイル、
「流通」カテゴリのプロファイル、「製造」カテゴリの
プロファイルなどを組み合わせたものである。なお、同
一のプロファイルが複数のプロファイルセットに共通し
て含まれていてもよい。
【0049】図2に戻り、つぎに202は文書分類制御
部であり、後述する文書分類部203を再帰的に呼び出
すことで、文書集合Kを文書集合K−1、文書集合K−
2、文書集合K−3・・・に、さらに文書集合K−1を
文書集合K−1−1、文書集合K−1−2、文書集合K
−1−3・・・に、というように段階的に分類してゆ
く。そして分類が完了すると、後述する分類結果統合部
204を呼び出して、分類対象となった個々の文書ごと
に分類結果を取りまとめさせる。
【0050】つぎに、203は文書分類部であり、文書
分類制御部202からの指示を受けて、指定された文書
群(分類対象文書)を指定されたプロファイルセットに
より複数のカテゴリに分類する。
【0051】まず、文書分類部203は分類対象文書記
憶部200から上記各文書の特徴ベクトルを、プロファ
イルセット記憶部201から上記プロファイルセットを
構成するすべてのプロファイルを、それぞれ読み出す。
つぎに、各文書の特徴ベクトルと、上記プロファイルセ
ットを構成する各プロファイルとの距離を算出し、この
距離にもとづいて、個々の文書の個々のカテゴリに対す
る適合度のスコアを算出する。
【0052】さらに、このスコアを所定の境界値と比較
することで、各文書が各プロファイルにより表現される
カテゴリに分類されるか否かを判定する。そして、各文
書の各カテゴリに対するスコア、および各文書の各カテ
ゴリへの分類の有無を、今回の分類結果を保存するため
の分類結果ファイルに書き込む。
【0053】なお、本実施の形態ではスコアが所定値以
上である限り、一つの文書を複数のカテゴリに重畳的に
分類することを許すようにしたが、一つの文書は上記ス
コアが最も高い一つのカテゴリに排他的に分類するよう
にしてもよい。また、どのカテゴリに対するスコアも上
記所定値を下回った文書は、一律に「該当なし」カテゴ
リに分類する。
【0054】なお、文書分類部203が文書分類制御部
202に呼び出されてから、指定された分類対象文書の
指定されたプロファイルセットによる分類結果をファイ
ルに出力するまでの一連の処理を、以下ではまとめて
「1作業過程」と呼ぶ(1サイクル、などと考えてもよ
い)。そして、文書分類制御部202は文書とプロファ
イルセットの指定を順次切り替えながら、文書分類部2
03をn回呼び出して、上記作業過程をn回繰り返させ
ることで多段階の文書分類をおこなう。
【0055】つぎに、204は分類結果統合部であり、
上記作業過程をn回繰り返すことで得られたn個の分類
結果ファイルを一つのファイルに統合(マージ)すると
ともに、すべての分類対象文書(1回目の作業過程にお
ける分類対象文書、と言ってもよい)につき、文書ごと
にその分類結果を取りまとめる。
【0056】つぎに、205は制御設定情報記憶部であ
り、文書分類制御部202がその処理のために必要とす
る各種のパラメータを制御設定情報ファイルとして保持
している。この制御設定情報ファイルは、具体的には下
記2種類の情報から構成される。
【0057】(a)文書分類制御情報:各作業過程にお
ける分類の詳細、たとえばその分類対象文書や使用する
プロファイルセットなどを記述したもの。 (b)文書分類作業過程制御情報:各作業過程の順序を
記述したもの。
【0058】つぎに、図4は文書分類制御部202の制
御のもとでおこなわれる、多段階の文書分類の様子を模
式的に示す説明図である。1回目の作業過程では、分類
対象文書としてインターネットから自動収集されたすべ
てのWEBページが、使用するプロファイルセットとし
て「告発文書」カテゴリのプロファイルのみからなるプ
ロファイルセットが、それぞれ指定される。その結果、
上記WEBページは「告発文書」カテゴリと「該当な
し」カテゴリとに二分されることになる。
【0059】続く2回目の作業過程では、分類対象文書
として、1回目の作業過程で「告発文書」カテゴリに分
類されたすべてのWEBページが、使用するプロファイ
ルセットとして「事件事故」「人権問題」「労働問題」
・・・などの複数のプロファイルからなるプロファイル
セットが、それぞれ指定される。その結果、「告発文
書」カテゴリ内のWEBページはさらに「事件事故」カ
テゴリ、「人権問題」カテゴリ、「労働問題」カテゴリ
・・・あるいは「該当なし」カテゴリの、いずれか少な
くとも一つに分類される。
【0060】この後3回目の作業過程では、2回目の作
業過程で「事件事故」カテゴリに分類されたWEBペー
ジが、4回目の作業過程では、同じく「人権問題」カテ
ゴリに分類されたWEBページが、5回目の作業過程で
は、同じく「労働問題」カテゴリに分類されたWEBペ
ージが、それぞれ指定されたプロファイルセットにより
さらに詳細に分類される。以後は同様の繰り返しであ
る。
【0061】図5は、文書分類制御部202の制御のも
とでおこなわれる、多段階の文書分類の手順を示すフロ
ーチャートである。ステップS501で文書分類制御部
202は、まず現在注目しているのが制御設定情報ファ
イル中の何番目の文書分類制御情報であるかを示す変数
nを初期化する。
【0062】つぎにステップS502で、制御設定情報
記憶部205内の制御設定情報ファイルにn番目の文書
分類制御情報があるかどうかを調べ、もしあれば(ステ
ップS502:Yes)続くステップS503で当該情
報を読み出す。そして、ステップS504で上記情報を
解析して、分類対象文書と使用するプロファイルセット
とを特定する。
【0063】続くステップS505で、文書分類制御部
202は上記で特定した分類対象文書とプロファイルセ
ットとを示して文書分類部203を呼び出し、上記文書
群の分類をおこなわせる。図6は、図5のステップS5
05における、文書分類部203による一段階の文書分
類の手順を詳細に示すフローチャートである。
【0064】まず、ステップS601で現在注目してい
るのが指定された分類対象文書中何番目の文書であるか
を示す変数iを初期化し、続くステップS602および
S603で、分類対象文書記憶部200から当該i番目
の文書の特徴ベクトル(もしあれば)を読み出す。
【0065】つぎに、ステップS604で現在注目して
いるのが指定されたプロファイルセット内の何番目のプ
ロファイルであるかを示す変数jを初期化し、続くステ
ップS605およびS606で、プロファイルセット記
憶部201から当該j番目のプロファイル(もしあれ
ば)を読み出す。
【0066】そして、ステップS607でi番目の文書
の特徴ベクトルとj番目のプロファイルとの距離を算出
し、この距離にもとづいて(最も単純には、この距離の
逆数を取ることで)、j番目のプロファイルで表現され
るカテゴリに対するi番目の文書の適合度のスコアを算
出する。
【0067】さらに、ステップS608で上記スコアと
所定の境界値との大小関係を調べ、スコアが所定値以上
であれば、i番目の文書はj番目のプロファイルのカテ
ゴリに分類されると判定する。また、スコアが所定値を
下回っていれば、当該文書は当該カテゴリには分類され
ないと判定する。
【0068】そしてステップS609で、上記i番目の
文書と対応づけて、上記j番目のプロファイルで表現さ
れるカテゴリに対する当該文書のスコア、および当該カ
テゴリへの当該文書の分類の有無を分類結果ファイルに
書き込む。つぎに、ステップS610で変数jをインク
リメントして、再びステップS605に戻り、プロファ
イルセット記憶部201から指定されたプロファイルセ
ットのj番目のプロファイルを検索する。
【0069】そして、指定されたプロファイルセットを
構成するすべてのプロファイルに対してステップS60
6〜S611の処理を終えると(ステップS605:N
o)、ステップS611で今度は変数iをインクリメン
トしてステップS602に戻り、分類対象文書のすべて
についてステップS603〜S610の処理を終えた時
点で(ステップS602:No)、図5のステップS5
06に復帰する。
【0070】そして、ステップS506で文書分類制御
部202は変数nをインクリメントした後、再びステッ
プS502に戻り、制御設定情報ファイルからn番目の
文書分類制御情報を検索する。このように、制御設定情
報ファイル内の文書分類制御情報を順次読み出しては、
そこに記述された分類対象文書とプロファイルセットと
を文書分類部203に与え、同様の分類を繰り返させ
る。
【0071】そして、すべての文書分類制御情報につき
ステップS503〜S506の処理を終えると(ステッ
プS502:No)、文書分類制御部202はステップ
S507で分類結果統合部204を呼び出し、ステップ
S501〜S506による分類結果を個々の文書ごとに
整理させる。その後、本フローチャートによる処理を終
了する。
【0072】たとえば図4に示した具体例において、あ
る企業による解雇を不当として提起された裁判に関する
文書が、1回目の作業過程で「告発文書」カテゴリに、
2回目の作業過程で「人権問題」カテゴリと「労働問
題」カテゴリに、4回目の作業過程で「人権問題−人権
弾圧」カテゴリに、5回目の作業過程で「労働問題−雇
用・解雇」カテゴリに、それぞれ分類されたとする。
【0073】この場合上記文書の分類結果は、1回目、
2回目、4回目、5回目のそれぞれの作業過程で作成さ
れた分類結果ファイルに、ばらばらに分散して保持され
ていることになる。しかし、図5のステップS507で
これらを統合する結果、上記文書については「告発文書
→人権問題→人権問題−人権弾圧」と、「告発文書→労
働問題→労働問題−雇用・解雇」との、2つの分類結果
が得られることになる。ステップS507における作業
は、分類結果を分類の回次ベースから分類対象となった
文書ベースに編成し直す作業であると言ってもよい。
【0074】図2に戻り、つぎに206は表示部であ
り、以下に説明する各画面への入り口となる(いわゆる
メイン画面である)「文書分類基本表示画面」、多段階
の分類体系をグラフィカルに表示する「多段階文書分類
表示画面」、あるカテゴリに分類された文書の一覧から
なる「抽出文書一覧表示画面」、および個々の文書の内
容などからなる「文書・キーワード表示画面」などを、
ディスプレイ108に表示する。
【0075】図7は、表示部206により表示される
「文書分類基本表示画面」の一例を示す説明図である。
図中、ウィンドウ内の最上部には1回目の作業過程にお
ける分類対象文書の名称と個数、および1回目の作業過
程において、各カテゴリに分類された文書の割合を示す
バーが表示される。同図の例では、「Web巡回記事
群」と総称される2564件の文書中、19%が「告発
文書」カテゴリに、82%が「該当なし」カテゴリに、
それぞれ分類されている(合計が100%とならないの
は端数を切り上げているためである)。
【0076】また、図中「告発文書」ボタン700をク
リックすると、図8に示すような「多段階文書分類表示
画面」が表示される。この画面では、「告発文書」カテ
ゴリの下のカテゴリ、すなわち「告発文書」カテゴリに
分類された文書をさらに分類したプロファイルセットを
構成する、各プロファイルのカテゴリ名が表示される。
図中、たとえば「労働問題」ボタン800をクリックす
ると、さらに「労働問題」カテゴリの下のカテゴリ名を
図9に示すような画面で表示させることができる。
【0077】なお、図8や図9の画面に示される分類体
系は、制御設定情報記憶部205内の制御設定情報ファ
イルから文書分類作業過程制御情報を読み出し、そこで
指定された順序通りに文書分類制御情報を読み出して、
各作業過程におけるプロファイルセットを順次特定して
ゆくことで把握することができる。
【0078】また、図8の画面で「労働問題」ボタン8
00の横に配置されている「Profile」ボタン8
01、あるいは図9の画面で同じく「労働問題」ボタン
900の横に配置されている「Profile」ボタン
901をクリックすると、図10に示すような画面で、
「労働問題」カテゴリのプロファイルを構成するキーワ
ードの一覧を表示させることができる。なお、各プロフ
ァイルのキーワードの一覧はプロファイルセット記憶部
201から取得することができる。
【0079】また、図9の画面で「労働問題−雇用・解
雇」ボタン902をクリックすると、図11に示すよう
な「抽出文書一覧表示画面」が表示される。この画面に
は、「労働問題−雇用・解雇」カテゴリに分類された個
々の文書の見出し、個々の文書へのリンク、および上述
の分類結果統合部204によりマージされた、個々の文
書の全分類先(図中「経路一覧」)が表示される。
【0080】そして、図中いずれかの文書のリンク、た
とえば1100をクリックすると、図12に示すような
「文書・キーワード表示画面」が表示される。この画面
は2つのフレームに分割され、上部の本文フレーム12
00には上記リンク先の文書の内容が、下部のキーワー
ドフレーム1201には当該文書内に出現するキーワー
ドの一覧が、それぞれ表示される。
【0081】ここでキーワードフレーム1201に表示
されるキーワードは、(a)組織名(企業名など)、人
名、日付などの個体名と、(b)分類先となった各カテ
ゴリのプロファイルを構成するキーワード(分類時に参
照されたキーワード、と言ってもよい)、との2種類に
大別される。そして、図中「個体名」は上記(a)であ
り、「告発文書−ターム」「労働問題−ターム」「労働
問題−雇用・解雇−ターム」および「文書に含まれる全
ターム」は上記(b)である。
【0082】なお、(a)の中でも時に組織名だけ表示
する、(b)の中でも特に「労働問題−雇用・解雇」カ
テゴリのキーワードだけ表示する、のように、表示する
キーワードの範囲を任意に設定できるようにしてもよ
い。また、ここではキーワードを本文とは別フレームに
別掲するようにしたが、キーワードフレーム1201は
特に設けず、本文フレーム1200内の本文で、上記キ
ーワードを字体や色などにより強調表示(識別表示)す
るのであってもよい。
【0083】なお、図12に示した「文書・キーワード
表示画面」は、図8や図9に示した「多段階文書分類表
示画面」、あるいは図11に示した「抽出文書一覧表示
画面」を経なくても、図7に示したメイン画面でボタン
701をクリックすることにより、直接表示させること
ができる。
【0084】以上説明した実施の形態1によれば、プロ
ファイルセット間で同一のプロファイルを共有すること
ができるので、プロファイルを追加しなくてもその組み
合わせにより、多種多様なプロファイルセットを実現す
ることができる。しかも同一の文書群につき、複数のプ
ロファイルセットを順次適用してゆくことができるので
(複数のプロファイルセットを時間軸の方向に組み合わ
せて使用することができるので、と言ってもよい)、比
較的少数のプロファイルで、複雑な分類体系を構築する
ことが可能である。
【0085】また、あるプロファイルにより選別された
文書をさらに別のプロファイルにより選別することで、
分類精度の向上もはかることができる。たとえば、かり
に「事件事故に関する告発文書」というカテゴリとその
プロファイルとを用意した場合、当該カテゴリには事件
事故に関する文書ではあるが告発文書ではないものや、
告発文書ではあるものの事件事故に関する文書ではない
ものなどが、キーワードの出現傾向がある程度似ている
という理由で、誤って分類されてしまう可能性が高い。
【0086】しかし、いったん「告発文書」カテゴリに
分類したものをさらに「事件事故」カテゴリに分類する
ようにすれば、ちょうどキーワードをORで結合した検
索式よりANDで結合した検索式のほうが精度が高くな
るのと同じように、いわゆる「かすっている」だけの文
書が無関係なカテゴリに紛れ込むのを回避することがで
きる。
【0087】また、上述の実施の形態1では、ツリー状
の分類体系を図8や図9に示したようにグラフィカルに
表示させることができるので、操作者は与えた文書がど
のように分類されたかを直感的・視覚的に把握すること
ができる。なお、図8や図9において、さらに各カテゴ
リのボタンの近傍に、当該カテゴリに分類された文書
(当該カテゴリ以下の文書)の総数、あるいはそのうち
特に重要なものの総数などを表示するようにしてもよ
い。
【0088】また図10に示したように、使用されたプ
ロファイルのキーワードを表示させることもできるの
で、操作者はどのような条件で分類がおこなわれたかも
容易に確認することができる。
【0089】さらに図11に示したように、一つの文書
に複数の分類結果(分類経路)がある場合にはそれらが
まとめて表示されるので、同一の文書を複数の観点から
とらえることができ、文書に記述された内容の全体像を
把握しやすい。しかも図12に示した、文書内に出現す
る特徴的なキーワードの一覧から、本文を読まなくても
その概要やキーポイントをある程度予測することができ
る。これらの工夫により、文書数が多くなっても目的と
する文書を容易に特定することが可能である。
【0090】なお、上記ではあらかじめ用意されたプロ
ファイルセットのうちいずれか一つを指定するという形
で、文書をどのようにグループ分けすればよいのかを文
書分類部203に示すようにしたが、たとえばプロファ
イルセットは特に作成せず、分類の都度、使用する複数
のプロファイルを直に指定するようにしてもよい。要す
るに、文書分類部203が文書を分類すべき複数のカテ
ゴリを特定できさえすればよい。
【0091】(実施の形態2)さて、上述した実施の形
態1では、すべての分類経路や文書内の主要なキーワー
ドなどを表示することで、文書内容の概略の把握ひいて
は必要な文書の特定を容易におこなえるようにしたが、
別の方法として何らかの基準によりカテゴリ内の各文書
の重要度を算出し、図11に示した一覧ではこの重要度
の順に文書を並べて表示することが考えられる。
【0092】そして各文書の重要度は、その特徴ベクト
ルとカテゴリの特徴ベクトル(プロファイル)との距離
に反比例する、当該文書の当該カテゴリに対する適合度
のスコアを基礎として算出することが考えられる。
【0093】ただ、上述の多段階の分類において算出さ
れるのは、たとえば「告発文書→労働問題→労働問題−
雇用・解雇」に分類された文書であれば、「告発文書」
カテゴリに対する適合度、「労働問題」カテゴリに対す
る適合度、「労働問題−雇用・解雇」カテゴリに対する
適合度のそれぞれのスコア(各段階、各作業過程におけ
る適合度のスコアと言ってもよい)である。
【0094】そして一般に、これらのスコアの合計が大
きい文書ほど操作者にとって重要である可能性が高いと
言いうるが、逆にこの合計が大きいからといって、その
文書が必ずしも重要であるとは限らない。たとえば、種
々の分野における告発記事の見出し一覧からなる文書A
と、ある企業における不当解雇を詳細に報じた文書Bと
があり、各カテゴリに対する適合度はそれぞれ図13に
示す通りであったとする。
【0095】文書Aは、「告発文書」カテゴリのプロフ
ァイルを構成するキーワードを多く含んでいるため、当
該カテゴリに対する適合度が高くなっている。ただ、そ
こに記述された一覧のうち労働分野の告発記事はわずか
であるので、「労働問題」カテゴリ、「労働問題−雇用
・解雇」カテゴリと分類が詳細化するにつれ、適合度は
低くなっている。
【0096】これに対して文書Bは、「告発文書」カテ
ゴリのキーワードこそ少ないものの、「労働問題」カテ
ゴリや「労働問題−雇用・解雇」カテゴリのキーワード
は多く含んでいるため、逆に分類が進むにつれて適合度
は高くなっている。
【0097】そして、文書Aと文書Bのいずれも適合度
の合計は180であるが、「告発文書→労働問題→労働
問題−雇用・解雇」に分類された文書を参照する操作者
には、総論の文書Aよりも各論の文書Bのほうが重要で
ある可能性が高い。すなわち適合度の合計が同じであれ
ば、その内訳において分類の上流での適合度が高い文書
より、下流での適合度の高い文書のほうがより重要であ
ると考えられる。
【0098】そこで、以下に説明する実施の形態2のよ
うに、上記事情に配慮しながら各文書の重要度(適合度
とは異なる)を算出し、図11に示した一覧ではこの重
要度に応じた優先度で各文書を提示するようにしてもよ
い。
【0099】実施の形態2にかかる文書分類装置のハー
ドウェア構成は、図1に示した、実施の形態1にかかる
文書分類装置のそれと同様であるので説明を省略する。
図14は、本発明の実施の形態2にかかる文書分類装置
の構成を機能的に示す説明図である。
【0100】これは図2に示した、実施の形態1にかか
る文書分類装置の分類結果統合部204に、新たに重要
度算出部1404aを追加したものである。文書分類制
御部1402からの指示を受けた分類結果統合部140
4は、この重要度算出部1404aにより、各文書の分
類先と各分類先に対する適合度のスコアとにもとづいて
文書の重要度のスコアを算出する。
【0101】実施の形態2にかかる制御設定情報記憶部
1405には、実施の形態1の制御設定情報記憶部20
5と同様、(a)文書分類制御情報と(b)文書分類作
業過程制御情報との2種類が保持されている。しかし、
このうち後者は各作業過程の順序だけでなく、各作業過
程において算出された適合度のスコアの重み係数を定義
している。
【0102】たとえば上記制御情報により、図4に示し
た具体例について、1回目および2回目の作業過程で算
出された適合度の重みはそれぞれ0、3回目以降の作業
過程で算出された適合度の重みはそれぞれ1と設定され
ていたものとする。
【0103】この場合、重要度算出部1404aは各分
類結果ファイルに格納された各作業過程における適合度
のスコア、および上記制御情報により定義された各スコ
アの重み係数にもとづいて、図13に示した文書Aの重
要度を(100×0)+(50×0)+(30×1)=
30、文書Bの重要度を(30×0)+(50×0)+
(100×1)=100のように算出する。
【0104】図15は、文書分類制御部1402の制御
のもとでおこなわれる、多段階の文書分類の手順を示す
フローチャートである。これは図5に示した、実施の形
態1における多段階の文書分類の手順の最後に、文書ご
との重要度の算出処理を追加したものである。
【0105】また、実施の形態2による表示部1406
は、上記により算出された重要度のスコアを図16に示
すような「抽出文書一覧表示画面」により表示する。図
中、「重要度」項目に上記で算出された重要度のスコア
が示され、カテゴリ内の各文書はこのスコアの高い順に
並べて表示される。
【0106】このように、適合度のスコアの単純な総和
は同じでも、適切な係数により調整されたその重み付き
和、すなわち重要度のスコアは文書Aよりも文書Bのほ
うが高くなる。これにより、ある分野の話題を一般的に
扱った文書より、特定の話題を詳細に論じた文書のほう
を優先的に操作者に示すことができる。なお、たとえば
上記とは逆に、分類の上流側における適合度の重みを下
流側のそれよりも相対的に高く設定すれば、各論的な文
書よりも総論的な文書を優先的に提示させることが可能
である。
【0107】なお、上述した文書分類制御部202・1
402、文書分類部203・1403、分類結果統合部
204・1404および表示部206・1406は、そ
れぞれHD105などからRAM103に読み出された
プログラムの命令にしたがってCPU101が命令処理
を実行することにより、各部の機能を実現するものであ
る。このプログラムはHD105のほか、FD107、
CD−ROM113あるいはMOなどの各種記録媒体に
格納することができ、あるいはネットワークを介して配
布することもできる。
【0108】また、上述した文書分類制御部202・1
402が請求項にいう「第1の分類対象指定手段」「第
1の分類条件指定手段」「第2の分類対象指定手段」お
よび「第2の分類条件指定手段」に、そのおこなう処理
が請求項にいう「第1の分類対象指定工程」「第1の分
類条件指定工程」「第2の分類対象指定工程」および
「第2の分類条件指定工程」に、それぞれ相当する。
【0109】また、文書分類部203・1403が請求
項にいう「第1の文書分類手段」「第2の文書分類手
段」「第1の適合度算出手段」および「第2の適合度算
出手段」に、そのおこなう処理が請求項にいう「第1の
文書分類工程」「第2の文書分類工程」「第1の適合度
算出工程」および「第2の適合度算出工程」に、それぞ
れ相当する。
【0110】また、分類結果統合部1404の重要度算
出部1404aが請求項にいう「重要度算出手段」に、
そのおこなう処理が請求項にいう「重要度算出工程」
に、それぞれ相当する。
【0111】また、表示部206・1406が請求項に
いう「分類体系表示手段」「文書内容表示手段」「キー
ワード表示手段」「分類経路表示手段」および「文書一
覧表示手段」に、そのおこなう処理が請求項にいう「分
類体系表示工程」「文書内容表示工程」「キーワード表
示工程」「分類経路表示工程」および「文書一覧表示工
程」に、それぞれ相当する。
【0112】
【発明の効果】以上説明したように請求項1に記載の発
明は、電子文書をあらかじめ用意された複数のカテゴリ
に分類する文書分類装置において、少なくとも一つの電
子文書を指定する第1の分類対象指定手段と、前記第1
の分類対象指定手段により指定された電子文書を分類す
るための複数のカテゴリを指定する第1の分類条件指定
手段と、前記第1の分類対象指定手段により指定された
電子文書を前記第1の分類条件指定手段により指定され
た複数のカテゴリに分類する第1の文書分類手段と、前
記第1の文書分類手段により、前記第1の分類条件指定
手段により指定された複数のカテゴリのうちいずれか一
つのカテゴリに分類されたすべての電子文書を指定する
第2の分類対象指定手段と、前記第2の分類対象指定手
段により指定された電子文書を分類するための複数のカ
テゴリを指定する第2の分類条件指定手段と、前記第2
の分類対象指定手段により指定された電子文書を前記第
2の分類条件指定手段により指定された複数のカテゴリ
に分類する第2の文書分類手段と、を備えたので、ある
カテゴリに分類された文書は、当該カテゴリにあらかじ
め対応づけられた複数のカテゴリによりさらに細かく分
類され、これによって、複数の文書を自動かつ詳細に分
類することが可能な文書分類装置が得られるという効果
を奏する。
【0113】また、請求項2に記載の発明は、前記請求
項1に記載の発明において、さらに、前記第1の分類条
件指定手段により指定された複数のカテゴリのうち、前
記第2の分類対象指定手段により指定された電子文書が
分類されていた前記いずれか一つのカテゴリを特定でき
る情報と対応づけて、前記第2の分類条件指定手段によ
り指定された複数のカテゴリを特定できる情報を表示す
る分類体系表示手段を備えたので、多段階の分類に使用
されたカテゴリ間の上下関係がツリー状に画面表示さ
れ、これによって、複数の文書を自動かつ詳細に分類す
るとともに、その分類体系を分かりやすく操作者に提示
することが可能な文書分類装置が得られるという効果を
奏する。
【0114】また、請求項3に記載の発明は、前記請求
項1または請求項2に記載の発明において、さらに、前
記第1の分類対象指定手段または前記第2の分類対象指
定手段により指定された電子文書の本文を表示する文書
内容表示手段と、あらかじめ指定されたキーワードのう
ち、前記文書内容表示手段により表示された本文に含ま
れるキーワードを表示するキーワード表示手段と、を備
えたので、画面表示されたキーワードから各文書の記述
内容をある程度推測することができ、これによって、複
数の文書を自動かつ詳細に分類するとともに、その分類
体系や分類された各文書の概要を分かりやすく操作者に
提示することが可能な文書分類装置が得られるという効
果を奏する。
【0115】また、請求項4に記載の発明は、前記請求
項1〜請求項3のいずれか一つに記載の発明において、
さらに、前記第2の分類対象指定手段により指定された
各電子文書につき、当該電子文書が前記第1の文書分類
手段により分類されたすべてのカテゴリを特定できる情
報、および当該文書が前記第2の文書分類手段により分
類されたすべてのカテゴリを特定できる情報を表示する
分類経路表示手段を備えたので、画面表示された分類経
路から各文書の記述内容をある程度推測することがで
き、これによって、複数の文書を自動かつ詳細に分類す
るとともに、その分類体系や分類された各文書の概要を
分かりやすく操作者に提示することが可能な文書分類装
置が得られるという効果を奏する。
【0116】また、請求項5に記載の発明は、前記請求
項1〜請求項4のいずれか一つに記載の発明において、
さらに、前記第1の分類対象指定手段により指定された
各電子文書の、前記第1の分類条件指定手段により指定
された各カテゴリに対する適合度を算出する第1の適合
度算出手段と、前記第2の分類対象指定手段により指定
された各電子文書の、前記第2の分類条件指定手段によ
り指定された各カテゴリに対する適合度を算出する第2
の適合度算出手段と、前記第1の適合度算出手段および
前記第2の適合度算出手段により算出された適合度の重
み付き和にもとづいて、前記第2の分類対象指定手段に
より指定された各電子文書の重要度を算出する重要度算
出手段と、前記第2の文書分類手段により、前記第2の
分類条件指定手段により指定された複数のカテゴリのう
ちいずれか一つのカテゴリに分類されたすべての電子文
書を特定できる情報を、前記重要度算出手段により算出
された重要度の順に表示する文書一覧表示手段と、を備
えたので、同一カテゴリ内の文書を操作者にとって重要
なものから優先的に画面表示することができ、これによ
って、分類された多数の文書の中から目的の文書を容易
に特定することが可能な文書分類装置が得られるという
効果を奏する。
【0117】また、請求項6に記載の発明は、電子文書
をあらかじめ用意された複数のカテゴリに分類する文書
分類方法において、少なくとも一つの電子文書を指定す
る第1の分類対象指定工程と、前記第1の分類対象指定
工程で指定された電子文書を分類するための複数のカテ
ゴリを指定する第1の分類条件指定工程と、前記第1の
分類対象指定工程で指定された電子文書を前記第1の分
類条件指定工程で指定された複数のカテゴリに分類する
第1の文書分類工程と、前記第1の文書分類工程で、前
記第1の分類条件指定工程で指定された複数のカテゴリ
のうちいずれか一つのカテゴリに分類されたすべての電
子文書を指定する第2の分類対象指定工程と、前記第2
の分類対象指定工程で指定された電子文書を分類するた
めの複数のカテゴリを指定する第2の分類条件指定工程
と、前記第2の分類対象指定工程で指定された電子文書
を前記第2の分類条件指定工程で指定された複数のカテ
ゴリに分類する第2の文書分類工程と、を含んだので、
あるカテゴリに分類された文書は、当該カテゴリにあら
かじめ対応づけられた複数のカテゴリによりさらに細か
く分類され、これによって、複数の文書を自動かつ詳細
に分類することが可能な文書分類方法が得られるという
効果を奏する。
【0118】また、請求項7に記載の発明は、前記請求
項6に記載の発明において、さらに、前記第1の分類条
件指定工程で指定された複数のカテゴリのうち、前記第
2の分類対象指定工程で指定された電子文書が分類され
ていた前記いずれか一つのカテゴリを特定できる情報と
対応づけて、前記第2の分類条件指定工程で指定された
複数のカテゴリを特定できる情報を表示する分類体系表
示工程を含んだので、多段階の分類に使用されたカテゴ
リ間の上下関係がツリー状に画面表示され、これによっ
て、複数の文書を自動かつ詳細に分類するとともに、そ
の分類体系を分かりやすく操作者に提示することが可能
な文書分類方法が得られるという効果を奏する。
【0119】また、請求項8に記載の発明は、前記請求
項6または請求項7に記載の発明において、さらに、前
記第1の分類対象指定工程または前記第2の分類対象指
定工程で指定された電子文書の本文を表示する文書内容
表示工程と、あらかじめ指定されたキーワードのうち、
前記文書内容表示工程で表示された本文に含まれるキー
ワードを表示するキーワード表示工程と、を含んだの
で、画面表示されたキーワードから各文書の記述内容を
ある程度推測することができ、これによって、複数の文
書を自動かつ詳細に分類するとともに、その分類体系や
分類された各文書の概要を分かりやすく操作者に提示す
ることが可能な文書分類方法が得られるという効果を奏
する。
【0120】また、請求項9に記載の発明は、前記請求
項6〜請求項8のいずれか一つに記載の発明において、
さらに、前記第2の分類対象指定工程で指定された各電
子文書につき、当該電子文書が前記第1の文書分類工程
で分類されたすべてのカテゴリを特定できる情報、およ
び当該文書が前記第2の文書分類工程で分類されたすべ
てのカテゴリを特定できる情報を表示する分類経路表示
工程を含んだので、画面表示された分類経路から各文書
の記述内容をある程度推測することができ、これによっ
て、複数の文書を自動かつ詳細に分類するとともに、そ
の分類体系や分類された各文書の概要を分かりやすく操
作者に提示することが可能な文書分類方法が得られると
いう効果を奏する。
【0121】また、請求項10に記載の発明は、前記請
求項6〜請求項9のいずれか一つに記載の発明におい
て、さらに、前記第1の分類対象指定工程で指定された
各電子文書の、前記第1の分類条件指定工程で指定され
た各カテゴリに対する適合度を算出する第1の適合度算
出工程と、前記第2の分類対象指定工程で指定された各
電子文書の、前記第2の分類条件指定工程で指定された
各カテゴリに対する適合度を算出する第2の適合度算出
工程と、前記第1の適合度算出工程および前記第2の適
合度算出工程で算出された適合度の重み付き和にもとづ
いて、前記第2の分類対象指定工程で指定された各電子
文書の重要度を算出する重要度算出工程と、前記第2の
文書分類工程で、前記第2の分類条件指定工程で指定さ
れた複数のカテゴリのうちいずれか一つのカテゴリに分
類されたすべての電子文書を特定できる情報を、前記重
要度算出工程で算出された重要度の順に表示する文書一
覧表示工程と、を含んだので、同一カテゴリ内の文書を
操作者にとって重要なものから優先的に画面表示するこ
とができ、これによって、分類された多数の文書の中か
ら目的の文書を容易に特定することが可能な文書分類方
法が得られるという効果を奏する。
【0122】また、請求項11に記載の発明によれば、
前記請求項6〜請求項10のいずれか一つに記載の方法
をコンピュータに実行させることが可能なプログラムが
得られるという効果を奏する。
【0123】また、請求項12に記載の発明によれば、
前記請求項11に記載のプログラムをコンピュータに読
み取らせて実行させることが可能な記録媒体が得られる
という効果を奏する。
【図面の簡単な説明】
【図1】実施の形態1にかかる文書分類装置のハードウ
ェア構成を示す説明図である。
【図2】実施の形態1にかかる文書分類装置の構成を機
能的に示す説明図である。
【図3】本発明におけるプロファイルとプロファイルセ
ットとの関係を模式的に示す説明図である。
【図4】実施の形態1にかかる文書分類制御部202の
制御のもとでおこなわれる、多段階の文書分類の様子を
模式的に示す説明図である。
【図5】実施の形態1にかかる文書分類制御部202の
制御のもとでおこなわれる、多段階の文書分類の手順を
示すフローチャートである。
【図6】実施の形態1にかかる文書分類部203によ
る、一段階の文書分類の手順を詳細に示すフローチャー
トである。
【図7】実施の形態1にかかる表示部206により表示
される、「文書分類基本表示画面」の一例を示す説明図
である。
【図8】実施の形態1にかかる表示部206により表示
される、「多段階文書分類表示画面」の一例を示す説明
図である。
【図9】実施の形態1にかかる表示部206により表示
される、「多段階文書分類表示画面」の他の一例を示す
説明図である。
【図10】実施の形態1にかかる表示部206により表
示される、各プロファイルのキーワード一覧の一例を示
す説明図である。
【図11】実施の形態1にかかる表示部206により表
示される、「抽出文書一覧表示画面」の一例を示す説明
図である。
【図12】実施の形態1にかかる表示部206により表
示される、「文書・キーワード表示画面」の一例を示す
説明図である。
【図13】実施の形態1にかかる文書分類部203によ
り算出される、各文書の適合度のスコアの具体例を示す
説明図である。
【図14】実施の形態2にかかる文書分類装置の構成を
機能的に示す説明図である。
【図15】実施の形態2にかかる文書分類制御部140
2の制御のもとでおこなわれる、多段階の文書分類の手
順を示すフローチャートである。
【図16】実施の形態2にかかる表示部1406により
表示される、「抽出文書一覧表示画面」の一例を示す説
明図である。
【図17】従来技術における多段階の絞り込みの過程を
模式的に示す説明図である。
【符号の説明】
100 バスまたはケーブル 101 CPU 102 ROM 103 RAM 104 HDD 105 HD 106 FDD 107 FD 108 ディスプレイ 109 ネットワークI/F 110 通信ケーブル 111 キーボード 112 マウス 113 CD−ROM 114 CD−ROMドライブ 200,1400 分類対象文書記憶部 201,1401 プロファイルセット記憶部 202,1402 文書分類制御部 203,1403 文書分類部 204,1404 分類結果統合部 205,1405 制御設定情報記憶部 206,1406 表示部 1404a 重要度算出部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 下郡山 敬己 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 (72)発明者 浅川 泰彦 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内 Fターム(参考) 5B075 NK43 PQ46

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 電子文書をあらかじめ用意された複数の
    カテゴリに分類する文書分類装置において、 少なくとも一つの電子文書を指定する第1の分類対象指
    定手段と、 前記第1の分類対象指定手段により指定された電子文書
    を分類するための複数のカテゴリを指定する第1の分類
    条件指定手段と、 前記第1の分類対象指定手段により指定された電子文書
    を前記第1の分類条件指定手段により指定された複数の
    カテゴリに分類する第1の文書分類手段と、 前記第1の文書分類手段により、前記第1の分類条件指
    定手段により指定された複数のカテゴリのうちいずれか
    一つのカテゴリに分類されたすべての電子文書を指定す
    る第2の分類対象指定手段と、 前記第2の分類対象指定手段により指定された電子文書
    を分類するための複数のカテゴリを指定する第2の分類
    条件指定手段と、 前記第2の分類対象指定手段により指定された電子文書
    を前記第2の分類条件指定手段により指定された複数の
    カテゴリに分類する第2の文書分類手段と、 を備えたことを特徴とする文書分類装置。
  2. 【請求項2】 さらに、前記第1の分類条件指定手段に
    より指定された複数のカテゴリのうち、前記第2の分類
    対象指定手段により指定された電子文書が分類されてい
    た前記いずれか一つのカテゴリを特定できる情報と対応
    づけて、前記第2の分類条件指定手段により指定された
    複数のカテゴリを特定できる情報を表示する分類体系表
    示手段を備えたことを特徴とする前記請求項1に記載の
    文書分類装置。
  3. 【請求項3】 さらに、前記第1の分類対象指定手段ま
    たは前記第2の分類対象指定手段により指定された電子
    文書の本文を表示する文書内容表示手段と、 あらかじめ指定されたキーワードのうち、前記文書内容
    表示手段により表示された本文に含まれるキーワードを
    表示するキーワード表示手段と、 を備えたことを特徴とする前記請求項1または請求項2
    に記載の文書分類装置。
  4. 【請求項4】 さらに、前記第2の分類対象指定手段に
    より指定された各電子文書につき、当該電子文書が前記
    第1の文書分類手段により分類されたすべてのカテゴリ
    を特定できる情報、および当該文書が前記第2の文書分
    類手段により分類されたすべてのカテゴリを特定できる
    情報を表示する分類経路表示手段を備えたことを特徴と
    する前記請求項1〜請求項3のいずれか一つに記載の文
    書分類装置。
  5. 【請求項5】 さらに、前記第1の分類対象指定手段に
    より指定された各電子文書の、前記第1の分類条件指定
    手段により指定された各カテゴリに対する適合度を算出
    する第1の適合度算出手段と、 前記第2の分類対象指定手段により指定された各電子文
    書の、前記第2の分類条件指定手段により指定された各
    カテゴリに対する適合度を算出する第2の適合度算出手
    段と、 前記第1の適合度算出手段および前記第2の適合度算出
    手段により算出された適合度の重み付き和にもとづい
    て、前記第2の分類対象指定手段により指定された各電
    子文書の重要度を算出する重要度算出手段と、 前記第2の文書分類手段により、前記第2の分類条件指
    定手段により指定された複数のカテゴリのうちいずれか
    一つのカテゴリに分類されたすべての電子文書を特定で
    きる情報を、前記重要度算出手段により算出された重要
    度の順に表示する文書一覧表示手段と、 を備えたことを特徴とする前記請求項1〜請求項4のい
    ずれか一つに記載の文書分類装置。
  6. 【請求項6】 電子文書をあらかじめ用意された複数の
    カテゴリに分類する文書分類方法において、 少なくとも一つの電子文書を指定する第1の分類対象指
    定工程と、 前記第1の分類対象指定工程で指定された電子文書を分
    類するための複数のカテゴリを指定する第1の分類条件
    指定工程と、 前記第1の分類対象指定工程で指定された電子文書を前
    記第1の分類条件指定工程で指定された複数のカテゴリ
    に分類する第1の文書分類工程と、 前記第1の文書分類工程で、前記第1の分類条件指定工
    程で指定された複数のカテゴリのうちいずれか一つのカ
    テゴリに分類されたすべての電子文書を指定する第2の
    分類対象指定工程と、 前記第2の分類対象指定工程で指定された電子文書を分
    類するための複数のカテゴリを指定する第2の分類条件
    指定工程と、 前記第2の分類対象指定工程で指定された電子文書を前
    記第2の分類条件指定工程で指定された複数のカテゴリ
    に分類する第2の文書分類工程と、 を含んだことを特徴とする文書分類方法。
  7. 【請求項7】 さらに、前記第1の分類条件指定工程で
    指定された複数のカテゴリのうち、前記第2の分類対象
    指定工程で指定された電子文書が分類されていた前記い
    ずれか一つのカテゴリを特定できる情報と対応づけて、
    前記第2の分類条件指定工程で指定された複数のカテゴ
    リを特定できる情報を表示する分類体系表示工程を含ん
    だことを特徴とする前記請求項6に記載の文書分類方
    法。
  8. 【請求項8】 さらに、前記第1の分類対象指定工程ま
    たは前記第2の分類対象指定工程で指定された電子文書
    の本文を表示する文書内容表示工程と、 あらかじめ指定されたキーワードのうち、前記文書内容
    表示工程で表示された本文に含まれるキーワードを表示
    するキーワード表示工程と、 を含んだことを特徴とする前記請求項6または請求項7
    に記載の文書分類方法。
  9. 【請求項9】 さらに、前記第2の分類対象指定工程で
    指定された各電子文書につき、当該電子文書が前記第1
    の文書分類工程で分類されたすべてのカテゴリを特定で
    きる情報、および当該文書が前記第2の文書分類工程で
    分類されたすべてのカテゴリを特定できる情報を表示す
    る分類経路表示工程を含んだことを特徴とする前記請求
    項6〜請求項8のいずれか一つに記載の文書分類方法。
  10. 【請求項10】 さらに、前記第1の分類対象指定工程
    で指定された各電子文書の、前記第1の分類条件指定工
    程で指定された各カテゴリに対する適合度を算出する第
    1の適合度算出工程と、 前記第2の分類対象指定工程で指定された各電子文書
    の、前記第2の分類条件指定工程で指定された各カテゴ
    リに対する適合度を算出する第2の適合度算出工程と、 前記第1の適合度算出工程および前記第2の適合度算出
    工程で算出された適合度の重み付き和にもとづいて、前
    記第2の分類対象指定工程で指定された各電子文書の重
    要度を算出する重要度算出工程と、 前記第2の文書分類工程で、前記第2の分類条件指定工
    程で指定された複数のカテゴリのうちいずれか一つのカ
    テゴリに分類されたすべての電子文書を特定できる情報
    を、前記重要度算出工程で算出された重要度の順に表示
    する文書一覧表示工程と、 を含んだことを特徴とする前記請求項6〜請求項9のい
    ずれか一つに記載の文書分類方法。
  11. 【請求項11】 前記請求項6〜請求項10のいずれか
    一つに記載の方法をコンピュータに実行させることを特
    徴とするプログラム。
  12. 【請求項12】 前記請求項11に記載のプログラムを
    記録したことを特徴とするコンピュータ読み取り可能な
    記録媒体。
JP2001342327A 2001-11-07 2001-11-07 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2003141129A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001342327A JP2003141129A (ja) 2001-11-07 2001-11-07 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001342327A JP2003141129A (ja) 2001-11-07 2001-11-07 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2003141129A true JP2003141129A (ja) 2003-05-16

Family

ID=19156207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001342327A Pending JP2003141129A (ja) 2001-11-07 2001-11-07 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2003141129A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007507763A (ja) * 2003-09-10 2007-03-29 フィデリス・セキュリティー・システムズ 高性能のネットワーク内容解析プラットフォーム
KR100736768B1 (ko) * 2005-11-07 2007-07-09 (주)윕스 데이터 분류체계 관리 방법
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム
JP2015062098A (ja) * 2013-08-23 2015-04-02 株式会社Ubic 相関関係表示システム、相関関係表示方法、及び相関関係表示プログラム
US10747893B2 (en) 2012-08-22 2020-08-18 International Business Machines Corporation Device and method for determining content of access control of data

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007507763A (ja) * 2003-09-10 2007-03-29 フィデリス・セキュリティー・システムズ 高性能のネットワーク内容解析プラットフォーム
KR100736768B1 (ko) * 2005-11-07 2007-07-09 (주)윕스 데이터 분류체계 관리 방법
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム
US10747893B2 (en) 2012-08-22 2020-08-18 International Business Machines Corporation Device and method for determining content of access control of data
JP2015062098A (ja) * 2013-08-23 2015-04-02 株式会社Ubic 相関関係表示システム、相関関係表示方法、及び相関関係表示プログラム

Similar Documents

Publication Publication Date Title
US10152514B2 (en) System for computerized evaluation of patent-related information
US6915308B1 (en) Method and apparatus for information mining and filtering
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
US7818286B2 (en) Computer-implemented dimension engine
JP2003330946A (ja) アイデア抽出支援方法とそのためのプログラム
JP2002230035A (ja) 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
JPH08190564A (ja) 情報検索方法及びシステム
JPH11328279A (ja) 棒グラフ表示方法およびそのプログラム記憶媒体
John et al. MultiCloud: Interactive word cloud visualization for multiple texts
CN108664509A (zh) 一种即席查询的方法、装置及服务器
JP2669601B2 (ja) 情報検索方法及びシステム
KR101401225B1 (ko) 문서 분석 시스템
JP4116601B2 (ja) タキソノミー表示装置、タキソノミー表示方法、およびタキソノミー表示プログラム
JP2003141129A (ja) 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4876692B2 (ja) テキストマイニング装置、テキストマイニングプログラム、及びテキストマイニング方法
US20090083312A1 (en) Document composition system and method
Bartík Text-based web page classification with use of visual information
JPH08305724A (ja) 設計支援情報文書管理装置
WO2002031686A1 (en) A multi-user database for computer-based information
KR101078978B1 (ko) 문서 분류 시스템
KR101078966B1 (ko) 문서 분석 시스템
KR101078945B1 (ko) 문서 분석 시스템
John et al. Visual interactive comparison of part-of-speech models for domain adaptation
KR20110010662A (ko) 문서 분석 시스템
KR20180137394A (ko) 문서로부터 용어를 추출하고 관리하는 장치를 이용한 용어 추출 및 관리 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080115