JPH08153121A - 文書情報分類方法および文書情報分類装置 - Google Patents
文書情報分類方法および文書情報分類装置Info
- Publication number
- JPH08153121A JPH08153121A JP7231033A JP23103395A JPH08153121A JP H08153121 A JPH08153121 A JP H08153121A JP 7231033 A JP7231033 A JP 7231033A JP 23103395 A JP23103395 A JP 23103395A JP H08153121 A JPH08153121 A JP H08153121A
- Authority
- JP
- Japan
- Prior art keywords
- document information
- folder
- keyword
- document
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ードおよび文書中の出現単語を手がかりとして、規定の
分類体系に依存せずに文書群を分類し、分類結果を階層
的に整理する文書情報分類方法および文書情報分類装置
を提供することにある。 【構成】 文書DB107の文書群とキーワードDB1
08の各文書に付与されたキーワード群をデータ管理部
101で管理する。文書分類部103では、個々のキー
ワードに基づいて文書をフォルダに分類して格納する。
次に、類似した文書群を持つフォルダを統合する。統合
する際には統合が有効かどうかの判断を行う。統合され
たフォルダ内や、統合されずに残ったフォルダ内は、細
分類が可能かどうかを判断し、階層的な分類体系を作り
出す。分類結果は分類結果出力部104でCRT109
に出力し、ユーザが分類結果を読み出すことができる環
境を提供する。
Description
文書ファイルを階層的に分類する文書情報分類方法およ
び文書情報分類装置に関する。特に、情報分類システム
および文書ファイリングシステム等に適用されるもので
ある。
報検索サービスや電子メールを利用して、情報収集が行
える環境が整いつつある。計算機ネットワークを介し
て、新しい情報が次々に到着し、話題は時々刻々変化す
る。最新情報の有用性は十分認識されているが、次の問
題によって有効活用されていないのが現状である。
を論理式で入力しなければならない。このことは一般ユ
ーザには困難である。
索式を作成することが困難である。
れず、収集した中で必要な情報だけを選択して読むこと
ができない。
1991年11月、320〜331ページ)に記載され
ている広域情報サーバは、(1)、(2)の問題点を関
連性フィードバックにより解決している。関連性フィー
ドバックとは、ユーザが提示した検索条件に基づいて検
索を行い、検索結果の中からユーザが所望の情報を選択
すると、選択した情報を検索条件にフィードバックし
て、検索条件を改善するものである。はじめにユーザが
提示した検索条件が不適切であっても、後に学習が行わ
れて検索条件が洗練されるという手法である。
報処理学会 情報メディア研究会13-6、グループウェ
ア研究会4-6報告、1993年10月28日、37ペ
ージ〜44ページ)に記載されているシステムでは、ユ
ーザが自分の興味をキーワードとしてシステムに登録し
ておくと、これに適合する文書を収集する。論理式の入
力を必要とせず、キーワードの登録だけでよいことか
ら、(1)の問題点が解決できる。さらに、収集した文
書数が一定数を超えると、文書群を自動分類している。
文書の内容をキーワードの出現頻度の並びによるワード
ベクトルで表現し、ワードベクトル間の類似度を計算し
て類似する文書をまとめ、文書を分類する。
文書情報検索装置は、各文書に付与された分類や文書中
に出現する単語といった検索情報を手がかりとして文書
検索を行う。ユーザが検索したい分野や単語などの検索
データを入力すると、内容を推測し自動的に検索式を作
成して検索を行うことにより、(1)の問題を解決して
いる。検索式の作成に際しては、あらかじめ登録してあ
る検索論理式のうち、最適な論理式を選択する。さら
に、検索された文書群は検索データとの類似度を算出
し、その値を使って整列することで、(3)の問題に対
処している。
しか文書分類できない。そのため、検索漏れを起こすと
の問題もある。
報化社会」に記載された広域情報サーバでは、関連性フ
ィードバックという方法によって、ユーザが指定した検
索条件だけではなく、ユーザの希望にかなった実情報を
利用して、システムが検索条件を改善し、(1)、
(2)の問題を解決した。
は、検索式を入力するのではなく、キーワードを登録す
るという方法を採用している。しかし、ユーザが自分の
興味を的確に反映するキーワードを登録するのは困難な
ため、(2)の問題は解決し切れていない。また、文書
群の自動分類処理は逐次的に起動されることが前提なの
で、文書の到着順序に依存した分類になる。情報の内容
は時々刻々変化するので、過去のある時点における分類
体系に依存し続けると、有効な分類結果は生成できず、
(3)の解決は困難になる。
はユーザが自分の興味を的確に反映したキーワードを設
定する作業が困難であるという問題がある。
書の分類処理でも分類の手がかりとなる分類体系をあら
かじめ設定する作業においても同様の問題が生じる。つ
まり、一つの分類体系に依存し続けると、内容の変化に
対応することができず、不適切な分類結果になり得ると
いう問題が生じる。
文書情報検索装置では、検索結果を有効なものから順に
整列して検索式に類似する文書から見られるように工夫
している。しかし、何番目までが有効な情報かを判断す
るには、ユーザは文書の内容を確認せざるを得ないた
め、(3)の問題を解決できるとはいえない。
は、類似した内容の文書をまとめて見たり、まとめて読
み飛ばしたりすることができないという問題がある。
平5−324726号公報がある。この従来例では、あ
るキーワードに着目して文書内にそのキーワードが存在
するか否かにより文書を分類する。分類された文書に同
様の処理を施すことにより階層的に分類していく。
る文書を1つの視点でしか分類できないとの問題点を有
する。
ータに適用すると階層が深くなり、分類数が爆発的に増
加するとの問題もある。
めに、既定の分類体系にとらわれることなく文書を自動
的に分類し、分類結果を階層的に整理する文書分類方法
および文書分類装置を提供することにある。
めに本発明は、予め複数の文書および文書の各文書にお
けるキーワード群を蓄積しておき、蓄積された各キーワ
ード毎に、キーワードを含む文書を単一キーワードフォ
ルダにまとめ、単一キーワードフォルダ内の文書同士を
比較することにより、単一キーワードフォルダ同士を結
合して関連キーワードフォルダを作成し、予め蓄積され
た複数の文書を関連キーワードフォルダに分類すること
を特徴とする。
分類装置では、蓄積された複数の文書と、各文書に人手
で付与したキーワードと各文書中から自動抽出した単語
をまとめたキーワード群と、キーワード群中の個々のキ
ーワードから算出した重要度を管理し、キーワード群と
重要度を分類処理に利用する。
書をまとめる単一キーワード分類処理によって、文書群
を単一キーワードフォルダに格納する。複数のキーワー
ドを持つ文書は、複数の単一キーワードフォルダに重複
して分類する。
ドフォルダについて統合判定を行い、統合可能と判断し
た場合には関連キーワード分類処理で統合し、関連キー
ワードフォルダに格納する。
ードフォルダについて統合判定を行い、統合可能と判断
した場合には関連キーワード分類処理手段で関連キーワ
ードフォルダの統合を繰り返す。
ーワードフォルダ内について、細分類判定を行い、細分
類可能な場合は単一キーワード分類処理と関連キーワー
ド分類処理を利用して、階層的に分類する。細分類は分
類停止の判断するまで再帰的に繰り返す。細分類不可能
な場合は文書間関連度の判定を行い、関連度が低い文書
を雑音とみなして分ける。
内に格納された文書群を代表する名称を付与し、フォル
ダ名を付ける。
く、各文書を必ず一つ以上の分類に格納し、階層的な分
類体系を作成し、分類結果群を代表する名称を付与する
ことができる。その結果、ユーザが大量の文書から所望
の文書を見つけやすくすることができる。
は、計算機上のテキストファイルであり、以下、これを
文書とする。各文書には、文書の内容を代表する複数個
のキーワードを付与することができ、以下、これをキー
ワード群とする。
示す。文書分類装置100は、データ管理部101、単
語検出部102、文書分類部103、分類結果出力部1
04から構成されており、一般用語を収録した単語辞書
105、用語間の上位下位関係や同義語情報などを収録
したシソーラス辞書106、文書を格納している文書DB
107、各文書のキーワード群を格納しているキーワー
ドDB108、出力装置のCRT109、入力装置のキーボ
ード110、マウス111を持つ。
キーワードDB108を管理し、文書やキーワード群の入
出力を行う。キーワードDB108には、あらかじめ人手
で付与したキーワード(以下、人手付与キーワードとす
る)を格納することができる。人手付与キーワードは格
納する必要はないが、本実施例では格納した場合を例に
説明する。
から文書を受け取り、単語辞書105を利用して形態素
解析処理を行い、文書から単語を抽出する。または、文
書を文字種の変化点で分割し、単語を抽出する手法や、
文書中のn文字の並びに対する出現頻度を調べ、意味を
持つn文字の並びを抽出する手法などを利用してもよ
い。抽出した単語群は、シソーラス辞書106を参照し
て、同義語展開したり、上位語への変換を行い、同義語
群を生成する。抽出した単語群と、同義語群をあわせ
て、単語キーワードを生成する。単語キーワードをデー
タ管理部101に受け渡し、キーワードDB108中の各
文書のキーワード群に追加登録する。
ドの重要度を計算する。重要度とは、(1)全単語の出
現頻度総数における各単語の出現頻度、(2)タイト
ル、見出し、段落などの文書中での出現位置に基づく。
すなわち、タイトルは文書の内容を代表する可能性が高
いので、タイトル中に出現した単語の重要度を高くする
といった手法である。
から各文書のキーワード群を受け取り、階層的な分類体
系を生成し、結果を分類結果出力部104に受け渡す。
分類処理の詳細は後述する。
3から階層的な分類体系を受け取り、インタフェース画
面をCRT109に表示する。
1の単語検出部102の詳細を説明する。まず、単語辞
書105を参照して文書201から単語群202の抽出
を行う。単語群202は、シソーラス辞書106を参照
して同義語や上位語に展開する。同義語群203は、
「ブレンド」という用語が同義語の「調合」に展開され
た例を示していて、同義語への展開はキーワードの表記
を統一するために行うものである。次に、単語群202
と同義語群203から、単語キーワード204を生成
し、これをキーワードDB108に格納されている文書2
01のキーワード群205に格納する。キーワード群2
05は、あらかじめ付与されていた人手付与キーワード
に、単語キーワード204が追加された様子を示す。
詳細について説明する。分類の結果、文書が格納される
領域をフォルダ、フォルダに格納される複数個の文書を
文書群と呼ぶ。また、「フォルダを作成する」とは、分
類された文書群を格納する領域を確保することである。
む文書を、各キーワードごとにまとめる単一キーワード
分類処理301を行う。次に、単一キーワード分類処理
301によって作成された単一キーワードフォルダにつ
いて、類似した文書群を含む単一キーワードフォルダの
組を統合する関連キーワード分類処理302を行う。ス
テップ303では、関連キーワード分類処理302によ
って作成された関連キーワードフォルダについて、類似
した文書群を含む関連キーワードフォルダの組を統合で
きるかどうかの判定を行い、統合が可能な間は関連キー
ワードフォルダの統合を繰り返す。さらに、作成された
単一キーワードフォルダや関連キーワードフォルダ内に
ついて、細分類できるかどうかを調べ(ステップ30
4)、細分類可能な間は階層的に分類を繰り返す(ステ
ップ305)。ステップ305は、すべてのフォルダ内
について階層的な分類を行う。
キーワード分類処理301の詳細を説明する。以下、単
一キーワード分類処理301で作成するフォルダを単一
キーワードフォルダと呼ぶ。
るテーブルの初期化を行う。キーワードを管理するテー
ブルをキーワードテーブルと呼ぶ。ステップ402で
は、図1のキーワードDB108から一文書のキーワード
群を読み出し、キーワードテーブルに各キーワードを登
録する。すべての文書について、キーワードの登録を繰
り返す(ステップ403)。ステップ404では、各キ
ーワードについて、キーワードをキーワード群に含む文
書数を数える。文書数が1であるかどうかの判定を行い
(ステップ405)、1のときはキーワードを対象外と
する(ステップ406)。一文書にしか含まれないキー
ワードは、分類時に他の文書との関連性を判断する材料
にならないためである。文書数が1ではないときは、キ
ーワードと同一の名前の単一キーワードフォルダを作成
し、キーワードをキーワード群中に含む文書群を単一キ
ーワードフォルダに格納し、さらに単一キーワードフォ
ルダ名をフォルダを管理するテーブルに登録する(ステ
ップ407)。フォルダを管理するテーブルをフォルダ
テーブルと呼ぶ。ステップ408では、全キーワードに
ついて、上述した単一キーワードフォルダの作成処理を
繰り返す。
て図5を用いて説明する。キーワードテーブル501の
各エントリは、キーワードリスト502を指している。
エントリは、キーワードを入力とするハッシュ関数の値
で決定する。キーワードリスト502は、キーワード5
03、同一ハッシュ値のキーワードリストへのポインタ
504、文書識別番号リストへのポインタ505の組で
ある。ポインタ504は、同一ハッシュ値のキーワード
リスト506を指していて、キーワードリスト502と
同一ハッシュ値のキーワードリスト506のキーワード
は同じハッシュ値になることを示す。ポインタ505
は、文書識別番号リスト507を指していて、キーワー
ド503を含む文書群が連結されている。文書識別番号
リスト507は、文書を識別するための番号508、次
文書識別番号リストへのポインタ509の組である。各
キーワードを含む文書の数は、キーワードテーブル50
1の文書識別番号リスト505をたどれば得られる。
では、キーワードテーブル600の7番のエントリ60
1にキーワードリストが連結されている。ポインタ60
3は、「ペット」というキーワード602のキーワード
リストに、「新種」というキーワード609のキーワー
ドリストが連結していることを示し、ポインタ610は
キーワードリストの連結はそれ以上はないことを示して
いる。ポインタ604は、「ペット」というキーワード
を含む一つの文書識別番号リストである文書識別番号1
(605)を指し、さらにポインタ606は文書識別番
号2(607)を指している。ポインタ608は、それ
以上「ペット」というキーワードを含む文書群はないこ
とを示す。同様に、ポインタ611は「新種」というキ
ーワードを含む文書識別番号リストの文書識別番号3
(612)を指している。ポインタ613は、さらに文
書識別番号リストが連結されていることを示す。
いて説明する。フォルダテーブル700は、フォルダ名
701、フォルダに格納されている文書数702、分類
終了フラグ703、文書識別番号リスト704の組であ
る。分類終了フラグ703は分類を行うか否かを記憶す
るフラグで、詳細については後述する。文書識別番号リ
スト704は、図5のキーワードテーブル501の文書
識別番号リスト507と等しい。フォルダテーブル70
0の0番のエントリ705は、「ペット」というフォル
ダがあり、その中には文書が2件格納されていて、フォ
ルダの分類はOFF(終了していない)で、文書識別番号
のリストが連結していることを示す。
例を用いて、図3の単一キーワード分類処理301を説
明する。文書801は図1の文書DB107に格納されて
いて、文書群802を形成する。各文書にはキーワード
群803が付与されていて、キーワード群803は個々
のキーワード804の集合である。8031は文書1の
キーワード群で、「犬」、「動物」、「ペット」という
キーワードを含む。8032は文書2のキーワード群
で、「猫」、「動物」、「ペット」、「ねずみ」という
キーワードを含む。8033は文書3のキーワード群
で、「新種」、「ねずみ」、「動物」、「ABC国」とい
うキーワードを含む。8034は文書4のキーワード群
で、「ねずみ」、「キャラクター商品」、「ABC国」と
いうキーワードを含む。その他の文書5、文書6、文書
7、文書8も同様にキーワード群を持つものとする。文
書群802に対して単一キーワード分類処理を行うと、
単一キーワードフォルダ800群に展開される。単一キ
ーワードフォルダは、「犬」、「猫」、「キャラクター
商品」、「新種」、「ABC国」、「ペット」、「ねず
み」、「動物」、というキーワードと同一の名前で作成
されている。各単一キーワードフォルダには、文書集合
805が格納されている。
ダ「犬」の文書集合で、文書1が含まれていることを示
す。8052は、単一キーワードフォルダ「ペット」の
文書集合で、文書1と文書2が格納されている。805
3は単一キーワードフォルダ「ねずみ」の文書集合で、
文書2、文書3、文書4が格納されている。8054は
単一キーワードフォルダ「動物」の文書集合で、文書
1、文書2、文書3が格納されている。8055は単一
キーワードフォルダ「ABC国」の文書集合で、文書3、
文書4が格納されている。8056は単一キーワードフ
ォルダ「新種」の文書集合で、文書3、文書5、文書
6、文書7、文書8が格納されていることを示す。
ーワード分類処理302の詳細を説明する。以下、関連
キーワード分類処理302で作成するフォルダを関連キ
ーワードフォルダと呼ぶ。
書数を管理するテーブルの初期化を行う。フォルダ間の
一致文書数を管理するテーブルをフォルダ間一致文書数
管理テーブルと呼ぶ。二つの単一キーワードフォルダ間
での一致文書数を数えて、フォルダ間一致文書数管理テ
ーブルに登録する(ステップ902)。ステップ903
では、すべての単一キーワードフォルダ間の一致文書数
をフォルダ間一致文書数管理テーブルに登録する。ステ
ップ904では、フォルダ間一致文書数管理テーブルを
一致文書数で降順に配列し、テーブルの先頭すなわちフ
ォルダ間の一致文書数が最大となった単一キーワードフ
ォルダの組の統合が可能であるかを調べる(ステップ9
05)。ステップ905の詳細は後述する。
フォルダを作成し、統合する二つの単一キーワードフォ
ルダの文書群を格納し、関連キーワードフォルダ名を図
7のフォルダテーブル700に登録し、統合した二つの
単一キーワードフォルダをフォルダテーブル700から
削除する(ステップ907)。関連キーワードフォルダ
の名称は、統合した二つの単一キーワードフォルダ名を
列挙したものである。このとき、列挙する順番は文書数
の多い単一キーワードフォルダ名から並べ、関連キーワ
ードフォルダ内の文書群がどのようなキーワードを多く
含むかを明示する。さらに、ステップ908でフォルダ
間一致文書数管理テーブルに統合が終了したことを書き
込み、フォルダ間一致文書数管理テーブルの更新を行
う。
た場合には、統合処理を行っていない単一キーワードフ
ォルダの組について、フォルダ間一致文書数管理テーブ
ルの先頭から終りまで、統合処理を繰り返す(ステップ
906)。
ルを図10に示し、詳細を説明する。フォルダ間一致文
書数管理テーブル1001は、一致文書数を調べる二つ
のフォルダの識別番号1002、1003、一致文書数
1004、統合済フラグ1005の組である。図10の
例では、フォルダ識別番号0番と1番の一致文書数が5
件あったことを示している。統合済フラグ1005は、
「フォルダの統合が済んでいるか否か」や「フォルダの
統合が不可能である」ことを記憶するフラグで、「済」
は統合が済んでいることを示し、「不可」は統合が不可
能であることを示している。
テーブルの具体例を示す。すべての単一キーワードフォ
ルダの識別番号を1101と識別番号1102に列挙
し、二つのフォルダ間の一致文書数を調べて登録したも
ので、例えば、文書0と文書4の一致文書数1103は
8件あったことを示す。一致文書数は、図7のフォルダ
テーブル700の文書識別番号リスト704をたどり、
比較することで求められる。
ルの更新処理の具体例を示し、これを用いて詳細を説明
する。フォルダ間一致文書数管理テーブル1200は、
図9のステップ904まで処理が終了した状態を示す。
フォルダ間一致文書数管理テーブルの先頭、すなわちエ
ントリ0番からフォルダの統合処理を開始し、フォルダ
識別番号0番と1番の統合が可能と判断されると統合を
行い(ステップ905)、統合済フラグ1205に
「済」と書き込む(ステップ908)。フォルダ識別番
号0番と1番を統合すると、0番と1番に関係する12
06〜1213を「不可」にする。次に、フォルダ間一
致文書数テーブルの次のエントリ、すなわちエントリ1
番について統合処理を行う(ステップ906)。このと
き、統合済フラグが「不可」ではないことを確認する。
「不可」ならばエントリ1番の単一キーワードフォルダ
の組の一方は、すでに統合処理が終了しているので統合
はできない。図12では、統合済フラグ1214は「不
可」ではないので、統合を行うことができる。本実施例
では、フォルダ間一致文書数管理テーブルの先頭から順
番に処理を行うので、「済」のエントリが処理中のエン
トリよりも後ろのエントリに現われることはない。
テップ905のフォルダの統合判定処理の詳細を説明す
る。
最大になること」を条件として決定する。統合すべきか
どうかは、統合した結果が有効な分類になるかどうかを
調べる必要があり、統合前と統合後を比較して判定す
る。本実施例では図13に示すフォルダ内文書の距離計
算処理1300を適用する。
離計算処理1300で一時的に用いる作業用キーワード
テーブルの初期化を行っている。作業用テーブルのデー
タ構造は、図5のキーワードテーブル501と同様とす
る。フォルダ内に格納されている文書に対して、キーワ
ードの登録を行い(ステップ1302)、すべてのフォ
ルダ内文書について繰り返す(ステップ1303)。キ
ーワード数の計数用にキーワード数pを初期化する(ス
テップ1304)。キーワードを含む文書数を数えて
(ステップ1305)、文書数が1のキーワードは作業
用キーワードテーブルから削除し(ステップ130
8)、1以上のときはキーワード数pを1ずつ増やす
(ステップ1307)。すべてのキーワードについてス
テップ1305以下の処理を繰り返し(ステップ130
9)、フォルダ内の文書群に含まれるキーワードのう
ち、二つ以上の文書に含まれるキーワードの選定が終了
する。次に、図14のステップ1400に進む。
管理するテーブルの初期化を行う。ワードベクトルWiと
は、文書iにおける「キーワードの出現頻度とキーワー
ドの重要度の積」の並びであり、具体的には次のように
表現できる。
Fj*Vj, ..., Fp*Vp) ( iは文書識別番号、1<=j<=p,jはキーワード識別番号、
pはキーワード数、Fjはキーワードjの出現頻度、Vjはキ
ーワードjの重要度 ) 重要度は、図1の単語検出部102で付与したもので、
値が大きいものほど重要度が高い。ワードベクトルを管
理するテーブルをワードベクトルテーブルと呼ぶ。 ス
テップ1402では、各キーワードの出現頻度と単語検
出部102で付与した各キーワードの重要度の積を計算
し、ワードベクトルテーブルに登録し、各文書に関して
繰り返す(ステップ1403)。さらに、ステップ14
04では、各文書のワードベクトルの平均ベクトルを求
める。本実施例では次式で定義する。
Wi(1<=i<=文書数)と平均ベクトルWaとの距離を計算す
る。ベクトル間の距離とは、ベクトルの近さを判断する
もので、本実施例ではベクトル間の距離を次式で定義す
る。文書Di、DjのワードベクトルをそれぞれWi、Wjと
し、WiとWjのなす角度をθとし、Di、Dj間の距離をd(D
i, Dj)とする。
間の距離が近いほど値は小さくなり、一致する場合は0
になる。
平均ベクトルとの距離計算を繰り返す(ステップ140
6)。次にステップ1407で、すべての平均ベクトル
と各文書との距離から距離分布を求める。距離分布と
は、(1)平均距離、(2)分散とし、次式で定義す
る。
別番号iの文書と平均ベクトルとの距離 ) 統合前の二つの単一キーワードフォルダについて、別々
に調べた距離分布の平均値と、統合後の関連キーワード
フォルダの距離分布を比較することで、統合の可否を判
断する。本実施例では、(1)、(2)を具体的に次式
で定義する。
離の平均値、d2統合後の平均距離、|x|はxの絶対値、Td
はしきい値) (2)σ2/σ1 >= Tσ (σ1は統合前の二つの単一キーワードフォルダの平均
分散値、σ2は統合後の分散値、Tσはしきい値) (1)または(2)の条件が満たされるときに、統合不
可と判断する。しきい値Td、Tσは、初期実験で数種類
を決定しておき、フォルダ内の文書群の距離分布の状況
に適したものを選択する。
を用いて、詳細を説明する。ワードベクトルテーブル1
500は、縦軸が文書識別番号、横軸がキーワード識別
番号の2次元テーブルである。例えばエントリ1503
は、文書識別番号3番の文書において、キーワード識別
番号3のキーワードの出現頻度と重要度の積が2である
ことを表している。図15を例にとり、ワードベクトル
と平均ベクトルとの距離の計算例を示す。説明を簡略化
するために、各キーワードの重要度はすべて1とし、文
書数は4、キーワードは識別番号4までを対象としたと
きの、文書識別番号1番のワードベクトルと平均ベクト
ルとの距離を計算する。
距離d1 d1(D1, Wa) = 1 - W1・Wa / |W1|*|Wa| = 1- ( 3, 2, 1, 1 )・( 1.3, 4.2, 3.5, 0.8 ) / 3.9 * 38 = 1- 48.1 / 148.2 = 1- 0.32 = 0.68 図16に関連キーワード分類処理の具体例を示す。単一
キーワードフォルダ「ペット」1601と単一キーワー
ドフォルダ「動物」1602とを統合して関連キーワー
ドフォルダ「動物とペット」1605を作り、単一キー
ワードフォルダ「ABC国」1603と単一キーワードフ
ォルダ「ねずみ」1604を統合して関連キーワードフ
ォルダ「ねずみとABC国」を作成している(図3ステッ
プ302)。さらに、関連キーワード分類処理を繰り返
し(図3ステップ303)、関連キーワードフォルダ
「動物とペット」1605と関連キーワードフォルダ
「ねずみとABC国」1606を統合し、関連キーワード
フォルダ「動物とねずみとペットとABC国」1607を
作成している。1607のフォルダ名は、「動物」、
「ねずみ」、「ペット」、「ABC国」の順に、各キーワ
ードに関連する文書が多く格納されていることを示す。
類体系の第一階層が生成される。
類とはフォルダ内を階層的に分類することで、上位フォ
ルダの作成に利用していないキーワードを用いて分類を
行う。例えば、図16の関連キーワードフォルダ「動物
とねずみとペットとABC国」1607内を細分類する場
合には、キーワード「動物」、「ねずみ」、「ペッ
ト」、「ABC国」以外のキーワードを利用して分類を行
う。
テップ304の詳細を説明する。ステップ1701では
フォルダの種類を判別する。
の高い、複数の単一キーワードフォルダが統合された結
果なので、フォルダ内をさらに階層的に分類する。分類
は、図3の流れ図に従って、単一キーワード分類処理3
01、関連キーワード分類処理302、関連キーワード
フォルダの統合処理303、細分類304〜306を再
帰的に繰り返す。
キーワードに引き付けられた文書群が格納されているの
で、集合としてのまとまりがあるかどうかの保証がな
い。そこで、図13のフォルダ内の文書間の距離計算を
行って(ステップ1300)、各文書と平均ベクトルと
の距離の分散値を求める(ステップ1702)。
1702)、Tσ以上ならばフォルダ内を階層的に分類
する価値はないとみなし、さらに平均距離を調べる(ス
テップ1703)。平均距離がしきい値Td以上の文書
は、関連性の薄い雑音文書であると判定し、単一キーワ
ード内の雑音フォルダに格納する(ステップ170
4)。雑音フォルダは、雑音と判定された文書を格納す
るためのフォルダで、雑音文書が存在したフォルダ内に
だけ作成する。フォルダ内のすべての文書について、平
均距離計算を行い(ステップ1705)、雑音文書を雑
音フォルダに格納し、図7のフォルダテーブル700の
分類終了フラグ703に分類終了と書き込む(ステップ
1706)。
ドフォルダ内を細分類可能と判断し、図3の流れ図に従
って、単一キーワード分類処理301、関連キーワード
分類処理302、関連キーワードフォルダの統合処理3
03、細分類304〜306を再帰的に繰り返す。
ードフォルダ「猫と魚」1801は、単一キーワードフ
ォルダ「キャットフード」1804と、関連キーワード
フォルダ「釣りと海」1805の二つのフォルダに階層
的に分類された例である。また、単一キーワードフォル
ダ「犬」1802は、単一キーワードフォルダ「柴犬」
1806と関連キーワードフォルダ「えさと散歩」18
07の二つのフォルダに階層的に分類された例である。
単一キーワードフォルダ「新種」1803は、雑音文書
1809が雑音文書フォルダ1808に分けられた例で
ある。
を作成したことになる。
ここで、分類によって作成されるフォルダの階層構造の
記憶方法について、図19の分類階層管理テーブル19
00を用いて説明する。
リは、フォルダ情報リストを指している。フォルダ情報
リスト1901は、フォルダ名1902、文書識別番号
リスト1903、文書数1904、兄弟フォルダ情報リ
ストへのポインタ1905、子フォルダ情報リストへの
ポインタ1906、親フォルダ情報リストへのポインタ
1907の組である。フォルダ名1902は図7のフォ
ルダテーブル700のフォルダ名701と一致し、文書
数1904は702と一致する。文書識別番号リスト1
903は、各フォルダに格納されている文書識別番号リ
スト1908へのポインタであり、1908は文書識別
番号1909と次文書識別番号リストへのポインタ19
10の組である。文書識別番号リスト1903は、図7
のフォルダテーブル700の文書識別番号リスト704
と一致する。兄弟フォルダ情報リストへのポインタ19
05は、フォルダ情報リスト1901と同じ上位フォル
ダを持ち、同階層に位置するフォルダ情報リストへのポ
インタである。子フォルダ情報リストへのポインタ19
06は、フォルダ情報リスト1901の一つの下位フォ
ルダ情報リストへのポインタである。親フォルダ情報リ
ストへのポインタ1907は、上位フォルダ情報リスト
へのポインタである。
フォルダの情報を書き込むと同時に、分類階層管理テー
ブル1900にもフォルダテーブル700の内容を複写
する。細分類によって、第二階層以降のフォルダを作成
すると、分類階層管理テーブル1900の子フォルダ情
報リストへのポインタ1906、兄弟フォルダ情報リス
トへのポインタ1905、親フォルダ情報リストへのポ
インタ1907の更新を行う。
用いて、具体的に階層構造の記憶方式を説明する。ま
ず、新規作成したフォルダをフォルダ情報リスト190
1に登録する。さらに、フォルダ内を細分類して二つの
フォルダに分類したとすると、子フォルダ情報リストへ
のポインタ1906に一つの子フォルダ情報リスト19
11を登録し、1911の兄弟フォルダ情報リストへの
ポインタ1912に二つ目の子フォルダ情報リスト19
15を登録し、それ以上はフォルダはないので、191
6は連結がないことを示す。フォルダ情報リスト190
1は1911と1915の親フォルダ情報リストに相当
するので、親フォルダ情報リストへのポインタ191
4、1918は1901を指している。フォルダ情報リ
スト1901の子フォルダ情報リスト1911、191
5は、以下に階層的な分類はないので、1913、19
18は連結がないことを示す。フォルダ情報リスト19
01は第一階層のフォルダで、それ以上の階層や同一の
階層に位置するフォルダはないので、1905、190
7は連結がないことを示す。また、フォルダ情報リスト
1901は、二つの文書を持ち、1903は一つ目の文
書識別番号リスト1908を、1909は二つ目の文書
識別番号リスト1910を指している。
体系は、具体的には図20のような階層構造に展開さ
れ、第一階層には、関連キーワードフォルダ「猫と魚」
1801、単一キーワードフォルダ「犬」1802、単
一キーワードフォルダ「新種」が、第二階層フォルダに
は、1801の下位に単一キーワードフォルダ「キャッ
トフード」1804、関連キーワードフォルダ「釣りと
海」1805があり、1802の下位に単一キーワード
フォルダ「柴犬」1806、関連キーワードフォルダ
「えさと散歩」1807があり、1803の下位には雑
音文書が雑音文書フォルダに分離されている。
体系を文書分類部103から受け取ると、インタフェー
ス画面を図21に示すように作成し、CRT109に出力
する。図21の2101は、分類体系の上位三階層が表
示されていて、2113は第一階層、2114は第二階
層2115が第三階層を示していて、各階層のフォルダ
名が縦方向に表示されている。図21は、第一階層
「猫、魚」を選択し、第二階層「キャットフード」を選
択した結果、第三階層に文書群が表示され、文書15を
選択した様子である。2112は文書15の内容、文書
の作成された日2116やフォルダ内における文書15
の得点情報2117を表示している。ユーザは図1のマ
ウス111で、興味のあるフォルダ名を選択し、自由に
内容を参照することができる。また、興味のないフォル
ダは読み飛ばすことができ、参照すべき文書量が削減で
きる。
古い文書の削除が行われる場合には、文書分類部103
が改めて分類しなおすことで、新規情報の入手にも対応
できる。
施例は、図1に示した第1の実施例の文書分類装置10
0における分類結果出力部104に、ユーザの意見を反
映した分類結果を構築するための分類指定手段を設けた
文書分類装置に関する。
体系にとらわれることなく文書を自動的に分類するため
に、ユーザの意向と異なる分類結果を生成してしまうこ
とがある。そこで図22のように、図1の分類結果出力
部104に分類指定部2201を加えた、文書分類装置
2200の構成をとり、ユーザの意見を分類結果に反映
させる手段を設ける。分類指定部2201はフォルダ数
指定インタフェース2500と分類体系構築補助インタ
フェース2700という二つの画面から構成される。
といった入力装置を用いて分類したい文書群を指定し、
分類処理の実行を指示すると、文書分類装置2200が
起動され、図23の流れ図に基づく処理が施される。ま
ずステップ2301としてデータ管理部101が文書D
B107にユーザの指定した文書群を格納する。
02が文書群から単語キーワードを検出し、単語辞書1
05に格納する。こうして分類処理を行うためのデータ
が用意できると、ステップ2303で文書分類部103
が図3の流れ図に従って分類体系を生成し、文書を分類
する。分類結果出力部104はこの分類結果を図21の
ようなインタフェース画面に表示して、ユーザに提示す
る(ステップ2304)。ここまでは第1の実施例と同
一の処理ステップである。さらに、分類結果を参照した
ユーザから分類指定部2201に対する指示を確認し
(ステップ2305)、指示がない場合には終了する。
指示がある場合にはステップ2306で指示内容を解釈
し、フォルダ数指定インタフェース2500への指示の
場合はステップ2307の再分類処理を施し、分類体系
構築補助インタフェース2700への指示の場合はステ
ップ2308の再分類処理を適用する。フォルダ数指定
インタフェース2500および分類体系構築補助インタ
フェース2700については後述する。そして再びステ
ップ2304に戻り、再分類の結果をユーザに提示す
る。ユーザが分類指定部2201に対して指示するケー
スとしては、分類結果がユーザの意向に合わない場合な
どが挙げられる。
の入力画面、フォルダ数指定インタフェース2500お
よび分類体系構築補助インタフェース2700について
説明する。ここでは、各インタフェースから取り込まれ
る再分類に関する指示情報と再分類処理2307および
2308の詳細について述べる。
500について述べる。
成された、約一千件の「コンピュータ」関係の文書群の
分類結果を示すインタフェース画面である。これは図2
1と同種の出力画面であり、第1の実施例と同様に文書
分類部103で作成された分類結果を読み出して作成さ
れる。具体的には図19の分類階層管理テーブル190
0からフォルダ名1902、文書群1903、文書数1
904、フォルダの階層関係(1905、1906、1
907)を読み出すことによって、図24の画面に表示
する情報を得ている。
内容が多岐に渡れば詳細に分類することができ、数十か
ら数百ものフォルダが生成される。分類結果として第一
階層に数十個のフォルダが生成され、各フォルダの下位
に同等数のフォルダが生成された場合を例に、本図では
分類体系の上位三階層を表示している。フォルダ「パソ
コン、発売、販売、ソフト」2405およびフォルダ
「発売、価格、販売、見込」2406はユーザが参照し
ようとして選択した状態を反転して示している。240
1は第一階層に生成された複数個のフォルダの名前を縦
方向に列挙し、2402はユーザから選択された第一階
層2401のフォルダ「パソコン、発売、販売、ソフ
ト」2405の下位(第二)階層のフォルダ名を、24
03は選択された第二階層2402のフォルダ「発売、
価格、販売、見込」2406の下位(第三)階層のフォ
ルダ名を縦方向に表示している。本図では第一階層(to
p class)2401のフォルダ名が6個しか見えない
が、実際にはスクロールバー2404を用いて画面をス
クロールさせることで数十個のフォルダ名を参照でき
る。
以下を作成する細分類処理(図17)について、第1の
実施例では「上位フォルダの作成に利用していないキー
ワードを用いて分類を行う」場合を仮定したが、本例で
は上位フォルダの作成に利用したキーワードも用いて分
類する場合について取り挙げている。そのため、上位階
層のフォルダの作成に利用されたキーワードが下位階層
のフォルダにも出現することがあり、例えば第一階層
(top class)2401のフォルダ「パソコン、発売、
販売、ソフト」2405に含まれているキーワード「パ
ソコン」、「発売」、「販売」、「ソフト」は第二階層
2402のフォルダ「発売、価格、販売、見込」240
6とフォルダ「パソコン、開発、シリーズ、新製品」2
407、フォルダ「ソフト、東京、複雑、成功」240
8にも含まれている。
く、所望のフォルダを見つけにくい。一方、一階層のフ
ォルダ数を少なくし階層を深くして細分類すると、所望
の文書を見つけるまで手間がかかる。分類結果として適
切なフォルダの数やフォルダの大きさは、分類対象の文
書数や文書の内容の均質さによって異なってくる。さら
に、分類結果の適否はこれを参照するユーザの視点によ
って異なることから、予め適切なフォルダ数や平均文書
数を設定することは難しい。そこで、フォルダ数指定イ
ンタフェース2500は文書分類部103によって生成
される分類結果のフォルダ数やフォルダの大きさを、ユ
ーザによって指定できる環境を提供するという役割を担
う。
ス2500では、フォルダ数やフォルダの平均文書数と
いった分類結果に関する情報をユーザに提示し、好みに
応じて適切なフォルダ数や平均文書数にまとめ直すため
の指示を受け取れるようにしている。一般的にフォルダ
数を少なくすれば平均文書数は多くなるというように両
者は連動する関係にあるが、ユーザが分類結果を評価す
る基準としてどちらを用いてもよいようにする。250
1は一階層に生成されたフォルダ数を、2502は平均
文書数を示す。フォルダ数操作バー2503はフォルダ
数の増減を、平均文書数操作バー2504は平均文書数
の増減をユーザが指定するためのグラフィカルユーザイ
ンタフェース(GUI)である。2505は文書数に応じ
た大きさに表現した円状の図形をフォルダと見立て、分
類体系全体の状況を表示している。分類指定部2201
はフォルダ数指定インタフェースを作成するために、分
類結果出力部104から第一階層2401に関する情報
を読み出し、フォルダ数を調べて2501に書き込み、
各フォルダの文書数を調べてその平均値を2502に書
き込み、各フォルダは文書数に比例した値を半径とする
円状の図形として画面2505を作成する。
03を操作してフォルダ数の減少を指示した様子を示し
ている。ユーザからの指示に従って再分類処理2307
が実行されると、新たな分類結果が生成されフォルダ数
指定インタフェースは2500から2510のように変
わる。再分類処理2307の詳細は後述する。
であったが、ユーザの指示を反映して、フォルダ数25
11は30個に減少している。このように、ユーザが自
分の参照しやすいレベルに分類結果を調節することが可
能となる。
定インタフェース2500から取り込まれたユーザの指
示に基づいて行う、再分類処理2307の詳細を図26
を用いて説明する。
01としてユーザからの指示内容を解釈する。「フォル
ダ数の減少」あるいは「平均文書数の増加」を指示する
ものでなければ、ステップ2602として分類処理23
03における分類結果を見直し、よりフォルダ数が多
く、平均文書数が少ない分類結果を再選択することを文
書分類部103に指示する。
の再選択処理2602について説明を加える。文書分類
部103の行う分類処理2303は図3の流れ図に基づ
き、関連キーワード処理302を繰り返し適用して分類
結果となるフォルダを生成し、これらのフォルダに文書
を分類する。関連キーワード処理302とは、図9で示
した流れ図に従い、関連のありそうなフォルダの組を統
合することによって分類結果となるフォルダを作り出
す。フォルダに関する情報を記録しておくフォルダテー
ブル700(図7)は、関連キーワード分類処理302
が繰り返されるたびに更新され、関連キーワード処理3
02が終了(ステップ303)した時点の情報が分類結
果のフォルダとして採用される。
が繰り返されるたびにフォルダが統合されて、分類結果
全体としてみるとフォルダ数が減少し、平均文書数が増
加する。そこで、関連キーワード分類処理302のたび
にフォルダテーブル700の情報を中間結果的なフォル
ダとして記録しておけば、後から分類結果よりも多いフ
ォルダ数で、平均文書数の少ないフォルダを再選択する
ことが可能となる。例えば第1の実施例の図16のフォ
ルダ「動物とねずみとペットとABC」1607が分類結
果のフォルダの一つと仮定すると、中間結果にはフォル
ダ「動物とペット」1605、フォルダ「ねずみとABC
国」1606が該当する。中間結果は関連キーワード処
理302を繰り返した回数分だけ存在するので、ユーザ
の指示した操作バーの増減レベルに応じて「より少ない
フォルダ数」で「より多い平均文書数」の中間結果を選
択することによって、ユーザからの指示に対応する。
ォルダ数の減少」および「平均文書数の増加」が指示さ
れた場合は、分類指定部2201が文書分類部103に
対して「より少ないフォルダ数で、より平均文書数の多
い分類結果を作り直すこと」を指示する(ステップ26
03)。これに対して文書分類部103では、分類結果
のフォルダをさらに統合することによって「より少ない
フォルダ数で、より平均文書数の多い分類結果」を作
る。分類処理2303で分類結果となるフォルダが生成
されるのは、図3の流れ図のステップ303で関連キー
ワード分類処理が終了したと判断される場合、すなわち
図9のステップ905でフォルダの統合がこれ以上不可
能であると判定された場合である。そこでステップ26
03では、ステップ905の統合判定条件となるしきい
値TdおよびTσを調整して、フォルダの統合がさらに可
能となるような設定を行う。第1の実施例の図17の説
明で述べたように、しきい値Tdは平均ベクトルとの距離
がTd以上に離れている場合に統合不適と判断する指標な
ので、Tdをより大きい値に設定し直す。しきい値Tσは
平均ベクトルとの距離の分散値がTσ以上に大きい場合
に統合不適と判断する指標なので、Tσをより大きい値
に設定し直す。具体的な値はユーザの指示した操作バー
の増減レベルに応じて、文書分類部103が決定する。
これら準備の後、関連キーワード処理302を適用して
さらなるフォルダの統合を行い、可能な限りフォルダの
統合を繰り返す(ステップ303)。これによって先に
ユーザに提示した分類結果よりもフォルダ数が少なく、
平均文書数が多い分類結果を生成できるので、この結果
から分類結果の再選択処理2602を行う。
一つの入力画面である、分類体系構築補助インタフェー
ス2700の詳細を述べる。
を用いずに、自動的にフォルダを階層化するため、一般
的な上位語下位語の概念と矛盾する階層関係を生成する
場合がある。例えば、図20のフォルダ「犬」1802
とフォルダ「柴犬」1806は正しい上下関係にある
が、逆転した場合には概念的に矛盾することになる。
を用いて上位語下位語として不適当な関係となるフォル
ダの生成を禁止する方法が考えられる。しかし、本発明
の文書分類装置が生成するフォルダ名はキーワードを統
合した形式、フォルダ「猫と魚」1801のようになる
ことが多い。そこで前例の「犬」と「柴犬」のように、
1対1のキーワードの上下関係を調べるのでは対応し切
れず、複数個対複数個のキーワードの上下関係を考慮し
なければならない。このとき、例えばキーワードA、B、
C、Dから上位フォルダ「A、B」、下位フォルダ「C、D」
が作られたとすると、「キーワードAとCは上位語下位語
として適当であるが、キーワードBとDは逆転関係にあ
る」という場合には適否判断が行えないという問題が残
り、これでは不十分である。
は、適切な階層構造を作るための補助情報をユーザから
取り込み、これを用いて文書分類部103が分類処理を
行えるようにするものである。例えば特許の明細書なら
ば「発明の名称」、「特許請求の範囲」といった特定の
項目と各項目に書くべき内容が定められているが、これ
らが補助情報に相当する。各項目に書かれる文章の内容
は明細書ごとに異なるが、専門性や一般性の度合には共
通点があり、項目ごとにその度合が決まっているものと
考えられる。例えば明細書の「発明の名称」や「発明の
属する技術分野」といった項目には発明の前提条件や背
景が書かれるので、他の項目に比べて一般性が高い。ま
た、「課題を解決するための手段」や「発明の実施の形
態」などの項目には発明の内容が記載されることから、
専門性が高くなる。上位語となるキーワードは一般性が
高く、下位語となるキーワードは下位に位置するほど専
門性が高い。
現するキーワードを上位階層のフォルダに、専門性の高
い内容の項目に出現するキーワードを下位階層のフォル
ダの作成に利用することで適切な階層構造を構築しやす
くなる。具体的には、一般性の高い「発明の名称」や
「発明の属する技術分野といった項目に出現するキーワ
ードを上位階層の作成に、課題を解決するための手段」
や「発明の実施の形態」といった項目に出現するキーワ
ードを下位階層の作成に利用するというように階層ごと
に分類に利用する項目を限定する。分類体系構築補助イ
ンタフェース2700は、こうした文書に含まれる項目
とその項目に書かれる文章の専門性をユーザから容易に
取り込むことができる。
細書を対象として分類処理を行ったときの分類体系構築
補助インタフェース2700の表示例である。次に、分
類指定部2201がこの分類体系構築補助インタフェー
ス2700を介してユーザから補助情報を取り込む処理
の流れを図28の流れ図を用いて説明する。分類指定部
2201は、ステップ2801として画面2701にサ
ンプル文書を読み込む。サンプル文書とは文書DB10
7に格納されている文書群のうちの一つで、図27では
特許の明細書の一例である。続くステップ2802では
ユーザからサンプル文書中の項目に関する情報を受け取
る。ユーザはマウス2702を用いて画面2701上の
文字列を指定することができる。図27ではマウス27
02を用いて項目「発明の名称」の文字列をドラッグ
し、項目として指定した様子を示している。このように
ユーザから項目が指定されるとステップ2803として
ダイアログボックス2706を表示し、ユーザの指定し
た項目が適当かどうかの確認を求める。ステップ280
4でユーザから確認が取れると、項目とその項目のサン
プル文書上の出現位置に関する情報を取り込む(ステッ
プ2805)。すなわち、分類指定部2201は「発明
の名称」という項目と出現位置「1文字目から5文字目
まで」という情報を格納する。サンプル文書中の全項目
の受取りが終了すると、ステップ2806として各項目
の出現位置を手掛かりとして項目をサンプル文書での出
現順に整列し、これを項目設定画面2710の2712
に表示する(ステップ2707)。続くステップ280
8では、ユーザから全項目の専門性の度合に関する情報
を受け取る。分類指定部2201は予め用意しておいた
専門性を示す数種類の度合をレベルリスト2714に表
示するので、これを用いてユーザは2712から項目の
一つを選択し、その内容の一般性、専門性を考慮して2
714から適切なレベルを一つ選択し、2715のOKボ
タンで確定するという手順で指定が行える。項目設定画
面2710では「一般的」、「やや一般的」、「どちら
ともいえない」、「やや専門的」、「専門的」といった
項目に関する5種類の専門性の度合が用意されているの
で、各項目に適切な度合をここから選択する。項目に関
する専門性の度合のことを項目レベルと呼び、詳細につ
いては後述する。
が分類体系構築補助インタフェース2700から取り込
まれたユーザの指示に基づいて行う、再分類処理230
8の詳細を説明する。ステップ2901として分類指定
部2201はユーザから取り込んだ項目とその項目レベ
ルに基づいて階層構築情報を作成する。階層構築情報と
は、文書分類部103が適切な階層構造の分類結果を構
築するために分類処理2303で参照する情報であり、
ある階層を構築する場合に分類に利用すべき項目とその
項目の重要度を規定するものである。詳細については後
述する。
築情報を用いて一時キーワードDBを作成する。一時キ
ーワードDBとは、ある階層を構築する場合に分類に利
用するキーワードとしての重要度を付与したキーワード
群の集合を格納したもので、第1の実施例のキーワード
DB108と同形式である。一時キーワードの作成に関
しては後に説明する。これらは分類指定部2201がユ
ーザから取り込んだ情報をもとに、適切な階層構造の分
類結果を構築するためのデータを準備する処理ステップ
である。
03に対してこれらのデータを用いて適切な階層構造の
分類結果を構築するように指示する。文書分類部103
はステップ2903として、第1の実施例におけるキー
ワードDBの代わりに一時キーワードDBを用いて、各キ
ーワードをキーワード群中に含む文書を各キーワードご
とにまとめる、単一キーワード処理301を行う。
ード分類処理2903によって作成された単一キーワー
ドフォルダについて、類似した文書群を含む単一キーワ
ードフォルダの組を統合する関連キーワード処理302
を行う。第2の実施例では、第1の実施例で説明した図
14のステップ1402における統合すべきかどうかを
判定するための処理において、適切な階層構造の分類結
果を構築するために階層構築情報を用いてワードベクト
ルの各キーワードに重要度を付与する。この詳細は後述
する。
様に、関連キーワード処理2904によって作成された
関連キーワードフォルダについて、類似した文書群を含
む関連キーワードフォルダの統合を繰り返す。さらに、
作成された単一キーワードフォルダや関連キーワードフ
ォルダ内について、細分類できるかどうかを調べ(第1
の実施例のステップ304と同様)、細分類可能な場合
はフォルダ内を分類する(ステップ2905)。ステッ
プ2905はフォルダ内に分類されている文書を対象と
して、図29におけるステップ2902から終了までの
処理Bを適用する。ステップ306では、すべてのフォ
ルダ内について階層的な分類を繰り返し行う。
ついて説明する。ここでは、文書分類装置2200は三
階層の分類体系を生成するものとし、項目レベルは「一
般的」、「やや一般的」、「どちらでもない」、「やや
専門的」、「専門的」の5種類を設定できるようにする
ものとする。さらに図28の流れ図に従い、分類体系構
築補助インタフェース2700を介して、図30の4項
目と各項目レベルがユーザから与えられている。階層構
築情報を作成するための規則として、例えば次のような
ものを仮定する。
ルの重要度 = a 「やや一般的」項目レベルの重要度 = b その他の項目レベルの重要度 = 0 ○第二階層構築規則:「やや一般的」項目レベルの重要
度 = c 「どちらでもない」項目レベルの重要度 = d 「やや専門的」項目レベルの重要度 = e その他の項目レベルの重要度 = 0 ○第三階層構築規則:「やや専門的」項目レベルの重要
度 = f 「専門的」項目レベルの重要度 = g その他の項目レベルの重要度 = 0 例えばこの第一階層構築規則は、第一階層のフォルダを
生成する際には「一般的」項目レベルの重要度をa、
「やや一般的」項目レベルの重要度をbとし、その他の
項目レベルは重要度0、すなわち分類に利用しないこと
を意味する。例えば、第一階層は一般的な内容に基づき
分類するのが好ましいと考えると、「一般的」項目レベ
ルの重要度aを1、「やや一般的」項目レベルの重要度b
を0.5、その他の項目レベルの重要度を0とするという
ようにa〜gには0以上の1以下の定数を経験的に決め
て、分類指定部2201に設定してあるものとする。
ら階層構築情報を作成すると以下のようになる。
項目「第二章」、第三要素は項目「第三章」、第四要素
は項目「第四章」それぞれの重要度である。すなわち、
上例の第一階層構築情報は項目「第一章」を重要度a、
項目「第四章」を重要度bとして分類に利用し、それ以
外の項目は分類には利用しないことを示す。
明する。第一階層を構築する場合のステップ2902で
は、第一階層構築情報を用いて次のように一時キーワー
ドDBを作成する。
べき項目は「第一章」と「第四章」であることを読み取
る。すなわち、「第二章」と「第三章」は重要度0なの
で分類に利用せず、それ以外の「第一章」と「第四章」
を利用する。
ワード群を読み出し、項目「第一章」と項目「第四章」
に出現するキーワードだけを取り出して一時キーワード
群を作成し、これを一時キーワードDBに登録する。例え
ば、図31の文書3100のキーワード群はキーワード
DB108中のキーワード群3110として登録されてい
る。キーワード群3110から一時キーワード群を作る
には、項目「第一章」3101と項目「第四章」310
3にそれぞれ付随する文章3102、3104中に出現
するキーワードだけを取り出せばよい。すなわち、キー
ワードa3105、キーワードb3106、キーワードg
3107、キーワードh3108がこれに相当し、一時
キーワード群3112を作成し、一時キーワードDB3
111に登録される。単一キーワード分類2903では
こうして作成された一時キーワード群を利用する。
Bを用いて行う関連キーワード分類処理2904につい
て説明を加える。第一階層を構築するための関連キーワ
ード処理2904では、第一階層構築情報から項目「第
一章」に出現するキーワードは重要度a、項目「第四
章」に出現するキーワードは重要度bであることを読み
取る。次に、各文書の持つキーワードの出現頻度に上記
重要度を積算し、第一階層構築時に重視すべきキーワー
ドの重要度を高めて分類処理を行う。このように、ユー
ザの指定した項目に出現するキーワードを重視して分類
することでその階層に適するフォルダが生成しやすくな
り、上下関係の適切な分類体系が作り出されることにな
る。
1について、予めユーザから分類に関する指示を受け取
りこれに基づく分類処理を施す、文書分類装置4100
(図41に示した)に関する第3の実施例を説明する。
といった入力装置を用いて分類したい文書群を指定し、
分類処理の実行を指示すると、文書分類装置4100が
起動され、図32の流れ図に基づく処理が施される。ま
ずステップ2301としてデータ管理部101が文書D
B107にユーザの指定した文書群を格納する。
02が文書群から単語キーワードを検出し、単語辞書1
05に格納する。こうして分類処理を行うためのデータ
が用意できると、ステップ2305として分類指定部2
201に対するユーザからの指示を確認し、指示がない
場合には待ち続ける。ユーザから指示があると文書分類
部103にユーザの指示を受け渡して分類処理3201
を実行させる。
ステップ2304として分類結果出力部104が分類結
果を表示する。さらに分類指定部2201は分類結果を
参照したユーザからの指示を確認し(ステップ230
5)、指示がない場合には処理を終了する。指示がある
場合にはステップ2306で指示内容を解釈し、フォル
ダ数指定インタフェース2500への指示の場合はステ
ップ2307の再分類処理を施し、分類体系構築補助イ
ンタフェース2700への指示の場合はステップ230
8の再分類処理を適用する。ステップ2305で再びユ
ーザからの分類に関する指示がある例としては、予めユ
ーザが指定した分類結果が予想に反して意向に沿わなか
った場合などが考えられる。
の流れを示す。まずステップ3301として、フォルダ
数指定インタフェース2500に対する指示か、分類体
系構築補助インタフェース2700に対する指示かを調
べ、後者の場合は分類体系構築補助インタフェース27
00の再分類処理2308を実行して処理を終了する。
前者の場合はステップ2303で文書分類部103が図
3の流れ図に従って分類体系を生成し文書を分類する。
次にステップ3302として、分類結果がユーザの指示
条件を満たすかどうかを確認する。フォルダ数指定イン
タフェース2500へのユーザからの指示はフォルダ数
あるいは平均文書数が指定されるものなので、これに見
合った分類結果が得られているかどうかを調べ、得られ
た場合は処理を終了する。ここでユーザからの指示が満
たされない場合は、フォルダ数指定インタフェース25
00の再分類処理2307を実行してユーザの指示に見
合うように再び分類処理2303を実行する。
100における分類結果出力部104に、ユーザが分類
結果をブラウジングする手段を設けた文書分類装置に関
する第4の実施例を説明する。
た分類体系に基づいて分類する場合と異なり、分類結果
として生成されるフォルダが全く未知である。そこでユ
ーザが分類結果を参照して所望の文書を検索する場合に
は、まずどのようなフォルダがあるのかを調べ、その上
で所望の文書が分類されていそうなフォルダを選びフォ
ルダ内をブラウジングする。しかし、所望の文書に辿り
着くまでの手間が大きいと分類体系が固定化されている
方がブラウジングしやすいということになる。これでは
分類対象の文書に応じて適切な分類体系を生成する本発
明が有効に活用されない。そこで図34のように、第1
の実施例の文書分類装置に検索支援部3401を設けた
文書分類装置3400の構成を取り、分類結果のブラウ
ジングの支援が行えるようにする。検索支援部3401
はフォルダ検索支援機能3402と文書検索支援機能3
403という二つの処理機能から構成される。
といった入力装置を用いて分類したい文書群を指定し、
分類処理の実行を指示すると、文書分類装置3400が
起動され、図35の流れ図に基づく処理が施される。ま
ずステップ2301としてデータ管理部101が文書D
B107にユーザの指定した文書群を格納する。
02が文書群から単語キーワードを検出し、単語辞書1
05に格納する。こうして分類処理を行うためのデータ
が用意できると、ステップ2303で文書分類部103
が図3の流れ図に従って分類体系を生成し、文書を分類
する。分類結果出力部104はこの分類結果を図36の
ようなインタフェース画面3600に表示して、ユーザ
に提示する(ステップ2304)。
が、3602に第二階層のフォルダ名が、3603に第
3階層のフォルダ名が表示されている。ここまでは第1
および第2の実施例と同一の処理ステップである。続く
ステップ3501では、分類結果出力部104が表示し
た分類状況のうち、任意のフォルダあるいは文書をユー
ザが選択したかを調べる。もし何も選択がないまま、ユ
ーザが終了ボタン3604で分類結果の終了を指示した
場合は処理を終える(ステップ3502)。
結果出力部104がフォルダを選択しているのか文書を
選択しているのかを調べ、フォルダの場合は検索支援部
3401のフォルダ検索支援機能3402にフォルダ検
索支援処理3504を指示し、文書の場合は検索支援部
3401の文書検索支援機能3403に文書検索支援処
理3505を指示する。フォルダ検索支援処理3504
および文書検索支援処理3405はブラウジングしやす
いように分類結果の加工を行うもので、詳細については
後述する。さらに、ユーザが検索支援ボタン3605を
押し、分類結果のブラウジングの支援を要求した場合に
は、検索支援部3401が分類結果出力部104に加工
した分類結果を受け渡し、新たな分類結果が表示され
る。
ォルダ検索支援機能3402および文書検索支援機能3
403の詳細について述べる。
ザが参照しようとして選択したフォルダとの類似度に基
づいてその他のフォルダを評価し、この類似度順にフォ
ルダの並び換えを行うものである。図36は分類結果出
力部104が出力する分類結果のインタフェース画面3
600と、検索支援部3401が出力する補助情報画面
3610を示している。インタフェース画面3600に
は、第一階層3601、第二階層3602、第三階層3
603のフォルダ名が表示され、ユーザが選択し参照で
きるようになっている。ここでは説明を簡略化するた
め、フォルダ名を抽象化して「フォルダa」などのよう
に示しているが、実際には1個以上のキーワードによっ
て構成される。補助情報画面3610には、フォルダ数
3611や平均文書数3612といった分類結果に関す
る補助情報が表示される。ユーザがまだ何も選択してい
ない状態のときは、画面3613には第一階層に生成さ
れたフォルダがその文書数に応じた大きさの円で表現さ
れ、文書数の多い順番に整列される。ユーザはこれらの
情報を手掛かりとして所望のフォルダを選択し、フォル
ダに分類された文書を参照する。
らフォルダaを選択すると、分類結果出力部104はこ
れを検索支援部3401のフォルダ検索支援機能340
2に知らせ、フォルダ検索支援処理3504を実行す
る。フォルダ検索支援処理3504では、まずフォルダ
aと第一階層のその他のフォルダとの類似度を調べる。
フォルダ間の類似度は、「フォルダaに分類された文書
と一致する文書が多いフォルダほど類似度が高い」と判
断する。これは第1の実施例で説明した文書分類部10
3の関連キーワード処理302の中で求められる。すな
わち、第4の実施例では図35のステップ3501の分
類処理がこれに相当する。
ォルダ間の類似度が必要になるので、第4の実施例の分
類処理3501ではフォルダ間で一致する文書数に関す
る情報を保存しておき、フォルダ検索支援機能3402
に情報を提供する。具体的には図9のステップ902で
フォルダ間一致文書数管理テーブル1001の内容の保
存を行う。
の類似度を調べるには、まずフォルダ間一致文書数管理
テーブル1001を参照して、フォルダ識別番号100
2、1003からフォルダaに対応する識別番号のカラ
ムだけを取り出す。フォルダ間一致文書数管理テーブル
1001は一致文書数を手掛かりとして降順に整列され
ているので、取り出したカラムのうち、テーブルの上位
に位置するカラムほどフォルダaとの一致文書数が多
く、類似度が高いことになる。すなわち、フォルダaと
の類似度順に第一階層のフォルダに関する情報を取り出
すことができる。フォルダ検索支援機能3402はこれ
らの情報を用いて、補助情報画面3610の画面361
3を図37の補助情報画面3700の画面3701のよ
うに書き換える。すなわち、フォルダaと類似する順番
に第一階層のフォルダを並び換え、ユーザがフォルダa
と類似したフォルダに関する情報を得やすくなるように
している。
説明する。
に分類された文書のうち、ユーザが不適切と判断した文
書と類似する文書を調べ、これをフォルダから除外する
ことで所望の文書を検索する操作を支援するものであ
る。図38は分類結果出力部104が出力する分類結果
のインタフェース画面3800と、検索支援部3401
が出力する補助情報画面3810を示している。インタ
フェース画面3800には、第一階層3801にフォル
ダ名、3802にはユーザによって選択されたフォルダ
aに関する第二階層のフォルダ名、3803にはサブフ
ォルダaに関する文書名一覧が表示され、ユーザが38
03から文書aを選択し、文書の内容を表示する画面3
804で文書aを参照している。
在ユーザが参照中の文書aをはじめとするサブフォルダa
中の文書と、各文書の内容の先頭部分が一覧表示されて
いる。ユーザはこれらの情報を手掛かりとして分類結果
をブラウジングする。情報を参照した結果、例えば「文
書aは不要」とユーザが判断し、不要な文書を指定する
消去ボタン3812を押すと、検索支援部3401はこ
の情報を文書検索支援機能3403に知らせる。文書検
索支援機能3403は、図39の流れ図に従って文書検
索支援処理3505を行う。不要と判断された文書aと
類似する文書を調べるために、第1の実施例で述べたワ
ードベクトル間の距離計算処理1405を用いる。その
ための準備として、フォルダ内文書の距離計算処理13
00をサブフォルダaについて行う。
ベクトルテーブル1500の初期化を行い、各文書につ
いてワードベクトルの作成を繰り返す(ステップ140
2、1403)。ここまでは第1の実施例と同一の処理
である。続くステップ3901では、文書aとその他の
各文書とについて第1の実施例のワードベクトル間の距
離計算処理1405を行う。文書間の距離は類似度であ
ることから、文書aと各文書との類似度が求められる。
さらにステップ3902として、文書aとの距離がしき
い値Tα以下の文書、すなわち文書aとの類似度が近いも
のを調べ、これらを不適切な文書の候補とみなす(ステ
ップ3903)。全文書についてこの処理を繰り返し
(ステップ3904)、文書aと類似度の高いすべての
文書を選び出す。
補と判断された文書に関する情報を分類結果出力部10
4に受け渡す。この後、ユーザが検索支援ボタン380
5を指定すると、文書aと類似した文書をフォルダから
除外して、新たに図40の分類結果のインタフェース画
面4000を作成する。サブフォルダaは文書aおよび文
書aと類似すると判断された文書が除かれて文書数が図
38の96件(3806)から図40の71件(400
1)になり、文書一覧3803は文書aおよび文書aと類
似すると判断された文書d、文書fなどの25件が除かれ
て4002のように変更されている。
る。
く、文書を分類することができる。
ることができる。
とができる。代表名称は分類結果群との関連度の高いも
のから順番に付与する。
しなくても、大量の文書の中から所望の文書を見つけや
すくすることができる。あるいは興味の分野は定まって
いても、それを代表するキーワードが思いつかない場合
の助けとなる。
ある。
表わす図である。
図である。
わす図である。
示す図である。
ある。
ルのデータ構造を表わす図である。
ルの具体例を示す図である。
間一致文書数管理テーブルの更新処理の具体例を示す図
である。
流れ図(その1)である。
流れ図(その2)である。
を示す図である。
体例を示す図である。
である。
造を表わす図である。
る。
す図である。
る。
る。
を示す図である。
スの具体例を示す図である。
スにおける再分類処理の流れ図である。
ースの具体例を示す図である。
ースにおいて項目設定を行う画面の具体例を示す図であ
る。
ースにおける再分類処理の流れ図である。
示す図である。
ある。
とは別に適用した場合の、文書分類装置の流れ図であ
る。
細を示す図である。
る。
およびフォルダ検索支援機能によって提示される補助情
報画面の具体例を示す図である。
指示に基づいて変化した具体例を示す図である。
および文書検索支援機能によって提示される補助情報画
面の具体例を示す図である。
支援処理の流れ図である。
類結果が変化した具体例を示す図である。
文書分類部、301…単一キーワード分類処理、302
…関連キーワード分類処理、1300…フォルダ内文書
の距離計算
Claims (25)
- 【請求項1】予め蓄積された複数の文書情報のそれぞれ
を所定の分類に分類する文書情報分類方法において、 上記文書情報および上記文書情報の各文書情報における
キーワード群を蓄積しておき、 蓄積された各キーワード毎に、キーワードを含む上記文
書情報を単一キーワードフォルダにまとめ、 上記単一キーワードフォルダ内の文書同士を比較するこ
とにより、上記単一キーワードフォルダ同士を結合して
関連キーワードフォルダを作成し、 予め蓄積された上記複数の文書情報を上記関連キーワー
ドフォルダに分類することを特徴とする文書情報分類方
法。 - 【請求項2】請求項1に記載の文書情報分類方法におい
て、 上記関連キーワードフォルダ同士を結合し、 上記複数の文書情報を新たな関連キーワードフォルダに
分類することを特徴とする文書情報分類方法。 - 【請求項3】請求項2に記載の文書情報分類方法におい
て、 予め関連キーワードフォルダの数を指定しておき、 上記関連キーワードフォルダ同士を結合する際、指定さ
れた関連キーワードフォルダの数になるまで結合を繰り
返すことを特徴とする文書情報分類方法。 - 【請求項4】請求項2に記載の文書情報分類方法におい
て、 上記新たな関連キーワードフォルダ内の各文書の内容に
より、上記新たな関連キーワードフォルダを存続させる
か否か確認することを特徴とする文書情報分類方法。 - 【請求項5】請求項1に記載の文書情報分類方法におい
て、 上記関連キーワードフォルダ内の文書情報同士を比較す
ることにより、上記文書情報を第2の単一キーワードフ
ォルダにまとめ、 上記第2の単一キーワードフォルダ内の文書情報同士を
比較することにより、上記第2の単一キーワードフォル
ダ同士を結合して、第2の関連キーワードフォルダを作
成し、 上記関連キーワードフォルダ内の文書情報を上記第2の
関連キーワードフォルダに分類することを特徴とする文
書情報分類方法。 - 【請求項6】請求項5に記載の文書情報分類方法におい
て、 予め上記第2の関連キーワードフォルダ内に分類される
文書情報の数を定めておき、 上記第2の関連キーワードフォルダに分類するステップ
は、予め定められた数になるまで上記文書情報を分類す
ることを特徴とする文書情報分類方法。 - 【請求項7】請求項1に記載の文書情報分類方法におい
て、 予め蓄積された上記複数の文書情報中に現れる言葉を抽
出し、 抽出された上記言葉を上記キーワードとすることを特徴
とする文書情報分類方法。 - 【請求項8】請求項1に記載の文書情報分類方法におい
て、 上記単一キーワードフォルダ内の文書同士を比較して、
一致する文書情報の数が所定以上の単一キーワードフォ
ルダ同士を結合して上記関連キーワードフォルダを作成
することを特徴とする文書情報分類方法。 - 【請求項9】請求項1に記載の文書情報分類方法におい
て、 上記キーワードの上記文書情報中での出現頻度および出
現位置のうちいずれか一方を用いることにより上記関連
キーワードフォルダを作成することを特徴とする文書情
報分類方法。 - 【請求項10】請求項1に記載の文書情報分類方法にお
いて、 上記関連キーワードフォルダ内の各文書情報の特徴ベク
トルを算出して、算出された各特徴ベクトルの平均ベク
トルを求め、 求められた上記平均ベクトルと特徴ベクトルとの差が所
定以上の文書情報を上記関連キーワードフォルダ内で再
分割することを特徴とする文書情報分類方法。 - 【請求項11】請求項1に記載の文書情報分類方法にお
いて、 上記関連キーワードフォルダ内の各文書情報の特徴ベク
トルを算出し、 算出した上記特徴ベクトルを用いて上記関連キーワード
フォルダの結合の可否を判定することを特徴とする文書
情報分類方法。 - 【請求項12】予め複数の文書情報および上記文書情報
の各文書情報におけるキーワード群を蓄積しておく記憶
手段を有し、上記文書情報を分類する文書情報分類装置
において、 上記記憶手段に蓄積された各キーワード毎に、キーワー
ドを含む上記文書情報を単一キーワードフォルダにまと
める単一キーワード処理手段と、 上記単一キーワードフォルダ内の文書情報同士を比較す
ることにより、上記単一キーワードフォルダ同士を結合
して関連キーワードフォルダを作成する関連キーワード
処理手段とを有し、 予め蓄積された上記複数の文書情報を上記関連キーワー
ドフォルダに分類することを特徴とする文書情報分類装
置。 - 【請求項13】請求項12に記載の文書情報分類装置に
おいて、 上記関連キーワードフォルダ同士を結合する関連キーワ
ード結合手段を有し、上記複数の文書情報を新たな関連
キーワードフォルダに分類することを特徴とする文書情
報分類装置。 - 【請求項14】請求項13に記載の文書情報分類装置に
おいて、 上記新たな関連キーワードフォルダ内の各文書情報の内
容により、上記新たな関連キーワードフォルダを存続さ
せるか否か確認する確認手段を有することを特徴とする
文書情報分類装置。 - 【請求項15】請求項12に記載の文書情報分類装置に
おいて、 上記関連キーワードフォルダ内の文書情報同士を比較す
ることにより、上記文書情報を第2の単一キーワードフ
ォルダにまとめる第2の単一キーワード処理手段と、 上記第2の単一キーワードフォルダ内の文書情報同士を
比較することにより、上記第2の単一キーワードフォル
ダ同士を結合して、第2の関連キーワードフォルダを作
成する第2の関連キーワード処理手段とを有し、 上記関連キーワードフォルダ内の文書情報を上記第2の
関連キーワードフォルダに分類することを特徴とする文
書情報分類装置。 - 【請求項16】請求項12に記載の文書情報分類装置に
おいて、 予め蓄積された上記複数の文書情報中に現れる言葉を抽
出する抽出手段と、 抽出された上記言葉を上記キーワードとするキーワード
作成手段を有することを特徴とする文書情報分類装置。 - 【請求項17】請求項12に記載の文書情報分類装置に
おいて、 上記関連キーワードフォルダ処理手段は、上記単一キー
ワードフォルダ内の文書情報同士を比較して、一致する
文書情報の数が所定以上の単一キーワードフォルダ同士
を結合して上記関連キーワードフォルダを作成すること
を特徴とする文書情報分類装置。 - 【請求項18】請求項12に記載の文書情報分類装置に
おいて、 上記関連キーワードフォルダ処理手段は、上記キーワー
ドの上記文書情報中での出現頻度および出現位置のうち
いずれか一方を用いることにより上記関連キーワードフ
ォルダを作成することを特徴とする文書情報分類装置。 - 【請求項19】請求項12に記載の文書情報分類装置に
おいて、 上記関連キーワードフォルダ内の各文書の特徴ベクトル
を算出して、算出された各特徴ベクトルの平均ベクトル
を求める平均ベクトル算出手段と、 求められた上記平均ベクトルと特徴ベクトルとの差が所
定以上の文書情報を上記関連キーワードフォルダ内で再
分割する再分割手段とを有することを特徴とする文書情
報分類装置。 - 【請求項20】請求項12に記載の文書情報分類装置に
おいて、 上記関連キーワードフォルダ内の各文書の特徴ベクトル
を算出する特徴ベクトル算出手段と、 算出した上記特徴ベクトルを用いて上記関連キーワード
フォルダの結合の可否を判定する結合判定手段とを有す
ることを特徴とする文書情報分類装置。 - 【請求項21】予め複数の文書情報および上記文書情報
の各文書情報におけるキーワード群を蓄積しておく記憶
手段を有し、上記文書情報を分類する文書情報分類装置
において、 上記記憶手段に蓄積された各キーワード毎に、キーワー
ドを含む上記文書情報を単一キーワードフォルダにまと
める単一キーワード処理手段と、 上記単一キーワードフォルダ内の文書情報同士を比較す
ることにより、上記単一キーワードフォルダ同士を結合
して関連キーワードフォルダを作成する関連キーワード
処理手段と、 操作者が指定した上記関連キーワードフォルダ同士を結
合する手段を有し、 予め蓄積された上記複数の文書情報を上記関連キーワー
ドフォルダに分類することを特徴とする文書情報分類装
置。 - 【請求項22】請求項12に記載の文書情報分類装置に
おいて、 上記単一キーワード処理手段は、操作者が選択した文字
列を含む文書情報を単一キーワードフォルダにまとめる
ことを特徴とする文書情報分類装置。 - 【請求項23】請求項22に記載の文書情報分類装置に
おいて、 文字列の階層構造を示すシソーラス辞書を有し、 上記シソーラス辞書を用いて、上記関連キーワードフォ
ルダの階層関係を構築する階層関係構築手段とを有する
ことを特徴とする文書情報分類装置。 - 【請求項24】請求項22に記載の文書情報分類装置に
おいて、 上記関連キーワードフォルダに含まれる文書情報に基づ
いて関連キーワードフォルダ同士の類似度を定める手段
と、 上記類似度に応じて、操作者が選択した関連キーワード
フォルダに類似する関連キーワードフォルダを選択する
手段を有することを特徴とする文書情報分類装置。 - 【請求項25】請求項24に記載の文書情報分類装置に
おいて、 上記類似度に応じて、操作者が選択した文書情報と同じ
関連キーワードフォルダに属し、類似する文書情報を上
記関連キーワードフォルダから取り除く手段とを有する
ことを特徴とする文書情報分類装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23103395A JP3669016B2 (ja) | 1994-09-30 | 1995-09-08 | 文書情報分類装置 |
EP95115253A EP0704810B1 (en) | 1994-09-30 | 1995-09-27 | Method and apparatus for classifying document information |
DE69526168T DE69526168T2 (de) | 1994-09-30 | 1995-09-27 | Verfahren und Gerät zur Klassifikation von Dokumentinformationen |
US08/536,258 US5832470A (en) | 1994-09-30 | 1995-09-29 | Method and apparatus for classifying document information |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23644494 | 1994-09-30 | ||
JP6-236444 | 1994-09-30 | ||
JP23103395A JP3669016B2 (ja) | 1994-09-30 | 1995-09-08 | 文書情報分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08153121A true JPH08153121A (ja) | 1996-06-11 |
JP3669016B2 JP3669016B2 (ja) | 2005-07-06 |
Family
ID=26529664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23103395A Expired - Fee Related JP3669016B2 (ja) | 1994-09-30 | 1995-09-08 | 文書情報分類装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5832470A (ja) |
EP (1) | EP0704810B1 (ja) |
JP (1) | JP3669016B2 (ja) |
DE (1) | DE69526168T2 (ja) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10143517A (ja) * | 1996-11-13 | 1998-05-29 | Fuji Xerox Co Ltd | 文書作成装置 |
JPH10228486A (ja) * | 1997-02-14 | 1998-08-25 | Nec Corp | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
JPH11134359A (ja) * | 1997-10-31 | 1999-05-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体 |
JPH11242679A (ja) * | 1998-02-25 | 1999-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 利用者の興味に基づいて情報を分類する方法、装置、および利用者の興味に基づいて情報を分類するプログラムを記録した記録媒体 |
JPH11259504A (ja) * | 1998-03-11 | 1999-09-24 | Mitsubishi Electric Corp | データベース作成装置およびデータベース検索装置 |
JPH11288417A (ja) * | 1998-04-01 | 1999-10-19 | Fujitsu Ltd | ドキュメント管理システム |
JPH11328228A (ja) * | 1998-04-22 | 1999-11-30 | Nec Corp | 問い合わせ検索結果精緻化方法及び装置 |
US6243723B1 (en) | 1997-05-21 | 2001-06-05 | Nec Corporation | Document classification apparatus |
JP2001357037A (ja) * | 2000-04-13 | 2001-12-26 | Internatl Business Mach Corp <Ibm> | Guiを用いて、階層的に構成された情報を検索および表示するための方法および装置 |
JP2002163878A (ja) * | 2000-11-24 | 2002-06-07 | Pioneer Electronic Corp | 情報編集装置 |
US6473754B1 (en) | 1998-05-29 | 2002-10-29 | Hitachi, Ltd. | Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program |
US6549752B2 (en) | 2001-01-29 | 2003-04-15 | Fujitsu Limited | Apparatus and method accumulating cases to be learned |
JP2003528359A (ja) * | 1998-12-28 | 2003-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 自動プリフィルタリング及びルーティング機能を有する協同トピック式サーバ |
JP2004133714A (ja) * | 2002-10-10 | 2004-04-30 | Just Syst Corp | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム |
JP2004311023A (ja) * | 2004-07-02 | 2004-11-04 | Pioneer Electronic Corp | 情報編集装置及び情報編集方法 |
JP2005038414A (ja) * | 2003-06-30 | 2005-02-10 | Fuji Photo Film Co Ltd | ファイル管理プログラム、ファイル管理方法、ファイル管理装置、撮像装置及び記録媒体 |
JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
US7003442B1 (en) | 1998-06-24 | 2006-02-21 | Fujitsu Limited | Document file group organizing apparatus and method thereof |
JP2006065366A (ja) * | 2004-08-24 | 2006-03-09 | Nec Corp | キーワード分類装置およびその方法、端末装置ならびにプログラム |
JP2006301959A (ja) * | 2005-04-20 | 2006-11-02 | Just Syst Corp | 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体 |
JP2008204374A (ja) * | 2007-02-22 | 2008-09-04 | Fuji Xerox Co Ltd | クラスタ生成装置およびクラスタ生成プログラム |
JP2008538830A (ja) * | 2005-03-31 | 2008-11-06 | リーマン・ブラザーズ・インコーポレーテッド | ドキュメントシリーズを使用したドキュメントからなる集合のグループ化のシステム及び方法 |
JP2009230326A (ja) * | 2008-03-21 | 2009-10-08 | Brother Ind Ltd | データ保存装置及びコンピュータプログラム |
US7636898B2 (en) | 2004-01-08 | 2009-12-22 | Fujifilm Corporation | File management program |
JP2010003309A (ja) * | 2009-08-10 | 2010-01-07 | Fujifilm Corp | ファイル管理システムおよびファイル管理方法 |
JP2010198639A (ja) * | 2010-06-03 | 2010-09-09 | Konica Minolta Business Technologies Inc | 検索フォルダの管理方法、フォルダの管理方法、コンピュータ、およびコンピュータプログラム |
JP2010238027A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | 階層型文書管理システム、階層型文書管理方法および階層型文書管理プログラム |
JP2011107819A (ja) * | 2009-11-13 | 2011-06-02 | Fuji Xerox Co Ltd | 木構造処理装置及びプログラム |
JP2012501503A (ja) * | 2008-08-29 | 2012-01-19 | アリババ グループ ホールディング リミテッド | 文書内の主要地理情報の決定 |
JP2013502012A (ja) * | 2009-08-12 | 2013-01-17 | ボルト インフォメーション サイエンシズ インク | 人的資本労働雇用の地位/職務を製品化するためのシステムおよび方法 |
JP2013041368A (ja) * | 2011-08-12 | 2013-02-28 | Nec Corp | コンテンツ管理装置およびコンテンツ管理方法 |
US8595205B2 (en) | 2008-02-08 | 2013-11-26 | Konica Minolta Business Technologies, Inc. | Device and method for managing search conditions |
US9020884B2 (en) | 2002-04-10 | 2015-04-28 | Iqnavigator, Inc. | Method of and system for consultant re-seller business information transfer |
JP2018067095A (ja) * | 2016-10-18 | 2018-04-26 | 株式会社東芝 | 名刺情報管理システム、名刺情報管理システムにおける検索結果表示方法、および検索結果表示プログラム |
WO2022169060A1 (ko) * | 2021-02-05 | 2022-08-11 | 한국기술교육대학교 산학협력단 | 계층적 다중 레이블 분류를 위한 데이터 분류 방법 및 장치 |
Families Citing this family (137)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11505342A (ja) * | 1995-02-27 | 1999-05-18 | アンフォルマシオン メディカル エ スタティスティーク | 情報オブジェクト、特に文書、を処理しアクセスする方法および該方法を実施するためのシステム |
US6069706A (en) | 1995-07-31 | 2000-05-30 | Canon Kabushiki Kaisha | Image reading device and image processing method utilizing the same |
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
US6295543B1 (en) * | 1996-04-03 | 2001-09-25 | Siemens Aktiengesellshaft | Method of automatically classifying a text appearing in a document when said text has been converted into digital data |
DE69632835T2 (de) * | 1996-04-29 | 2005-07-14 | Scientific Research Institute Of Different Branches "Integral" | Verfahren zur automatischen verarbeitung von information über benutzerdaten |
DE69712835T2 (de) * | 1996-07-18 | 2002-09-19 | Matsushita Electric Industrial Co., Ltd. | Gerät zur Unterstützung des Wiederauffindens von Daten |
JP3198932B2 (ja) * | 1996-08-02 | 2001-08-13 | 松下電器産業株式会社 | 文書検索装置 |
JP3173411B2 (ja) * | 1997-03-17 | 2001-06-04 | 富士ゼロックス株式会社 | 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 |
US6199071B1 (en) | 1997-04-01 | 2001-03-06 | Sun Microsystems, Inc. | Method and apparatus for archiving hypertext documents |
WO1998044432A1 (en) * | 1997-04-01 | 1998-10-08 | Yeong Kuang Oon | Didactic and content oriented word processing method with incrementally changed belief system |
EP0883069A1 (en) | 1997-06-06 | 1998-12-09 | Matsushita Electric Industrial Co., Ltd. | A retrieval menu creation device and method, and a recording medium storing a retrieval menu creation program |
US6098066A (en) * | 1997-06-13 | 2000-08-01 | Sun Microsystems, Inc. | Method and apparatus for searching for documents stored within a document directory hierarchy |
US6055540A (en) * | 1997-06-13 | 2000-04-25 | Sun Microsystems, Inc. | Method and apparatus for creating a category hierarchy for classification of documents |
US6820094B1 (en) * | 1997-10-08 | 2004-11-16 | Scansoft, Inc. | Computer-based document management system |
US6014662A (en) * | 1997-11-26 | 2000-01-11 | International Business Machines Corporation | Configurable briefing presentations of search results on a graphical interface |
US6542888B2 (en) * | 1997-11-26 | 2003-04-01 | International Business Machines Corporation | Content filtering for electronic documents generated in multiple foreign languages |
US6389436B1 (en) * | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
JP3571515B2 (ja) * | 1997-12-19 | 2004-09-29 | 富士通株式会社 | 知識収集・格納・検索プログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
WO1999042936A1 (en) * | 1998-02-24 | 1999-08-26 | Gateway 2000, Inc. | Software management system |
US6269188B1 (en) | 1998-03-12 | 2001-07-31 | Canon Kabushiki Kaisha | Word grouping accuracy value generation |
US6243501B1 (en) | 1998-05-20 | 2001-06-05 | Canon Kabushiki Kaisha | Adaptive recognition of documents using layout attributes |
US7152031B1 (en) * | 2000-02-25 | 2006-12-19 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
US7197451B1 (en) | 1998-07-02 | 2007-03-27 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US7039856B2 (en) * | 1998-09-30 | 2006-05-02 | Ricoh Co., Ltd. | Automatic document classification using text and images |
JP2000285140A (ja) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6853950B1 (en) * | 1999-07-20 | 2005-02-08 | Newsedge Corporation | System for determining changes in the relative interest of subjects |
US6397215B1 (en) | 1999-10-29 | 2002-05-28 | International Business Machines Corporation | Method and system for automatic comparison of text classifications |
US6754660B1 (en) * | 1999-11-30 | 2004-06-22 | International Business Machines Corp. | Arrangement of information for display into a continuum ranging from closely related to distantly related to a reference piece of information |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US8290768B1 (en) * | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6925608B1 (en) * | 2000-07-05 | 2005-08-02 | Kendyl A. Roman | Graphical user interface for building Boolean queries and viewing search results |
US7672952B2 (en) * | 2000-07-13 | 2010-03-02 | Novell, Inc. | System and method of semantic correlation of rich content |
US7653530B2 (en) * | 2000-07-13 | 2010-01-26 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US7389225B1 (en) | 2000-10-18 | 2008-06-17 | Novell, Inc. | Method and mechanism for superpositioning state vectors in a semantic abstract |
US7286977B1 (en) | 2000-09-05 | 2007-10-23 | Novell, Inc. | Intentional-stance characterization of a general content stream or repository |
US6990496B1 (en) | 2000-07-26 | 2006-01-24 | Koninklijke Philips Electronics N.V. | System and method for automated classification of text by time slicing |
US6778972B2 (en) | 2000-08-10 | 2004-08-17 | Gustavo S. Leonardos′ | System and method for providing integrated management of electronic information |
US7603415B1 (en) * | 2000-08-15 | 2009-10-13 | ART Technology Group | Classification of electronic messages using a hierarchy of rule sets |
US20100122312A1 (en) * | 2008-11-07 | 2010-05-13 | Novell, Inc. | Predictive service systems |
US7177922B1 (en) | 2000-09-05 | 2007-02-13 | Novell, Inc. | Policy enforcement using the semantic characterization of traffic |
US20090234718A1 (en) * | 2000-09-05 | 2009-09-17 | Novell, Inc. | Predictive service systems using emotion detection |
AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
WO2002031697A1 (en) * | 2000-10-13 | 2002-04-18 | Kent Ridge Digital Labs | A method of visualizing clusters of large collections of text documents |
US6560600B1 (en) * | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
DE10057634C2 (de) * | 2000-11-21 | 2003-01-30 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit |
US7644057B2 (en) * | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US6938206B2 (en) * | 2001-01-19 | 2005-08-30 | Transolutions, Inc. | System and method for creating a clinical resume |
US6970881B1 (en) | 2001-05-07 | 2005-11-29 | Intelligenxia, Inc. | Concept-based method and system for dynamically analyzing unstructured information |
US7536413B1 (en) | 2001-05-07 | 2009-05-19 | Ixreveal, Inc. | Concept-based categorization of unstructured objects |
US7194483B1 (en) | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
US7627588B1 (en) | 2001-05-07 | 2009-12-01 | Ixreveal, Inc. | System and method for concept based analysis of unstructured data |
US6826576B2 (en) | 2001-05-07 | 2004-11-30 | Microsoft Corporation | Very-large-scale automatic categorizer for web content |
USRE46973E1 (en) | 2001-05-07 | 2018-07-31 | Ureveal, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
JP2003016109A (ja) * | 2001-06-29 | 2003-01-17 | Hitachi Ltd | 文書情報管理方法および装置、および管理サーバ |
US7010515B2 (en) * | 2001-07-12 | 2006-03-07 | Matsushita Electric Industrial Co., Ltd. | Text comparison apparatus |
JP4261783B2 (ja) * | 2001-09-11 | 2009-04-30 | キヤノン株式会社 | 文書登録システム、方法、プログラム及び記憶媒体 |
KR20030024296A (ko) * | 2001-09-17 | 2003-03-26 | (주)넷피아닷컴 | 리얼 네임을 이용한 웹 페이지 접속 시스템 및 그 방법 |
KR20030024297A (ko) * | 2001-09-17 | 2003-03-26 | (주)넷피아닷컴 | 검색 시스템 및 그 방법 |
US20030061132A1 (en) * | 2001-09-26 | 2003-03-27 | Yu, Mason K. | System and method for categorizing, aggregating and analyzing payment transactions data |
US7305402B2 (en) * | 2001-10-10 | 2007-12-04 | International Business Machines Corporation | Adaptive indexing technique for use with electronic objects |
US20030069892A1 (en) * | 2001-10-10 | 2003-04-10 | International Business Machines Corporation | Relational view of electronic objects |
US7644102B2 (en) | 2001-10-19 | 2010-01-05 | Xerox Corporation | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects |
US6985908B2 (en) * | 2001-11-01 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Text classification apparatus |
JP2003150602A (ja) * | 2001-11-15 | 2003-05-23 | Hitachi Ltd | 文書情報管理方法および装置 |
EP1324218A1 (de) * | 2001-12-11 | 2003-07-02 | Abb Research Ltd. | Kategorisierungsystem für Datenobjekte und Verfahren zum Prüfen der Konsistenz von Zuordnungen von Datenobjekten zu Kategorien |
AUPR958901A0 (en) | 2001-12-18 | 2002-01-24 | Telstra New Wave Pty Ltd | Information resource taxonomy |
US20030154181A1 (en) * | 2002-01-25 | 2003-08-14 | Nec Usa, Inc. | Document clustering with cluster refinement and model selection capabilities |
US8589413B1 (en) | 2002-03-01 | 2013-11-19 | Ixreveal, Inc. | Concept-based method and system for dynamically analyzing results from search engines |
JP4082059B2 (ja) * | 2002-03-29 | 2008-04-30 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2004110445A (ja) * | 2002-09-19 | 2004-04-08 | Hitachi Ltd | 文書管理方法、プログラムおよびシステム |
US20040088157A1 (en) * | 2002-10-30 | 2004-05-06 | Motorola, Inc. | Method for characterizing/classifying a document |
US7158962B2 (en) | 2002-11-27 | 2007-01-02 | International Business Machines Corporation | System and method for automatically linking items with multiple attributes to multiple levels of folders within a content management system |
US8473532B1 (en) * | 2003-08-12 | 2013-06-25 | Louisiana Tech University Research Foundation | Method and apparatus for automatic organization for computer files |
US7769759B1 (en) * | 2003-08-28 | 2010-08-03 | Biz360, Inc. | Data classification based on point-of-view dependency |
TWI290687B (en) * | 2003-09-19 | 2007-12-01 | Hon Hai Prec Ind Co Ltd | System and method for search information based on classifications of synonymous words |
US7954151B1 (en) * | 2003-10-28 | 2011-05-31 | Emc Corporation | Partial document content matching using sectional analysis |
US8775436B1 (en) * | 2004-03-19 | 2014-07-08 | Google Inc. | Image selection for news search |
US20050246333A1 (en) * | 2004-04-30 | 2005-11-03 | Jiang-Liang Hou | Method and apparatus for classifying documents |
US7370273B2 (en) | 2004-06-30 | 2008-05-06 | International Business Machines Corporation | System and method for creating dynamic folder hierarchies |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7580921B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
TWI254880B (en) * | 2004-10-18 | 2006-05-11 | Avectec Com Inc | Method for classifying electronic document analysis |
US20060203258A1 (en) * | 2005-03-10 | 2006-09-14 | Kabushiki Kaisha Toshiba | File management apparatus |
US20060206531A1 (en) * | 2005-03-10 | 2006-09-14 | Kabushiki Kaisha Toshiba | Document managing apparatus |
US8112401B2 (en) * | 2005-05-25 | 2012-02-07 | Ecteon, Inc. | Analyzing externally generated documents in document management system |
US8447781B2 (en) * | 2005-07-29 | 2013-05-21 | International Business Machines Corporation | Content-based file system security |
AU2006304061B2 (en) | 2005-10-11 | 2012-09-20 | Ixreveal, Inc. | System, method and computer program product for concept based searching and analysis |
US9069847B2 (en) * | 2005-10-21 | 2015-06-30 | Battelle Memorial Institute | Data visualization methods, data visualization devices, data visualization apparatuses, and articles of manufacture |
US7747495B2 (en) * | 2005-10-24 | 2010-06-29 | Capsilon Corporation | Business method using the automated processing of paper and unstructured electronic documents |
US8176004B2 (en) * | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
US7676485B2 (en) | 2006-01-20 | 2010-03-09 | Ixreveal, Inc. | Method and computer program product for converting ontologies into concept semantic networks |
US20070185860A1 (en) * | 2006-01-24 | 2007-08-09 | Michael Lissack | System for searching |
KR100756921B1 (ko) * | 2006-02-28 | 2007-09-07 | 한국과학기술원 | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. |
GB0612433D0 (en) * | 2006-06-23 | 2006-08-02 | Ibm | Method and system for defining a hierarchical structure |
US7809723B2 (en) * | 2006-06-26 | 2010-10-05 | Microsoft Corporation | Distributed hierarchical text classification framework |
US7873583B2 (en) * | 2007-01-19 | 2011-01-18 | Microsoft Corporation | Combining resilient classifiers |
US8117223B2 (en) | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8661069B1 (en) * | 2008-03-31 | 2014-02-25 | Google Inc. | Predictive-based clustering with representative redirect targets |
US8296297B2 (en) * | 2008-12-30 | 2012-10-23 | Novell, Inc. | Content analysis and correlation |
US8386475B2 (en) * | 2008-12-30 | 2013-02-26 | Novell, Inc. | Attribution analysis and correlation |
US8301622B2 (en) * | 2008-12-30 | 2012-10-30 | Novell, Inc. | Identity analysis and correlation |
JP5322660B2 (ja) * | 2009-01-07 | 2013-10-23 | キヤノン株式会社 | データ表示装置、データ表示方法、コンピュータプログラム |
US20100250479A1 (en) * | 2009-03-31 | 2010-09-30 | Novell, Inc. | Intellectual property discovery and mapping systems and methods |
US9245243B2 (en) | 2009-04-14 | 2016-01-26 | Ureveal, Inc. | Concept-based analysis of structured and unstructured data using concept inheritance |
US20110295861A1 (en) * | 2010-05-26 | 2011-12-01 | Cpa Global Patent Research Limited | Searching using taxonomy |
CN101976246A (zh) * | 2010-09-30 | 2011-02-16 | 互动在线(北京)科技有限公司 | 百科词条分类检索方法 |
US9679256B2 (en) * | 2010-10-06 | 2017-06-13 | The Chancellor, Masters And Scholars Of The University Of Cambridge | Automated assessment of examination scripts |
US8396871B2 (en) | 2011-01-26 | 2013-03-12 | DiscoverReady LLC | Document classification and characterization |
CN102902674B (zh) * | 2011-07-26 | 2017-09-26 | 腾讯科技(深圳)有限公司 | 服务群组分类方法和系统 |
US10467252B1 (en) * | 2012-01-30 | 2019-11-05 | DiscoverReady LLC | Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis |
US9667514B1 (en) | 2012-01-30 | 2017-05-30 | DiscoverReady LLC | Electronic discovery system with statistical sampling |
CN103377216A (zh) * | 2012-04-24 | 2013-10-30 | 苏州引角信息科技有限公司 | 产品信息库的构建方法及系统 |
US9659087B2 (en) * | 2012-11-19 | 2017-05-23 | Amplero, Inc. | Unsupervised prioritization and visualization of clusters |
JP6132617B2 (ja) * | 2013-03-26 | 2017-05-24 | キヤノン株式会社 | 受信した画像データをフォルダに格納する画像処理システム、画像処理方法、及びプログラム |
CN104123279B (zh) * | 2013-04-24 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 关键词的聚类方法和装置 |
US9275331B2 (en) * | 2013-05-22 | 2016-03-01 | International Business Machines Corporation | Document classification system with user-defined rules |
US10540404B1 (en) * | 2014-02-07 | 2020-01-21 | Amazon Technologies, Inc. | Forming a document collection in a document management and collaboration system |
US11336648B2 (en) | 2013-11-11 | 2022-05-17 | Amazon Technologies, Inc. | Document management and collaboration system |
US9542391B1 (en) | 2013-11-11 | 2017-01-10 | Amazon Technologies, Inc. | Processing service requests for non-transactional databases |
US10599753B1 (en) | 2013-11-11 | 2020-03-24 | Amazon Technologies, Inc. | Document version control in collaborative environment |
US10691877B1 (en) | 2014-02-07 | 2020-06-23 | Amazon Technologies, Inc. | Homogenous insertion of interactions into documents |
US10635645B1 (en) | 2014-05-04 | 2020-04-28 | Veritas Technologies Llc | Systems and methods for maintaining aggregate tables in databases |
KR20160015838A (ko) * | 2014-07-31 | 2016-02-15 | 삼성전자주식회사 | 컨텐츠 분류 방법 및 이를 위한 디바이스 |
US9807073B1 (en) | 2014-09-29 | 2017-10-31 | Amazon Technologies, Inc. | Access to documents in a document management and collaboration system |
US10095768B2 (en) * | 2014-11-14 | 2018-10-09 | Veritas Technologies Llc | Systems and methods for aggregating information-asset classifications |
CN104731890B (zh) * | 2015-03-16 | 2017-12-12 | 山东师范大学 | 一种结合plsa和at的音频事件分类方法 |
CN104765726B (zh) * | 2015-04-27 | 2018-07-31 | 湘潭大学 | 一种基于信息密度的数据分类方法 |
JP6540268B2 (ja) * | 2015-06-24 | 2019-07-10 | 富士ゼロックス株式会社 | オブジェクト分類装置及びプログラム |
US10055489B2 (en) * | 2016-02-08 | 2018-08-21 | Ebay Inc. | System and method for content-based media analysis |
JP6930179B2 (ja) * | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
CN108563747A (zh) * | 2018-04-13 | 2018-09-21 | 北京深度智耀科技有限公司 | 一种文档处理方法及装置 |
JP2022528273A (ja) * | 2019-03-29 | 2022-06-09 | ワート インテリジェンス カンパニー,リミテッド | 機械学習基盤のユーザーカスタマイズ型の特許文献自動分類方法、装置及びシステム |
US11687717B2 (en) * | 2019-12-03 | 2023-06-27 | Morgan State University | System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents |
JP2023023590A (ja) * | 2021-08-05 | 2023-02-16 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4719571A (en) * | 1986-03-05 | 1988-01-12 | International Business Machines Corporation | Algorithm for constructing tree structured classifiers |
US4760606A (en) * | 1986-06-30 | 1988-07-26 | Wang Laboratories, Inc. | Digital imaging file processing system |
US4958284A (en) * | 1988-12-06 | 1990-09-18 | Npd Group, Inc. | Open ended question analysis system and method |
US5508912A (en) * | 1989-01-23 | 1996-04-16 | Barry Schneiderman | Clinical database of classified out-patients for tracking primary care outcome |
JP2993673B2 (ja) * | 1989-01-27 | 1999-12-20 | 株式会社日立製作所 | 電子ファイル装置 |
EP0437615B1 (en) * | 1989-06-14 | 1998-10-21 | Hitachi, Ltd. | Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus |
US5201047A (en) * | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
JPH04251346A (ja) * | 1990-05-16 | 1992-09-07 | Internatl Business Mach Corp <Ibm> | データ処理システムにおいて文書を階層的にグループ化する方法 |
JPH0490054A (ja) * | 1990-08-03 | 1992-03-24 | Toshiba Corp | 画像記憶検索装置 |
JPH0528198A (ja) | 1991-07-22 | 1993-02-05 | Hiroyuki Sone | 文書情報検索装置 |
US5442778A (en) * | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
JPH05324726A (ja) | 1992-05-25 | 1993-12-07 | Fujitsu Ltd | 文書データ分類装置及び文書分類機能構築装置 |
US5590317A (en) * | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
US5355497A (en) * | 1992-06-10 | 1994-10-11 | Physiotronics Corporation | File directory structure generator and retrevial tool with document locator module mapping the directory structure of files to a real world hierarchical file structure |
JP3210102B2 (ja) * | 1992-11-17 | 2001-09-17 | 松下電器産業株式会社 | 電子化文書ファイリング装置及びファイリング文書検索方法 |
JPH0744568A (ja) * | 1993-07-30 | 1995-02-14 | Mitsubishi Electric Corp | 検索インタフェース装置 |
-
1995
- 1995-09-08 JP JP23103395A patent/JP3669016B2/ja not_active Expired - Fee Related
- 1995-09-27 DE DE69526168T patent/DE69526168T2/de not_active Expired - Fee Related
- 1995-09-27 EP EP95115253A patent/EP0704810B1/en not_active Expired - Lifetime
- 1995-09-29 US US08/536,258 patent/US5832470A/en not_active Expired - Fee Related
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10143517A (ja) * | 1996-11-13 | 1998-05-29 | Fuji Xerox Co Ltd | 文書作成装置 |
JPH10228486A (ja) * | 1997-02-14 | 1998-08-25 | Nec Corp | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
US6243723B1 (en) | 1997-05-21 | 2001-06-05 | Nec Corporation | Document classification apparatus |
JPH11134359A (ja) * | 1997-10-31 | 1999-05-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体 |
JPH11242679A (ja) * | 1998-02-25 | 1999-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 利用者の興味に基づいて情報を分類する方法、装置、および利用者の興味に基づいて情報を分類するプログラムを記録した記録媒体 |
JPH11259504A (ja) * | 1998-03-11 | 1999-09-24 | Mitsubishi Electric Corp | データベース作成装置およびデータベース検索装置 |
JPH11288417A (ja) * | 1998-04-01 | 1999-10-19 | Fujitsu Ltd | ドキュメント管理システム |
US6415282B1 (en) | 1998-04-22 | 2002-07-02 | Nec Usa, Inc. | Method and apparatus for query refinement |
JPH11328228A (ja) * | 1998-04-22 | 1999-11-30 | Nec Corp | 問い合わせ検索結果精緻化方法及び装置 |
US6473754B1 (en) | 1998-05-29 | 2002-10-29 | Hitachi, Ltd. | Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program |
US7003442B1 (en) | 1998-06-24 | 2006-02-21 | Fujitsu Limited | Document file group organizing apparatus and method thereof |
JP2003528359A (ja) * | 1998-12-28 | 2003-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 自動プリフィルタリング及びルーティング機能を有する協同トピック式サーバ |
JP2001357037A (ja) * | 2000-04-13 | 2001-12-26 | Internatl Business Mach Corp <Ibm> | Guiを用いて、階層的に構成された情報を検索および表示するための方法および装置 |
JP2002163878A (ja) * | 2000-11-24 | 2002-06-07 | Pioneer Electronic Corp | 情報編集装置 |
US6549752B2 (en) | 2001-01-29 | 2003-04-15 | Fujitsu Limited | Apparatus and method accumulating cases to be learned |
US9020884B2 (en) | 2002-04-10 | 2015-04-28 | Iqnavigator, Inc. | Method of and system for consultant re-seller business information transfer |
JP2004133714A (ja) * | 2002-10-10 | 2004-04-30 | Just Syst Corp | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラム |
JP2005038414A (ja) * | 2003-06-30 | 2005-02-10 | Fuji Photo Film Co Ltd | ファイル管理プログラム、ファイル管理方法、ファイル管理装置、撮像装置及び記録媒体 |
US7636898B2 (en) | 2004-01-08 | 2009-12-22 | Fujifilm Corporation | File management program |
JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
JP2004311023A (ja) * | 2004-07-02 | 2004-11-04 | Pioneer Electronic Corp | 情報編集装置及び情報編集方法 |
JP2006065366A (ja) * | 2004-08-24 | 2006-03-09 | Nec Corp | キーワード分類装置およびその方法、端末装置ならびにプログラム |
JP2008538830A (ja) * | 2005-03-31 | 2008-11-06 | リーマン・ブラザーズ・インコーポレーテッド | ドキュメントシリーズを使用したドキュメントからなる集合のグループ化のシステム及び方法 |
US8601397B2 (en) | 2005-03-31 | 2013-12-03 | Barclays Capital Inc. | System and method for grouping a collection of documents using document series |
JP2012064234A (ja) * | 2005-03-31 | 2012-03-29 | Barclays Capital Inc | ドキュメントシリーズを使用したドキュメントからなる集合のグループ化のシステム |
JP2006301959A (ja) * | 2005-04-20 | 2006-11-02 | Just Syst Corp | 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体 |
JP2008204374A (ja) * | 2007-02-22 | 2008-09-04 | Fuji Xerox Co Ltd | クラスタ生成装置およびクラスタ生成プログラム |
US8595205B2 (en) | 2008-02-08 | 2013-11-26 | Konica Minolta Business Technologies, Inc. | Device and method for managing search conditions |
JP2009230326A (ja) * | 2008-03-21 | 2009-10-08 | Brother Ind Ltd | データ保存装置及びコンピュータプログラム |
JP4626662B2 (ja) * | 2008-03-21 | 2011-02-09 | ブラザー工業株式会社 | データ保存装置及びコンピュータプログラム |
US8601037B2 (en) | 2008-03-21 | 2013-12-03 | Brother Kogyo Kabushiki Kaisha | Data storage system, data storage apparatus, and computer readable medium |
JP2012501503A (ja) * | 2008-08-29 | 2012-01-19 | アリババ グループ ホールディング リミテッド | 文書内の主要地理情報の決定 |
US8775422B2 (en) | 2008-08-29 | 2014-07-08 | Alibaba Group Holding Limited | Determining core geographical information in a document |
US9141642B2 (en) | 2008-08-29 | 2015-09-22 | Alibaba Group Holding Limited | Determining core geographical information in a document |
JP2010238027A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | 階層型文書管理システム、階層型文書管理方法および階層型文書管理プログラム |
JP2010003309A (ja) * | 2009-08-10 | 2010-01-07 | Fujifilm Corp | ファイル管理システムおよびファイル管理方法 |
US8788357B2 (en) | 2009-08-12 | 2014-07-22 | Iqnavigator, Inc. | System and method for productizing human capital labor employment positions/jobs |
JP2013502012A (ja) * | 2009-08-12 | 2013-01-17 | ボルト インフォメーション サイエンシズ インク | 人的資本労働雇用の地位/職務を製品化するためのシステムおよび方法 |
JP2011107819A (ja) * | 2009-11-13 | 2011-06-02 | Fuji Xerox Co Ltd | 木構造処理装置及びプログラム |
JP2010198639A (ja) * | 2010-06-03 | 2010-09-09 | Konica Minolta Business Technologies Inc | 検索フォルダの管理方法、フォルダの管理方法、コンピュータ、およびコンピュータプログラム |
JP2013041368A (ja) * | 2011-08-12 | 2013-02-28 | Nec Corp | コンテンツ管理装置およびコンテンツ管理方法 |
JP2018067095A (ja) * | 2016-10-18 | 2018-04-26 | 株式会社東芝 | 名刺情報管理システム、名刺情報管理システムにおける検索結果表示方法、および検索結果表示プログラム |
WO2022169060A1 (ko) * | 2021-02-05 | 2022-08-11 | 한국기술교육대학교 산학협력단 | 계층적 다중 레이블 분류를 위한 데이터 분류 방법 및 장치 |
US11874856B2 (en) | 2021-02-05 | 2024-01-16 | Korea University Of Technology And Education Industry-University Cooperation Foundation | Data classification method and device for hierarchical multi-label classification |
Also Published As
Publication number | Publication date |
---|---|
DE69526168D1 (de) | 2002-05-08 |
US5832470A (en) | 1998-11-03 |
DE69526168T2 (de) | 2002-11-28 |
JP3669016B2 (ja) | 2005-07-06 |
EP0704810A1 (en) | 1996-04-03 |
EP0704810B1 (en) | 2002-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH08153121A (ja) | 文書情報分類方法および文書情報分類装置 | |
US10152514B2 (en) | System for computerized evaluation of patent-related information | |
JP3577819B2 (ja) | 情報探索装置及び情報探索方法 | |
US7464096B2 (en) | Method and apparatus for information mining and filtering | |
US7783644B1 (en) | Query-independent entity importance in books | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
JP2003016089A (ja) | 情報検索システム及びサーバ | |
JPH09101991A (ja) | 情報フィルタリング装置 | |
JP3654850B2 (ja) | 情報検索システム | |
JP2004021445A (ja) | テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム | |
JP3178421B2 (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2003271609A (ja) | 情報監視装置及び情報監視方法 | |
JP2004178421A (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP2008243024A (ja) | 情報取得装置、そのプログラム及び方法 | |
Hirata et al. | Object-based navigation: An intuitive navigation style for content-oriented integration environment | |
JPH11296537A (ja) | 情報検索システム、情報提供装置、情報検索端末装置、情報検索方法および記憶媒体 | |
Borodin et al. | The search for R&D partners based on patent data | |
JPH1145257A (ja) | Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3367174B2 (ja) | 文書群分析装置および方法 | |
KR102593884B1 (ko) | 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체 | |
JP3856388B2 (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3772401B2 (ja) | 文書分類装置 | |
JP2004234582A (ja) | 辞書構築方法,システム及び画面 | |
JP2000105769A (ja) | 文書表示方法 | |
JP2006501545A (ja) | オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041115 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050210 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050404 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090422 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090422 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100422 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110422 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120422 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |