JP2005063366A - 情報管理装置および情報管理方法 - Google Patents

情報管理装置および情報管理方法 Download PDF

Info

Publication number
JP2005063366A
JP2005063366A JP2003296199A JP2003296199A JP2005063366A JP 2005063366 A JP2005063366 A JP 2005063366A JP 2003296199 A JP2003296199 A JP 2003296199A JP 2003296199 A JP2003296199 A JP 2003296199A JP 2005063366 A JP2005063366 A JP 2005063366A
Authority
JP
Japan
Prior art keywords
document
category
documents
importance
feature word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003296199A
Other languages
English (en)
Inventor
Daiki Kurita
大樹 栗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2003296199A priority Critical patent/JP2005063366A/ja
Publication of JP2005063366A publication Critical patent/JP2005063366A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 多数のユーザが利用し大量の文書が追加・削除される状況において、文書を効率良く管理する。
【解決手段】 文書DB1は、文書管理部5が取得した文書を格納するデータベースであり、語彙DB2は大量の単語を格納しているデータベースである文書DB1は、文書テーブル、文書詳細テーブル、カテゴリテーブル、カテゴリ詳細テーブル、カテゴリ同義語テーブルを含む。同じ特徴語を有する文書数を基準として新規のカテゴリ生成をするとともに、動的に変化する前記重要度に基づいて、文書を削除するか否かを決定することにより文書管理を行う。
【選択図】 図1

Description

本発明は、情報の分類方法および分類装置に関し、特に、情報を自動的に分類・削除する技術に関する。
情報化社会の進展に伴って、情報量や文書量が従来にも増して増大してきている。そのため時間とともに文書量が増減する環境下においては、増えつづける文書を適切に分類するために、分類カテゴリの追加と削除とを自動的に行う必要がある。また、生成される分類カテゴリは、その時点で存在している文書集合の内容を適切に反映したものでなくてはならない。オーソドックスな文書クラスタリング技術では、この要求を満たすことはできない。
例えば、既存の分類カテゴリからユーザが指定した分類カテゴリを削除し、削除されたカテゴリ及びいずれのカテゴリにも属していない文書集合に対して、再クラスタリングと新規カテゴリ生成とを行うことにより、ユーザにとって本当に必要となる分類カテゴリで文書を分類する方法が提案されている。さらに、この方法においては、新規カテゴリ生成時には過去に削除されたことのあるカテゴリの生成を抑制することも行っている(例えば、特許文献1参照)。
また、文書の生成時間の情報と文書内の時間情報に基づいて、時間情報により文書の分類を行う方法も提案されている。時間の分類と従来のクラスタリングを併用することにより、カテゴリの時系列を追うことが可能となっている(例えば、特許文献2参照)。
特開2002−149670号公報 特開平10−154150号公報
しかしながら、上記特許文献1に記載の技術における分類カテゴリの追加アルゴリズムは従来のアルゴリズムと同じく、1つの文書は1つのカテゴリに納まる仕組みになっている。一般にユーザによってカテゴリの分類の仕分け方法が異なることを考慮すると、自分が想定するカテゴリに対象となる文書が入ってないと検索ができない。
従ってユーザが想定するカテゴリと文書が一致しないと、意図する文書の検索ができないという問題点が起きてしまい、この分類方法では多数のユーザの使用環境において使い勝手が良いとは言えない。また、分類カテゴリの削除では、ユーザが指定したカテゴリの削除及びその後の該当カテゴリの生成の抑制が行われており、使用者の意図を強く反映した分類方法となる。
また、上記特許文献2に記載の技術では、分類カテゴリ追加アルゴリズムに関しては一般的な方法を用いている。このことは、特許文献1と同じく、多数のユーザが使用する環境下でのユーザの使い勝手が良くない。また、文書の内容の分類と時間情報による分類とは、完全に独立に行われており、文書内容のカテゴリの生成・削除を動的に行うことはできない。
本発明の目的は、多数のユーザが利用する環境下であって、大量の文書が発生する環境下におけるカテゴリ分類を適切に行う技術を提供することを目的とする。
本発明の一観点によれば、文書中から特徴語を抽出する特徴語抽出手段と、抽出された前記特徴語を前記文書と関連付けする関連付け手段と、前記文書を、同じ特徴語を有する少なくとも1の既存のカテゴリと関連付けする文書分類手段と、同じ特徴語を有する文書数を基準として新規のカテゴリ生成をする新規カテゴリ生成手段とを有する文書管理装置が提供される。
上記文書管理装置によれば、新たなカテゴリを生成する基準は同じ特徴語をもつ文書の数にのみ依存するため、生成されたカテゴリがシステムの管理者などの個人的な趣向に寄らず客観的な文書整理が行われる。なお、「新規」の中には一旦削除された後に復活したカテゴリも含まれる。また、特徴語に、その同義語を含ませることにより、より有効に文書の分類を行うことができる。
さらに、文書の重要度を計算する重要度計算手段と、前記重要度を動的に監視する重要度監視手段と、動的に変化する前記重要度に基づいて、文書を削除するか否かを決定する文書削除判断手段とを有するのが好ましい。これにより、文書の削除も自動的に行うことができ、限られた資源を有効活用することができる。
また、前記文書分類手段は、さらに、削除されたカテゴリに属している文書について、該文書が新たに属することになるカテゴリを前記削除されたカテゴリの上位カテゴリ中から検索し、該上位カテゴリと前記文書とを関連付けする文書再分類手段を有しているのが好ましい。必要であればそのカテゴリ内にサブカテゴリを作成することもできる。
本発明の他の観点によれば、複数の文書をその内容に適したカテゴリに分類する情報分類方法であって、追加された文書の内容と関連する特徴語を抽出する特徴語抽出ステップと、文書の更新日時と参照度とに基づいて文書の重要度を求める重要度計算ステップと、
前記特徴語抽出ステップで取得した特徴語を用いて追加された文書をカテゴリに分類する文書分類ステップと、前記重要度が管理者の指定値を下回った場合に関連する文書を削除する文書削除ステップとを有する情報分類方法が提供される。さらに、カテゴリに文書が追加された際に、そのカテゴリ内の文書数が管理者指定の閾値より多い場合にはそのカテゴリ内に新たなサブカテゴリを生成するサブカテゴリ生成ステップと、カテゴリ内の文書数が前記文書削除ステップにより指定の閾値より少なくなった場合にそのカテゴリを削除するカテゴリ削除ステップとの少なくともいずれかのステップを有することを特徴とする。
以上説明したように、本発明によれば、新規文書について、属するカテゴリを自動的に決定することができる。また、ある特定のトピック(特徴)を有する文書の増減に動的に対応可能である。
従って、多数のユーザが使用し、日々大量に文書が発生する環境下においても、それらの文書を適切かつ簡便に管理することが可能である。
以下、本発明を一実施の形態による情報分類技術について図面を参照しつつ説明を行う。
図1は、本実施の形態による情報分類装置の一構成例を示すブロック図である。図1に示すように、本情報分類装置は、文書が格納されている文書DB1と、大量の単語とその同義語および関連語とを対応付けて記憶する語彙DB2と、文書DB1内の文書の内容を解析する解析部3と、解析したデータに基づいて文書をカテゴリ毎に分類するカテゴリ構成管理部4と、文書の取得・破棄を行う文書管理部5と、を有している。
以下、図1に示す各ブロック構成について説明を行う。文書DB1は、文書管理部5が取得した文書を格納するデータベースであり、語彙DB2は大量の単語を格納しているデータベースである。図14は、文書DB1及び語彙DB2内のテーブル構成例を示す図である。図14中の文書テーブル、文書詳細テーブル、カテゴリテーブル、カテゴリ詳細テーブル、カテゴリ同義語テーブルは、文書DB1に属し、語彙テーブルは語彙DB2に属する。文書は文書テーブルで管理されている。
図2は、文書テーブルのレコード構成例を示す図である。図中の符号201は、文書に対して一意に付された文書キーの値である。文書キー201の値は、文書管理部5(図1)が生成し文書に対して割り当てる。符号202は、文書情報が存在する場所(アドレス)を示す文書情報のアドレスである。文書がローカルに存在するファイルである場合は、そのアドレスが記載され、文書がインターネット上のHTMLファイルである場合は、そのアドレスが記載され、文書があるデータベース内の情報である場合は、そのデータベース内での格納場所が記載される。符号203は、文書の重要度を表す。符号204は文書の参照度を表す。符号205は文書の登録日を表す。符号206は文書の最終更新日を表す。
図1に示す文書解析部3は、文書DB1内の文書を解析し、その文書を特徴付けている単語を取り出す。特徴語抽出のアルゴリズムとしては、その文書にとって重要度の高い名詞のみを取り出すためのアルゴリズムであれば、特に限定はされない。例えばKeyGraphというアルゴリズムを用いることができる。
文書解析部3によって抽出された特徴語は、文書詳細テーブルに格納される。図3は文書詳細テーブルのレコード構成例を示す図ある。図3中の符号301は、文書毎に一意に割り振られた文書キーである。図中の符号302はその文書から抽出された特徴語である。図1に示すカテゴリ構成管理部4は、文書テーブル内の特徴語列を参照してカテゴリを作成する。図5は、カテゴリ構成管理部4により生成されたカテゴリの構成例を示すツリー状の図である。カテゴリ間の親子関係(単語間の共起関係)の情報と、各カテゴリに属する文書の情報とは、カテゴリテーブル、カテゴリ文書テーブル及びカテゴリ同義語テーブルの3つのテーブルに格納されている。
図6は、カテゴリテーブルのレコード構成例を示す図である。図6中の符号601は、カテゴリキーであり、符号602はカテゴリ名である。符号603は、このカテゴリに属している文書数である。符号604は、親カテゴリキーであり、例えば、カテゴリ名「テニス」(カテゴリキー0000000001)がカテゴリ名「テニスの王女様」(親カテゴリキー0000000001)の親カテゴリであることがわかる。
図7は、カテゴリ文書テーブルのレコード構成例を示す図である。図7中の符号701はカテゴリキーであり、符号702はそのカテゴリに属する文書キーである。尚、1つの文書が複数のカテゴリに属することもある。この場合には、1つの文書キーに対して複数のカテゴリキーが付されることになる。
図8は、カテゴリ同義語テーブルのレコード構成例を示す図である。図8における符号801はカテゴリキーであり、符号802はカテゴリ内文書が有する同義語キーであり、符号803はそのカテゴリ内でその同義語を有する文書数であり、符号804は同義語がカテゴリを特徴付けているか否かを表す親フラグである。
図1に示す文書管理部5は、文書の取得と破棄および文書の重要度の計算を行う。文書の取得方法は特に限定されない。例えば、インターネット上を自動で探し回る方法でもいいし、管理者が自分で登録を行う方法でも良い。新規登録された文書は、文書テーブル(図2)に追加される。また、文書を破棄するか否かに関しては、文書の重要度に基づいて決まる。文書の重要度を決定するアルゴリズムは、特に指定されない。例えば、Google社のページランクを用いることが可能である。
次に、これまでに説明したシステムによる処理の流れについて説明する。本実施の形態によるシステムは、2つの大きなイベントに伴い一連の処理が開始される。2つの大きなイベントとは、文書の追加と削除とである。文書の追加および削除とともに、カテゴリの生成・削除、文書の分類など一連の処理が行われる。
図9は、文書追加処理以後の処理の流れを示すフローチャート図である。文書がシステムに追加されると、文書テーブルに文書が追加される(ステップS901)。文書テーブルに追加された文書に関して内容解析が行われる。内容解析の処理では、文書の内容を特徴付ける単語が抽出され、文書と抽出語とが対応付けられて文書詳細テーブル(図3)に格納される(ステップS902)。この際に抽出される特徴語は1つとは限らず、複数存在する可能性もある。抽出された特徴語の同義語キーを語彙テーブルから取得し、その同義語キーでカテゴリテーブルからカテゴリを検索する(ステップS903)。文書がカテゴリに追加されると、そのカテゴリ内で新たなサブカテゴリが生成されるか否かを判定する(ステップS904)。カテゴリ追加判定がYESの場合は、そのカテゴリのサブカテゴリとして新たなカテゴリを生成する(ステップS905)。以上により文書の追加に伴う処理が終了する(ステップS906)。
続いて、文書の追加以後の詳細な処理の流れについて説明する。まず、追加された文書がカテゴリに分類される手順について図13を参照して説明する。まず、追加した文書の特徴語を全て取り出し、それらの特徴語の同義語キーを取得する(ステップS1301)。取り出された同義語キーによりカテゴリテーブルを検索する(ステップS1302)。まず、新たな行を取得する(ステップS1303)。取得したカテゴリキーと文書キーとの対を一時テーブルに挿入する(ステップS1304)。ステップS1305において、取得した行が最終行であるか否かを判断する。最終行である場合には、ステップS1306に進み、同義語キーは最終キーであるか否かを判断する。最終行でなければステップS1303に戻る。ステップ1306において最終キーでなければ、ステップS1302に戻る。最終キーであれば、ステップS1307に進む。すなわち、ステップS1301において取得した全ての同義語キーについて、ステップS1302の同義語キーでカテゴリテーブルを検索する処理と、検索されたカテゴリーを一時テーブルに挿入するステップS1304の処理とを行う。
次に、ステップS1307において、一時テーブルの行を取得する。ステップS1308において、取得した行(レコード)のカテゴリの子カテゴリに当たるカテゴリを含むレコードが一時テーブル内に存在するか否かを判定する(ステップS1308)。判定がYESの時はそのレコードを一時テーブルより削除する(ステップS1309)。判定がNoであれば、ステップS1310に進み、一時テーブルの最終行であるか否かを判断する。最終行でなければ、ステップS1307に戻り新たな行を取得する。最終行であれば、ステップS1311に進み、レコードを、カテゴリ文書テーブル(図7)に挿入し、処理を終了する(ステップS1312)。
尚、ステップS1302において全ての特徴語がいずれのカテゴリにも属さない文書は、「全文書」というカテゴリに分類される。この「全文書」カテゴリは、システムによって維持されているカテゴリツリーのルートノードのことである。文書のカテゴリへの分類処理が終了すると、そのカテゴリの情報の編集処理が行われる。
図11は、編集処理の流れを示すフローチャート図である。まず、文書のキーを元に文書詳細テーブルを検索し結果セットを取得する(ステップS1101)。次いで、ステップ1106において、文書テーブルから行を取得する。ステップS1102において、特徴語に基づいて語彙テーブルを検索し、特徴語が有する同義語キーを取得する。取得した同義語キーでカテゴリ同義語テーブル(図8)を更新する(ステップS1103)。更新の内容は、カテゴリと同義語キーとを検索キーとして検索し、レコードが存在すると出現文書数をインクリメントする。ステップS1104で最終行か否かを判断し、最終行でなければステップS1106に戻り、最終行であればステップS1105で処理を終了する。
尚、ステップS1102において語彙テーブルに特徴語が存在しない場合は、語彙テーブルに新たにその特徴語を挿入する。挿入した行の「単語」および「同義語グループ」属性にはともにその特徴語を入れる。同義語テーブルへの追加行が増えていくと、それらの単語の間で同義関係にあるものが出現する。その場合は、システム管理者がそれらの同義語に対し、適当な同義語グループ名を作成し直する。
続いて、カテゴリ生成処理の流れについて図12を参照して説明する。図12に示すように、文書が追加されたカテゴリをキーとしてカテゴリ同義語テーブルを検索する(ステップS1201)。結果セットを文書数の降順にソートし(ステップS1202)、結果セットから文書数が大きいものから順に行(レコード)を取り出していく(ステップS1203)。次いで、取り出されたレコードの文書数が、管理者が指定した閾値より大きいか否かを判定する(ステップS1204)。判定がYESの場合には、そのレコードの同義語で新規カテゴリを生成し、カテゴリに属す文書のうちその同義語をもつ全ての文書を新規カテゴリに属する文書とする(ステップS1205)。カテゴリ名は同義語中で一番多く用いられている特徴語とする(ステップS1206)。ステップS1204において判定がNoであれば処理を終了する(ステップS1208)。ステップS1207において最終行であれば、処理を終了し(ステップS1208)、最終行でなければステップS1203に戻る。
本システムの2つ目の大きなイベントである文書削除処理について説明する。図10は文書削除に伴う処理の流れを示すフローチャート図である。本システムは、一定期間毎に文書テーブルの走査を行い(ステップS1001)、管理者が設定した閾値よりも重要度が低い文書削除する(ステップS1002、S1003)。文書がカテゴリから削除されると、そのカテゴリが削除されるか否かを判定する(ステップS1004)。判定がYESの時はそのカテゴリに属する全ての項目を親カテゴリに直接属させ、そのカテゴリを削除する(ステップS1005)。カテゴリの削除に伴い親カテゴリに属する文書数が増えるため、親カテゴリ内で新たなサブカテゴリが生成されるか否かを判定する(ステップS1006)。判定がYESの時はその親カテゴリのサブカテゴリとして新たなカテゴリを生成する(ステップS1007)。以上で文書の削除に伴う処理を終了する(ステップS1008)。
ステップS1004のカテゴリ削除判定処理の詳細について説明する。判定処理は、カテゴリ及びそのカテゴリに属する全ての子カテゴリ内の文書数が管理者指定の閾値より少ないときはYES、多いときはNOである。つまり、リーフレベルのカテゴリについてのみカテゴリの削除が行われることになる。
次に本発明を適用した具体例を以下に述べる。インターネットでのHTML文書集合を分類する処理を考える。現時点では「テニス」というカテゴリが生成済みであるものとする。以下の説明において、「テニス」より上位のカテゴリは無関係であるので説明しない。また、説明を簡単にするため、「テニス」カテゴリの上位に「テニスの王女様」というカテゴリは存在しないものとする。
「テニスの王女様」という漫画が流行し始め、関連するホームページが多く追加されてきたとする。ステップS1301により、それらの文書の特徴語が抽出される。「テニスの王女様」関係のホームページの特徴語として、高い確率で「テニス」、「テニスの王女様」、「赤学」、「リュー」などが取得されると予想できる。ステップS1302〜S1304によって、「テニスの王女様」関連のホームページは、「テニス」カテゴリ内に格納されることになる。「テニスの王女様」の流行が本物になり、「テニス」カテゴリ内の「テニスの王女様」という特徴語を持つホームページの数が、管理者が指定したある閾値を越えると、「テニス」カテゴリのサブカテゴリとして「テニスの王女様」というカテゴリが生成されることになる。
ある時期が経過し、「テニスの王女様」の流行が下火になったとすると、「テニスの王女様」関係のホームページ数は増加しなくなる。また、そのホームページを参照する人も少なくなり、ホームページ製作者のホームページ更新頻度も少なくなる。すると、ステップS1001において、そのホームページの重要度の値が低くなる。重要度の値が管理者指定の閾値より低くなると、ステップS1002、ステップS1003によりそのホームページが削除される。「テニスの王女様」カテゴリ内のホームページ数が管理者指定の閾値より少なくなると、ステップS1005により「テニスの王女様」カテゴリは削除されることになる。このようにして、システムは、現在流行しているカテゴリを自動的に生成し、また流行が去った後には自動的にカテゴリを削除することが出来る。
以上説明したように、本実施の形態による文書管理技術を用いると、日々文書が大量に発生する環境下においても、それらの文書集合に対して常に適切なカテゴリによって分類することが可能になっている。
尚、上記の実施の形態においては、管理対象を文書とした例を説明したが、文書以外の各種情報であっても、その情報中から一般化が可能な特徴点を抽出可能であれば、管理対象となりうる。また、文書分類処理において、新規に追加された文書に対して特徴語抽出処理で取得した特徴語とその時点で存在しているカテゴリを特徴付けている特徴語が同義語DBにおいて同義語と定義され、かつ、そのカテゴリの全ての子および孫カテゴリへその文書が分類されると判定されていないときに、そのカテゴリに文書を分類することもできる。さらに、カテゴリ削除処理において、削除されたカテゴリ内の文書をそのカテゴリの親カテゴリに分類し、その親カテゴリ内で前記カテゴリ生成処理を行う方法もある。
多数のユーザが利用し大量の文書が追加・削除される状況において、極めて有用な文書管理技術である。
本発明の一実施の形態による情報分類装置の概略構成例を示すブロック図である。 文書テーブルのレコード構成例を示す図である。 文書詳細テーブルのレコード構成例を示す図である。 語彙テーブルのレコード構成例を示す図である。 生成されるカテゴリ構成例(ツリー構成)を示す図である。 カテゴリテーブルのレコード構成例を示す図である。 カテゴリ文書テーブルのレコード構成例を示す図である。 カテゴリ同義語テーブルのレコード構成例を示す図である。 文書追加に伴う処理の流れを示すフローチャート図である。 文書削除にともなう処理の流れを示すフローチャート図である。 文書分類後のカテゴリ同義語テーブルの編集処理の流れを示すフローチャート図である。 新規カテゴリ生成処理の流れを示すフローチャート図である。 文書分類処理の流れを示すフローチャート図である。 本システムのテーブル構成を示す図である。
符号の説明
1…文書DB、2…語彙データベース、3…文書解析部、4…カテゴリ構成管理部、5…文書管理部。

Claims (12)

  1. 文書中から特徴語を抽出する特徴語抽出手段と、
    抽出された前記特徴語を前記文書と関連付けする関連付け手段と、
    前記文書を、同じ特徴語を有する少なくとも一つの既存のカテゴリと関連付けする文書分類手段と、
    同じ特徴語を有する文書数を基準として新規のカテゴリ生成をする新規カテゴリ生成手段と
    を有する文書管理装置。
  2. さらに、
    上位と下位の関係に基づいて複数の前記カテゴリを階層構造として記憶するカテゴリ階層構造記憶手段を有することを特徴とする請求項1に記載の文書管理装置。
  3. 新たに追加された文書から抽出された特徴語に基づいて既存のカテゴリに関連するサブカテゴリを生成するサブカテゴリ生成手段を有することを特徴とする請求項1又は2に記載の文書管理装置。
  4. さらに、新たに生成されたサブカテゴリに基づいて前記カテゴリ階層構造記憶手段の記憶内容を更新するカテゴリ構造更新手段を有することを特徴とする請求項3に記載の文書管理装置。
  5. さらに、
    文書の重要度を計算する重要度計算手段と、
    前記重要度を動的に監視する重要度監視手段と、
    動的に変化する前記重要度に基づいて、文書を削除するか否かを決定する文書削除判断手段と
    を有する請求項1から4までのいずれか1項に記載の文書管理装置。
  6. さらに、
    削除された文書が属していたカテゴリを、そのカテゴリと結びついている文書の数に基づいて削除するカテゴリ削除手段を有することを特徴とする請求項5に記載の文書管理装置。
  7. 前記文書分類手段は、
    さらに、削除されたカテゴリに属している文書について、該文書が新たに属することになるカテゴリを前記削除されたカテゴリの上位カテゴリ中から検索し、該上位カテゴリと前記文書とを関連付けする文書再分類手段を有していることを特徴とする請求項6に記載の文書管理装置。
  8. 文書中から特徴語を抽出するステップと、
    抽出された前記特徴語を前記文書と関連付けするステップと、
    前記文書を、同じ特徴語を有する少なくとも1の既存のカテゴリと関連付けするステップと、
    同じ特徴語を有する文書数を基準として新規のカテゴリ生成をするステップと
    を有する文書管理方法。
  9. さらに、
    文書の重要度を計算するステップと、
    前記重要度を動的に監視するステップと、
    動的に変化する前記重要度に基づいて、文書を削除するか否かを決定するステップと
    を有する請求項8に記載の文書管理方法。
  10. 複数の文書をその内容に適したカテゴリに分類する情報分類方法であって、
    追加された文書の内容と関連する特徴語を抽出する特徴語抽出ステップと、
    文書の更新日時と参照度とに基づいて文書の重要度を求める重要度計算ステップと、
    前記特徴語抽出ステップで取得した特徴語を用いて追加された文書をカテゴリに分類する文書分類ステップと、
    前記重要度が管理者の指定値を下回った場合に関連する文書を削除する文書削除ステップと
    を有する情報分類方法。
  11. さらに、カテゴリに文書が追加された際に、そのカテゴリ内の文書数が管理者指定の閾値より多い場合にはそのカテゴリ内に新たなサブカテゴリを生成するサブカテゴリ生成ステップと、カテゴリ内の文書数が前記文書削除ステップにより指定の閾値より少なくなった場合にそのカテゴリを削除するカテゴリ削除ステップとのすくなくともいずれかのステップを有することを特徴とする請求項10に記載の情報分類方法。
  12. 請求項8から11までに記載のいずれかのステップをコンピュータに実行させるためのプログラム。
JP2003296199A 2003-08-20 2003-08-20 情報管理装置および情報管理方法 Pending JP2005063366A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003296199A JP2005063366A (ja) 2003-08-20 2003-08-20 情報管理装置および情報管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003296199A JP2005063366A (ja) 2003-08-20 2003-08-20 情報管理装置および情報管理方法

Publications (1)

Publication Number Publication Date
JP2005063366A true JP2005063366A (ja) 2005-03-10

Family

ID=34372185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003296199A Pending JP2005063366A (ja) 2003-08-20 2003-08-20 情報管理装置および情報管理方法

Country Status (1)

Country Link
JP (1) JP2005063366A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069972A (ja) * 2007-09-11 2009-04-02 Nomura Research Institute Ltd 分類データ管理システム
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム
JP2013171447A (ja) * 2012-02-21 2013-09-02 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2015191656A (ja) * 2014-03-28 2015-11-02 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索方法、クライアント及びサーバ

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069972A (ja) * 2007-09-11 2009-04-02 Nomura Research Institute Ltd 分類データ管理システム
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム
JP2013065097A (ja) * 2011-09-15 2013-04-11 Toshiba Corp 文書分類装置、方法およびプログラム
US9507857B2 (en) 2011-09-15 2016-11-29 Kabushiki Kaisha Toshiba Apparatus and method for classifying document, and computer program product
JP2013171447A (ja) * 2012-02-21 2013-09-02 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2015191656A (ja) * 2014-03-28 2015-11-02 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索方法、クライアント及びサーバ
US10127253B2 (en) 2014-03-28 2018-11-13 Baidu Online Network Technology (Beijing) Co., Ltd. Searching method, client and server

Similar Documents

Publication Publication Date Title
US9720944B2 (en) Method for facet searching and search suggestions
JP5512489B2 (ja) ファイル管理装置及びファイル管理方法
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
JP5332477B2 (ja) ターム階層の自動生成
JP5197959B2 (ja) スーパーユニットを用いた検索処理のためのシステム及び方法
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
KR101441219B1 (ko) 정보 엔터티들의 자동 연관
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
JP4237813B2 (ja) 構造化文書管理システム
KR101683138B1 (ko) 정보검색장치 및 그 동작 방법
JPH1145284A (ja) プロファイルの作成方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4439497B2 (ja) 検索処理装置及びプログラム
JP2005063366A (ja) 情報管理装置および情報管理方法
JP2011090463A (ja) 文書検索システム、情報処理装置およびプログラム
JP2006277061A (ja) 知識検索システム、知識検索方法及びプログラム
JP6081609B2 (ja) データ分析システム及びその方法
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
JP5346045B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
Bendella et al. Patterns Based Query Expansion for Enhanced Search on Twitter Data.
JP2004234582A (ja) 辞書構築方法,システム及び画面
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム