JP2005063366A

JP2005063366A - 情報管理装置および情報管理方法

Info

Publication number: JP2005063366A
Application number: JP2003296199A
Authority: JP
Inventors: Daiki Kurita; 大樹栗田
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2003-08-20
Filing date: 2003-08-20
Publication date: 2005-03-10

Abstract

【課題】多数のユーザが利用し大量の文書が追加・削除される状況において、文書を効率良く管理する。
【解決手段】文書DB１は、文書管理部５が取得した文書を格納するデータベースであり、語彙DB2は大量の単語を格納しているデータベースである文書DB１は、文書テーブル、文書詳細テーブル、カテゴリテーブル、カテゴリ詳細テーブル、カテゴリ同義語テーブルを含む。同じ特徴語を有する文書数を基準として新規のカテゴリ生成をするとともに、動的に変化する前記重要度に基づいて、文書を削除するか否かを決定することにより文書管理を行う。
【選択図】図１

Description

本発明は、情報の分類方法および分類装置に関し、特に、情報を自動的に分類・削除する技術に関する。

情報化社会の進展に伴って、情報量や文書量が従来にも増して増大してきている。そのため時間とともに文書量が増減する環境下においては、増えつづける文書を適切に分類するために、分類カテゴリの追加と削除とを自動的に行う必要がある。また、生成される分類カテゴリは、その時点で存在している文書集合の内容を適切に反映したものでなくてはならない。オーソドックスな文書クラスタリング技術では、この要求を満たすことはできない。

例えば、既存の分類カテゴリからユーザが指定した分類カテゴリを削除し、削除されたカテゴリ及びいずれのカテゴリにも属していない文書集合に対して、再クラスタリングと新規カテゴリ生成とを行うことにより、ユーザにとって本当に必要となる分類カテゴリで文書を分類する方法が提案されている。さらに、この方法においては、新規カテゴリ生成時には過去に削除されたことのあるカテゴリの生成を抑制することも行っている（例えば、特許文献１参照）。

また、文書の生成時間の情報と文書内の時間情報に基づいて、時間情報により文書の分類を行う方法も提案されている。時間の分類と従来のクラスタリングを併用することにより、カテゴリの時系列を追うことが可能となっている（例えば、特許文献２参照）。

特開２００２−１４９６７０号公報特開平１０−１５４１５０号公報

しかしながら、上記特許文献１に記載の技術における分類カテゴリの追加アルゴリズムは従来のアルゴリズムと同じく、１つの文書は１つのカテゴリに納まる仕組みになっている。一般にユーザによってカテゴリの分類の仕分け方法が異なることを考慮すると、自分が想定するカテゴリに対象となる文書が入ってないと検索ができない。

従ってユーザが想定するカテゴリと文書が一致しないと、意図する文書の検索ができないという問題点が起きてしまい、この分類方法では多数のユーザの使用環境において使い勝手が良いとは言えない。また、分類カテゴリの削除では、ユーザが指定したカテゴリの削除及びその後の該当カテゴリの生成の抑制が行われており、使用者の意図を強く反映した分類方法となる。

また、上記特許文献２に記載の技術では、分類カテゴリ追加アルゴリズムに関しては一般的な方法を用いている。このことは、特許文献１と同じく、多数のユーザが使用する環境下でのユーザの使い勝手が良くない。また、文書の内容の分類と時間情報による分類とは、完全に独立に行われており、文書内容のカテゴリの生成・削除を動的に行うことはできない。

本発明の目的は、多数のユーザが利用する環境下であって、大量の文書が発生する環境下におけるカテゴリ分類を適切に行う技術を提供することを目的とする。

本発明の一観点によれば、文書中から特徴語を抽出する特徴語抽出手段と、抽出された前記特徴語を前記文書と関連付けする関連付け手段と、前記文書を、同じ特徴語を有する少なくとも１の既存のカテゴリと関連付けする文書分類手段と、同じ特徴語を有する文書数を基準として新規のカテゴリ生成をする新規カテゴリ生成手段とを有する文書管理装置が提供される。

上記文書管理装置によれば、新たなカテゴリを生成する基準は同じ特徴語をもつ文書の数にのみ依存するため、生成されたカテゴリがシステムの管理者などの個人的な趣向に寄らず客観的な文書整理が行われる。なお、「新規」の中には一旦削除された後に復活したカテゴリも含まれる。また、特徴語に、その同義語を含ませることにより、より有効に文書の分類を行うことができる。

さらに、文書の重要度を計算する重要度計算手段と、前記重要度を動的に監視する重要度監視手段と、動的に変化する前記重要度に基づいて、文書を削除するか否かを決定する文書削除判断手段とを有するのが好ましい。これにより、文書の削除も自動的に行うことができ、限られた資源を有効活用することができる。

また、前記文書分類手段は、さらに、削除されたカテゴリに属している文書について、該文書が新たに属することになるカテゴリを前記削除されたカテゴリの上位カテゴリ中から検索し、該上位カテゴリと前記文書とを関連付けする文書再分類手段を有しているのが好ましい。必要であればそのカテゴリ内にサブカテゴリを作成することもできる。

本発明の他の観点によれば、複数の文書をその内容に適したカテゴリに分類する情報分類方法であって、追加された文書の内容と関連する特徴語を抽出する特徴語抽出ステップと、文書の更新日時と参照度とに基づいて文書の重要度を求める重要度計算ステップと、
前記特徴語抽出ステップで取得した特徴語を用いて追加された文書をカテゴリに分類する文書分類ステップと、前記重要度が管理者の指定値を下回った場合に関連する文書を削除する文書削除ステップとを有する情報分類方法が提供される。さらに、カテゴリに文書が追加された際に、そのカテゴリ内の文書数が管理者指定の閾値より多い場合にはそのカテゴリ内に新たなサブカテゴリを生成するサブカテゴリ生成ステップと、カテゴリ内の文書数が前記文書削除ステップにより指定の閾値より少なくなった場合にそのカテゴリを削除するカテゴリ削除ステップとの少なくともいずれかのステップを有することを特徴とする。

以上説明したように、本発明によれば、新規文書について、属するカテゴリを自動的に決定することができる。また、ある特定のトピック（特徴）を有する文書の増減に動的に対応可能である。

従って、多数のユーザが使用し、日々大量に文書が発生する環境下においても、それらの文書を適切かつ簡便に管理することが可能である。

以下、本発明を一実施の形態による情報分類技術について図面を参照しつつ説明を行う。

図１は、本実施の形態による情報分類装置の一構成例を示すブロック図である。図１に示すように、本情報分類装置は、文書が格納されている文書DB１と、大量の単語とその同義語および関連語とを対応付けて記憶する語彙DB２と、文書DB1内の文書の内容を解析する解析部３と、解析したデータに基づいて文書をカテゴリ毎に分類するカテゴリ構成管理部４と、文書の取得・破棄を行う文書管理部５と、を有している。

以下、図１に示す各ブロック構成について説明を行う。文書DB１は、文書管理部５が取得した文書を格納するデータベースであり、語彙DB2は大量の単語を格納しているデータベースである。図１４は、文書DB１及び語彙DB2内のテーブル構成例を示す図である。図１４中の文書テーブル、文書詳細テーブル、カテゴリテーブル、カテゴリ詳細テーブル、カテゴリ同義語テーブルは、文書DB1に属し、語彙テーブルは語彙DB2に属する。文書は文書テーブルで管理されている。

図２は、文書テーブルのレコード構成例を示す図である。図中の符号２０１は、文書に対して一意に付された文書キーの値である。文書キー２０１の値は、文書管理部５（図１）が生成し文書に対して割り当てる。符号２０２は、文書情報が存在する場所（アドレス）を示す文書情報のアドレスである。文書がローカルに存在するファイルである場合は、そのアドレスが記載され、文書がインターネット上のＨＴＭＬファイルである場合は、そのアドレスが記載され、文書があるデータベース内の情報である場合は、そのデータベース内での格納場所が記載される。符号２０３は、文書の重要度を表す。符号２０４は文書の参照度を表す。符号２０５は文書の登録日を表す。符号２０６は文書の最終更新日を表す。

図１に示す文書解析部３は、文書DB１内の文書を解析し、その文書を特徴付けている単語を取り出す。特徴語抽出のアルゴリズムとしては、その文書にとって重要度の高い名詞のみを取り出すためのアルゴリズムであれば、特に限定はされない。例えばKeyGraphというアルゴリズムを用いることができる。

文書解析部３によって抽出された特徴語は、文書詳細テーブルに格納される。図３は文書詳細テーブルのレコード構成例を示す図ある。図３中の符号３０１は、文書毎に一意に割り振られた文書キーである。図中の符号３０２はその文書から抽出された特徴語である。図１に示すカテゴリ構成管理部４は、文書テーブル内の特徴語列を参照してカテゴリを作成する。図５は、カテゴリ構成管理部４により生成されたカテゴリの構成例を示すツリー状の図である。カテゴリ間の親子関係（単語間の共起関係）の情報と、各カテゴリに属する文書の情報とは、カテゴリテーブル、カテゴリ文書テーブル及びカテゴリ同義語テーブルの３つのテーブルに格納されている。

図６は、カテゴリテーブルのレコード構成例を示す図である。図６中の符号６０１は、カテゴリキーであり、符号６０２はカテゴリ名である。符号６０３は、このカテゴリに属している文書数である。符号６０４は、親カテゴリキーであり、例えば、カテゴリ名「テニス」（カテゴリキー０００００００００１）がカテゴリ名「テニスの王女様」（親カテゴリキー０００００００００１）の親カテゴリであることがわかる。

図７は、カテゴリ文書テーブルのレコード構成例を示す図である。図７中の符号７０１はカテゴリキーであり、符号７０２はそのカテゴリに属する文書キーである。尚、１つの文書が複数のカテゴリに属することもある。この場合には、１つの文書キーに対して複数のカテゴリキーが付されることになる。

図８は、カテゴリ同義語テーブルのレコード構成例を示す図である。図８における符号８０１はカテゴリキーであり、符号８０２はカテゴリ内文書が有する同義語キーであり、符号８０３はそのカテゴリ内でその同義語を有する文書数であり、符号８０４は同義語がカテゴリを特徴付けているか否かを表す親フラグである。

図１に示す文書管理部５は、文書の取得と破棄および文書の重要度の計算を行う。文書の取得方法は特に限定されない。例えば、インターネット上を自動で探し回る方法でもいいし、管理者が自分で登録を行う方法でも良い。新規登録された文書は、文書テーブル（図２）に追加される。また、文書を破棄するか否かに関しては、文書の重要度に基づいて決まる。文書の重要度を決定するアルゴリズムは、特に指定されない。例えば、Google社のページランクを用いることが可能である。

次に、これまでに説明したシステムによる処理の流れについて説明する。本実施の形態によるシステムは、２つの大きなイベントに伴い一連の処理が開始される。２つの大きなイベントとは、文書の追加と削除とである。文書の追加および削除とともに、カテゴリの生成・削除、文書の分類など一連の処理が行われる。

図９は、文書追加処理以後の処理の流れを示すフローチャート図である。文書がシステムに追加されると、文書テーブルに文書が追加される（ステップＳ９０１）。文書テーブルに追加された文書に関して内容解析が行われる。内容解析の処理では、文書の内容を特徴付ける単語が抽出され、文書と抽出語とが対応付けられて文書詳細テーブル（図３）に格納される（ステップＳ９０２）。この際に抽出される特徴語は１つとは限らず、複数存在する可能性もある。抽出された特徴語の同義語キーを語彙テーブルから取得し、その同義語キーでカテゴリテーブルからカテゴリを検索する（ステップＳ９０３）。文書がカテゴリに追加されると、そのカテゴリ内で新たなサブカテゴリが生成されるか否かを判定する（ステップＳ９０４）。カテゴリ追加判定がYESの場合は、そのカテゴリのサブカテゴリとして新たなカテゴリを生成する（ステップＳ９０５）。以上により文書の追加に伴う処理が終了する（ステップＳ９０６）。

続いて、文書の追加以後の詳細な処理の流れについて説明する。まず、追加された文書がカテゴリに分類される手順について図１３を参照して説明する。まず、追加した文書の特徴語を全て取り出し、それらの特徴語の同義語キーを取得する（ステップＳ１３０１）。取り出された同義語キーによりカテゴリテーブルを検索する（ステップＳ１３０２）。まず、新たな行を取得する（ステップＳ１３０３）。取得したカテゴリキーと文書キーとの対を一時テーブルに挿入する（ステップＳ１３０４）。ステップＳ１３０５において、取得した行が最終行であるか否かを判断する。最終行である場合には、ステップＳ１３０６に進み、同義語キーは最終キーであるか否かを判断する。最終行でなければステップＳ１３０３に戻る。ステップ１３０６において最終キーでなければ、ステップＳ１３０２に戻る。最終キーであれば、ステップＳ１３０７に進む。すなわち、ステップＳ１３０１において取得した全ての同義語キーについて、ステップＳ１３０２の同義語キーでカテゴリテーブルを検索する処理と、検索されたカテゴリーを一時テーブルに挿入するステップＳ１３０４の処理とを行う。

次に、ステップＳ１３０７において、一時テーブルの行を取得する。ステップＳ１３０８において、取得した行（レコード）のカテゴリの子カテゴリに当たるカテゴリを含むレコードが一時テーブル内に存在するか否かを判定する（ステップＳ１３０８）。判定がＹＥＳの時はそのレコードを一時テーブルより削除する（ステップＳ１３０９）。判定がＮｏであれば、ステップＳ１３１０に進み、一時テーブルの最終行であるか否かを判断する。最終行でなければ、ステップＳ１３０７に戻り新たな行を取得する。最終行であれば、ステップＳ１３１１に進み、レコードを、カテゴリ文書テーブル（図７）に挿入し、処理を終了する（ステップＳ１３１２）。

尚、ステップＳ１３０２において全ての特徴語がいずれのカテゴリにも属さない文書は、「全文書」というカテゴリに分類される。この「全文書」カテゴリは、システムによって維持されているカテゴリツリーのルートノードのことである。文書のカテゴリへの分類処理が終了すると、そのカテゴリの情報の編集処理が行われる。

図１１は、編集処理の流れを示すフローチャート図である。まず、文書のキーを元に文書詳細テーブルを検索し結果セットを取得する（ステップＳ１１０１）。次いで、ステップ１１０６において、文書テーブルから行を取得する。ステップＳ１１０２において、特徴語に基づいて語彙テーブルを検索し、特徴語が有する同義語キーを取得する。取得した同義語キーでカテゴリ同義語テーブル（図８）を更新する（ステップＳ１１０３）。更新の内容は、カテゴリと同義語キーとを検索キーとして検索し、レコードが存在すると出現文書数をインクリメントする。ステップＳ１１０４で最終行か否かを判断し、最終行でなければステップＳ１１０６に戻り、最終行であればステップＳ１１０５で処理を終了する。

尚、ステップＳ１１０２において語彙テーブルに特徴語が存在しない場合は、語彙テーブルに新たにその特徴語を挿入する。挿入した行の「単語」および「同義語グループ」属性にはともにその特徴語を入れる。同義語テーブルへの追加行が増えていくと、それらの単語の間で同義関係にあるものが出現する。その場合は、システム管理者がそれらの同義語に対し、適当な同義語グループ名を作成し直する。

続いて、カテゴリ生成処理の流れについて図１２を参照して説明する。図１２に示すように、文書が追加されたカテゴリをキーとしてカテゴリ同義語テーブルを検索する（ステップＳ１２０１）。結果セットを文書数の降順にソートし（ステップＳ１２０２）、結果セットから文書数が大きいものから順に行（レコード）を取り出していく（ステップＳ１２０３）。次いで、取り出されたレコードの文書数が、管理者が指定した閾値より大きいか否かを判定する（ステップＳ１２０４）。判定がＹＥＳの場合には、そのレコードの同義語で新規カテゴリを生成し、カテゴリに属す文書のうちその同義語をもつ全ての文書を新規カテゴリに属する文書とする（ステップＳ１２０５）。カテゴリ名は同義語中で一番多く用いられている特徴語とする（ステップＳ１２０６）。ステップＳ１２０４において判定がＮｏであれば処理を終了する（ステップＳ１２０８）。ステップＳ１２０７において最終行であれば、処理を終了し（ステップＳ１２０８）、最終行でなければステップＳ１２０３に戻る。

本システムの２つ目の大きなイベントである文書削除処理について説明する。図１０は文書削除に伴う処理の流れを示すフローチャート図である。本システムは、一定期間毎に文書テーブルの走査を行い（ステップＳ１００１）、管理者が設定した閾値よりも重要度が低い文書削除する（ステップＳ１００２、Ｓ１００３）。文書がカテゴリから削除されると、そのカテゴリが削除されるか否かを判定する（ステップＳ１００４）。判定がYESの時はそのカテゴリに属する全ての項目を親カテゴリに直接属させ、そのカテゴリを削除する（ステップＳ１００５）。カテゴリの削除に伴い親カテゴリに属する文書数が増えるため、親カテゴリ内で新たなサブカテゴリが生成されるか否かを判定する（ステップＳ１００６）。判定がYESの時はその親カテゴリのサブカテゴリとして新たなカテゴリを生成する（ステップＳ１００７）。以上で文書の削除に伴う処理を終了する（ステップＳ１００８）。

ステップＳ１００４のカテゴリ削除判定処理の詳細について説明する。判定処理は、カテゴリ及びそのカテゴリに属する全ての子カテゴリ内の文書数が管理者指定の閾値より少ないときはYES、多いときはNOである。つまり、リーフレベルのカテゴリについてのみカテゴリの削除が行われることになる。

次に本発明を適用した具体例を以下に述べる。インターネットでのＨＴＭＬ文書集合を分類する処理を考える。現時点では「テニス」というカテゴリが生成済みであるものとする。以下の説明において、「テニス」より上位のカテゴリは無関係であるので説明しない。また、説明を簡単にするため、「テニス」カテゴリの上位に「テニスの王女様」というカテゴリは存在しないものとする。

「テニスの王女様」という漫画が流行し始め、関連するホームページが多く追加されてきたとする。ステップＳ１３０１により、それらの文書の特徴語が抽出される。「テニスの王女様」関係のホームページの特徴語として、高い確率で「テニス」、「テニスの王女様」、「赤学」、「リュー」などが取得されると予想できる。ステップＳ１３０２〜Ｓ１３０４によって、「テニスの王女様」関連のホームページは、「テニス」カテゴリ内に格納されることになる。「テニスの王女様」の流行が本物になり、「テニス」カテゴリ内の「テニスの王女様」という特徴語を持つホームページの数が、管理者が指定したある閾値を越えると、「テニス」カテゴリのサブカテゴリとして「テニスの王女様」というカテゴリが生成されることになる。

ある時期が経過し、「テニスの王女様」の流行が下火になったとすると、「テニスの王女様」関係のホームページ数は増加しなくなる。また、そのホームページを参照する人も少なくなり、ホームページ製作者のホームページ更新頻度も少なくなる。すると、ステップＳ１００１において、そのホームページの重要度の値が低くなる。重要度の値が管理者指定の閾値より低くなると、ステップＳ１００２、ステップＳ１００３によりそのホームページが削除される。「テニスの王女様」カテゴリ内のホームページ数が管理者指定の閾値より少なくなると、ステップＳ１００５により「テニスの王女様」カテゴリは削除されることになる。このようにして、システムは、現在流行しているカテゴリを自動的に生成し、また流行が去った後には自動的にカテゴリを削除することが出来る。

以上説明したように、本実施の形態による文書管理技術を用いると、日々文書が大量に発生する環境下においても、それらの文書集合に対して常に適切なカテゴリによって分類することが可能になっている。

尚、上記の実施の形態においては、管理対象を文書とした例を説明したが、文書以外の各種情報であっても、その情報中から一般化が可能な特徴点を抽出可能であれば、管理対象となりうる。また、文書分類処理において、新規に追加された文書に対して特徴語抽出処理で取得した特徴語とその時点で存在しているカテゴリを特徴付けている特徴語が同義語DBにおいて同義語と定義され、かつ、そのカテゴリの全ての子および孫カテゴリへその文書が分類されると判定されていないときに、そのカテゴリに文書を分類することもできる。さらに、カテゴリ削除処理において、削除されたカテゴリ内の文書をそのカテゴリの親カテゴリに分類し、その親カテゴリ内で前記カテゴリ生成処理を行う方法もある。

多数のユーザが利用し大量の文書が追加・削除される状況において、極めて有用な文書管理技術である。

本発明の一実施の形態による情報分類装置の概略構成例を示すブロック図である。文書テーブルのレコード構成例を示す図である。文書詳細テーブルのレコード構成例を示す図である。語彙テーブルのレコード構成例を示す図である。生成されるカテゴリ構成例（ツリー構成）を示す図である。カテゴリテーブルのレコード構成例を示す図である。カテゴリ文書テーブルのレコード構成例を示す図である。カテゴリ同義語テーブルのレコード構成例を示す図である。文書追加に伴う処理の流れを示すフローチャート図である。文書削除にともなう処理の流れを示すフローチャート図である。文書分類後のカテゴリ同義語テーブルの編集処理の流れを示すフローチャート図である。新規カテゴリ生成処理の流れを示すフローチャート図である。文書分類処理の流れを示すフローチャート図である。本システムのテーブル構成を示す図である。

符号の説明

１…文書ＤＢ、２…語彙データベース、３…文書解析部、４…カテゴリ構成管理部、５…文書管理部。

Claims

文書中から特徴語を抽出する特徴語抽出手段と、
抽出された前記特徴語を前記文書と関連付けする関連付け手段と、
前記文書を、同じ特徴語を有する少なくとも一つの既存のカテゴリと関連付けする文書分類手段と、
同じ特徴語を有する文書数を基準として新規のカテゴリ生成をする新規カテゴリ生成手段と
を有する文書管理装置。
さらに、
上位と下位の関係に基づいて複数の前記カテゴリを階層構造として記憶するカテゴリ階層構造記憶手段を有することを特徴とする請求項１に記載の文書管理装置。
新たに追加された文書から抽出された特徴語に基づいて既存のカテゴリに関連するサブカテゴリを生成するサブカテゴリ生成手段を有することを特徴とする請求項１又は２に記載の文書管理装置。
さらに、新たに生成されたサブカテゴリに基づいて前記カテゴリ階層構造記憶手段の記憶内容を更新するカテゴリ構造更新手段を有することを特徴とする請求項３に記載の文書管理装置。
さらに、
文書の重要度を計算する重要度計算手段と、
前記重要度を動的に監視する重要度監視手段と、
動的に変化する前記重要度に基づいて、文書を削除するか否かを決定する文書削除判断手段と
を有する請求項１から４までのいずれか１項に記載の文書管理装置。
さらに、
削除された文書が属していたカテゴリを、そのカテゴリと結びついている文書の数に基づいて削除するカテゴリ削除手段を有することを特徴とする請求項５に記載の文書管理装置。
前記文書分類手段は、
さらに、削除されたカテゴリに属している文書について、該文書が新たに属することになるカテゴリを前記削除されたカテゴリの上位カテゴリ中から検索し、該上位カテゴリと前記文書とを関連付けする文書再分類手段を有していることを特徴とする請求項６に記載の文書管理装置。
文書中から特徴語を抽出するステップと、
抽出された前記特徴語を前記文書と関連付けするステップと、
前記文書を、同じ特徴語を有する少なくとも１の既存のカテゴリと関連付けするステップと、
同じ特徴語を有する文書数を基準として新規のカテゴリ生成をするステップと
を有する文書管理方法。
さらに、
文書の重要度を計算するステップと、
前記重要度を動的に監視するステップと、
動的に変化する前記重要度に基づいて、文書を削除するか否かを決定するステップと
を有する請求項８に記載の文書管理方法。
複数の文書をその内容に適したカテゴリに分類する情報分類方法であって、
追加された文書の内容と関連する特徴語を抽出する特徴語抽出ステップと、
文書の更新日時と参照度とに基づいて文書の重要度を求める重要度計算ステップと、
前記特徴語抽出ステップで取得した特徴語を用いて追加された文書をカテゴリに分類する文書分類ステップと、
前記重要度が管理者の指定値を下回った場合に関連する文書を削除する文書削除ステップと
を有する情報分類方法。
さらに、カテゴリに文書が追加された際に、そのカテゴリ内の文書数が管理者指定の閾値より多い場合にはそのカテゴリ内に新たなサブカテゴリを生成するサブカテゴリ生成ステップと、カテゴリ内の文書数が前記文書削除ステップにより指定の閾値より少なくなった場合にそのカテゴリを削除するカテゴリ削除ステップとのすくなくともいずれかのステップを有することを特徴とする請求項１０に記載の情報分類方法。
請求項８から１１までに記載のいずれかのステップをコンピュータに実行させるためのプログラム。