JP2009223409A

JP2009223409A - 文書検索システムおよびプログラム

Info

Publication number: JP2009223409A
Application number: JP2008064497A
Authority: JP
Inventors: Yasushi Sanbe; 裕史三部
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-03-13
Filing date: 2008-03-13
Publication date: 2009-10-01

Abstract

【課題】ワークスペース及びフォルダの性質を文書検索に役立てられるようにする。
【解決手段】クラスタリング部２４は、ワークスペースに対してはオブジェクト配置状況に応じて１又は複数のクラスタ（関連文書グループ）を適応的に設定し、フォルダに対しては１つのクラスタを一律に設定する。このようにしてワークスペース及びフォルダから引き出された関連情報が記憶部２８上において管理され、それらの情報を利用して特定文書に関連する関連文書の候補が選び出され、各候補に対する重み付け処理の結果から関連文書リストが生成される。
【選択図】図１

Description

本発明は文書検索システムに関する。

一般に、ワークスペースは画面上に表示される文書作業空間であり、その実体は文書の仮想的な管理空間である。ワークスペース上において、ユーザーが各文書を象徴する文書オブジェクトを操作することにより、様々な文書処理を遂行できる。ちなみに、文書オブジェクトは、文書（実体）を表すシンボルであって、アイコン、サムネイル、その他により構成される。画面上において各ウインドウがオープンする背景としてのデスクトップも、文書配置空間という意味において典型的なワークスペースである。

ワークスペース（特にデスクトップ）には一般に雑多な文書シンボルが配置される。しかし、ワークスペース上の複数の文書オブジェクトの配置状況には一般にユーザーの意思が反映されるといってよい。経験則上、互いに関連する複数の文書を表す複数の文書オブジェクトはワークスペース上で互いに近い位置に配置されている場合が多い。例えば、１つの作業で複数の文書を取り扱う場合にはそれらの文書シンボルを近付けておいた方が作業し易いから、それらを事前に集めておく場合が多々あり、また、ある文書オブジェクトを新しく配置する際には無意識理にそれに関係がありそうな文書オブジェクトの近くに置くのが常である。よって、複数の文書オブジェクトの配置状況はそれ自体一種の情報財であり、それを活用することが望まれる。

一方、フォルダは、複数の文書オブジェクトが放り込まれる入れ物に相当する保管空間である。一般に、画面上において、フォルダは、それがクローズ状態にある場合にはアイコン等のグラフィック要素として表示され、それがオープン状態にある場合には上記ワークスペースに類似する広がりをもった空間として表示される。その実体は文書の仮想的な管理空間であるから、その意味だけに着目するならば、フォルダはワークスペースと同じである。しかし、フォルダについては入れ物としての性格が強く認められ、それがオープン状態にある場合においても、オブジェクトの空間的な配置状況にユーザーの意思が反映されているとは言い難い。仮にフォルダ内のオブジェクト配置状況にユーザーの意思が反映されている場合があり得るとしても、そうであることを確認することなく、そのオブジェクト配置状況を情報として安易に利用することはできない。その一方、通常、特定のフォルダには同種あるいは関連ある複数の文書オブジェクトが入れられるのが常であるから、フォルダそれ自体が文書間の関連を示す枠組みに相当する。

典型的な例では、ワークスペース上においては色々な文書オブジェクトが一時的に配置され、それらを用いて作業が完了した後、個々の文書オブジェクトは、ユーザーの意思に基づいて、それに関連する特定のフォルダ内に入れられる。このような観点から見ると、ワークスペース上には最近の文書間状況が反映され易いという意味で、それには雑多性の他に旬な性質が認められ、フォルダにはユーザーの確定的な意思が強く反映され易いという意味で一様性及び恒久性が認められる。勿論、そのような幾つかの性質は一般的なものあるいは例示であるが、ワークスペースとフォルダとの間には、それが絶対的でないとしても、性質あるいは傾向に相対的な違いが認められるのは明らかである。しかし、従来においては、その違いを旨く利用したシステムが存在せず、そもそもそのような考え方すら認められない。

特開２００３−１０９９３号公報特開２００３−８５２０４号公報特開２００５−２５５５０号公報特開２００５−３３２３２６号公報

ところで、電子的な文書の検索処理においては、例えば、検索の基礎をなす文書（以下、特定文書という）が指定され、文書群の中から、特定文書に関連する１又は複数の文書（以下、関連文書という）が選び出される。これに関して、従来から、キーワードを利用した文書検索技術等が知られている。しかし、そのような技術は、フォーマット（形式）が異なる文書に対して適用困難であり、また、内容が保護されているセキュリティ文書に対してはそもそも適用できない。その一方、ユーザーにより文書間の関連性をデータベース上に個別的に登録させることも可能であるが、その場合にはユーザーに大きな負荷が生じてしまう。

上記において考察したように、ワークスペース及びフォルダを使ったユーザーの文書処理作業においては、それらの性質の違いからある種の傾向あるいは経験則が認められ、換言すれば、そこに文書間の関係を推認可能な価値ある情報が存在している可能性がある。そのような情報財を旨く利用して関連文書の検索に役立てることが望まれる。なお、特許文献１−４には文書の中身以外の情報を使った関連文書の検索技術が記載されているが、ワークスペース及びフォルダの両者の性質を巧みに利用するものではない。

本発明の目的は、今まで活用されていなかった経験則あるいは情報財に基づく新しい文書検索技術を提供することにある。あるいは、本発明の目的は、ワークスペース及びフォルダの性質を文書検索に役立てることにある。

本発明は、複数の文書オブジェクトが配置されるワークスペースと、前記ワークスペースとは異なる空間であって複数の文書オブジェクトが入れられるフォルダと、を管理する空間管理部と、相互に関連する文書群を単位として関連グループを設定する手段であって、前記ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、前記フォルダに対しては一律に関連グループを設定するグループ設定手段と、前記ワークスペース及び前記フォルダに対して設定された複数の関連グループを統合管理するデータベースと、前記データベースを利用して、特定文書に関連する関連文書の検索を行う検索手段と、を含む文書検索システムに関するものである。

以上の構成により、ワークスペース及びフォルダに関する経験則あるいは情報財に基づく新しい文書検索技術を提供できる。

（１）実施形態の概要説明
後述の詳細な実施形態の説明に先立って、最初に実施形態の特徴的な事項を説明しておく。以下に説明する特徴事項はすべて実施形態に存在するものであり、当然ながら、本発明の内容及び範囲は請求範囲の記載から理解されるべきものであることを付言する。

本実施形態に係る文書検索システムは、ワークスペース及びフォルダを管理する空間管理部と、ワークスペース及びフォルダに対して関連グループを設定するグループ設定手段と、複数の関連グループを統合管理するデータベースと、データベースを利用して特定文書に関連する関連文書の検索を行う検索手段と、を含むものである。

上記構成において、ワークスペースは、一般に、複数の文書オブジェクトを自由な位置に配置し得る空間である。ワークスペースの概念には階層的な空間構成における筆頭空間としてのデスクトップも含まれる。一方、フォルダは、一般的あるいは相対的に見て、ワークスペースとは異なる性質をもった空間であって、そこには複数の文書オブジェクト（文書と理解してもよい）が入れられる。通常、フォルダは文書オブジェクトの入れ物に相当する。文書オブジェクトは、絵柄としてのアイコン、低解像度縮小画像としてのサムネイル、その他の表示要素であり、画面上において個々の文書（実体あるいはファイル）を象徴するものである。

上記構成によれば、グループ設定手段により、ワークスペース及びフォルダを単位として、互いに関連する複数の文書からなる関連グループの設定処理が遂行される。上記のようにワークスペースとフォルダとの間には性質上あるいは傾向の違いがあると言える。そこで、グループ設定手段はそれぞれの空間の性質を踏まえつつ関連グループを設定する。例えば、ワークスペース上のシンボル配置状況（分布）にはユーザー意思が反映されているものとみなし、ワークスペース上のシンボル間の距離関係（位置関係）に基づき位置が相互に近いシンボル集団に対して１つの関連グループが設定される。つまり、個々のワークスペースごとに、そのシンボル配置状況に応じて適応的に１又は複数の関連グループが設定される。これは距離的に近い関係にある複数の文書シンボルに対応する複数の文書は互いに関連している可能性が高いという経験則に基づくものである。通常、１つのワークスペースには複数の関連グループが定義されるが、そこに含まれる配置要素つまり文書シンボルが少ないような場合、１つの関連グループが定義されることもあろう。一方、フォルダにはそのような経験則が認められず、あるいは、そのような経験則が認められる場合があるとしても、それが一般的であるとまでは言えない。寧ろ入れ物としての性質が強く認められ、文書シンボル間の距離や位置関係から特別な意味を読み取れないのが一般的といえる。しかし、そこに入っている複数の文書シンボルに対応する複数の文書はそれ全体として何らかの意味で相互に関連している可能性が高い、という別の経験則が認められる。そこで、望ましくは、フォルダ全体を１まとまりの関連文書グループとして取扱うのが合理的である。このように各空間の性質を考慮して複眼的な視点から設定された複数の関連グループがデータベース上で統合管理される。つまり、ワークスペースを基礎として設定された関連グループ（対応する基礎空間の種別属性がワークスペースである関連グループ）と、フォルダを基礎として設定された関連グループ（対応する基礎空間の種別属性がフォルダである関連グループ）とが共有ベース上に集約して管理されるので、それらに対して横断的な検索を行うことが可能である。あるいは、ワークスペース面から把握される関連情報とフォルダ面から把握される関連情報の両者を使った新しい検索処理を実現できる。

上記のデータベースは一般に記憶部として構成され、それは単一の記憶デバイスによって構成されてもよいが、複数の記憶デバイスにより構成されてもよい。上記の空間管理手段、グループ設定手段及び検索処理手段は、実質的にソフトウエアの機能として実現されるのが望ましい。クライアント／サーバーシステムにおいては、上記の機能がすべてサーバーに搭載されていてもよいし、その内の一部の機能がクライアント側に搭載されていてもよい。いずれにしてもシステム全体として上記各手段が実現されればよい。上記構成は、特にシンクライアント構成のシステムに組み込まれるのが望ましい。そのようなシステムでは、個々の端末は実質的に単なるユーザーインターフェイス装置として位置付けられ、各種の処理や制御はサーバー側において行われる。かかるシステムにおいては、複数のユーザー端末において表示される個々の空間はすべてサーバー側で一括して管理されるから、上記データベースの構築を容易に行え、その管理も容易であるという利点を得られる。ワークスペース及びフォルダの構成に変化が生じた時点でその都度、関連グループを再設定するようにしてもよいが、そのような随時型の対応ではなく、一定時間間隔であるいは所定のイベントが発生した時点で、関連グループの再設定を実行するようにしてもよい。

望ましくは、ワークスペースは、オブジェクト配置状況にユーザーの意思が反映され得る性質をもった空間であり、グループ設定手段によりワークスペース単位で前記オブジェクト配置状況に応じた個数の関連グループが設定される。望ましくは、フォルダは、複数の文書オブジェクトの入れ物に相当する性質をもった空間であり、グループ設定手段によりフォルダ単位で１つの関連グループが設定される。

望ましくは、検索手段は、データベース上において、特定文書に対応する注目文書を検索する一次検索手段と、データベース上において、注目文書が属する所属関連グループを特定し、その所属関連グループに属する他の文書を候補として特定することにより候補集合を生成し、その候補集合に基づいて関連文書リストを生成する二次検索手段と、を含む。特定文書に関連する文書を検索する場合、まず、特定文書と同一の又はそれに相当する注目文書がデータベース上において特定される（一次検索）。特定文書に相当する文書が複数の関連グループに存在しているならば、通常、それらが全部特定されることになる。但し、検索範囲が制限されてもよい。次に、特定文書に対応する注目文書が所属する関連グループ（所属関連グループ）内における他の文書が特定され、それが関連文書の候補となる（二次検索）。その段階で、複数の関連グループに重複して存在している候補があれば、それについては、より関連度が高いと評価できよう。候補集合が構成されると、それに基づいて関連文書リストが生成される。候補全部が関連文書であると認定されてもよいし、それぞれの候補についてスコアを評価することにより関連度を考慮して、選択された候補からなる関連文書リストを生成してもよい。関連度順で関連文書をリスト表示するならばユーザーの利便性を高められる。

望ましくは、前記二次検索手段は、前記候補集合を構成する各候補に対して適用した重み付け処理の結果に基づいて前記関連文献リストを生成する。望ましくは、前記重み付け処理では、所属関連グループ数がより多い候補に対してより大きな重みが与えられる。所属関連グループ数が多いということは、特定文書と一緒に利用される局面が多いということであるから、その大小は関連度の大小を指標するといってよい。

望ましくは、前記重み付け処理では、前記所属関連グループの属性に応じて異なる重みが与えられる。望ましくは、前記属性には、前記所属関連グループに対応する基礎空間の種別属性、及び、前記所属関連グループに対応する基礎空間を所有するユーザーの属性、の内で少なくとも１つが含まれる。望ましくは、前記重み付け処理では、前記候補となった文書についての作成後の経過時間に応じて異なる重みが与えられる。

実施形態に係るプログラムは、文書オブジェクトが配置されるワークスペースと、ワークスペースとは異なる空間であって文書オブジェクトが入れられるフォルダと、が管理されている場合に、それらの空間に対して相互に関連する文書群を単位として関連グループを設定する機能であって、ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、フォルダに対しては一律に関連グループを設定する機能と、ワークスペース及びフォルダに対して設定された複数の関連グループを統合管理するデータベースを利用して特定文書に関連する関連文書の検索を行う機能と、を含むものである。プログラムは、記憶媒体を介してあるいはネットワークを介して情報処理装置に取り込むことができる。この検索処理用のプログラムが電子的文書のハンドリングを行うソフトウエアに組み込まれてもよく、そのような構成によれば当該ソフトウエアの実用的価値をより高められる。

ワークスペース上のシンボル配置状況及びフォルダ内の構成要素の状況は、個々の文書内容を知ることができない場合でも、一般に利用できる情報である。よって、上記構成によれば、セキュリティ上のアクセス制限がかかった文書あるいはその内容から関連度を評価し難い文書が文書群に含まれていても、当該文書群から文書間の関連情報を取得できるという利点がある。また、上記構成によれば、複数のユーザー（使用者）が使用する複数のワークスペースや複数のフォルダから抽出された多数の関連情報を集約し、必要に応じて、それを関連文書の検索において複数のユーザー間で共有できるという利点も得られる。なお、本願明細書において、文書は、通常、情報処理装置上において処理される電子的なデータ単位であり、その概念には、テキスト、静止画像、動画像、音声情報その他が含まれてよい。

（２）実施形態の詳細説明
以下、本発明の好適な実施形態を図面に基づいて説明する。

図1には、本実施形態の文書検索システムが示されている。図1に示される例においては、ネットワーク１０に対して、複数の端末１２，１４，１６及びサーバー１８が接続されている。サーバー１８は、端末１２，１４，１６からの関連文書の検索要求に対して検索処理を実行し、その検索結果を検索要求を発行した端末１２，１４，１６へ提供する機能を有する。そのような検索処理のために、サーバー１８は文書間の関連性を示す関連情報を生成及び集約する機能を有している。なお、各端末１２，１４，１６は一般のコンピュータにより構成されているが、文書の管理及び処理の実体がサーバー１８に存在していてもよい。すなわち、シンクライアント構成をもったシステムであってもよい。

サーバー１８は、検索処理プログラムに従って動作を行なうコンピュータにより構成されている。サーバー１８が有する複数の機能のうちで、一部の機能がクライアント側としての端末１２，１４，１６上にあってもよい。

サーバー１８の機能について説明すると、サーバー１８は、図示されるように、空間管理部２０、更新検出部２２、クラスタリング部２４、検索処理部２６及び記憶部２８を備えている。空間管理部２０は、各端末１２，１４，１６上に表示されるワークスペース（デスクトップ）を管理するモジュールであり、また、各端末１２，１４，１６において使用あるいは操作されるフォルダを管理するモジュールである。ワークスペース上には１又は複数の文書オブジェクトが配置され、フォルダには１又は複数の文書オブジェクト（文書それ自体と理解してもよい）が入れられる。文書管理部２０はそれぞれの文書を象徴する文書オブジェクトの管理も行なっている。各文書の実体すなわちファイルは、サーバー１８上に存在していてもよいし、各クライアントとしての端末１２，１４，１６上に存在してもよいし、他の装置上に存在していてもよい。

更新検出部２２は、ワークスペース及びフォルダの内容あるいは構成に変動があった場合に、それを検出し、クラスタリングの再実行を指示するモジュールである。ただし、ワークスペース及びフォルダの内容の変化の都度、クラスタリングが実行されてもよいが、一定間隔あるいは所定の条件が満たされた場合にクラスタリングが実行されてもよい。また、ユーザーの指示に基づいて最初のクラスタリングあるいは再度のクラスタリングが実行されてもよい。クラスタリングの内容について以下に詳述する。

クラスタリング部２４は、個々のワークスペースあるいは個々のフォルダごとにクラスタリング処理を実行する。クラスタリング処理は、相互に関連する複数の文書を関連グループ（関連文書群）として定義するものであり、１つのクラスタが１つの関連グループに対応する。本実施形態においては、文書オブジェクトを対象としてクラスタの設定が行われている。クラスタリング部２４はワークスペースすなわちデスクトップに対しては、その内部のシンボル配置状況に応じて適応的に１又は複数のクラスタを設定する。すなわち、１つのデスクトップ全体に対して１つのクラスタを設定するのではなく、その内容に応じてクラスタ数及び各クラスタの構成を設定するものである。一方、クラスタリング部２４は、フォルダに対してはそれ全体を対象として１つのクラスタを設定する。上記のように、ワークスペースとフォルダの性質の違いを巧みに利用してそれぞれを対象としてクラスタリングを実行することにより、それぞれの空間から関連情報を抽出することが可能である。具体例については後に図２以降の各図を用いて説明することにする。

検索処理部２６は、端末１２，１４，１６からの検索要求を処理するモジュールであり、特定文書に関連する１又は複数の関連文書を表したリストを、検索要求を発行した端末１２，１４，１６へ提供する機能を有する。その際には、以下に説明する複数のテーブル３０〜３８が利用される。記憶部２８には複数のテーブルが存在している。この記憶部２８は単一の記憶デバイスによって構成されていてもよいし、複数の記憶デバイスによって構成されていてもよい。

クラスタマスタテーブル３０は、クラスタリング部２４によって設定された個々のクラスタを管理するためのテーブルである。具体例については後に図１１を用いて説明する。デスクトップマスタテーブル３２は、個々のデスクトップとその管理者あるいは所有者との関係を管理するためのテーブルである。その具体例については後に図１２を用いて説明する。クラスタ要素管理テーブル３４は、個々のクラスタを構成する要素である文書について各種の情報を管理するテーブルである。その具体例については後に図１３を用いて説明する。第１及び第２重みテーブル３６，３８は検索処理の過程で候補集合が生成された場合において個々の候補（関連文書の候補）に対して重み付けを与える際に参照されるテーブルである。第１重みテーブル３６は個々の文書の経過期間に関する重み付けを実行するためのテーブルであり、その具体例については後に図１０を用いて説明する。第２重みテーブル３８は、上記第１重みテーブル３６と同様に重み付け処理の際に参照されるテーブルであり、本実施形態においてユーザーあるいはワークグループの観点から重み付けを行なうためのテーブルである。その具体例については後に図１５を用いて説明する。

次に、クラスタリング処理についての具体例を図２乃至図１０を用いて説明する。図２にはユーザー１が所有するデスクトップ１が符号４０として示されている。図３には、ユーザー２が所有するデスクトップ２が符号４４で示されている。図４には、ユーザー３が所有するデスクトップ３が符号４６で示されている。図５にはユーザー４が所有するデスクトップ４が符号４８で示されている。図６には複数のユーザーによって共有されるフォルダ２が符号５０によって示されている。さらに、図７には複数のユーザーによって共有されるフォルダ３が符号５２で示されている。ちなみに、図８は、図２乃至図７において表現されている文書オブジェクト（アイコン）が象徴している文書の名称を示すものである。

図２に示されるように、デスクトップ１においては、その空間内に複数の文書オブジェクト４２ａが存在している。図示の例では、それらに対して３つのクラスタ＃１，＃２，＃３が設定されている。それらのクラスタは上記のクラスタリング部（図１）によって設定されたものである。ここで、クラスタ＃１に着目すると、そこには４つの文書シンボルつまり４つの文書が含まれており、具体的には文書(2)，(5)，(6)，(7)が含まれている。クラスタリング部は上述したようにデスクトップ上のシンボル配置状況に応じて１又は複数のクラスタを設定しており、図２においてはそれぞれのシンボル集団ごとにクラスタ＃１，＃２，＃３が設定されている。一般的には、シンボル間の距離が近いもの同士を一つの集団とみなし、その集団に対して１つのクラスタが定義される。デスクトップ上のクラスタリング処理についてはそのような距離に基づくものの他、各種の公知技術を適用することが可能である。距離に基づくクラスタリングに関しては後に図９及び図１０を用いて詳述する。

図３に示されるデスクトップ２においては２つのクラスタ＃４，＃５が設定されている。ここで、クラスタ＃４に着目すると、そこには文書(6)，(8)が含まれている。図４に示されるデスクトップ３においては、１つのクラスタ＃６が設定されており、そこには文書(2)，(6)，(7)が含まれている。図５に示されるデスクトップ４においては、１つのクラスタ＃７が設定されており、そこには文書(2)，(6)，(9)が含まれている。以上のように、個々のデスクトップにおけるオブジェクト配置状況において適応的にクラスタが設定されており、具体的にはオブジェクト配置状況に応じてクラスタ数及びクラスタの中身が適応的に定められている。

一方、図６に示されるフォルダ５０は、図示されるように４つの文書(1)，(2)，(3)，(4)によって構成されている。それらの文書に対して１つのクラスタ＃８が設定されている。つまり１つのフォルダに対しては１つのクラスタが設定される。図７に示すフォルダ５２においては、４つの文書により構成される１つのクラスタ＃９が設定されている。留意すべきことは、例えば図８において(2)で示される「ＹＹＹ検査データ」という文書は、図２に示したクラスタ＃１、図４に示したクラスタ＃６、図５に示したクラスタ＃７、図６に示したフォルダ５０のそれぞれに属しているということである。仮に、文書(2)と一緒にいずれかのクラスタに属している他の文書があれば、当該他の文書については文書(2)に対して関連すると評価できる。

図９に示されるように、デスクトップ５３の全体にわたって整然と多数の文書シンボルが配置されているような場合、それ全体に対して１つのクラスタを設定するようにしてもよいし、以下に説明するように、適当なグルーピングを行なって複数のクラスタを設定してもよい。すなわち、図９においては、デスクトップ５３に対して４つのクラスタ＃１０，＃１１，＃１２，＃１３が設定されており、それらのクラスタ＃１０，＃１１，＃１２，＃１３は互いに部分的に重複している。具体的には、例えば図１０に示すような処理により複数のクラスタが設定される。Ｓ１０１では、図９に示したような全体にわたって一様に文書オブジェクトが配置されているような場合、まずＳ１０１において、デスクトップが複数の領域に分割される。例えば矩形のデスクトップに対して上下左右４つの矩形領域が定義される。そして、Ｓ１０２では、各領域の重心が演算される。上記の例で言えばデスクトップ上に４つの重心が特定されることになる。Ｓ１０３では、各重心を中心とした所定の円が設定される。この場合において円の半径についてはどの円にも取り込まれない文書オブジェクトが生じないように互いにオーバーラップが生じるように定めるのが望ましい。もちろん、その半径をユーザーにより設定するようにしてもよい。このような４つの円を設定した状態が図９に示したものである。Ｓ１０４では、それぞれの円をクラスタの外延とみなし、各円に属するオブジェクト集団をもって個々のクラスタが定義される。もちろん、図９及び図１０に示した手法は一例であって、個々のデスクトップの状況に応じて様々な技術を適用し、１又は複数のクラスタが設定されるようにすればよい。本実施形態形態においては、オブジェクト間距離を用いてクラスタの設定を行ったため、各文書オブジェクトによって象徴されている文書の内容を解析することなくクラスタリングを行なえるという利点がある。

次に、図１１〜図１５を参照して、上述した各テーブルの具体例について説明する。個々のテーブルの内容は図２〜図７に示した例を前提とするものである。

まず、図１１には、クラスタマスタテーブル３０が示されている。このクラスタマスタテーブル３０上においては、個々のクラスタごとに、クラスタＩＤが付与され、また種別、デスクトップＩＤ、デスクトップ内のクラスタ番号、クラスタがフォルダである場合におけるフォルダの所在情報（フォルダパス）が管理されている。クラスタＩＤは個々のクラスタの識別子であり、種別はクラスタがデスクトップであるのかフォルダであるのかを区別する情報であり、デスクトップＩＤは各デスクトップの識別子であり、クラスタ番号は個々のデスクトップ内におけるクラスタの識別番号に相当している。例えば、クラスタＩＤが１のクラスタについては、それがデスクトップ上のクラスタであり、そのデスクトップのＩＤが１であり、その当該デスクトップにおいて１番目のクラスタであることがこのテーブル３０から判明する。ちなみに、そのクラスタは図２に示したクラスタ＃１である。図１２には、デスクトップマスタテーブル３２の具体例が示されている。このテーブル３２上においては、デスクトップごとに、デスクトップＩＤ、デスクトップ識別情報が管理されており、デスクトップ識別情報はワークグループ名及びユーザー名からなる。つまり、デスクトップＩＤに対応して、それがどのユーザーに帰属されているものであるかが管理されており、しかもそのユーザーがどのワークグループに属しているのかが管理されている。このようなテーブルを利用することにより、デスクトップを基礎としてユーザー単位あるいはワークグループ単位での重み付けを行なえるという利点がある。

図１３には、クラスタ要素管理テーブル３４の具体例が示されている。このテーブル３４上においては、クラスタごとにそれに関する詳細情報が管理されている。その詳細情報は、図１３に示す例では、クラスタＩＤ、クラスタ内文書ＩＤ、文書ファイルパス、文書識別情報であり、文書識別情報は、文書ファイル名、サイズ、作成日時、文書ＩＤ、ファイルハッシュ値等からなる。つまり、個々のクラスタに属している文書について、その識別情報及び所在等が管理されている。取得できない情報については空欄のままであってもよい。検索処理にあたっては、このテーブル３４に対して後に説明する一次検索処理が実行され、更にこのテーブル３４を利用して二次検索処理が実行される。なお、図１３において、テーブル３４の右側及び左側に示されている記号については後の具体例の説明で参照する。

図１４及び図１５には重みテーブルの具体例が示されている。図１４には第１重みテーブル３６が示されている。第１重みテーブル３６上においては、ある期間（例えば３０日）を境として、その期間内について及びその期間外についての重みが定められており、さらに図１４に示す例ではフォルダ内の文書であるのかデスクトップ上の文書であるのかに応じて重みの値が切り替えられている。上述したように、デスクトップには旬な性質が認められ、一方、フォルダには恒久的な性質が認められるため、そのような性質の違いを重みの違いとして評価するものである。図１５に示される第２重みテーブル３８においてはユーザー識別情報と重みとの関係が定められており、すなわち、ワークグループ及びユーザーごとに重みが切り替えられている。さらに、図１５に示す例では、クラスタが存在している空間の種別、つまりフォルダであるかデスクトップであるかに応じて重みの値が切り替えられており、またデスクトップについては同一のワークグループに属するユーザーのデスクトップであるのかそれ以外であるのかに応じて重みの値が切り替えられている。このようなテーブルを利用すればユーザーグループあるいはユーザーごとに検索処理条件をカスタマイズできるという利点がある。特に、同一のワークグループに属するユーザー間においては重みが大きくされているため、同じワークグループに属するユーザーが利用している文書（関連文書の候補）については大きな重みが与えられ得るため上位に表示されやすくなるという利点が得られる。

図１に示したクラスタリング部２４は、以上のようなクラスタリング処理の実行結果として、クラスタマスタテーブル３０、クラスタ要素管理テーブル３４等の生成又は登録を行なっている。ちなみに、デスクトップマスタテーブル３２及び重みテーブル３６，３８についてはあらかじめ設定しておくことができ、また必要に応じてユーザーが任意にその内容を書き換えられるように構成してもよい。

以下に、図１６を用いて、以上のように構成された複数のテーブルに基づく関連文書の検索処理の具体例について説明する。まず、Ｓ２０１では、特定のユーザーにおいて特定文書が指定され、また検索要求が発行される。この検索要求は、特定文書に関連する関連文書群のリストを求めるものである。Ｓ２０２では、特定文書について識別情報すなわち一次検索用の検索キーが生成される。ここで、その識別情報としては、文書ファイル名、作成日時、ファイルサイズ、ファイルのハッシュ値、文書ファイルに埋め込まれた文書ＩＤ等の各種の情報を挙げることができ、それらの１又は複数の情報によって検索キーが構成される。取得できない情報については除外して検索キーを構成すればよい。このＳ２０２以降の各工程は、図１に示した検索処理部によって実行される。

Ｓ２０３では、上記の検索キーを用いて、図１３に示したクラスタ要素管理テーブル３４に対して検索処理が実行される。具体的には、特定文書と同一の又は同一とみなせる注目文書が特定される。これは一次検索処理に相当する。特定文書と注目文書との一致条件すなわち検索条件としては、いくつかのものが挙げられる。例えば、文書ファイル名が一致し、且つ、サイズ又は作成日時が一致する条件、サイズと作成日時が一致する条件、文書ＩＤが一致する条件、あるいは、ファイルハッシュ値が一致する条件、といったものが挙げられる。どの条件を使うのかについてはその都度ユーザーにより選択させてもよいし、あらかじめ定めておいてもよい。

次に、Ｓ２０４では、二次検索処理が実行され、各注目文書が属するクラスタ内において他の文書が関連文書の候補とされ、これによって候補集合が生成される。クラスタは相互に関連する文書のグループに相当するものであるため、ここで認識される他の文書は関連度が高い文書ということになるが、いろいろな観点から関連度を評価しあるいはその評価を積み上げることにより、より検索結果の精度を高めることが望まれる。そこで、この段階では候補集合が生成される。

Ｓ２０５では、上述したいくつかの重みテーブルを使って、各候補に対して重み付け処理が実行される。一般的には、注目文書が所属していたすべての所属クラスタのうちで、より多く存在している候補に対して結果としてより大きな重み値が与えられることになる。いずれにしても、Ｓ２０５では、重みの大きさに従って複数の候補が並べ替えられ、これによって関連文書リストが構成される。重みが一定値以下の候補については関連文書リストから除外するようにしてもよいし、あるいはすべての候補をその重み順で並べて関連文書リストを構成してもよい。そして、Ｓ２０７では、サーバーから関連文書リストの情報が検索要求を発行した端末側へ提供され、当該端末においてはそれが有する表示器の画面上に関連文書リストが表示される。必要に応じて、関連文書リスト上におけるユーザーの指定に基づき当該文書が自動的に取得されるようにしてもよい。

以上のような検索処理によれば、デスクトップ及びフォルダの両方から抽出された関連情報を総合的に利用して、より信頼性のある検索結果を得ることができるという利点が得られる。特に、上記実施形態においては各ユーザーによって管理あるいは支配されているデスクトップから引き出された個別的な関連情報と、共有のフォルダから引き出された関連情報とを利用して検索処理が行なえるので、各ユーザーごとに分散している情報財を活用できるという利点が得られる。クラスタの設定にあたっては、デスクトップすなわちワークスペースの性質とフォルダの性質とに着目し、それぞれに相応しいクラスタリング条件を付与したため、結果として検索結果の信頼性を高めることができる。

次に、図１７〜図２２を用いて、より具体的に検索処理の内容を説明することにする。図１７には上記の一次検索用の検索キーが例示されている。ここでは、図８に示した文書(6)が特定文書となっており、それに関するサイズ、作成日時、ファイルハッシュ値が識別情報として検索キーを構成している。この検索キーを用いて図１３に示したテーブル３４に対して一次検索を実行すると、図１８に示すような候補集合が生成される。具体的には、テーブル３４上において、一次検索として、複数の文書(6)が特定される。ここでは、文書(6)は「ＸＸＸ作業報告書」であり、それはテーブル３４上において４つ発見されることになる。次に、二次検索処理が実行される。すなわち、当該文書(6)を含む所属クラスタ１０１，１０２，１０３，１０４が特定され、それらに含まれる他の文書が関連文書の候補とされる。ここでは、文書(2)，(5)，(7)，(8)，(9)が候補となる（図１８参照）。ちなみに、図１３に示す符号１０５は注目文書を含まないクラスタである。このように二次検索処理によって、候補集合が構成されると、図１８に示すように重み付け処理が実行される。ここでユーザーにより指定された特定文書が所定期間内のものであれば、図１４に示したテーブル３６上において期間内における重み値（１又は１０）が利用される。図１８においては、各候補ごとに重み付け計算例が示されている。ここで、符号６０は期間内におけるフォルダの重み値を示しており、符号６２はフォルダに属する個数が示されており、符号６４は期間内におけるデスクトップの重み値を示しており、符号６６はデスクトップに属する個数を表している。ここでは、文書(2)は３つ存在しているため、符号６６の値として３が与えられている。このような計算式を実行すると、符号６８に示すように、文書(2)について重み値として３０が求められることになる。以下同様に、それぞれの候補に対して重み値が算出される。

このように重み付け処理が完了すると、各候補の重み値に従って関連文書リストが構成される。その具体例が図１９に示されている。この例では、符号１１０に示されるように、重みの合計値が大きいものから小さいものへの順番で複数の関連文書が並べられている。各関連文書についてはそれに関する属性として、ファイル名、サイズ、作成日時、文書ＩＤ、ファイルハッシュ値等が表示されている。ちなみに、図１９に示す例では、重みの合計値の内訳として、フォルダに存在していた個数及びデスクトップに存在していた個数が示されている（符号１１２参照）。このような内訳はユーザーの希望により表示するようにしてもよい。

次に、図２０〜図２２を用いて別の例について説明する。図２０には検索キーが示されている。この例では文書(2)が特定文書であり、その識別情報として、文書ファイル名、サイズ、作成日時、文書ＩＤ、ファイルハッシュ値が検索キーを構成している。この検索キーを用いて、図１３に示したテーブル３４上において一次検索及び二次検索が実行される。その結果、図２１に示される候補集合が構成される。ちなみに、符号１０６は図６に示したフォルダ５０内における候補を示している。それぞれの候補ごとに、上記同様の計算が実行され、すなわち重み値が求められる。この例では、図１４に示した重みテーブル３６上における期間外の重みが適用されており、すなわち、フォルダについては重みとして１０が与えられ、デスクトップについては重みとして１が与えられている。このような重み処理の実行後に、図２２で示される関連文書リストが構成される。この例では、符号１１４で示されるように、各関連文書ごとに重みの合計値が示されており、また符号１１６で示されるように、その内訳すなわちフォルダに存在していた個数及びデスクトップに存在していた個数が示されている。もちろん、そのような内訳の情報はユーザーの希望により表示させるようにするのが望ましい。上記具体例においては、第２重みテーブルは使用されていなかったが、第１重みテーブルに代えて又はそれと共に第２重みテーブルを使用してもよい。第２重みテーブルによれば、候補が属する空間の所有者等に応じて重み付けを行える。

以上のように、本実施形態の文書検索システムによれば、ワークスペース及びフォルダの性質を巧みに利用してそれらから関連情報を引き出して、複数の関連情報を集約して検索処理に利用することにより、今まで埋もれていた情報財を利用した、関連文書の新しい検索方式を実現できるという利点がある。従って、このような検索方法がドキュメントをハンドリングするソフトウエア内に組み込まれるならば、当該ソフトウエアの実用性を検索処理の面において極めて高めることができ、またユーザーに対して便益を提供できるという利点がある。上述したシステムにおいては、ネットワーク上においてサーバー及びクライアントが接続されていたが、もちろん単一の情報処理装置上においても上記実施形態を成立しうる。

実施形態に係る文書検索システムを示すブロック図である。ユーザー１によって使用されるデスクトップ１を示す図である。ユーザー２によって使用されるデスクトップ２を示す図である。ユーザー３によって使用されるデスクトップ３を示す図である。ユーザー４によって使用されるデスクトップ４を示す図である。共有フォルダの構成を示す図である。他の共有フォルダの構成を示す図である。個々の文書の内容をファイル名として示す図である。多数のオブジェクトを含むデスクトップに対するクラスタリング処理を説明するための図である。図９に示したクラスタリング処理の具体的内容を示すフローチャートである。クラスタマスタテーブルの具体例を示す図である。デスクトップマスタテーブルの具体例を示す図である。クラスタ要素管理テーブルの具体例を示す図である。第１重みテーブルの具体例を示す図である。第２重みテーブルの具体例を示す図である。関連文書の検索処理の具体的なプロセスを示すフローチャートである。検索キーの一例を示す図である。図１７に示した検索キーを利用して求められる候補集合を示す図である。図１７に示した検索キーによって検索処理を実行した結果を示す図である。他の検索キーを示す図である。図２０に示した検索キーを利用して求められる候補集合を示す図である。図２０に示した検索キーを使用して検索処理を実行した結果を示す図である。

符号の説明

１０ネットワーク、１２，１４，１６端末、１８サーバー、２０空間管理部、２２更新検出部、２４クラスタリング部、２６検索処理部、２８記憶部、３０クラスタマスタテーブル、３２デスクトップマスタテーブル、３４クラスタ要素管理テーブル、３６，３８重みテーブル。

Claims

複数の文書オブジェクトが配置されるワークスペースと、前記ワークスペースとは異なる空間であって複数の文書オブジェクトが入れられるフォルダと、を管理する空間管理部と、
相互に関連する文書群を単位として関連グループを設定する手段であって、前記ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、前記フォルダに対しては一律に関連グループを設定するグループ設定手段と、
前記ワークスペース及び前記フォルダに対して設定された複数の関連グループを統合管理するデータベースと、
前記データベースを利用して、特定文書に関連する関連文書の検索を行う検索手段と、
を含むことを特徴とする文書検索システム。
請求項１記載の文書検索システムにおいて、
前記検索手段は、
前記データベース上において、前記特定文書に対応する注目文書を検索する一次検索手段と、
前記データベース上において、前記注目文書が属する所属関連グループを特定し、その所属関連グループに属する他の文書を候補として特定することにより候補集合を生成し、その候補集合に基づいて関連文書リストを生成する二次検索手段と、
を含むことを特徴とする文書検索システム。
請求項２記載の文書検索システムにおいて、
前記二次検索手段は、前記候補集合を構成する各候補に対して適用した重み付け処理の結果に基づいて前記関連文書リストを生成する、ことを特徴とする文書検索システム。
請求項３記載の文書検索システムにおいて、
前記重み付け処理では、所属関連グループ数がより多い候補に対してより大きな重みが与えられる、ことを特徴とする文書検索システム。
請求項３記載の文書検索システムにおいて、
前記重み付け処理では、前記所属関連グループの属性に応じて異なる重みが与えられる、ことを特徴とする文書検索システム。
請求項５記載の文書検索システムにおいて、
前記属性には、前記所属関連グループに対応する基礎空間の種別属性、及び、前記所属関連グループに対応する基礎空間を所有するユーザーの属性、の内で少なくとも１つが含まれる、ことを特徴とする文書検索システム。
請求項３記載の文書検索システムにおいて、
前記重み付け処理では、前記候補となった文書についての作成後の経過時間に応じて異なる重みが与えられる、ことを特徴とする文書検索システム。
文書検索用情報処理装置において実行されるプログラムであって、
文書オブジェクトが配置されるワークスペースと、前記ワークスペースとは異なる空間であって文書オブジェクトが入れられるフォルダと、が管理されている場合に、それらの空間に対して相互に関連する文書群を単位として関連グループを設定する機能であって、前記ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、前記フォルダに対しては一律に関連グループを設定する機能と、
前記ワークスペース及び前記フォルダに対して設定された複数の関連グループを統合管理するデータベースを利用して、特定文書に関連する関連文書の検索を行う機能と、
を含むことを特徴とするプログラム。