JP2009223409A - 文書検索システムおよびプログラム - Google Patents

文書検索システムおよびプログラム Download PDF

Info

Publication number
JP2009223409A
JP2009223409A JP2008064497A JP2008064497A JP2009223409A JP 2009223409 A JP2009223409 A JP 2009223409A JP 2008064497 A JP2008064497 A JP 2008064497A JP 2008064497 A JP2008064497 A JP 2008064497A JP 2009223409 A JP2009223409 A JP 2009223409A
Authority
JP
Japan
Prior art keywords
document
group
folder
workspace
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008064497A
Other languages
English (en)
Inventor
Yasushi Sanbe
裕史 三部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008064497A priority Critical patent/JP2009223409A/ja
Publication of JP2009223409A publication Critical patent/JP2009223409A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ワークスペース及びフォルダの性質を文書検索に役立てられるようにする。
【解決手段】クラスタリング部24は、ワークスペースに対してはオブジェクト配置状況に応じて1又は複数のクラスタ(関連文書グループ)を適応的に設定し、フォルダに対しては1つのクラスタを一律に設定する。このようにしてワークスペース及びフォルダから引き出された関連情報が記憶部28上において管理され、それらの情報を利用して特定文書に関連する関連文書の候補が選び出され、各候補に対する重み付け処理の結果から関連文書リストが生成される。
【選択図】図1

Description

本発明は文書検索システムに関する。
一般に、ワークスペースは画面上に表示される文書作業空間であり、その実体は文書の仮想的な管理空間である。ワークスペース上において、ユーザーが各文書を象徴する文書オブジェクトを操作することにより、様々な文書処理を遂行できる。ちなみに、文書オブジェクトは、文書(実体)を表すシンボルであって、アイコン、サムネイル、その他により構成される。画面上において各ウインドウがオープンする背景としてのデスクトップも、文書配置空間という意味において典型的なワークスペースである。
ワークスペース(特にデスクトップ)には一般に雑多な文書シンボルが配置される。しかし、ワークスペース上の複数の文書オブジェクトの配置状況には一般にユーザーの意思が反映されるといってよい。経験則上、互いに関連する複数の文書を表す複数の文書オブジェクトはワークスペース上で互いに近い位置に配置されている場合が多い。例えば、1つの作業で複数の文書を取り扱う場合にはそれらの文書シンボルを近付けておいた方が作業し易いから、それらを事前に集めておく場合が多々あり、また、ある文書オブジェクトを新しく配置する際には無意識理にそれに関係がありそうな文書オブジェクトの近くに置くのが常である。よって、複数の文書オブジェクトの配置状況はそれ自体一種の情報財であり、それを活用することが望まれる。
一方、フォルダは、複数の文書オブジェクトが放り込まれる入れ物に相当する保管空間である。一般に、画面上において、フォルダは、それがクローズ状態にある場合にはアイコン等のグラフィック要素として表示され、それがオープン状態にある場合には上記ワークスペースに類似する広がりをもった空間として表示される。その実体は文書の仮想的な管理空間であるから、その意味だけに着目するならば、フォルダはワークスペースと同じである。しかし、フォルダについては入れ物としての性格が強く認められ、それがオープン状態にある場合においても、オブジェクトの空間的な配置状況にユーザーの意思が反映されているとは言い難い。仮にフォルダ内のオブジェクト配置状況にユーザーの意思が反映されている場合があり得るとしても、そうであることを確認することなく、そのオブジェクト配置状況を情報として安易に利用することはできない。その一方、通常、特定のフォルダには同種あるいは関連ある複数の文書オブジェクトが入れられるのが常であるから、フォルダそれ自体が文書間の関連を示す枠組みに相当する。
典型的な例では、ワークスペース上においては色々な文書オブジェクトが一時的に配置され、それらを用いて作業が完了した後、個々の文書オブジェクトは、ユーザーの意思に基づいて、それに関連する特定のフォルダ内に入れられる。このような観点から見ると、ワークスペース上には最近の文書間状況が反映され易いという意味で、それには雑多性の他に旬な性質が認められ、フォルダにはユーザーの確定的な意思が強く反映され易いという意味で一様性及び恒久性が認められる。勿論、そのような幾つかの性質は一般的なものあるいは例示であるが、ワークスペースとフォルダとの間には、それが絶対的でないとしても、性質あるいは傾向に相対的な違いが認められるのは明らかである。しかし、従来においては、その違いを旨く利用したシステムが存在せず、そもそもそのような考え方すら認められない。
特開2003−10993号公報 特開2003−85204号公報 特開2005−25550号公報 特開2005−332326号公報
ところで、電子的な文書の検索処理においては、例えば、検索の基礎をなす文書(以下、特定文書という)が指定され、文書群の中から、特定文書に関連する1又は複数の文書(以下、関連文書という)が選び出される。これに関して、従来から、キーワードを利用した文書検索技術等が知られている。しかし、そのような技術は、フォーマット(形式)が異なる文書に対して適用困難であり、また、内容が保護されているセキュリティ文書に対してはそもそも適用できない。その一方、ユーザーにより文書間の関連性をデータベース上に個別的に登録させることも可能であるが、その場合にはユーザーに大きな負荷が生じてしまう。
上記において考察したように、ワークスペース及びフォルダを使ったユーザーの文書処理作業においては、それらの性質の違いからある種の傾向あるいは経験則が認められ、換言すれば、そこに文書間の関係を推認可能な価値ある情報が存在している可能性がある。そのような情報財を旨く利用して関連文書の検索に役立てることが望まれる。なお、特許文献1−4には文書の中身以外の情報を使った関連文書の検索技術が記載されているが、ワークスペース及びフォルダの両者の性質を巧みに利用するものではない。
本発明の目的は、今まで活用されていなかった経験則あるいは情報財に基づく新しい文書検索技術を提供することにある。あるいは、本発明の目的は、ワークスペース及びフォルダの性質を文書検索に役立てることにある。
本発明は、複数の文書オブジェクトが配置されるワークスペースと、前記ワークスペースとは異なる空間であって複数の文書オブジェクトが入れられるフォルダと、を管理する空間管理部と、相互に関連する文書群を単位として関連グループを設定する手段であって、前記ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、前記フォルダに対しては一律に関連グループを設定するグループ設定手段と、前記ワークスペース及び前記フォルダに対して設定された複数の関連グループを統合管理するデータベースと、前記データベースを利用して、特定文書に関連する関連文書の検索を行う検索手段と、を含む文書検索システムに関するものである。
以上の構成により、ワークスペース及びフォルダに関する経験則あるいは情報財に基づく新しい文書検索技術を提供できる。
(1)実施形態の概要説明
後述の詳細な実施形態の説明に先立って、最初に実施形態の特徴的な事項を説明しておく。以下に説明する特徴事項はすべて実施形態に存在するものであり、当然ながら、本発明の内容及び範囲は請求範囲の記載から理解されるべきものであることを付言する。
本実施形態に係る文書検索システムは、ワークスペース及びフォルダを管理する空間管理部と、ワークスペース及びフォルダに対して関連グループを設定するグループ設定手段と、複数の関連グループを統合管理するデータベースと、データベースを利用して特定文書に関連する関連文書の検索を行う検索手段と、を含むものである。
上記構成において、ワークスペースは、一般に、複数の文書オブジェクトを自由な位置に配置し得る空間である。ワークスペースの概念には階層的な空間構成における筆頭空間としてのデスクトップも含まれる。一方、フォルダは、一般的あるいは相対的に見て、ワークスペースとは異なる性質をもった空間であって、そこには複数の文書オブジェクト(文書と理解してもよい)が入れられる。通常、フォルダは文書オブジェクトの入れ物に相当する。文書オブジェクトは、絵柄としてのアイコン、低解像度縮小画像としてのサムネイル、その他の表示要素であり、画面上において個々の文書(実体あるいはファイル)を象徴するものである。
上記構成によれば、グループ設定手段により、ワークスペース及びフォルダを単位として、互いに関連する複数の文書からなる関連グループの設定処理が遂行される。上記のようにワークスペースとフォルダとの間には性質上あるいは傾向の違いがあると言える。そこで、グループ設定手段はそれぞれの空間の性質を踏まえつつ関連グループを設定する。例えば、ワークスペース上のシンボル配置状況(分布)にはユーザー意思が反映されているものとみなし、ワークスペース上のシンボル間の距離関係(位置関係)に基づき位置が相互に近いシンボル集団に対して1つの関連グループが設定される。つまり、個々のワークスペースごとに、そのシンボル配置状況に応じて適応的に1又は複数の関連グループが設定される。これは距離的に近い関係にある複数の文書シンボルに対応する複数の文書は互いに関連している可能性が高いという経験則に基づくものである。通常、1つのワークスペースには複数の関連グループが定義されるが、そこに含まれる配置要素つまり文書シンボルが少ないような場合、1つの関連グループが定義されることもあろう。一方、フォルダにはそのような経験則が認められず、あるいは、そのような経験則が認められる場合があるとしても、それが一般的であるとまでは言えない。寧ろ入れ物としての性質が強く認められ、文書シンボル間の距離や位置関係から特別な意味を読み取れないのが一般的といえる。しかし、そこに入っている複数の文書シンボルに対応する複数の文書はそれ全体として何らかの意味で相互に関連している可能性が高い、という別の経験則が認められる。そこで、望ましくは、フォルダ全体を1まとまりの関連文書グループとして取扱うのが合理的である。このように各空間の性質を考慮して複眼的な視点から設定された複数の関連グループがデータベース上で統合管理される。つまり、ワークスペースを基礎として設定された関連グループ(対応する基礎空間の種別属性がワークスペースである関連グループ)と、フォルダを基礎として設定された関連グループ(対応する基礎空間の種別属性がフォルダである関連グループ)とが共有ベース上に集約して管理されるので、それらに対して横断的な検索を行うことが可能である。あるいは、ワークスペース面から把握される関連情報とフォルダ面から把握される関連情報の両者を使った新しい検索処理を実現できる。
上記のデータベースは一般に記憶部として構成され、それは単一の記憶デバイスによって構成されてもよいが、複数の記憶デバイスにより構成されてもよい。上記の空間管理手段、グループ設定手段及び検索処理手段は、実質的にソフトウエアの機能として実現されるのが望ましい。クライアント/サーバーシステムにおいては、上記の機能がすべてサーバーに搭載されていてもよいし、その内の一部の機能がクライアント側に搭載されていてもよい。いずれにしてもシステム全体として上記各手段が実現されればよい。上記構成は、特にシンクライアント構成のシステムに組み込まれるのが望ましい。そのようなシステムでは、個々の端末は実質的に単なるユーザーインターフェイス装置として位置付けられ、各種の処理や制御はサーバー側において行われる。かかるシステムにおいては、複数のユーザー端末において表示される個々の空間はすべてサーバー側で一括して管理されるから、上記データベースの構築を容易に行え、その管理も容易であるという利点を得られる。ワークスペース及びフォルダの構成に変化が生じた時点でその都度、関連グループを再設定するようにしてもよいが、そのような随時型の対応ではなく、一定時間間隔であるいは所定のイベントが発生した時点で、関連グループの再設定を実行するようにしてもよい。
望ましくは、ワークスペースは、オブジェクト配置状況にユーザーの意思が反映され得る性質をもった空間であり、グループ設定手段によりワークスペース単位で前記オブジェクト配置状況に応じた個数の関連グループが設定される。望ましくは、フォルダは、複数の文書オブジェクトの入れ物に相当する性質をもった空間であり、グループ設定手段によりフォルダ単位で1つの関連グループが設定される。
望ましくは、検索手段は、データベース上において、特定文書に対応する注目文書を検索する一次検索手段と、データベース上において、注目文書が属する所属関連グループを特定し、その所属関連グループに属する他の文書を候補として特定することにより候補集合を生成し、その候補集合に基づいて関連文書リストを生成する二次検索手段と、を含む。特定文書に関連する文書を検索する場合、まず、特定文書と同一の又はそれに相当する注目文書がデータベース上において特定される(一次検索)。特定文書に相当する文書が複数の関連グループに存在しているならば、通常、それらが全部特定されることになる。但し、検索範囲が制限されてもよい。次に、特定文書に対応する注目文書が所属する関連グループ(所属関連グループ)内における他の文書が特定され、それが関連文書の候補となる(二次検索)。その段階で、複数の関連グループに重複して存在している候補があれば、それについては、より関連度が高いと評価できよう。候補集合が構成されると、それに基づいて関連文書リストが生成される。候補全部が関連文書であると認定されてもよいし、それぞれの候補についてスコアを評価することにより関連度を考慮して、選択された候補からなる関連文書リストを生成してもよい。関連度順で関連文書をリスト表示するならばユーザーの利便性を高められる。
望ましくは、前記二次検索手段は、前記候補集合を構成する各候補に対して適用した重み付け処理の結果に基づいて前記関連文献リストを生成する。望ましくは、前記重み付け処理では、所属関連グループ数がより多い候補に対してより大きな重みが与えられる。所属関連グループ数が多いということは、特定文書と一緒に利用される局面が多いということであるから、その大小は関連度の大小を指標するといってよい。
望ましくは、前記重み付け処理では、前記所属関連グループの属性に応じて異なる重みが与えられる。望ましくは、前記属性には、前記所属関連グループに対応する基礎空間の種別属性、及び、前記所属関連グループに対応する基礎空間を所有するユーザーの属性、の内で少なくとも1つが含まれる。望ましくは、前記重み付け処理では、前記候補となった文書についての作成後の経過時間に応じて異なる重みが与えられる。
実施形態に係るプログラムは、文書オブジェクトが配置されるワークスペースと、ワークスペースとは異なる空間であって文書オブジェクトが入れられるフォルダと、が管理されている場合に、それらの空間に対して相互に関連する文書群を単位として関連グループを設定する機能であって、ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、フォルダに対しては一律に関連グループを設定する機能と、ワークスペース及びフォルダに対して設定された複数の関連グループを統合管理するデータベースを利用して特定文書に関連する関連文書の検索を行う機能と、を含むものである。プログラムは、記憶媒体を介してあるいはネットワークを介して情報処理装置に取り込むことができる。この検索処理用のプログラムが電子的文書のハンドリングを行うソフトウエアに組み込まれてもよく、そのような構成によれば当該ソフトウエアの実用的価値をより高められる。
ワークスペース上のシンボル配置状況及びフォルダ内の構成要素の状況は、個々の文書内容を知ることができない場合でも、一般に利用できる情報である。よって、上記構成によれば、セキュリティ上のアクセス制限がかかった文書あるいはその内容から関連度を評価し難い文書が文書群に含まれていても、当該文書群から文書間の関連情報を取得できるという利点がある。また、上記構成によれば、複数のユーザー(使用者)が使用する複数のワークスペースや複数のフォルダから抽出された多数の関連情報を集約し、必要に応じて、それを関連文書の検索において複数のユーザー間で共有できるという利点も得られる。なお、本願明細書において、文書は、通常、情報処理装置上において処理される電子的なデータ単位であり、その概念には、テキスト、静止画像、動画像、音声情報その他が含まれてよい。
(2)実施形態の詳細説明
以下、本発明の好適な実施形態を図面に基づいて説明する。
図1には、本実施形態の文書検索システムが示されている。図1に示される例においては、ネットワーク10に対して、複数の端末12,14,16及びサーバー18が接続されている。サーバー18は、端末12,14,16からの関連文書の検索要求に対して検索処理を実行し、その検索結果を検索要求を発行した端末12,14,16へ提供する機能を有する。そのような検索処理のために、サーバー18は文書間の関連性を示す関連情報を生成及び集約する機能を有している。なお、各端末12,14,16は一般のコンピュータにより構成されているが、文書の管理及び処理の実体がサーバー18に存在していてもよい。すなわち、シンクライアント構成をもったシステムであってもよい。
サーバー18は、検索処理プログラムに従って動作を行なうコンピュータにより構成されている。サーバー18が有する複数の機能のうちで、一部の機能がクライアント側としての端末12,14,16上にあってもよい。
サーバー18の機能について説明すると、サーバー18は、図示されるように、空間管理部20、更新検出部22、クラスタリング部24、検索処理部26及び記憶部28を備えている。空間管理部20は、各端末12,14,16上に表示されるワークスペース(デスクトップ)を管理するモジュールであり、また、各端末12,14,16において使用あるいは操作されるフォルダを管理するモジュールである。ワークスペース上には1又は複数の文書オブジェクトが配置され、フォルダには1又は複数の文書オブジェクト(文書それ自体と理解してもよい)が入れられる。文書管理部20はそれぞれの文書を象徴する文書オブジェクトの管理も行なっている。各文書の実体すなわちファイルは、サーバー18上に存在していてもよいし、各クライアントとしての端末12,14,16上に存在してもよいし、他の装置上に存在していてもよい。
更新検出部22は、ワークスペース及びフォルダの内容あるいは構成に変動があった場合に、それを検出し、クラスタリングの再実行を指示するモジュールである。ただし、ワークスペース及びフォルダの内容の変化の都度、クラスタリングが実行されてもよいが、一定間隔あるいは所定の条件が満たされた場合にクラスタリングが実行されてもよい。また、ユーザーの指示に基づいて最初のクラスタリングあるいは再度のクラスタリングが実行されてもよい。クラスタリングの内容について以下に詳述する。
クラスタリング部24は、個々のワークスペースあるいは個々のフォルダごとにクラスタリング処理を実行する。クラスタリング処理は、相互に関連する複数の文書を関連グループ(関連文書群)として定義するものであり、1つのクラスタが1つの関連グループに対応する。本実施形態においては、文書オブジェクトを対象としてクラスタの設定が行われている。クラスタリング部24はワークスペースすなわちデスクトップに対しては、その内部のシンボル配置状況に応じて適応的に1又は複数のクラスタを設定する。すなわち、1つのデスクトップ全体に対して1つのクラスタを設定するのではなく、その内容に応じてクラスタ数及び各クラスタの構成を設定するものである。一方、クラスタリング部24は、フォルダに対してはそれ全体を対象として1つのクラスタを設定する。上記のように、ワークスペースとフォルダの性質の違いを巧みに利用してそれぞれを対象としてクラスタリングを実行することにより、それぞれの空間から関連情報を抽出することが可能である。具体例については後に図2以降の各図を用いて説明することにする。
検索処理部26は、端末12,14,16からの検索要求を処理するモジュールであり、特定文書に関連する1又は複数の関連文書を表したリストを、検索要求を発行した端末12,14,16へ提供する機能を有する。その際には、以下に説明する複数のテーブル30〜38が利用される。記憶部28には複数のテーブルが存在している。この記憶部28は単一の記憶デバイスによって構成されていてもよいし、複数の記憶デバイスによって構成されていてもよい。
クラスタマスタテーブル30は、クラスタリング部24によって設定された個々のクラスタを管理するためのテーブルである。具体例については後に図11を用いて説明する。デスクトップマスタテーブル32は、個々のデスクトップとその管理者あるいは所有者との関係を管理するためのテーブルである。その具体例については後に図12を用いて説明する。クラスタ要素管理テーブル34は、個々のクラスタを構成する要素である文書について各種の情報を管理するテーブルである。その具体例については後に図13を用いて説明する。第1及び第2重みテーブル36,38は検索処理の過程で候補集合が生成された場合において個々の候補(関連文書の候補)に対して重み付けを与える際に参照されるテーブルである。第1重みテーブル36は個々の文書の経過期間に関する重み付けを実行するためのテーブルであり、その具体例については後に図10を用いて説明する。第2重みテーブル38は、上記第1重みテーブル36と同様に重み付け処理の際に参照されるテーブルであり、本実施形態においてユーザーあるいはワークグループの観点から重み付けを行なうためのテーブルである。その具体例については後に図15を用いて説明する。
次に、クラスタリング処理についての具体例を図2乃至図10を用いて説明する。図2にはユーザー1が所有するデスクトップ1が符号40として示されている。図3には、ユーザー2が所有するデスクトップ2が符号44で示されている。図4には、ユーザー3が所有するデスクトップ3が符号46で示されている。図5にはユーザー4が所有するデスクトップ4が符号48で示されている。図6には複数のユーザーによって共有されるフォルダ2が符号50によって示されている。さらに、図7には複数のユーザーによって共有されるフォルダ3が符号52で示されている。ちなみに、図8は、図2乃至図7において表現されている文書オブジェクト(アイコン)が象徴している文書の名称を示すものである。
図2に示されるように、デスクトップ1においては、その空間内に複数の文書オブジェクト42aが存在している。図示の例では、それらに対して3つのクラスタ#1,#2,#3が設定されている。それらのクラスタは上記のクラスタリング部(図1)によって設定されたものである。ここで、クラスタ#1に着目すると、そこには4つの文書シンボルつまり4つの文書が含まれており、具体的には文書(2),(5),(6),(7)が含まれている。クラスタリング部は上述したようにデスクトップ上のシンボル配置状況に応じて1又は複数のクラスタを設定しており、図2においてはそれぞれのシンボル集団ごとにクラスタ#1,#2,#3が設定されている。一般的には、シンボル間の距離が近いもの同士を一つの集団とみなし、その集団に対して1つのクラスタが定義される。デスクトップ上のクラスタリング処理についてはそのような距離に基づくものの他、各種の公知技術を適用することが可能である。距離に基づくクラスタリングに関しては後に図9及び図10を用いて詳述する。
図3に示されるデスクトップ2においては2つのクラスタ#4,#5が設定されている。ここで、クラスタ#4に着目すると、そこには文書(6),(8)が含まれている。図4に示されるデスクトップ3においては、1つのクラスタ#6が設定されており、そこには文書(2),(6),(7)が含まれている。図5に示されるデスクトップ4においては、1つのクラスタ#7が設定されており、そこには文書(2),(6),(9)が含まれている。以上のように、個々のデスクトップにおけるオブジェクト配置状況において適応的にクラスタが設定されており、具体的にはオブジェクト配置状況に応じてクラスタ数及びクラスタの中身が適応的に定められている。
一方、図6に示されるフォルダ50は、図示されるように4つの文書(1),(2),(3),(4)によって構成されている。それらの文書に対して1つのクラスタ#8が設定されている。つまり1つのフォルダに対しては1つのクラスタが設定される。図7に示すフォルダ52においては、4つの文書により構成される1つのクラスタ#9が設定されている。留意すべきことは、例えば図8において(2)で示される「YYY検査データ」という文書は、図2に示したクラスタ#1、図4に示したクラスタ#6、図5に示したクラスタ#7、図6に示したフォルダ50のそれぞれに属しているということである。仮に、文書(2)と一緒にいずれかのクラスタに属している他の文書があれば、当該他の文書については文書(2)に対して関連すると評価できる。
図9に示されるように、デスクトップ53の全体にわたって整然と多数の文書シンボルが配置されているような場合、それ全体に対して1つのクラスタを設定するようにしてもよいし、以下に説明するように、適当なグルーピングを行なって複数のクラスタを設定してもよい。すなわち、図9においては、デスクトップ53に対して4つのクラスタ#10,#11,#12,#13が設定されており、それらのクラスタ#10,#11,#12,#13は互いに部分的に重複している。具体的には、例えば図10に示すような処理により複数のクラスタが設定される。S101では、図9に示したような全体にわたって一様に文書オブジェクトが配置されているような場合、まずS101において、デスクトップが複数の領域に分割される。例えば矩形のデスクトップに対して上下左右4つの矩形領域が定義される。そして、S102では、各領域の重心が演算される。上記の例で言えばデスクトップ上に4つの重心が特定されることになる。S103では、各重心を中心とした所定の円が設定される。この場合において円の半径についてはどの円にも取り込まれない文書オブジェクトが生じないように互いにオーバーラップが生じるように定めるのが望ましい。もちろん、その半径をユーザーにより設定するようにしてもよい。このような4つの円を設定した状態が図9に示したものである。S104では、それぞれの円をクラスタの外延とみなし、各円に属するオブジェクト集団をもって個々のクラスタが定義される。もちろん、図9及び図10に示した手法は一例であって、個々のデスクトップの状況に応じて様々な技術を適用し、1又は複数のクラスタが設定されるようにすればよい。本実施形態形態においては、オブジェクト間距離を用いてクラスタの設定を行ったため、各文書オブジェクトによって象徴されている文書の内容を解析することなくクラスタリングを行なえるという利点がある。
次に、図11〜図15を参照して、上述した各テーブルの具体例について説明する。個々のテーブルの内容は図2〜図7に示した例を前提とするものである。
まず、図11には、クラスタマスタテーブル30が示されている。このクラスタマスタテーブル30上においては、個々のクラスタごとに、クラスタIDが付与され、また種別、デスクトップID、デスクトップ内のクラスタ番号、クラスタがフォルダである場合におけるフォルダの所在情報(フォルダパス)が管理されている。クラスタIDは個々のクラスタの識別子であり、種別はクラスタがデスクトップであるのかフォルダであるのかを区別する情報であり、デスクトップIDは各デスクトップの識別子であり、クラスタ番号は個々のデスクトップ内におけるクラスタの識別番号に相当している。例えば、クラスタIDが1のクラスタについては、それがデスクトップ上のクラスタであり、そのデスクトップのIDが1であり、その当該デスクトップにおいて1番目のクラスタであることがこのテーブル30から判明する。ちなみに、そのクラスタは図2に示したクラスタ#1である。図12には、デスクトップマスタテーブル32の具体例が示されている。このテーブル32上においては、デスクトップごとに、デスクトップID、デスクトップ識別情報が管理されており、デスクトップ識別情報はワークグループ名及びユーザー名からなる。つまり、デスクトップIDに対応して、それがどのユーザーに帰属されているものであるかが管理されており、しかもそのユーザーがどのワークグループに属しているのかが管理されている。このようなテーブルを利用することにより、デスクトップを基礎としてユーザー単位あるいはワークグループ単位での重み付けを行なえるという利点がある。
図13には、クラスタ要素管理テーブル34の具体例が示されている。このテーブル34上においては、クラスタごとにそれに関する詳細情報が管理されている。その詳細情報は、図13に示す例では、クラスタID、クラスタ内文書ID、文書ファイルパス、文書識別情報であり、文書識別情報は、文書ファイル名、サイズ、作成日時、文書ID、ファイルハッシュ値等からなる。つまり、個々のクラスタに属している文書について、その識別情報及び所在等が管理されている。取得できない情報については空欄のままであってもよい。検索処理にあたっては、このテーブル34に対して後に説明する一次検索処理が実行され、更にこのテーブル34を利用して二次検索処理が実行される。なお、図13において、テーブル34の右側及び左側に示されている記号については後の具体例の説明で参照する。
図14及び図15には重みテーブルの具体例が示されている。図14には第1重みテーブル36が示されている。第1重みテーブル36上においては、ある期間(例えば30日)を境として、その期間内について及びその期間外についての重みが定められており、さらに図14に示す例ではフォルダ内の文書であるのかデスクトップ上の文書であるのかに応じて重みの値が切り替えられている。上述したように、デスクトップには旬な性質が認められ、一方、フォルダには恒久的な性質が認められるため、そのような性質の違いを重みの違いとして評価するものである。図15に示される第2重みテーブル38においてはユーザー識別情報と重みとの関係が定められており、すなわち、ワークグループ及びユーザーごとに重みが切り替えられている。さらに、図15に示す例では、クラスタが存在している空間の種別、つまりフォルダであるかデスクトップであるかに応じて重みの値が切り替えられており、またデスクトップについては同一のワークグループに属するユーザーのデスクトップであるのかそれ以外であるのかに応じて重みの値が切り替えられている。このようなテーブルを利用すればユーザーグループあるいはユーザーごとに検索処理条件をカスタマイズできるという利点がある。特に、同一のワークグループに属するユーザー間においては重みが大きくされているため、同じワークグループに属するユーザーが利用している文書(関連文書の候補)については大きな重みが与えられ得るため上位に表示されやすくなるという利点が得られる。
図1に示したクラスタリング部24は、以上のようなクラスタリング処理の実行結果として、クラスタマスタテーブル30、クラスタ要素管理テーブル34等の生成又は登録を行なっている。ちなみに、デスクトップマスタテーブル32及び重みテーブル36,38についてはあらかじめ設定しておくことができ、また必要に応じてユーザーが任意にその内容を書き換えられるように構成してもよい。
以下に、図16を用いて、以上のように構成された複数のテーブルに基づく関連文書の検索処理の具体例について説明する。まず、S201では、特定のユーザーにおいて特定文書が指定され、また検索要求が発行される。この検索要求は、特定文書に関連する関連文書群のリストを求めるものである。S202では、特定文書について識別情報すなわち一次検索用の検索キーが生成される。ここで、その識別情報としては、文書ファイル名、作成日時、ファイルサイズ、ファイルのハッシュ値、文書ファイルに埋め込まれた文書ID等の各種の情報を挙げることができ、それらの1又は複数の情報によって検索キーが構成される。取得できない情報については除外して検索キーを構成すればよい。このS202以降の各工程は、図1に示した検索処理部によって実行される。
S203では、上記の検索キーを用いて、図13に示したクラスタ要素管理テーブル34に対して検索処理が実行される。具体的には、特定文書と同一の又は同一とみなせる注目文書が特定される。これは一次検索処理に相当する。特定文書と注目文書との一致条件すなわち検索条件としては、いくつかのものが挙げられる。例えば、文書ファイル名が一致し、且つ、サイズ又は作成日時が一致する条件、サイズと作成日時が一致する条件、文書IDが一致する条件、あるいは、ファイルハッシュ値が一致する条件、といったものが挙げられる。どの条件を使うのかについてはその都度ユーザーにより選択させてもよいし、あらかじめ定めておいてもよい。
次に、S204では、二次検索処理が実行され、各注目文書が属するクラスタ内において他の文書が関連文書の候補とされ、これによって候補集合が生成される。クラスタは相互に関連する文書のグループに相当するものであるため、ここで認識される他の文書は関連度が高い文書ということになるが、いろいろな観点から関連度を評価しあるいはその評価を積み上げることにより、より検索結果の精度を高めることが望まれる。そこで、この段階では候補集合が生成される。
S205では、上述したいくつかの重みテーブルを使って、各候補に対して重み付け処理が実行される。一般的には、注目文書が所属していたすべての所属クラスタのうちで、より多く存在している候補に対して結果としてより大きな重み値が与えられることになる。いずれにしても、S205では、重みの大きさに従って複数の候補が並べ替えられ、これによって関連文書リストが構成される。重みが一定値以下の候補については関連文書リストから除外するようにしてもよいし、あるいはすべての候補をその重み順で並べて関連文書リストを構成してもよい。そして、S207では、サーバーから関連文書リストの情報が検索要求を発行した端末側へ提供され、当該端末においてはそれが有する表示器の画面上に関連文書リストが表示される。必要に応じて、関連文書リスト上におけるユーザーの指定に基づき当該文書が自動的に取得されるようにしてもよい。
以上のような検索処理によれば、デスクトップ及びフォルダの両方から抽出された関連情報を総合的に利用して、より信頼性のある検索結果を得ることができるという利点が得られる。特に、上記実施形態においては各ユーザーによって管理あるいは支配されているデスクトップから引き出された個別的な関連情報と、共有のフォルダから引き出された関連情報とを利用して検索処理が行なえるので、各ユーザーごとに分散している情報財を活用できるという利点が得られる。クラスタの設定にあたっては、デスクトップすなわちワークスペースの性質とフォルダの性質とに着目し、それぞれに相応しいクラスタリング条件を付与したため、結果として検索結果の信頼性を高めることができる。
次に、図17〜図22を用いて、より具体的に検索処理の内容を説明することにする。図17には上記の一次検索用の検索キーが例示されている。ここでは、図8に示した文書(6)が特定文書となっており、それに関するサイズ、作成日時、ファイルハッシュ値が識別情報として検索キーを構成している。この検索キーを用いて図13に示したテーブル34に対して一次検索を実行すると、図18に示すような候補集合が生成される。具体的には、テーブル34上において、一次検索として、複数の文書(6)が特定される。ここでは、文書(6)は「XXX作業報告書」であり、それはテーブル34上において4つ発見されることになる。次に、二次検索処理が実行される。すなわち、当該文書(6)を含む所属クラスタ101,102,103,104が特定され、それらに含まれる他の文書が関連文書の候補とされる。ここでは、文書(2),(5),(7),(8),(9)が候補となる(図18参照)。ちなみに、図13に示す符号105は注目文書を含まないクラスタである。このように二次検索処理によって、候補集合が構成されると、図18に示すように重み付け処理が実行される。ここでユーザーにより指定された特定文書が所定期間内のものであれば、図14に示したテーブル36上において期間内における重み値(1又は10)が利用される。図18においては、各候補ごとに重み付け計算例が示されている。ここで、符号60は期間内におけるフォルダの重み値を示しており、符号62はフォルダに属する個数が示されており、符号64は期間内におけるデスクトップの重み値を示しており、符号66はデスクトップに属する個数を表している。ここでは、文書(2)は3つ存在しているため、符号66の値として3が与えられている。このような計算式を実行すると、符号68に示すように、文書(2)について重み値として30が求められることになる。以下同様に、それぞれの候補に対して重み値が算出される。
このように重み付け処理が完了すると、各候補の重み値に従って関連文書リストが構成される。その具体例が図19に示されている。この例では、符号110に示されるように、重みの合計値が大きいものから小さいものへの順番で複数の関連文書が並べられている。各関連文書についてはそれに関する属性として、ファイル名、サイズ、作成日時、文書ID、ファイルハッシュ値等が表示されている。ちなみに、図19に示す例では、重みの合計値の内訳として、フォルダに存在していた個数及びデスクトップに存在していた個数が示されている(符号112参照)。このような内訳はユーザーの希望により表示するようにしてもよい。
次に、図20〜図22を用いて別の例について説明する。図20には検索キーが示されている。この例では文書(2)が特定文書であり、その識別情報として、文書ファイル名、サイズ、作成日時、文書ID、ファイルハッシュ値が検索キーを構成している。この検索キーを用いて、図13に示したテーブル34上において一次検索及び二次検索が実行される。その結果、図21に示される候補集合が構成される。ちなみに、符号106は図6に示したフォルダ50内における候補を示している。それぞれの候補ごとに、上記同様の計算が実行され、すなわち重み値が求められる。この例では、図14に示した重みテーブル36上における期間外の重みが適用されており、すなわち、フォルダについては重みとして10が与えられ、デスクトップについては重みとして1が与えられている。このような重み処理の実行後に、図22で示される関連文書リストが構成される。この例では、符号114で示されるように、各関連文書ごとに重みの合計値が示されており、また符号116で示されるように、その内訳すなわちフォルダに存在していた個数及びデスクトップに存在していた個数が示されている。もちろん、そのような内訳の情報はユーザーの希望により表示させるようにするのが望ましい。上記具体例においては、第2重みテーブルは使用されていなかったが、第1重みテーブルに代えて又はそれと共に第2重みテーブルを使用してもよい。第2重みテーブルによれば、候補が属する空間の所有者等に応じて重み付けを行える。
以上のように、本実施形態の文書検索システムによれば、ワークスペース及びフォルダの性質を巧みに利用してそれらから関連情報を引き出して、複数の関連情報を集約して検索処理に利用することにより、今まで埋もれていた情報財を利用した、関連文書の新しい検索方式を実現できるという利点がある。従って、このような検索方法がドキュメントをハンドリングするソフトウエア内に組み込まれるならば、当該ソフトウエアの実用性を検索処理の面において極めて高めることができ、またユーザーに対して便益を提供できるという利点がある。上述したシステムにおいては、ネットワーク上においてサーバー及びクライアントが接続されていたが、もちろん単一の情報処理装置上においても上記実施形態を成立しうる。
実施形態に係る文書検索システムを示すブロック図である。 ユーザー1によって使用されるデスクトップ1を示す図である。 ユーザー2によって使用されるデスクトップ2を示す図である。 ユーザー3によって使用されるデスクトップ3を示す図である。 ユーザー4によって使用されるデスクトップ4を示す図である。 共有フォルダの構成を示す図である。 他の共有フォルダの構成を示す図である。 個々の文書の内容をファイル名として示す図である。 多数のオブジェクトを含むデスクトップに対するクラスタリング処理を説明するための図である。 図9に示したクラスタリング処理の具体的内容を示すフローチャートである。 クラスタマスタテーブルの具体例を示す図である。 デスクトップマスタテーブルの具体例を示す図である。 クラスタ要素管理テーブルの具体例を示す図である。 第1重みテーブルの具体例を示す図である。 第2重みテーブルの具体例を示す図である。 関連文書の検索処理の具体的なプロセスを示すフローチャートである。 検索キーの一例を示す図である。 図17に示した検索キーを利用して求められる候補集合を示す図である。 図17に示した検索キーによって検索処理を実行した結果を示す図である。 他の検索キーを示す図である。 図20に示した検索キーを利用して求められる候補集合を示す図である。 図20に示した検索キーを使用して検索処理を実行した結果を示す図である。
符号の説明
10 ネットワーク、12,14,16 端末、18 サーバー、20 空間管理部、22 更新検出部、24 クラスタリング部、26 検索処理部、28 記憶部、30 クラスタマスタテーブル、32 デスクトップマスタテーブル、34 クラスタ要素管理テーブル、36,38 重みテーブル。

Claims (8)

  1. 複数の文書オブジェクトが配置されるワークスペースと、前記ワークスペースとは異なる空間であって複数の文書オブジェクトが入れられるフォルダと、を管理する空間管理部と、
    相互に関連する文書群を単位として関連グループを設定する手段であって、前記ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、前記フォルダに対しては一律に関連グループを設定するグループ設定手段と、
    前記ワークスペース及び前記フォルダに対して設定された複数の関連グループを統合管理するデータベースと、
    前記データベースを利用して、特定文書に関連する関連文書の検索を行う検索手段と、
    を含むことを特徴とする文書検索システム。
  2. 請求項1記載の文書検索システムにおいて、
    前記検索手段は、
    前記データベース上において、前記特定文書に対応する注目文書を検索する一次検索手段と、
    前記データベース上において、前記注目文書が属する所属関連グループを特定し、その所属関連グループに属する他の文書を候補として特定することにより候補集合を生成し、その候補集合に基づいて関連文書リストを生成する二次検索手段と、
    を含むことを特徴とする文書検索システム。
  3. 請求項2記載の文書検索システムにおいて、
    前記二次検索手段は、前記候補集合を構成する各候補に対して適用した重み付け処理の結果に基づいて前記関連文書リストを生成する、ことを特徴とする文書検索システム。
  4. 請求項3記載の文書検索システムにおいて、
    前記重み付け処理では、所属関連グループ数がより多い候補に対してより大きな重みが与えられる、ことを特徴とする文書検索システム。
  5. 請求項3記載の文書検索システムにおいて、
    前記重み付け処理では、前記所属関連グループの属性に応じて異なる重みが与えられる、ことを特徴とする文書検索システム。
  6. 請求項5記載の文書検索システムにおいて、
    前記属性には、前記所属関連グループに対応する基礎空間の種別属性、及び、前記所属関連グループに対応する基礎空間を所有するユーザーの属性、の内で少なくとも1つが含まれる、ことを特徴とする文書検索システム。
  7. 請求項3記載の文書検索システムにおいて、
    前記重み付け処理では、前記候補となった文書についての作成後の経過時間に応じて異なる重みが与えられる、ことを特徴とする文書検索システム。
  8. 文書検索用情報処理装置において実行されるプログラムであって、
    文書オブジェクトが配置されるワークスペースと、前記ワークスペースとは異なる空間であって文書オブジェクトが入れられるフォルダと、が管理されている場合に、それらの空間に対して相互に関連する文書群を単位として関連グループを設定する機能であって、前記ワークスペースに対してはオブジェクト配置状況に応じて適応的に関連グループを設定し、前記フォルダに対しては一律に関連グループを設定する機能と、
    前記ワークスペース及び前記フォルダに対して設定された複数の関連グループを統合管理するデータベースを利用して、特定文書に関連する関連文書の検索を行う機能と、
    を含むことを特徴とするプログラム。
JP2008064497A 2008-03-13 2008-03-13 文書検索システムおよびプログラム Withdrawn JP2009223409A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008064497A JP2009223409A (ja) 2008-03-13 2008-03-13 文書検索システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008064497A JP2009223409A (ja) 2008-03-13 2008-03-13 文書検索システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2009223409A true JP2009223409A (ja) 2009-10-01

Family

ID=41240153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008064497A Withdrawn JP2009223409A (ja) 2008-03-13 2008-03-13 文書検索システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2009223409A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012169778A (ja) * 2011-02-10 2012-09-06 Fujitsu Broad Solution & Consulting Inc 暗号処理プログラム、暗号処理装置および暗号処理方法
JP2018073354A (ja) * 2016-11-04 2018-05-10 Kddi株式会社 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
US11169966B2 (en) 2019-03-14 2021-11-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program for hidden file tracing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012169778A (ja) * 2011-02-10 2012-09-06 Fujitsu Broad Solution & Consulting Inc 暗号処理プログラム、暗号処理装置および暗号処理方法
JP2018073354A (ja) * 2016-11-04 2018-05-10 Kddi株式会社 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
US11169966B2 (en) 2019-03-14 2021-11-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program for hidden file tracing

Similar Documents

Publication Publication Date Title
Westgate revtools: An R package to support article screening for evidence synthesis
JP4733461B2 (ja) 計算機システム、管理計算機及び論理記憶領域の管理方法
US9015118B2 (en) Determining and presenting provenance and lineage for content in a content management system
US8321803B2 (en) Aggregating service components
US9977823B2 (en) Content control method, content control apparatus, and program
CN103733194A (zh) 动态组织云计算资源以便于发现
CN103198090A (zh) 用于优化虚拟桌面环境中的存储分配的方法和系统
WO2011090519A1 (en) Accessing large collection object tables in a database
WO2014167647A1 (ja) データ管理装置、データ管理方法及び非一時的な記録媒体
JP2008117010A (ja) 文書作成支援装置、文書作成支援システム
WO2017158802A1 (ja) データ変換システム及びデータ変換方法
JP2010515998A5 (ja)
US20150199525A1 (en) Operation target management apparatus and non-transitory computer readable medium
JP2005242904A (ja) 文書群分析装置、文書群分析方法、文書群分析システム、プログラムおよび記録媒体
JP2009223409A (ja) 文書検索システムおよびプログラム
JP5397782B2 (ja) 業務プロセス管理装置、業務プロセス管理方法、及び業務プロセス管理プログラム
JP2008243033A (ja) 検索システム、検索方法、プログラムおよび記憶媒体
JP6507880B2 (ja) 資産管理装置、資産管理システム及びプログラム
KR20150136338A (ko) 멀티 테넌시 이력 생성 방법, 이를 수행하는 멀티 테넌시 이력 생성 서버 및 이를 저장하는 기록매체
JP2009211603A (ja) 文書検索システム
WO2016135883A1 (ja) サービス設計支援システムおよびサービス設計支援方法
JP6280270B1 (ja) 内部取引判定装置、内部取引判定方法および内部取引判定プログラム
JP2012027525A (ja) ファイル格納補助システムと方法およびプログラム
US9710774B2 (en) Configuration of embedded intelligence
US9158818B2 (en) Facilitating identification of star schemas in database environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20110930