JP5753056B2 - 検索装置、文書管理方法、及び文書検索システム - Google Patents

検索装置、文書管理方法、及び文書検索システム Download PDF

Info

Publication number
JP5753056B2
JP5753056B2 JP2011227278A JP2011227278A JP5753056B2 JP 5753056 B2 JP5753056 B2 JP 5753056B2 JP 2011227278 A JP2011227278 A JP 2011227278A JP 2011227278 A JP2011227278 A JP 2011227278A JP 5753056 B2 JP5753056 B2 JP 5753056B2
Authority
JP
Japan
Prior art keywords
folder
file
search
deletion
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011227278A
Other languages
English (en)
Other versions
JP2013088931A (ja
Inventor
光晴 大峡
光晴 大峡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2011227278A priority Critical patent/JP5753056B2/ja
Publication of JP2013088931A publication Critical patent/JP2013088931A/ja
Application granted granted Critical
Publication of JP5753056B2 publication Critical patent/JP5753056B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索装置、文書管理方法、及び文書検索システムに関し、例えば、ファイルサーバ内に保存された大量のファイルデータを効率的に整理するための技術に関する。
近年、会社等の組織内において独自のファイルサーバを使う機会が増えている。このような組織内のファイルサーバは、電子データの保存・共有のために利便性が高く、広く普及している。しかし、ファイルサーバの容量は増大しがちであるため、不要なファイルの削除を支援・促進するための技術に対する要求が高まっている。例えば、デジタルデータが爆発的に増大していること(非特許文献1)、企業内ではRDB(Relational Database)に格納されている構造データは全体の2割に過ぎないこと、大半は文書ファイルなどの非構造文書であることなどが調査・報告されている(非特許文献2)。
また、不要なファイルの削除を支援するソフトウェア(非特許文献3乃至5)が提案されている。これらの技術では、最終更新日が古い・最終アクセス日が古い・内容が重複したファイルがある・ファイル名が類似したファイルがあるなどの条件を用い、不要と思われるファイルの提示を行う機能を持つ。これらのファイルについて、自動的なアーカイブ化・削除の機能を持つものや、ファイルを利用しているユーザの確認・了承によりアーカイブ化・削除の機能を持つものがある。
J. F. Gantz, et al. The Diverse and Exploding Digital Universe, An IDC White Paper,http://japan.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf S. Grimes, "Unstructured Data and the 80 Percent Rule", Clarabridge Bridgepoints, http://clarabridge.com/default.aspx?tabid=137&ModuleID=635&ArticleID=551 NEC, 文書・コンテンツ管理支援システム, InfoFrame PROCENTER/C, http://www.nec.co.jp/pfsoft/procenter/index.html ジャストシステム, GDMS, http://just-enterprise.com/product/gdms/ 株式会社日立ソリューションズ, MEANSファイルサーバスリム化ソリューション, http://hitachisoft.jp/products/means/slimserver/
上記既存技術は、いずれも不要と推定されるファイルをユーザに提示し、ユーザに当該ファイルの削除を促すことで、ファイルサーバの使用容量削減を図る機能を持っている。
しかしながら、この方式には主に以下の三つの課題がある。
一つ目の課題は、既存技術はファイル単位で削除候補を示すため、削除候補ファイルの数が膨大であった場合に、ユーザが確認及び削除を行う工数が膨大になってしまうことである。
二つ目の課題は、既存技術はファイル単位で削除候補を示すため、削除候補ファイルが格納されているフォルダ内に含まれる別のファイルが残ってしまうことである。一般的に、同一フォルダ内に格納されているファイルは互いに関連を持っているため、一部のファイルのみを削除すると、それ以外のファイルが用途不明の状態で残ってしまうことがあり、不便であるとともに、残ったファイル自体の使用頻度も減る可能性が高い。
三つ目の課題は、既存技術を用いたとしても、個々のファイルの不要の度合いが低くても、フォルダ全体では不要とみなせる場合を検出できないことである。例えば、ファイルサイズによって、ファイルが不要か否かを判定するシステムの場合、閾値を下回るファイルが多数含まれるフォルダを、このシステムでは検出できない。
本発明はこのような状況に鑑みてなされたものであり、ファイルサーバに格納されたファイル及びフォルダに対して、ファイルのメタデータを利用し、削除候補をフォルダ単位で提示するための技術を提供する。
上記目的を達成するために、本発明の業務文書検索システムは、ファイルサーバに保存されているフォルダに対して、複数の観点に基づき、削除候補となるフォルダを自動的に検出する削除候補解析手段と、削除候補となるフォルダを、該当する観点の数に応じて表示形態を区別して表示する検索要求手段と、を設けたものである。
即ち、本発明は、ファイルサーバに接続され、複数のファイルと複数のフォルダの中から所望のデータを検索する検索装置であって、ファイルの不要度を決定するための評価情報であって、異なる複数の項目で構成される評価情報と、検索用の複数のファイル及びフォルダを含む検索用インデックスデータと、を保持する記憶装置と、ファイサーバを巡回し、前記検索用インデックスデータを作成するプロセッサと、を有する。ここで、評価情報は、複数の項目のそれぞれについて、複数のファイルを分類するための複数の閾値を含んでいる。そして、プロセッサは、ファイルサーバを巡回する度に、評価情報における各項目の前記複数の閾値を設定する。また、プロセッサは、評価情報に基づいてファイルの不要度のファイルスコア値を算出し、ファイルの不要度のスコア値に基づいて当該ファイルを含むフォルダの不要度を示すフォルダスコア値を算出する。このフォルダスコア値によって削除候補となるフォルダが検出される。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の実施形態は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は実施形態を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明によれば、ファイルサーバに格納されたファイル及びフォルダに対して、ファイルのメタデータを利用し、削除候補をフォルダ単位で提示することができるようになる。
本発明の実施形態による業務文書検索システム(文書処理システム)の概略構成例を示す図である。 本発明の実施形態によるフォルダデータのデータ構成例を示す図である。 本発明の実施形態によるファイルデータのデータ構成例を示す図である。 本発明の実施形態による削除観点データのデータ構成例を示す図である。 本発明の実施形態によるファイルサーバ巡回プログラムにおいて実行される動作例を説明するフローチャートである。 本発明の実施形態による削除候補解析プログラムにおいて実行される動作例を説明するフローチャートである。 本発明の実施形態による検索要求プログラムにおいて実行される動作例を説明するフローチャートである。 本発明の実施形態による検索要求画面での検索結果の表示内容を例示する図である。
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明する(図2及び3)が、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
以下では「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって本発明のシステムにインストールされてもよい。
<業務文書検索システムの構成及び機能>
以下、本発明を実施する場合の第1の実施形態を、図面を用いて詳細に説明する。図1は、本発明に係る実施形態における、業務文書検索システム(「文書検索システム」と言うこともできる)100の概略構成を示す図である。
業務文書検索システム100は、検索サーバ1と、クライアント3と、ファイルサーバ4と、を有し、それらがLAN(Local Area Network)等の有線又は無線の通信回線9により通信可能に接続されたシステムである。ここで、検索サーバ1、ファイルサーバ4及びクライアント3はそれぞれ1台ずつ図示しているが、それぞれ2台以上存在していてもよい。また、通信回線9はLANに限定されるものではなく、例えばWAN(Wide Area Network)やインターネットとすることもできるし、これらの組み合わせとすることもできる。
以上のような構成により、後に詳述するように、検索サーバ1は、ファイルサーバ4に記憶されているファイル名等を収集して、フォルダデータ21及びファイルデータ22を作成して記憶しておくことができる。(以下、フォルダデータ21及びファイルデータ22を「インデックス」または「インデックスデータ」と呼ぶことがある。)そして、クライアント3は、検索サーバ1にファイル検索要求(以下「検索要求」と略記することがある。)を送信し、検索サーバ1は上述のインデックスデータを参照してファイル検索を行い、クライアント3にファイル検索結果(以下「検索結果」と略記することがある。)を送信することができる。
(i)クライアント3の構成・機能
クライアント3は、PC(Personal Computer)等の計算機によって構成され、入力装置32と、出力装置33と通信可能に接続されている。入力装置32は、キーボード、マウス等の装置であり、クライアント3の操作者は入力装置32を操作することで、クライアント3が実行するべき処理を指示することができる。すなわち入力装置32は、クライアント3の入力手段として機能する。出力装置33は、液晶ディスプレイ、プリンタ等の装置であり、クライアント3が実行した処理の結果等を表示あるいは印刷出力する。すなわち出力装置33はクライアント3の表示手段及び/又は出力手段として機能する。また、図示していないが、クライアント3は磁気ディスク等からなる記憶装置を内蔵、あるいは外部接続している。記憶装置と、図示していないがクライアント3の主記憶装置等は、クライアント3の記憶手段として機能する。
クライアント3は、図示していないCPU(Central Processing Unit)及び主記憶装置等を有し、当該CPUは、図示していないが、記憶装置に記憶されている検索要求プログラム31等のプログラムを主記憶装置上にローディングし、その命令コードを実行することで各種の処理を実行する。また、CPUは、検索要求プログラム31等の応用プログラムの命令コードを実行する際、OS(Operating System)等のプログラムの命令コードも実行する場合がある。以上のようなプログラム実行にかかわる技術は周知であるので、以降の説明および図面においては、プログラム実行に係る説明が煩雑になるのを避けるため、検索要求プログラム31等が主体となって処理を実行するかのように記載する。なお、各プログラムの機能を電子装置または電子装置とファームウェアの組合せ等で実現することも可能である。
検索要求プログラム31は、クライアント3の操作者が入力装置32によって入力した削除候補フォルダ解析指示(例えば、後述の処理によりファイルサーバ内の不要と推定されるフォルダの解析を要求するための指示)や、削除指示(例えば、フォルダ名が「バックアップ」であるフォルダの削除を要求するための指示)を受けて、検索サーバ1に削除要求を送信する。また、検索サーバ1がクライアント3に送信した削除候補フォルダ解析結果及び各フォルダ内のファイル情報を受信し、出力装置33に表示する。検索要求プログラム31は、実施形態1に係わる独自のプログラムであってもよいし、例えばWEBブラウザであってもよい。WEBブラウザを検索要求プログラム31として使用する場合、後述する検索サーバ1の検索プログラム13は、例えばWEBアプリケーションとすればよい。
(ii)ファイルサーバ4の構成・機能
ファイルサーバ4は、PC等の計算機によって構成され、記憶装置42と通信可能に接続されている。記憶装置42は、磁気ディスク等の装置であり、ファイルサーバ4に内蔵され又は外部接続される。図1では、1台の記憶装置42がファイルサーバ4に接続されているかのように例示しているが、実際には、むしろ2台以上の記憶装置42がファイルサーバ4に接続されることが多く、また、2台以上の記憶装置42が2台以上のファイルサーバ4に、切り替え可能に接続されることも多い。
記憶装置42は、さまざまなファイルを記憶している。図1では、ファイルのうち後述する検索サーバ1がインデックス作成対象とするものを、「検索対象ファイル43」と記述しているが、検索対象ファイル43という特定のファイルが存在するのではない。検索対象ファイル43は、例えば記憶装置42に記憶されている全てのファイルであってもよいし、あるいは、特定のフォルダ内の全てのファイル等、記憶装置42に記憶されている一部のファイルであってもよい。
ファイルサーバ4は、ファイル管理プログラム41を有している。ファイル管理プログラム41は、検索対象ファイル43を含め、記憶装置42に記憶されているファイルの記憶位置等を管理する。また、ファイル管理プログラム41は、検索サーバ1からファイルの格納場所等を受信し、当該格納場所に記憶された検索対象ファイル43等を読み込み、当該ファイルの記憶内容を検索サーバ1に送信する機能も有している。
(iii)検索サーバ1の構成・機能
検索サーバ1は、PC等の計算機で構成され、記憶装置2と通信可能に接続されている。記憶装置2は磁気ディスク等の装置で構成され、ファイルサーバ1に内蔵され又は外部接続される。図1では、1台の記憶装置2が検索サーバ1に接続されているかのように例示しているが、2台以上であってもよい。記憶装置2と、図示していないがファイルサーバ1の主記憶装置等は、ファイルサーバ1の記憶手段として機能する。
記憶装置2は、フォルダデータ21、ファイルデータ22及び削除観点データ23を記憶している。これらのファイルの記憶内容等については、以降の検索サーバ1の機能説明と合わせて説明する。
また、検索サーバ1は、ファイルサーバ巡回プログラム11、削除候補解析プログラム12、及び検索プログラム13を有している。
ファイルサーバ巡回プログラム11は、例えば毎日同じ時刻、一定時間毎(周期的)、或いはユーザが設定した時刻(必ずしも周期的である必要はない)等の所定のタイミングで、検索対象ファイル43を参照し、フォルダデータ21及びファイルデータ22を作成する。フォルダデータ21には、後述するように、フォルダのパス、当該フォルダの下位階層のフォルダのリスト、当該フォルダに格納されているファイルのリスト、及び不要フォルダか否かを判定する際に用いる削除フラグ等が記憶される。ファイルデータ22には、後述するように、ファイルのパス、ファイル名、ファイルサイズ、ファイルの更新日、及びファイルの参照回数等が記憶される。
記憶装置42内のどのファイルを検索対象ファイル43とするかについては、図示していないが、例えば、予め記憶装置2に記憶装置42のファイルパス(“/etc/usr1/”等)を1以上記憶しておき、当該ファイルパス配下のファイルを検索対象ファイル43とすることができる。なお、記憶装置42が2台以上存在する場合等には、当該ファイルパスがどの記憶装置上に存在するか等も含めて記憶しておけばよい。以上のようにフォルダデータ21及びファイルデータ22を作成することで、フォルダデータ21及びファイルデータ22を参照してファイル及びフォルダの検索を行うことが可能になり、検索の都度、検索対象ファイル43を参照する必要がなくなるので、検索に要する処理時間を短縮することができる。
なお、以上のように、フォルダデータ21及びファイルデータ22を参照して所望のファイル或いはフォルダを検索する場合、フォルダデータ21及びファイルデータ22(インデックス)作成後に検索対象ファイル43が削除された、あるいは変更されることがある。例えばファイル名が「作業報告」であるファイルについてフォルダデータ21及びファイルデータ22が作成された後、当該ファイルが削除された場合等である。このような場合、フォルダデータ21及びファイルデータ22を検索すると、検索対象ファイル43を検索した場合とは異なる検索結果が得られることになる。これは、フォルダデータ21及びファイルデータ22を参照するとファイル名が「作業報告」のファイルが存在しているように見えるが、検索対象ファイル43には存在していないからである。そこで、前述したように、ファイルサーバ巡回プログラム11は、例えば毎日同じ時刻等の所定のタイミングで処理を行うようにすることができる。このようにすることで、フォルダデータ21及びファイルデータ22が定期的に更新され、検索対象ファイル43と大きく乖離することを防ぐことができる。
そして、ファイルサーバ巡回プログラム11が処理を行うタイミングの間隔を短くすることで(例えば、1時間おきに処理を行うようにすることで)、フォルダデータ21及びファイルデータ22と検索対象ファイル43の乖離を、より小さくすることができる。ただし、ファイルサーバ巡回プログラム11が処理を行うタイミングの間隔を短くするということは、検索対象ファイル43の全ファイルに対するIOが発生する間隔も短くなるということなので、ファイルサーバ4の性能等も考慮した上で、ファイルサーバ巡回プログラム11が処理を行うタイミングの間隔を決める必要がある。例えば、検索対象ファイル43においてファイルの追加或いは削除が発生したことをファイルサーバ4から検索サーバ1に通知し、その通知に応答して、ファイルサーバ巡回プログラム11による処理のタイミングが決定されるようにしても良い。
削除候補解析プログラム12は、検索サーバ1がクライアント3からの削除候補解析開始要求(後述の図8において、削除候補フォルダ解析ボタン806が押下されたことにより起動要求が出される)を受信した場合に起動される。そして、削除候補解析プログラム12は、フォルダデータ21及びファイルデータ22を基に、削除候補となるフォルダを判定する。より具体的には、削除候補解析プログラム12は、フォルダデータ21内に格納されている、当該フォルダ内の格納ファイルリストに記載の各ファイルを解析し、当該フォルダの不要の度合いを判定しフォルダ不要度215を更新する。また、削除候補解析プログラム12は、フォルダ不要度215に基づいてフォルダ表示形態216を更新する。
不要か否かを判定するための条件は、削除観点データ23に記載されている。削除観点データ23は、削除観点データを一意に特定・識別するための情報である削除観点ID231と、当該削除観点の不要の度合いを決定する際に用いる条件(閾値)A232、条件(閾値)B233、条件(閾値)C234、及び条件(閾値)D235と、を構成情報として含んでいる。当該削除観点データ23の詳細については後述する。
検索プログラム13は、検索サーバ1がクライアント3からの検索要求を受信した場合に起動され、ファイル検索を実行する。具体的には、フォルダデータ21とファイルデータ22の一方又は両方を参照して、検索要求の検索条件式に合致するファイルが存在するかどうか判定し、存在する場合には、合致したファイルのファイル名等からなる検索結果をクライアント3に送信する。
検索プログラム13は、検索対象ファイル43をフォルダデータ21及びファイルデータ22に記憶された文書を含むフォルダのうち、不要の度合いが強いもの(必要度が低いもの)をより強調して、ツリー状の階層を作成する機能(以下「仮想分類機能」という。)を有している。当該仮想分類機能を実行する際には、フォルダデータ21が参照される。
<フォルダデータの構成及び機能>
図2は、本発明の実施形態によるフォルダデータ21のデータ構成例を示す図である。フォルダデータ21には、検索対象ファイル43が格納されるフォルダの情報が格納される。
フォルダデータ21の1レコード210は、フォルダのパス211と、当該フォルダの下位階層のフォルダのリストである下位フォルダリスト212と、当該フォルダに格納されているファイル(下位階層にフォルダがある場合には当該下位階層フォルダ(「下位フォルダ」とも言う)に含まれるファイルは除かれる)のリストである格納ファイルリスト213と、当該フォルダ以下に削除候補となるフォルダを含むか否かを示す削除候補フォルダ保持フラグ214と、当該フォルダの不要の度合いを表すフォルダ不要度215と、クライアント画面における当該フォルダの表示形態を決定する際に用いるフォルダ表示形態216の各データ項目と、を構成項目として含んでいる。
パス211には、当該フォルダの絶対パス、例えば“/ 部内共用 / バックアップ”が設定される。
下位フォルダリスト212には、当該フォルダの下位階層に格納されているフォルダ群のパスが列挙されたリスト、例えば[“/ 部内共用 / バックアップ / 動画”, “/ 部内共用 / バックアップ / 報告書”, “/ 部内共用 / バックアップ / 開発資料”]が設定される。
格納ファイルリスト213には、当該フォルダに格納されているファイル群のファイル名が列挙されたリスト、例えば[“プロモーションビデオA.avi”,“プロモーションビデオB.avi”, “Readme.txt”]が設定される。
削除候補フォルダ保持フラグ214には、当該フォルダの下位階層に、削除候補となるフォルダを含むか否かを示すフラグが格納される。削除候補となるフォルダを含む場合はtrue、含まない場合はfalseが設定される。本発明の実施形態では、後述するクライアント画面(図8)において、削除候補のフォルダ、または、下位階層に削除候補のフォルダを含むフォルダを表示する。その際の表示形態の一部を決定するために削除候補保持フラグ214が使用される。クライアント画面(図8)を生成して表示画面上に表示する場合、下位に削除候補のフォルダ(下位階層フォルダ)を有する上位階層フォルダを表示せずに、当該削除候補の下位階層フォルダのみを表示してもフォルダ間の相対的な関係が分からない。このため、当該上位階層フォルダも表示するようにしている。そして、このような表示を実現するために、上記削除候補フォルダ保持フラグ214が必要となるのである。
フォルダ不要度215には、当該フォルダの不要の度合いを数値化した値が格納される。初期値は0であり、数値が大きいほど不要の度合いが高い(必要度が低い)ことを表す。この値は後述する削除候補解析処理によって算出される。
フォルダ表示形態216には、クライアント画面における当該フォルダの表示形態(図8におけるフォルダの濃さや色)を表す数値が格納される。初期値は0で、例えば0から4の整数が格納される。フォルダ表示形態216は、フォルダ不要度215と関連しており、表示形態0は当該フォルダのフォルダ不要度215が0の場合に対応し、削除候補ではないことを表す。フォルダ不要度215が大きくなるにつれてフォルダ表示形態216も大きな値が段階的に設定されることになる。
<ファイルデータの構成及び機能>
図3は、本発明の実施形態による、ファイルデータ22のデータ構成例を示す図である。ファイルデータ22には、検索対象ファイル43における、個々のファイルの情報が格納される。
ファイルデータ22の1レコード220は、当該ファイルのパス221と、当該ファイルのファイル名222と、当該ファイルのファイルサイズ223と、当該ファイルの更新日224と、当該ファイルの参照回数225と、当該ファイルのファイルサイズ不要度226と、当該ファイルの更新日不要度227と、当該ファイルの参照回数不要度228と、各削除観点を総合した当該ファイルのファイル不要度229と、を構成項目として含んでいる。
パス221には、当該ファイルが格納されているフォルダの絶対パス、例えば“/ 部内共用 / バックアップ”が設定される。
ファイル名222には、当該ファイルのファイル名、例えば“保存用.zip”が設定される。
ファイルサイズ223には、当該ファイルのファイルサイズ、例えば“27,328”が設定される。なお数値の単位は適宜変更可能である。実施形態では単位をメガバイト(MB)とした。
更新日224には、当該ファイルの更新日、例えば“2004.03.02”が設定される。
参照回数225には、当該ファイルの参照回数、例えば“125”が設定される。なお、参照回数とは、ユーザが当該ファイルを実行した回数を表す。
ファイルサイズ不要度226、更新日不要度227、及び参照回数不要度228には、それぞれ、ファイルサイズ、更新日、参照回数の観点での当該ファイルの不要の度合いを数値化した値が格納される。初期値は0で、0から4の整数が格納される。0は不要の度合いが0(必要度が高い)、すなわち当該ファイルが当該削除観点において削除候補ではないことを表す。数値が大きいほど不要の度合いが高い(必要度が低い)ことを意味している。不要の度合いを示す”観点”はここで列挙したものに限られず、別の要素を用いても良い。
ファイル不要度229には、ファイルサイズ不要度226、更新日不要度227、参照回数不要度228を総合して決定される当該ファイルの不要の度合いを数値化した値が格納される。初期値は0で、例えば0から12の整数が格納される。ファイル不要度229は、ファイルサイズ不要度226、更新日不要度227、及び参照回数不要度228を加算した値が格納される。様々な観点で不要度を評価するので、ファイルサーバ4に含まれるファイルが不要か否か、正確に把握することが可能となる。
<削除観点データの構成>
図4は、本発明の実施形態による、削除観点データ23のデータ構成例を示す図である。削除観点データ23は、前述したように、フォルダが削除候補であるか否かを判定する際に使用される情報が格納される。
削除観点データ23の1レコード230は、削除観点データを一意に特定・識別するための情報を表す削除観点ID231と、条件A232、条件B233、条件C234、条件D235、及び条件E236と、を構成項目として含んでいる。ここでは条件がA乃至Eの5つのみ示されているがこれよりも多くても少なくても構わない。
削除観点ID231は、各削除観点データを一意に特定・識別するための情報を数値で表しており、例えば“02”が設定される。
条件AからEは、ファイルデータ22における当該削除観点の不要度を決定する際に用いる。例えばあるファイルのファイルサイズ不要度226を求める際には、当該ファイルのファイルサイズ223を条件AからEと比較し、適合する条件に対応する値(例えば、条件Aの時は0)を格納する。
以上で実施形態の業務文書検索システムの構成・機能の説明を終了する。以下、各プログラムのフローチャートを参照しつつ、実施形態のファイル検索システムの動作を説明する。
<ファイルサーバ巡回プログラムによる処理動作>
図5は、本発明の実施形態による、ファイルサーバ巡回プログラム11の処理動作を説明するためのフローチャートである。
(i)ステップS501
ファイルサーバ巡回プログラム11は、起動要求に応答して処理を開始すると、検索対象ファイル43のフォルダデータレコード210及びファイルデータレコード220を作成等する。具体的には、ファイルサーバ巡回プログラム11は、例えば、ファイル管理プログラム41に対して、予め設定したパス(例えば“/部内共用”)に含まれているファイルを読込、送信するように要求する。そして、ファイルサーバ巡回プログラム11は、ファイル管理プログラム41からファイルを受信すると、取得したファイルのパス(例えば“/部内共用/作業報告1.doc”)が、パス221に設定されているファイルデータレコード220が存在するか判定する。
該当するファイルデータレコードが存在しない場合は、ファイルサーバ巡回プログラム11は、取得したファイルに基づいて、パス、ファイル名、ファイルサイズ、更新日、参照回数を、それぞれ、パス221、ファイル名222、ファイルサイズ223、更新日224、及び参照回数225を設定して、ファイルデータレコード220を追加する。
一方、該当するファイルデータレコードが存在する場合は、ファイルサーバ巡回プログラム11は、当該ファイルデータレコード220(以下「更新対象ファイルレコード」という。)のファイルサイズ223、更新日224及び参照回数225を更新する。
また、ファイルサーバ巡回プログラム11は、当該パスが、パス211に設定されているフォルダデータレコード210が存在するか判定する。
該当するフォルダレコードが存在しない場合は、ファイルサーバ巡回プログラム11は、取得したファイルから、パス、下位階層のフォルダのリスト、格納されているファイルのリストを、それぞれ、パス211、下位フォルダリスト212、格納ファイルリスト213を設定して、フォルダデータレコード210を追加する。
一方、該当するフォルダレコードが存在する場合は、ファイルサーバ巡回プログラム11は、当該フォルダデータレコード210(以下「更新対象フォルダレコード」という。)の下位フォルダリスト212及び格納ファイルリスト213を更新する。
ファイルサーバ巡回プログラム11は、以上の処理を、予め設定したパス配下のファイル全てについて実行した後、新たに作成したファイルデータレコード220以外のレコードであって、更新対象ファイルレコードにならなかったファイルデータレコード220が存在する場合、当該ファイルデータレコード220を削除する。
同様に、ファイルサーバ巡回プログラム11は、予め設定したパス配下のファイル全てについて実行した後、新たに作成したフォルダデータレコード210以外のレコードであって、更新対象フォルダレコードにならなかったフォルダデータレコード210が存在する場合、当該フォルダデータレコード210を削除する。
なお、ファイルデータ22及びフォルダデータ21を作成等する方法は、上述の方法に限られず、予め設定したパス以下に含まれるファイル及びフォルダの情報が取得できる方法であれば任意の方法が適用可能である。
(ii)ステップS502
ファイルサーバ巡回プログラム11は、ファイルデータ22及びフォルダデータ21を作成した後、それらを基に削除観点データ23における各削除観点の条件AからEを設定する。各条件を設定する際には、各フォルダデータレコード210の格納ファイルリスト213に記載のファイル群における該当する削除観点(ファイルサイズなど)の分布に基づいて決定する。
ファイルサーバ4において、一般に不要とみなせるファイルには偏りがあると考えられる。これはパレートの法則などの経験則に基づく。パレートの法則が成り立つと仮定すると、ファイルサーバ4において、全ファイルの2割の中に不要なファイルの8割が含まれ、また別の見方をすると、全フォルダの2割の中に不要なフォルダの8割が集中していると経験則上言うことができる。そのため、条件を設定する際にはこのような経験則を考慮することで効率のよいフォルダの削除を実現することが可能となる。
例えば、削除観点がファイルサイズである場合を考える。条件A232から順に設定を行う。まず条件A232を設定する際には、インデックス登録されている全ファイルをファイルサイズが大きい順にソートする。そして、ファイルサイズが上位2割までに含まれるファイル群(例えば100000件のファイルがあるとすると、ファイルサイズが上位20000件までのファイル群)であって、ファイル群に含まれるファイルとそうでないファイルとの境界となるファイルサイズ(例えば、135MB)を求め、この値を用いて条件A232の条件式を設定する(例えば、ファイルサイズ<135MB)。この条件を用いることで、ファイルサーバの中で容量のボトルネックになっているファイルサイズが上位2割のファイルを発見することが容易になる。ファイルサイズが大きいということはファイルサーバ4を圧迫しているという考えに基づくものである。なお、「2割」という数値は固定の割合ではなく、状況に応じて適宜設定可能である。従って、一般化して、K割(ただし、K<10−Kが望ましい)と表現することができる。
また、削除観点が更新日の場合は、日付が古いほど不要の度合いが高くなる。そのため、古い順に上位2割を抽出していくことで、各条件を設定すればよい。削除観点が参照回数の場合は、参照回数が少ないほど不要の度合いが高くなる。そのため、参照回数が少ない上位2割を抽出していくことで、各条件を設定すればよい。
次に、条件B233を設定する際には、条件Aで上位2割のファイル群(上記20000件のファイル)の中でさらに上位2割となるファイル群(4000件のファイル群)であって、そのファイル群に含まれるファイルとそうでないファイルとの境界となるファイルサイズ(例えば372MB)を求め、この値と条件Aに用いた値を用いて条件B233の条件式として設定する(例えば、135MB≦ファイルサイズ<372MB)。
さらに、条件C234、条件D235、条件E236も同様に、残ったファイル群の上位2割となるファイルサイズを求めて条件式を設定する。このようにパレートの法則を多段階に適用することで、不要なファイルを特定しやすくなる。本発明の実施形態では、さらにフォルダ単位で削除候補を提示するため、ひとまとめに確認・削除することができ、より効率が高まる。さらに、他の条件を用いると、上位の中のさらに上位のファイルを絞り込んでいくことが可能となり効率的である。また、当該実施形態では、複数種類(3種類)の削除観点を複合的に考慮して不要となるフォルダを提示するため、確認・削除すべきフォルダをさらに絞り込むことが可能となる。
以上で説明したように、当該実施形態においては、ファイルサーバ巡回プログラム11が処理を行うたびに、処理時点の検索対象ファイル43に対応するフォルダデータ21とファイルデータ22と削除観点データ23が作成される。よって、動的に各ファイル及びフォルダの不要度が算出されるため、使用状況に応じて、ファイルサーバ4内のおける削除候補フォルダを動的にユーザに提示することが可能となる。
<削除解析プログラムの処理動作>
図6は、本発明の実施形態による、削除候補解析プログラム12の処理動作を説明するためのフローチャートである。削除候補解析プログラム12は、前述したように、各フォルダに含まれるファイル群を解析し、各フォルダが削除候補か否かを判定するプログラムである。削除候補解析プログラム12は各フォルダ内容を表すフォルダデータ21を順に解析し、削除候補としての解析結果をフォルダ不要度215に、またそれから得られるフォルダ表示形態216の値を格納する処理を行う。なお、フローチャート内の各処理の動作主体は、特に断らない限りは削除候補解析プログラム12である。
(i)ステップS601
削除候補解析プログラム12は、削除候補フォルダ解析要求(ボタン806の押下)に応答して処理開始すると、未処理のフォルダデータレコード210、すなわち解析が済んでいないフォルダのレコードを1つ選択する。
(ii)ステップS602
削除候補解析プログラム12は、S601で選択したフォルダデータレコード210における格納ファイルリスト213に格納されているファイル群に対して、それぞれのファイルサイズ不要度226、更新日不要度227、参照回数不要度228、ファイル不要度229を求める。
例えば、ファイルサイズ不要度226を求める際、削除候補解析プログラム12は、まず当該ファイルデータレコード220におけるファイルサイズ223(27,328MB)を取得する。次に、削除候補解析プログラム12は、削除観点データ23からファイルサイズに該当する削除観点データレコード230を参照し、各条件とファイルサイズ223を比較する。その結果該当する条件に応じてファイルサイズ不要度226を決定する。具体的には、条件Aは0、条件Bは1、条件Cは2、条件Dは3、条件Eは4となる。なお、各削除観点で条件が異なったとしても、条件と数値の対応は同一である。
そして、削除候補解析プログラム12は、各削除観点について不要度を算出後、それらの数値を加算した値を当該ファイルデータレコード220のファイル不要度229として設定する。
(iii)ステップS603
削除候補解析プログラム12は、S601で選択したフォルダデータレコード210のフォルダ不要度215を算出する。これはS602で算出した各ファイルデータレコードのファイル不要度229に基づいて算出される。様々な算出方法が適用可能であるが、当該実施形態では、当該フォルダデータレコード210の格納ファイルリスト213に含まれる各ファイルのファイルデータレコード220におけるファイル不要度229を加算した値とする。これにより、フォルダ内の個々のファイルの不要度が低くても、そのようなファイルが多数存在する場合はフォルダ不要度215が高くなり、より削除すべきフォルダをユーザに提示することが可能となる。
(iv)ステップS604
削除候補解析プログラム12は、フォルダデータ21中に未処理のレコードが存在するか否かを判定する。未処理のレコードが存在すれば、処理はS601に戻り、存在しなければ、処理はS605に進む。このようにしてフォルダデータ21中の全レコードに対して各不要度を算出する。
(v)ステップS605
削除候補解析プログラム12は、すべてのフォルダデータレコード210におけるフォルダ不要度215の分布に基づき、各フォルダデータレコード210におけるフォルダ表示形態216を求める。これは、後述するクライアント画面において、削除候補となるフォルダを表示する際に、相対的に不要の度合いが大きいフォルダを強調して表示するために行う処理である。
削除候補解析プログラム12は、フォルダ表示形態216を求める際、削除観点データ23における条件を求める場合と同様に、上述の経験則(パレートの法則)を利用する。すなわち、削除候補解析プログラム12は、まず全フォルダデータレコード210におけるフォルダ不要度215の分布を算出する(フォルダの不要度が大きい順にソートする)。そして、削除候補解析プログラム12は、フォルダ不要度215が0でないフォルダデータレコード210のフォルダ表示形態216を、1に設定する。これはフォルダ内のファイルに、いずれかの削除観点で削除候補と判定されたファイルが少なくとも1つ含んでいることを表す。
次に、削除候補解析プログラム12は、フォルダ不要度215が0でない(不要度が1に設定された)フォルダデータレコード210群の中で、フォルダ不要度215の値が上位2割となるフォルダ群を特定し、当該上位2割のフォルダレコード群に含まれる不要度の値と含まれない不要度の値との境界値を取得してこれを条件(閾値)Aとする。そして、削除候補解析プログラム12は、フォルダ不要度215が条件(閾値)Aより大きいフォルダデータレコード210のフォルダ表示形態216を、「2」に設定する。そして、さらに当該条件(閾値)Aよりも大きいフォルダ不要度215の値を有するフォルダレコード210群(表示形態「2」に設定されたフォルダ群)を、上述の処理を同様に、上位2割で区切る値で閾値を設定し、表示形態を順次決定していく。本実施形態では、フォルダ表示形態216を最大で4まで求めるようにしているが、必ずしも上限を設けなくてよい。
(vi)ステップS606
削除候補解析プログラム12は、削除候補フォルダ保持フラグ214を更新する。すなわち、これはフォルダデータ21中の全フォルダデータレコード210をチェックし、削除候補フォルダ保持フラグ214を更新することを意味する。削除候補フォルダ保持フラグ214は、仮想分類を表示する際に使用される。削除候補フォルダ保持フラグ214がtrueであれば、上述のように、当該フォルダに削除候補の下位階層フォルダが含まれることを意味するので、当該フォルダが表示され、falseであれば当該フォルダは表示されない。この処理については後述する。
具体的には、S606において、削除候補解析プログラム12は、まず各フォルダデータレコード210におけるフォルダ表示形態216をチェックし、表示形態が「0」に設定されていなければ、当該フォルダデータレコード210における削除候補フォルダ保持フラグ214をtrueに更新する。この処理はフォルダデータレコード210内の下位フォルダリスト212に格納されているパス211に該当するフォルダデータレコード210に対しても再帰的に行う。例えば、フォルダデータレコード210のパス211が“/ 部内共用 / バックアップ / 動画”であり、下位フォルダリスト212が[“/ 部内共用 / バックアップ / 動画 / 製品紹介”, “/ 部内共用 / バックアップ / 技術紹介”]であり、“/ 部内共用 / バックアップ / 動画 / 製品紹介”の下位フォルダリスト212が[“/ 部内共用 / バックアップ / 動画 / 製品紹介 / 大容量”]であり、“/ 部内共用 / バックアップ / 動画 / 技術紹介”の下位フォルダリスト212が存在しなかった場合、削除候補フォルダ保持フラグ215のチェックは以下の4つのフォルダに対して行う。
“/ 部内共用 / バックアップ / 動画”
“/ 部内共用 / バックアップ / 動画 / 製品紹介”
“/ 部内共用 / バックアップ / 動画 / 製品紹介 / 大容量”
“/ 部内共用 / バックアップ / 動画 / 技術紹介”
これらのパスに該当するフォルダデータレコード210の表示形態216の中に、0でない数値が少なくとも1つあれば、“/ 部内共用 / バックアップ / 動画”のパスに該当するフォルダデータレコード210中の削除候補フォルダ保持フラグ215はtrueとなる。
<検索要求プログラムの処理動作>
図7は、本発明の実施形態による、検索要求プログラム31の処理動作を説明するためのフローチャートである。検索要求プログラム31は、クライアント3の操作者が入力装置32を使用することにより起動される。
(i)ステップS701
検索要求プログラム31は、起動されると、出力装置33に検索要求画面800を表示する。図8は、検索要求プログラム31が起動されたときに表示される検索要求画面800の構成例を示す図である。図8において、検索要求画面800は、仮想分類表示領域801と、格納ファイル表示領域802と、削除候補フォルダ解析ボタン806と、選択フォルダ削除ボタン807と、選択ファイル削除ボタン808と、終了ボタン809と、を構成要素として含んでいる。なお、検索要求プログラム31において、必要に応じて検索プログラム13が実行される。
仮想分類表示領域801では、仮想フォルダがツリー構造で表示される。最上位階層は、ファイルサーバ4において、指定されたフォルダ以下のフォルダの階層構造が踏襲される。表示するフォルダは、フォルダデータ21を参照することによって決定される。対応するフォルダデータレコード210におけるフォルダ表示形態216の値によって、仮想フォルダの表示形態は異なる。フォルダ表示形態216が0の場合は、白色など相対的に目立たない表示形態となる。数値が大きくなるに従って、色が濃くなったり、大きさ等形状が変化したりするなど、相対的に目立つ表示形態となる。このようなフォルダを目立たせることによって、操作者は当該フォルダが削除すべきフォルダであることを認識しやすくなる。例えば「大容量」仮想フォルダ804は、より不要の度合いが強いため目立つ表示形態となっている。
また、削除候補フォルダ保持フラグ214がfalseの場合は、当該フォルダ及び当該フォルダの下の階層に削除候補フォルダが存在しないことを示す。この場合は、当該フォルダ及び当該フォルダの下位の階層を表示しない。従って、白色で表示されたフォルダは、当該フォルダは削除候補となっていない(当該フォルダ直下には不要度が高いファイルが含まれていない)が、下位階層のいずれかのフォルダには不要度が高く、削除候補対象のフォルダが含まれていることが分かる。このように、削除候補のフォルダと、その上位フォルダのみが表示されることになり、操作者は無駄なフォルダを確認する必要がなくなる。
格納ファイル表示領域802は、仮想分類表示部801において選択された仮想フォルダに格納されているファイルが表示される。これらのファイルは、選択された仮想フォルダに対応するフォルダデータレコード210における格納ファイルリスト213を参照することによって得られる。
また、格納ファイル表示領域802には、各ファイルに対応するファイルデータレコード220の、ファイル名222、ファイルサイズ223、更新日224、参照回数225及び削除対象か否かを表す削除チェックボックス805が表示される。
(ii)ステップS702
検索要求プログラム31は、検索要求画面800が表示されると、操作者からの操作を待ち受ける。
(iii)ステップS703
検索要求プログラム31は、削除候補フォルダ解析ボタン806が押下されると、検索要求プログラム31は、削除候補フォルダ解析プログラムを起動する。
(iv)ステップS704
仮想分類表示領域801において仮想フォルダが押下されると、検索要求プログラム31は、選択された仮想フォルダに対応するファイルデータレコード220を読み込み、格納ファイル表示部に該当するファイル群を表示する。
(v)ステップS705
格納ファイル表示領域802において削除チェックボックス805がチェックされると、検索要求プログラム31は、削除チェックボックスを更新する。具体的には、検索要求プログラム31は、削除チェックボックス805がチェックされる前にチェックされていない状態となっていたのであれば、チェックされた状態にし、チェックされた状態となっていたのであれば、チェックされていない状態に変更する。
(vi)ステップS706及びS707
選択フォルダ削除ボタン807が押下されると、検索要求プログラム31は、選択されているフォルダ及びその下位のフォルダ及びファイルを削除する。すなわち、仮想分類表示領域801において選択されている仮想フォルダに対応するフォルダデータレコード210と当該フォルダデータレコード210の格納ファイルリスト213に対応するファイルデータ群が削除される。ただし、当該フォルダが削除候補になっていたとしても、下位フォルダが削除候補になっているとは限らない。このような場合、当該フォルダを削除してしまうと下位フォルダも削除されてしまうことになるため、当該フォルダ直下のファイルのみ削除し、当該フォルダ自身は親フォルダとして残しておいても良い。この場合、検索要求画面800上に「当該フォルダには下位フォルダがあるので当該フォルダ直下のファイルのみ削除します」等のメッセージを表示するようにしても良い。或いは、削除候補となっていない下位フォルダについてのツリー構造を自動的に再構成するようにしても良い。
さらに、検索要求プログラム31は、当該フォルダデータレコード210の下位フォルダリスト212に対応するフォルダデータレコード210に対しても同様に削除する。
選択ファイル削除ボタン808が押下されると、検索要求プログラム31は、格納ファイル表示領域802において、削除チェックボックス805がチェックされているファイルを削除する。すなわち、対応するファイルデータレコード220が削除される。
このようにファイルやフォルダを削除する場合、検索要求プログラム31は、ファイルサーバ4上に存在する、対応するフォルダ及びファイルも削除するようにファイルサーバ4にリクエストする。
以上のS703からS707の各処理が終了すると、検索要求画面800が更新されS702に戻る。
終了ボタン809が押下されると、検索要求プログラム31は、検索要求画面800を閉じる。
<変形例>
本実施形態では、削除候補フォルダ保持フラグ214の値を決定する際に、対象のフォルダの直下のファイルのみの特徴に基づいて決定する処理について述べている。この他に、対象のフォルダの直下のファイルだけでなく、その下位に属するすべてのフォルダに含まれるファイルの特徴に基づいて決定する方法も考えられる。
また、本実施形態では、削除観点の例として、ファイルサイズとファイルの更新日とファイルの参照回数について述べている。この他の削除観点として、重複したファイル(ファイルの内容が部分的あるいはすべてが同一のファイル)を含むか否かという削除観点や、削除候補となるためのキーワード(削除キーワード)をあらかじめ設定しておき、そのキーワードを含むファイルを含むか否かという削除観点などが考えられる。前者の削除観点を導入する際には、S602の処理において、当該ファイルと重複したファイルがファイルサーバ上に含まれる数が多いほど当該不要度を高くするように設定すればよい。また、後者の削除観点を導入する場合には、S602の処理において、当該ファイルのファイル名に削除キーワードを含む数が多いほど当該不要度を高くするように設定すればよい。
<まとめ>
(1)本発明の実施形態では、検索サーバにおいて、ファイルサーバの巡回処理をして検索用インデックスを更新する度に、削除観点データ(評価情報)の各項目(例えば、ファイルサイズ不要度、更新日不要度、参照回数不要度等)における、複数の閾値(例えば、図4における条件A乃至Eの各条件に含まれるか否かを決定するための閾値)が動的に設定される。そして、削除候補解析処理において、削除観点データが参照され、各ファイルの不要度がスコア値として算出され、そのファイルのスコア値(ファイルスコア値)を合計することにより対象ファイル(例えば、直下のファイル)を含むフォルダの不要度のスコア値(フォルダスコア値)が算出される。このスコア値によって、削除候補となるフォルダが検出される。このようにすることにより、ファイルサーバに格納されたデータの削除候補をフォルダ単位で発見することができるようになる。
また、検索サーバは、検出された削除候補のフォルダの不要度を示すスコア値(フォルダスコア値)の大小に基づいて表示形態を変化させて、削除候補のフォルダを提示する。このようにすることにより、ユーザは、どのフォルダの不要度が高いか(必要度が低いか)一目瞭然で判断することができる。また、これにより、ユーザはフォルダ単位で不要ファイルを削除することができるため、削除工数の削減が可能となる。また、フォルダ内の関連ファイルもまとめて削除できる。さらに、個々のファイルは不要か否かを判断し難い場合でも、フォルダ単位で不要とみなせる場合であれば削除が可能となる。
削除観点データの各条件を決定する複数の閾値を設定する場合、パレートの法則のような経験則を多段階で適用する。つまり、複数の項目のそれぞれについて、検索用インデックスに含まれる全ファイルのうち上位m%(例えば20%)に含まれる第1のファイル群を特定し、当該第1のファイル群に含まれるか否かの境界となる値を第1の閾値とする。第1のファイル群のうちさらに上位m%に含まれる第2のファイル群を特定し、当該第2のファイル群に含まれるか否かの境界となる値を第2の閾値とする閾値決定処理を実行する。この閾値決定処理を繰り返すことにより複数の閾値を決定して、削除観点データ(評価情報)を設定する。このようにすることにより、閾値が固定化されず、そのときのファイルサーバの状況に応じて適応的にフォルダの不要度を評価するための要素を決定することができる。また、このように全ファイルを、各項目(例えば、ファイルサイズ不要度、更新日不要度、参照回数不要度等)について相対的に評価できるようにしているので、不要なファイル及びフォルダの候補が固定化されず、必ず削除候補を検出することができる。さらに、パレートの法則に基づいて不要か否かの評価を行っているので、できるだけ少ないファイル及びフォルダをチェックするだけで、できるだけ多くの削除候補を検出できるため(不要なファイルを絞り込みやすいため)、処理効率を高くすることができる。
また、表示形態を決定する場合にもパレートの法則を多段階で適用する。つまり、全フォルダのうち、フォルダスコア値が上位n%(例えば、20%)に含まれる第1のフォルダ群を特定し、当該第1のフォルダ群に含まれるフォルダに第1の表示形態を割り当てる。第1のフォルダのうちさらにフォルダスコア値が上位n%(20%)に含まれる第2のフォルダ群を特定し、当該第2のフォルダ群に含まれるフォルダに第2の表示形態を割り当てる表示形態割り当て処理を実行する。この表示形態割り当て処理を繰り返すことにより、削除候補となるフォルダの表示形態を決定する。このようにすることにより、表示形態が固定化される事態を回避することができる。よって、ユーザは削除すべきか否かの判断がし易くなる。
なお、あるフォルダについて、下位階層に削除候補と判断された下位フォルダがある場合には、当該フォルダが削除候補ではないと判断された場合でも、当該フォルダを削除候補ではないことを示す表示形態(例えば、「白表示」)で表示するようにする。このようにすることにより、ユーザは、下位階層に削除候補フォルダがあることを簡単に認識することができ、深い階層にあるフォルダの削除の是非を決定することができる。また、下位階層に削除候補のフォルダもなく、当該フォルダも削除候補となっていない場合には、そのフォルダ及び下位フォルダは表示さなれいため、ユーザは、惑わされることもなく、フォルダの削除の是非を決定することができるようになる。
(2)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び/又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。
1・・・検索サーバ
2・・・記憶装置
3・・・クライアント(計算機)
4・・・ファイルサーバ
11・・・ファイルサーバ巡回プログラム
12・・・削除候補解析プログラム
13・・・検索プログラム
21・・・フォルダデータ
22・・・ファイルデータ
23・・・削除観点データ
31・・・検索要求プログラム
32・・・入力装置
33・・・出力装置
41・・・ファイル管理プログラム
42・・・記憶装置
43・・・検索対象ファイル
100・・・業務文書検索システム

Claims (11)

  1. ファイルサーバに接続され、複数のファイルと複数のフォルダの中から所望のデータを検索する検索装置であって、
    ファイルの不要度を決定するための評価情報であって、異なる複数の項目で構成される評価情報と、検索用の複数のファイル及びフォルダを含む検索用インデックスデータと、を保持する記憶装置と、
    前記ファイサーバを巡回し、前記検索用インデックスデータを作成するプロセッサと、を有し、
    前記評価情報は、前記複数の項目のそれぞれについて、前記複数のファイルを分類するための複数の閾値を含み、
    前記プロセッサは、前記ファイルサーバを巡回する度に、前記評価情報における各項目の前記複数の閾値を設定し、前記評価情報に基づいて前記ファイルの不要度のファイルスコア値を算出し、ファイルの不要度のスコア値に基づいて当該ファイルを含むフォルダの不要度を示すフォルダスコア値を算出し、当該フォルダスコア値によって削除候補となるフォルダを検出し、
    前記プロセッサは、前記複数の項目のそれぞれについて、前記検索用インデックスに含まれる全ファイルのうち上位m%に含まれる第1のファイル群を特定し、当該第1のファイル群に含まれるか否かの境界となる値を第1の閾値とし、前記第1のファイル群のうちさらに上位m%に含まれる第2のファイル群を特定し、当該第2のファイル群に含まれるか否かの境界となる値を第2の閾値とする閾値決定処理を実行し、当該閾値決定処理を繰り返すことにより前記複数の閾値を決定して、前記評価情報を設定することを特徴とする検索装置。
  2. 請求項1において、
    前記プロセッサは、前記削除候補のフォルダを前記フォルダスコア値に応じて表示形態を区別して表示装置に表示することを特徴とする検索装置。
  3. 請求項において、
    前記プロセッサは、全フォルダのうち、前記フォルダスコア値が上位n%に含まれる第1のフォルダ群を特定し、当該第1のフォルダ群に含まれるフォルダに第1の表示形態を割り当て、さらに、前記第1のフォルダのうちさらに前記フォルダスコア値が上位n%に含まれる第2のフォルダ群を特定し、当該第2のフォルダ群に含まれるフォルダに第2の表示形態を割り当てる表示形態割り当て処理を実行し、当該表示形態割り当て処理を繰り返すことにより、前記削除候補となるフォルダの表示形態を決定することを特徴とする検索装置。
  4. 請求項において、
    前記プロセッサは、各フォルダの前記フォルダスコア値を、該当するフォルダ直下のファイルの前記ファイルスコア値を合計することにより算出することを特徴とする検索装置。
  5. 請求項において、
    前記プロセッサは、対象のフォルダの下位階層に前記削除候補と判断された下位フォルダがある場合には、前記対象のフォルダが削除候補ではないと判断された場合でも、前記対象のフォルダを削除候補ではないことを示す表示形態で前記表示装置に表示することを特徴とする検索装置。
  6. ファイルサーバに接続された検索装置において、複数のファイルと複数のフォルダを管理する文書管理方法であって、
    前記検索装置は、ファイルの不要度を決定するための評価情報であって、異なる複数の項目で構成される評価情報と、検索用の複数のファイル及びフォルダを含む検索用インデックスデータと、を保持する記憶装置と、前記ファイサーバを巡回し、前記検索用インデックスデータを作成するプロセッサと、を有し、
    前記評価情報は、前記複数の項目のそれぞれについて、前記複数のファイルを分類するための複数の閾値を含み、
    前記文書管理方法は、
    前記プロセッサが、前記ファイルサーバを巡回する度に、前記評価情報における各項目の前記複数の閾値を設定するステップと、
    前記プロセッサが、前記評価情報に基づいて前記ファイルの不要度のファイルスコア値を算出し、ファイルの不要度のスコア値に基づいて当該ファイルを含むフォルダの不要度を示すフォルダスコア値を算出し、当該フォルダスコア値によって削除候補となるフォルダを検出するステップと、を含み、
    前記複数の閾値を設定するステップにおいて、前記プロセッサは、前記複数の項目のそれぞれについて、前記検索用インデックスに含まれる全ファイルのうち上位m%に含まれる第1のファイル群を特定し、当該第1のファイル群に含まれるか否かの境界となる値を第1の閾値とし、前記第1のファイル群のうちさらに上位m%に含まれる第2のファイル群を特定し、当該第2のファイル群に含まれるか否かの境界となる値を第2の閾値とする閾値決定処理を実行し、当該閾値決定処理を繰り返すことにより前記複数の閾値を決定して、前記評価情報を設定することを特徴とする文書管理方法。
  7. 請求項において、
    さらに、前記プロセッサが、前記削除候補のフォルダを前記フォルダスコア値に応じて表示形態を区別して表示装置に表示するステップを含むことを特徴とする文書管理方法。
  8. 請求項において、
    前記表示するステップにおいて、前記プロセッサは、全フォルダのうち、前記フォルダスコア値が上位n%に含まれる第1のフォルダ群を特定し、当該第1のフォルダ群に含まれるフォルダに第1の表示形態を割り当て、さらに、前記第1のフォルダのうちさらに前記フォルダスコア値が上位n%に含まれる第2のフォルダ群を特定し、当該第2のフォルダ群に含まれるフォルダに第2の表示形態を割り当てる表示形態割り当て処理を実行し、当該表示形態割り当て処理を繰り返すことにより、前記削除候補となるフォルダの表示形態を決定することを特徴とする文書管理方法。
  9. 請求項において、
    前記プロセッサは、各フォルダの前記フォルダスコア値を、該当するフォルダ直下のファイルの前記ファイルスコア値を合計することにより算出することを特徴とする文書管理方法。
  10. 請求項において、
    前記表示するステップにおいて、前記プロセッサは、対象のフォルダの下位階層に前記削除候補と判断された下位フォルダがある場合には、前記対象のフォルダが削除候補ではないと判断された場合でも、前記対象のフォルダを削除候補ではないことを示す表示形態で前記表示装置に表示することを特徴とする文書管理方法。
  11. 検索対象データを有するファイルサーバと、請求項乃至の何れか1項に記載の検索装置と、クライアント装置と、を有し、
    前記クライアント装置は、ユーザの指示に応答して、表示装置に表示された削除候補のフォルダの削除要求を前記検索装置に送信し、
    前記検索装置は、前記削除要求に応答して該当するフォルダを前記検索用インデックスデータから削除し、前記検索用インデックスから削除されたフォルダを前記検索対象データから削除するように前記ファイルサーバに要求し、
    前記ファイルサーバは、前記検索装置から受信したフォルダの削除要求に応答して、該当フォルダを削除し、前記検索対象データと前記検索用インデックスの内容について同期を取ることを特徴とする文書検索システム。
JP2011227278A 2011-10-14 2011-10-14 検索装置、文書管理方法、及び文書検索システム Expired - Fee Related JP5753056B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011227278A JP5753056B2 (ja) 2011-10-14 2011-10-14 検索装置、文書管理方法、及び文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011227278A JP5753056B2 (ja) 2011-10-14 2011-10-14 検索装置、文書管理方法、及び文書検索システム

Publications (2)

Publication Number Publication Date
JP2013088931A JP2013088931A (ja) 2013-05-13
JP5753056B2 true JP5753056B2 (ja) 2015-07-22

Family

ID=48532803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011227278A Expired - Fee Related JP5753056B2 (ja) 2011-10-14 2011-10-14 検索装置、文書管理方法、及び文書検索システム

Country Status (1)

Country Link
JP (1) JP5753056B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6215004B2 (ja) * 2013-10-30 2017-10-18 株式会社日立ソリューションズ 業務文書処理装置、業務文書処理方法、プログラム、及びコンピュータ読み取り可能な記憶媒体
US9983796B2 (en) * 2015-09-17 2018-05-29 Veritas Technologies Llc Systems and methods for provisioning frequently used image segments from caches
JP6730596B2 (ja) * 2016-06-30 2020-07-29 富士通株式会社 ファイル提示プログラム、ファイル提示装置及びファイル提示方法
CN112540968A (zh) * 2020-12-10 2021-03-23 中信银行股份有限公司 一种hdfs的垃圾回收方法及装置
JP7222491B2 (ja) * 2021-03-17 2023-02-15 Necプラットフォームズ株式会社 階層型ストレージ装置、ファイル制御方法及びファイル制御プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030172094A1 (en) * 2002-03-06 2003-09-11 International Business Machines Corporation Automatic file system maintenance
JP2005018225A (ja) * 2003-06-24 2005-01-20 Fuji Xerox Co Ltd ドキュメント管理装置
JP2005148798A (ja) * 2003-11-11 2005-06-09 Casio Comput Co Ltd 情報処理装置および情報処理のプログラム
JP2006302010A (ja) * 2005-04-21 2006-11-02 Kyocera Mita Corp 情報処理装置
JP5426888B2 (ja) * 2008-06-11 2014-02-26 株式会社日立ソリューションズ ファイル検索システム
JP2011059919A (ja) * 2009-09-09 2011-03-24 Fujitsu Ltd 情報管理装置、情報管理方法、及び、情報管理プログラム

Also Published As

Publication number Publication date
JP2013088931A (ja) 2013-05-13

Similar Documents

Publication Publication Date Title
US9262714B2 (en) Frequent pattern extraction apparatus frequent pattern extraction method and program
US10417265B2 (en) High performance parallel indexing for forensics and electronic discovery
JP5759915B2 (ja) ファイルリスト生成方法及びシステム並びにプログラム、ファイルリスト生成装置
JP4930153B2 (ja) 文書検索システム、文書番号部分列取得装置、および文書検索方法
JP5753056B2 (ja) 検索装置、文書管理方法、及び文書検索システム
JP2009075655A (ja) ファイル管理システム、ファイル管理方法、およびファイル管理プログラム
JP2005078612A (ja) ファイル共有システム及びファイル共有装置間のファイル移行方法
CN101692236A (zh) 管理来自多个源的媒体文件
US20070100888A1 (en) Method and apparatus for managing content file information, and recording medium storing program for performing the method
WO2010076625A1 (en) Method, apparatus and computer program product for providing analysis and visualization of content items association
KR101744892B1 (ko) 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법
US9280551B2 (en) De-duplication deployment planning
US20130346385A1 (en) System and method for a purposeful sharing environment
CN101432727A (zh) 项目类型特定结构的搜索
KR100858157B1 (ko) 맵 업데이트 시스템 및 방법, 방법 프로그램을 기록한저장매체, 사용자 단말기
CN107408239B (zh) 通过多个邮箱在通信应用中进行海量数据管理的架构
JP5912949B2 (ja) 業務文書処理システム、及びプログラム
JP2008310514A (ja) ユーザ操作履歴取得表示装置、ユーザ操作履歴取得表示方法、ユーザ操作履歴取得表示プログラム及びそのプログラムを記録した記録媒体
JPWO2010061538A1 (ja) 情報検索装置、情報検索方法、及びプログラム
JP2012208565A (ja) ログ管理方法、ログ管理装置、及びプログラム
JP5958539B2 (ja) 情報処理装置、ファイル管理方法、及びファイル管理プログラム
JP5757187B2 (ja) ファイル格納先候補決定装置、ファイル格納先候補の決定方法、ファイル格納先決定支援システム、並びにコンピュータ・プログラム
WO2019163610A1 (ja) 情報処理システム及び情報処理方法
JP2012027841A (ja) 検索プログラム、検索装置、検索システム、検索方法及び記録媒体
JP2021068082A (ja) ファイルレコメンドシステム、ファイルレコメンドプログラム、ファイルレコメンド方法、及び、ファイルレコメンド装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150521

R150 Certificate of patent or registration of utility model

Ref document number: 5753056

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees