以下に添付図面を参照し、本発明にかかる電子文書管理装置、表示方法、表示制御プログラムおよび記録媒体の好適な実施の形態を詳細に説明する。以下に示す実施の形態では、本発明にかかる電子文書管理装置を、複数の端末がアクセスするファイルサーバ上に設けられた複数の格納領域に関する表示画面を表示するコンピュータ装置に適用した例である。
(電子文書システムの概要構成)
まず、本発明の実施の形態にかかる電子文書システムの概要構成について説明する。図1は、本発明の実施の形態にかかる電子文書システムの概要構成を示す説明図である。図1に示すように、電子文書システム100は、端末101と、ファイルサーバ102と、管理サーバ103と、管理者端末104とがネットワーク110により接続されて構成される。
端末101は、液晶ディスプレイなどの表示機器や、キーボードやマウスなどの入力デバイスを備えている。端末101の利用者(以下「電子文書利用者」という)は、端末101が備える表示機器および入力デバイスを用いて、電子文書の閲覧や編集をおこなうことができる。たとえば、ここで、電子文書は、文書データ(たとえばドキュメントやテキスト)や、画像データ(たとえばJPEGやPDF)や、音声データ(たとえばWAVやAAC)とすることができる。端末101は、パーソナル・コンピュータなどのコンピュータ装置により実現される。
また、端末101は、ネットワーク110を介して、ファイルサーバ102へアクセスすることができる。たとえば、電子文書利用者は、端末101からファイルサーバ102へアクセスすることで、ファイルサーバ102の格納領域に電子文書を格納したり、ファイルサーバ102に格納された電子文書を閲覧・編集したり、ファイルサーバ102に格納された電子文書を自身が使用中の端末101へダウンロードしたりすることができる。
ファイルサーバ102は、ハードディスクなどの記憶装置を備えている。ファイルサーバ102は、この記憶装置の記憶領域内に電子文書を格納するための格納領域を設けて、この格納領域に電子文書を格納して記憶することができる。ファイルサーバ102は、自身が管理する記憶装置を、ネットワーク110を介してアクセスしてきた端末101と共有して利用できるようにする。
これにより、前述したように、ファイルサーバ102は、端末101を使用中の電子文書利用者からの指示にしたがって自身が管理する記憶装置の格納領域に電子文書を格納したり、格納中の電子文書を閲覧や編集させたりすることができる。ファイルサーバ102については公知の技術であるために詳細な説明は省略する。ファイルサーバ102は、ワークステーションやNAS(Network Attached Storage)などによって実現される。
管理サーバ103は、ネットワーク110を介して、ファイルサーバ102に接続されて、ファイルサーバ102上の複数の格納領域に対して、電子文書の格納状態をあらわすための複数の項目に関する分析をおこなう。さらに、管理サーバ103は、分析結果に基づいて、それぞれの項目ごとに集計をおこなうこともできる。管理サーバ103がおこなう分析や集計の内容については後述する。また、管理サーバ103は、表示機器を備えており、おこなった分析の分析結果や、おこなった集計の集計結果を表示させることもできる。管理サーバ103はワークステーションなどのコンピュータ装置により実現される。
管理者端末104は、電子文書システム100の管理者(以下「システム管理者」という)が利用する端末であり、端末101と同様に、表示機器や入力デバイスを備えている。また、管理者端末104は、ネットワーク110を介して、ファイルサーバ102や管理サーバ103へアクセスすることができる。システム管理者は、管理者端末104により管理サーバ103へアクセスして、管理サーバ103に分析結果や集計結果の表示要求をすることで、管理者端末104が備える表示機器に分析結果や集計結果を表示させることができる。管理者端末104は、パーソナル・コンピュータなどのコンピュータ装置により実現される。
(コンピュータ装置のハードウェア構成)
つぎに、本発明の実施の形態にかかるコンピュータ装置(たとえば端末101、管理サーバ103、管理者端末104)のハードウェア構成について説明する。図2は、本発明の実施の形態にかかるコンピュータ装置のハードウェア構成を示す説明図である。
図2において、コンピュータ装置200は、CPU201と、ROM202と、RAM203と、HDD(ハードディスクドライブ)204と、HD(ハードディスク)205と、FDD(フレキシブルディスクドライブ)206と、着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)207と、ディスプレイ208と、I/F(インターフェース)209と、キーボード210と、マウス211とを備えている。また、各構成部はバス220によってそれぞれ接続されている。
ここで、CPU201は、コンピュータ装置200の全体の制御を司る。ROM202は、ブートプログラムなどの各種プログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。HDD204は、CPU201の制御にしたがってHD205に対するデータのリード/ライトを制御する。HD205は、HDD204の制御で書き込まれたデータを記憶する。
FDD206は、CPU201の制御にしたがってFD207に対するデータのリード/ライトを制御する。FD207は、FDD206の制御で書き込まれたデータを記憶したり、FD207に記憶されたデータをコンピュータ装置に読み取らせたりする。
また、着脱可能な記録媒体として、FD207のほか、CD−ROM(CD−R、CD−RW)、MO、DVD(Digital Versatile Disk)、メモリーカードなどであってもよい。ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F209は、通信回線を通じてインターネットなどのネットワーク110に接続され、このネットワーク110を介して他のコンピュータ装置に接続される。そして、I/F209は、ネットワーク110と内部のインターフェースを司り、他のコンピュータ装置からのデータの入出力を制御する。I/F209には、たとえば、モデムやLANアダプタなどを採用することができる。
キーボード210は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
(電子文書システムの機能的構成)
つぎに、電子文書システムの機能的構成について説明する。図3は、本発明の実施の形態にかかる電子文書システムの機能的構成を示す説明図である。図3に示すように、電子文書システム100は、分析対象設定部301と、分析部302と、集計部303と、表示制御部304と、表示部305とを備える。
分析対象設定部301は、分析対象設定部301に接続された複数の格納領域(図3中の符号310で示す格納領域群)の中から、分析部302による分析の対象となる格納領域(以下「分析対象格納領域」という)を設定する機能を有する。たとえば、分析対象設定部301は、システム管理者からの操作に基づいて、ファイルサーバ102の記憶領域内に設けられた複数の格納領域の中から分析対象格納領域を設定する。
分析部302は、分析対象設定部301により設定された分析対象格納領域に対して、電子文書の格納状態をあらわすための複数の項目に関する分析をおこなう機能を有する。たとえば、分析部302は、分析対象格納領域に格納された各電子文書に対して、予め定めた複数の項目で分析をおこなう。以下、このように、分析部302が分析に用いる項目を「分析項目」という。
(分析部による分析の分析結果の一例)
ここで、分析部302による分析の分析結果の一例について説明する。図4は、本実施の形態の分析部による分析の分析結果の一例を示す説明図である。図4に示すように、分析部302は、分析をおこなうに際して、分析対象格納領域に格納された電子文書の、名称401、パス402、サイズ403、作成日404、更新日405、アクセス日406、作成者407、所有者408などを示す情報を取得する。以下、これらを示す情報を「属性情報」という。たとえば、属性情報は電子文書がメタデータとして保持しており、分析部302はこのメタデータから属性情報を取得することができる。
ここで、名称401は、電子文書に付与された名称で、たとえば、電子文書の作成時または更新時に設定された任意の文字列とすることができる(たとえば図示の例ではFile11_1.doc)。また、名称401には、電子文書の種類を示すための拡張子も含まれる(たとえば図示の例では.doc)。パス402は、ファイルサーバ102において電子文書が格納された格納領域を示す文字列(たとえばこの電子文書へアクセスするためのURLを示す文字列)とすることができる(たとえば図示の例では「A/Folder1)。
サイズ403は、電子文書のデータ容量を示す(たとえば図示の例では236.0KB)。作成日404は、電子文書が作成された日時を示す(たとえば図示の例では2009年5月10日、20:28:22)。更新日405は、電子文書が最後に更新された日時を示す(たとえば図示の例では2009年5月28日、10:13:10)。アクセス日406は、電子文書が最後にアクセスされた(たとえば閲覧された)日時を示す(たとえば図示の例では2009年5月28日、10:13:10)。
作成者407は、この電子文書を作成した作成者名を示す(たとえば図示の例ではuser1)。所有者408は、電子文書を所有している所有者名を示す(たとえば図示の例ではuser1)。
分析部302は、上記のような属性情報を取得すると、この属性情報に基づいて、電子文書の種類409、陳腐化410、未参照411、不要な種類412、重複413を示す情報を設定する。このように属性情報に基づいて設定される、電子文書の種類409、陳腐化410、未参照411、不要な種類412、重複413を示す情報を、本実施の形態では以下「電子文書管理情報」という。
ここで、電子文書の種類409は、電子文書のカテゴリをあらわす項目とすることができ、電子文書の拡張子に応じて予め定められた番号が設定される。たとえば、分析部302は、名称401を参照して、電子文書の拡張子が「.tmp」などの一時データであれば、電子文書の種類409に「0」を設定する。
また、分析部302は、電子文書の拡張子が「.doc」などの文書データであれば、電子文書の種類409に「1」を設定し、「.JPG」や「.WAV」などの画像データや音声データであれば、電子文書の種類409に「2」を設定する。それ以外の拡張子であれば、電子文書の種類409に「3」を設定する。図示の例では、名称401が「File11_1.doc」であるため、電子文書の種類409に「1」が設定されている。
陳腐化410は、電子文書の活用状況を示す項目とすることができる。たとえば、分析部302は、更新日405を参照して、更新日405が分析時の日時より3年以上前の電子文書(所定期間内に活用されていない電子文書)であれば、陳腐化410に「1」を設定する。更新日405が分析時の日時より3年以上前の電子文書でなければ(所定期間内に活用されている電子文書であれば)、陳腐化410に「0」を設定する。図示の例では、分析をおこなった日時が「2010年5月18日」であるものとして、陳腐化410に「0」が設定されている。
未参照411は、陳腐化410と同様に、電子文書の活用状況を示す項目とすることができる。たとえば、分析部302は、作成日404または更新日405を参照して、作成日404以降に参照されていない電子文書、または更新日405以降に参照されていない電子文書であれば「1」を設定する。作成日404以降に参照されていたり、更新日405以降に参照されていたりする電子文書であれば「0」を設定する。図示の例では、更新日405以降にアクセスがあったため、未参照411に「0」が設定されている。
不要な種類412は、電子文書の拡張子に応じて設定される項目である。たとえば、分析部302は、電子文書の種類409を参照して、電子文書の種類409が「0」の電子文書(本実施の形態では拡張子が「.tmp」などの一時データ)であれば、不要な種類412に「1」を設定する。電子文書の種類409が「0」の電子文書でなければ、不要な種類412に「0」を設定する。また、分析部302は、画像データや音声データなど、電子文書の種類409が「2」の電子文書であっても不要な種類412に「1」を設定するようにしてもよい。図示の例では、電子文書の種類409が「1」であるため、不要な種類412に「0」が設定されている。
重複413は、本文・属性重複413aと、名称類似413bとからなる。分析部302は、分析対象格納領域内に本文または属性情報が重複する他の電子文書があるときに、本文・属性重複413aに「1」を設定する。分析対象格納領域内に本文または属性が重複する他の電子文書がないときに、本文・内容重複413aに「0」を設定する。分析部302は、分析対象格納領域内に名称が類似する他の電子文書があるときに、名称類似413bに「1」を設定する。名称が類似する他の電子文書がないときに、名称類似413bに「0」を設定する。
また、本文・属性重複413aや名称類似413bに、重複または類似していることを示す「1」を設定した場合、分析部302は、重複または類似した電子文書同士が同一グループとなるようにグループ番号の設定をおこなう。たとえば、分析部302は、「File11_1.doc」と、「File11_2.doc」とが重複していると判定したとする。この場合、「File11_1.doc」と「File11_2.doc」との本文・属性重複413aに「1」を設定し、グループをあらわす「グループ1」を設定する。グループ番号は、各々のグループが識別可能なように、重複しない任意の番号が設定される。本文または属性が重複する他の電子文書があるか否かを判定するための処理の概要や、名称が類似する他の電子文書があるか否かを判定するための処理の概要については後述する。
ここでは、電子文書のメタデータにより属性情報を取得したが、分析部302は、電子文書の内容から属性情報を取得することにしてもよい。たとえば、分析部302は、文書データである電子文書の本文を参照して、この本文に予め定められたキーワードがいくつ含まれるかをカウントし、このカウント値を属性情報として取得するようにしてもよい。そして、このカウント値が所定値以上であった場合は、機密対象の電子文書とするような電子文書管理情報を設定するようにしてもよい。
また、分析部302は、図3に示すように、分析項目設定部302aを備えてもよい。ここで、分析項目設定部302aは、分析項目を設定する機能を有する。たとえば、分析項目設定部302aは、システム管理者からの操作に基づいて、分析項目を設定する。これにより、システム管理者は、所望の分析項目についてのみ分析することで、分析に必要となる所要時間を短縮させたり、所望の分析結果のみを確認できるようにしたりすることができる。分析部302は、上記に示した分析を、分析対象格納領域内のすべての電子文書におこない、これらの分析結果を集計部303へ出力する。
集計部303は、分析部302からの分析結果を受け付けて、分析対象格納領域において、分析項目が所定条件を満たす電子文書を集計する機能を有する。また、集計部303は、分析対象格納領域において、分析項目が所定条件を満たす電子文書が占める割合を集計してもよい。
たとえば、集計部303は、分析対象格納領域ごとに、陳腐化410、未参照411、不要な種類412、本文・属性重複413a、名称類似413bのそれぞれの分析項目に対して「1」が設定された電子文書の数をカウントする。また、集計部303は、分析対象格納領域ごとに、格納された全電子文書の数をカウントして、この数と、それぞれの分析項目において「1」が設定された電子文書との割合を算出することもできる。集計部303は、集計をおこなうと、集計結果を表示制御部304へ出力する。
表示制御部304は、表示制御部304により表示制御された表示をおこなう表示部305と接続される。表示制御部304は、分析部302から分析結果を受け付けると、この分析結果に基づいて、複数の分析対象格納領域と、それぞれの分析対象格納領域に対する分析結果とをそれぞれ対応させて、表示部305に表示させる機能を有する。たとえば、表示制御部304は、表示画面上の所定軸(たとえば縦軸)に沿って分析対象格納領域の一覧を配置し、所定軸と直交する軸(たとえば横軸)に沿ってそれぞれの分析対象格納領域に対する分析結果を配置した表示画面を表示させる。
また、表示制御部304は、集計部303から集計結果を受け付けると、この集計結果に基づいて、複数の分析対象格納領域と、それぞれの分析対象格納領域に対する集計結果とをそれぞれ対応させて、表示部305に表示させることもできる。この場合も、上記と同様に、たとえば、表示制御部304は、所定軸に沿って分析対象格納領域の一覧を配置し、所定軸と直交する軸に沿ってそれぞれの分析対象格納領域に対する集計結果を配置した表示画面を表示させる(図11などを参照)。
さらに、集計部303がそれぞれの分析対象格納領域において分析結果が所定条件を満たす電子文書が占める割合を集計すれば、表示制御部304は、それぞれの分析対象格納領域に対応させて、当該格納領域における所定条件を満たす電子文書が占める割合を表示させることもできる。この場合も、表示制御部304は、所定軸に沿って分析対象格納領域の一覧を配置し、所定軸と直交する軸に沿ってそれぞれの分析対象格納領域において所定条件を満たす電子文書が占める割合を配置して表示させる(図12などを参照)。ここで、割合は、数値によりあらわしてもよいが、数値を模式的にあらわしたインジケータなどを用いて画像によりあらわしてもよい。このように、画像を用いてあらわすことで、視認性を向上させたり、直感的に把握しやすくしたりすることができる。
また、所定条件を満たす電子文書が占める割合を表示する際に、表示制御部304は、割合が高い格納領域ほど上となるようにソートして表示させることができる。こうすることで、所定条件を満たす電子文書(たとえばシステム利用者により確認が必要だと思われる電子文書)が上(先に目に入る位置)に配置されるため、システム利用者による電子文書の確認作業を省力化することができる。
ところで、上記のように、表示制御部304は、分析対象格納領域など、任意の格納領域を表示している際に、システム管理者などによりいずれかの格納領域が指定されると、この格納領域に格納された電子文書と、当該電子文書に対する分析結果を表示させることができる。この場合、表示制御部304は、表示画面上の所定軸(たとえば縦軸)に沿って指定された格納領域に格納された電子文書の一覧を配置し、所定軸と直交する軸(たとえば横軸)に沿ってそれぞれの電子文書に対する分析結果を配置した表示画面を表示させる(図13などを参照)。以下、このように電子文書と分析結果とが表示される表示画面を「電子文書一覧画面」という。
電子文書一覧画面を表示させる際に、表示制御部304は、分析結果が所定の条件を満たす電子文書群を、類似(または重複)する電子文書群として、グループ化して表示させることができる。ここで、グループ化して表示させるとは、たとえば、分析結果が所定の条件を満たす電子文書を、集合させて表示させたり、グループであることを示唆するように色付け表示させたりすることである。また、電子文書一覧画面において、表示制御部304は、複数の分析項目を並べて配置することもできるし、一つの分析項目だけを配置することもできる。なお、表示制御部304による表示制御の内容については、図11〜図19を用いて後述する。
さらに、図3に示すように、電子文書システム100は判定部306を備えてもよい。ここで、判定部306は、集計部303による集計結果に基づいて、分析対象格納領域において、所定条件を満たす電子文書が占める割合が予め定められた閾値以上であるか否かを判定する機能を有する。たとえば、判定部306は、所定条件を満たす電子文書が占める割合が40%以上であるかを判定する。
また、判定部306は、段階的に評価するための複数の閾値を用いて、段階的な判定をおこなってもよい。たとえば、判定部306は、所定条件を満たす電子文書が占める割合が20%未満であるか、20%以上40%未満であるか、40%以上であるか、の3段階の判定をおこなう。判定部306を備えた場合、表示制御部304は、判定部306による判定結果に応じて、該当する分析対象格納領域を強調表示することができる(たとえば図12参照)。これにより、所定条件を満たす電子文書(たとえばシステム利用者により確認が必要だと思われる電子文書)を目立たせることができ、システム利用者の注意をひくことができるとともに電子文書の確認作業を省力化することができる。
また、図3に示すように、電子文書システム100は、通知部307を備えてもよい。ここで、通知部307は、判定部306による判定結果に応じて、所定条件を満たす電子文書が占める割合が閾値以上となった分析対象格納領域を、任意のコンピュータ装置(たとえば管理者端末104)へ通知する機能を有する。
たとえば、通知部307には、管理者端末104宛のE−mailアドレスが予め設定されており、所定条件を満たす電子文書が占める割合が閾値以上となった分析対象格納領域を示す文字列を記載したE−mailを管理者端末104へ送信することができる。こうすることで、電子文書システム100は、所定条件を満たす電子文書が占める割合が閾値以上となった分析対象格納領域があることと、その分析対象格納領域の名称やパスをシステム管理者に通知することができる。
上記の分析対象設定部301と、分析部302と、集計部303と、表示制御部304とは、たとえば、管理サーバ103としてのコンピュータ装置200のCPU201が、予め用意されたプログラムを実行することにより、その機能を実現することができる。また、表示部305は、管理サーバ103としてのコンピュータ装置200のディスプレイ208により、その機能を実現することができる。
また、表示制御部304は、たとえば、管理者端末104としてのコンピュータ装置200のCPU201が、予め用意されたプログラムを実行することにより、その機能を実現してもよく、この場合、表示部305は、管理者端末104としてのコンピュータ装置200のディスプレイ208により、その機能を実現することができる。
また、本実施の形態では、ネットワーク110を用いた電子文書システム100に本発明の電子文書管理装置を適用しているが、これに限るものではない。たとえば、1台のコンピュータ装置であっても本発明の電子文書管理装置を実現することができる。この場合、電子文書管理装置としてのコンピュータ装置は、自身のハードディスクなどに記憶された格納領域に格納された電子文書に対して分析・集計をおこない、自身のディスプレイに分析結果や集計結果などを表示する。
(管理サーバがおこなう処理)
つぎに、管理サーバ103がおこなう処理について説明する。たとえば、管理サーバ103は、CPU201がROM202に記憶されたプログラムを実行することで以下に示す各処理をおこなうことができる。
(分析対象設定処理)
図5は、分析対象設定処理の処理内容を示すフローチャートである。管理サーバ103は、図5に示す分析対象設定処理を所定周期で(たとえば一ヶ月毎に)実行したり、システム管理者による実行指示があった場合に実行したりする。
図5に示すように、分析対象設定処理において、管理サーバ103は、まず、分析対象設定部301による設定を参照し、分析対象格納領域を特定する(ステップS501)。つぎに、特定された分析対象格納領域の一覧および分析対象格納領域に格納された電子文書の一覧を取得する(ステップS502)。そして、ステップS502で取得された分析対象格納領域の一覧および電子文書の一覧からクロールリスト(図6参照)を生成し、生成されたクロールリストを保存し(ステップS503)、分析対象設定処理を終了する。
(クロールリスト)
分析対象設定処理で生成・保存されたクロールリストの一例について説明する。図6は、クロールリストの一例を示す説明図である。図6に示すように、クロールリスト600は、クロールNo601と、名称602と、パス603とを対応づけて構成される。クロールNo601は、各電子文書のクロールする順序を示す。名称602は、図4に示した名称401と同様に電子文書の名称を示す。パス603は、図4に示したパス402と同様に電子文書のパスを示す。
たとえば、管理サーバ103は、それぞれの分析対象格納領域に格納された電子文書の一覧を結合することで、クロールリスト600を生成する。また、管理サーバ103は、それぞれの分析対象格納領域に格納された所定の拡張子の電子文書のみを抽出して、この拡張子の電子文書のみのクロールリスト600を生成してもよい。さらに、クロールの対象となる電子文書(たとえば前回のクロール時より新たに作成された電子文書や、更新された電子文書)のみのクロールリスト600を生成してもよい。
(分析・集計処理)
図7は、分析・集計処理の処理内容を示すフローチャートである。管理サーバ103は、図7に示す分析・集計処理を所定周期で実行したり、システム管理者による実行指示があった場合に実行したりする。
図7に示すように、分析・集計処理において、管理サーバ103は、まず、クロールリスト600を参照し(ステップS701)、クロールの進捗状況を示すカウンタCのカウント値が「1」であるかを判定する(ステップS702)。カウンタCのカウント値が「1」であれば(ステップS702:Yes)、クロールリスト600においてクロールNo「1」の電子文書の属性情報(図4参照)を取得し(ステップS703)、ステップS705へ移行する。カウンタCのカウント値が「1」でなければ(ステップS702:No)、カウンタCのカウント値「N」に基づいて、クロールNo「N」の電子文書の属性情報を取得し(ステップS704)、ステップS705へ移行する。
つぎに、管理サーバ103は、ステップS703またはステップS704で取得された属性情報の名称401、サイズ403、更新日405のそれぞれの文字列を結合して生成した文字列から、ハッシュ値を生成する(ステップS705)。たとえば、管理サーバ103は、予め用意されたハッシュ関数(たとえばMD5やSHA)に、上記で結合して生成された文字列を入力して、規定bit数(たとえば64bitや128bit)のハッシュ値を生成する。以下、このように、名称401、サイズ403、更新日405のそれぞれの文字列を結合して生成した文字列から生成されたハッシュ値を「属性ハッシュ値」という。
また、ステップS705において、管理サーバ103は、名称401の文字列に対して、パターンマッチング(正規表現。公知の技術のため詳細な説明は省略)を適用して得られた文字列から、ハッシュ値を生成する。たとえば、管理サーバ103は、予め用意されたハッシュ関数に、名称401の文字列に対してパターンマッチングを適用して得られた文字列を入力して、規定bit数のハッシュ値を生成する。以下、このように、名称401のパターンマッチングを適用して得られた文字列から生成されたハッシュ値を「名称ハッシュ値」という。
つぎに、管理サーバ103は、電子文書が文書データであるかを判定する(ステップS706)。文書データでなければ(ステップS706:No)、そのままステップS708へ移行する。文書データであれば(ステップS706:Yes)、電子文書の本文全文の文字列を所定の文書フィルタ(公知の技術のため説明は省略)を通して生成された文字列を、ステップS705と同様に、予め用意されたハッシュ関数に入力して、規定bit数(たとえば64bitや128bit)のハッシュ値を生成する(ステップS707)。以下、このように、電子文書の本文から生成されたハッシュ値を「本文ハッシュ値」という。
つぎに、管理サーバ103は、上記の各ステップにおける処理結果を、それぞれ対応づけて保存する(ステップS708)。たとえば、ステップS708において、管理サーバ103は、ステップS703またはステップS704で取得された属性情報と、ステップS705やステップS707(文書データの場合のみ)で生成されたハッシュ値とを対応づけて保存する。
つぎに、管理サーバ103は、カウンタCのカウント値が「Nend(クロールリストにおける最後のクロールNoと同値となる値)」となったかを判定する(ステップS709)。カウンタCのカウント値が「Nend」でなければ(ステップS709:No)、カウンタCの現在のカウント値Nに「1」加算した値を、新たなカウント値Nとし(ステップS710)、ステップS704へ移行する。カウンタCのカウント値が「Nend」であれば(ステップS709:Yes)、クロールNo「1」からクロールNo「Nend」までの電子文書に対してステップS708で保存された処理結果をインデックス化するインデキシング処理をおこなう(ステップS711)。インデックス化するためのインデキシング処理の処理内容については、公知の技術のため説明は省略する。
つぎに、管理サーバ103は、ステップS711でインデックス化された処理結果に対して、分析項目が所定条件を満たす電子文書を検索し、電子文書管理情報を設定する(ステップS712)。たとえば、ステップS712において、管理サーバ103は、ステップS711でインデックス化された処理結果に対して、陳腐化の条件とされる「更新日405が分析時の日時より3年以上前の電子文書」を検索する。そして、検索された電子文書に対して、電子文書管理情報の陳腐化410を「1」に設定する。検索されなかった他の電子文書に対しては、電子文書管理情報の陳腐化410を「0」に設定する。
同様に、未参照411、不要な種類412についても、それぞれの分析項目の条件ごとに電子文書を検索し、条件を満たせば「1」を設定し、条件を満たさなければ「0」を設定する。さらに、管理サーバ103は、属性ハッシュ値や、本文ハッシュ値などを用いて、電子文書同士の重複や名称類似を判定して、条件を満たせば「1」およびグループを設定する。管理サーバ103による電子文書の重複判定については後述する。
つぎに、管理サーバ103は、属性情報と、電子文書管理情報とからなる分析結果を保存して(ステップS713)、それぞれの分析項目ごとに、所定条件を満たす電子文書の数をカウントする集計をおこなって、この集計結果を保存し(ステップS714)、分析・集計処理を終了する。
ここで、管理サーバ103による重複判定について説明する。図8は、重複判定の処理概要を示す説明図である。管理サーバ103は、分析・集計処理で取得された属性ハッシュ値や本文ハッシュ値などを用いた重複判定をおこなうことができる。たとえば、属性が重複しているか否かを判定するための属性重複判定(図8中(1))において、管理サーバ103は、前述したように、分析対象格納領域に格納された各電子文書の、名称401、サイズ403、更新日405のそれぞれを示す文字列を結合して生成された文字列を、ハッシュ関数に入力することで生成される属性ハッシュ値同士を比較することで、属性が重複しているか否かを判定する。具体的には、管理サーバ103は、属性ハッシュ値が一致している電子文書同士は属性が重複していると判定する。
また、本文が重複しているか否かを判定するための本文重複判定(図8中(2))において、管理サーバ103は、前述したように、分析対象格納領域に格納された文書データの、本文を示す文字列をハッシュ関数に入力することで生成される本文ハッシュ値同士を比較することで、本文が重複しているか否かを判定する。具体的には、管理サーバ103は、本文ハッシュ値が一致している電子文書(文書データ)同士は本文が重複していると判定する。
さらに、名称401が類似しているかを判定する名称類似判定(図8中(3))において、管理サーバ103は、前述したように、名称401の文字列に対して、パターンマッチングを適用して得られた文字列を、ハッシュ関数に入力することで生成される名称ハッシュ値同士を比較することで、名称が類似しているか否かを判定する。具体的には、管理サーバ103は、名称ハッシュ値が一致している電子文書同士は名称が類似していると判定する。
(分析対象格納領域一覧表示処理)
図9は、分析対象格納領域一覧表示処理の処理内容を示すフローチャートである。管理サーバ103は、図9に示す分析対象格納領域一覧表示処理をシステム管理者による実行指示があった場合に実行する。図9に示すように、分析対象格納領域一覧表示処理において、管理サーバ103は、まず、分析・集計処理により保存された分析結果および集計結果を読み込む(ステップS901)。
つぎに、管理サーバ103は、分析対象格納領域をソートして表示するためのソート条件を参照する(ステップS902)。管理サーバ103において、分析対象格納領域のソート条件は、分析項目(たとえば陳腐化や重複)により予め設定されている。そして、ソート条件に基づいて、分析対象格納領域をソートする(ステップS903)。たとえば、ステップS903において、管理サーバ103は、予め設定された一つの分析項目について、この分析項目を満たす電子文書が多い分析対象格納領域が上となるように、ソートする。具体的には、たとえば、管理サーバ103は、陳腐化の条件を満たす電子文書が多く格納された分析対象格納領域が上となるように、降順でソートする。いずれの分析項目についてソートするかは、システム管理者が任意で設定できるものとしてよい。
つぎに、管理サーバ103は、分析項目ごとに設定された閾値を参照する(ステップS904)。そして、格納された電子文書の数と、分析項目が所定の条件を満たした電子文書の数との割合が、閾値を超える分析対象格納領域があるかを判定する(ステップS905)。閾値を超える分析対象格納領域があれば(ステップS905:Yes)、強調表示するための強調表示フラグを設定し(ステップS906)、分析対象格納領域一覧画面を表示させて(ステップS907)、分析対象格納領域一覧表示処理を終了する。また、閾値を超える分析対象格納領域がなければ(ステップS905:No)、そのままステップS907へ移行する。
分析対象格納領域一覧画面を表示する際に、強調フラグが設定されていれば、管理サーバ103は、強調表示フラグにしたがって閾値を超えた分析対象格納領域を強調表示させる。また、分析対象格納領域一覧画面の表示に際して、管理サーバ103は、自身のディスプレイ208に表示させてもよいし、管理者端末104から分析対象格納領域一覧画面の表示要求があった場合は管理者端末104のディスプレイ208に表示させるようにしてもよい。
(電子文書一覧表示処理)
図10は、電子文書一覧表示処理の処理内容を示すフローチャートである。管理サーバ103は、図10に示す電子文書一覧表示処理をシステム管理者による実行指示があった場合に実行する。ここで、電子文書一覧表示処理の実行指示とは、たとえば、分析対象格納領域一覧で、いずれかの分析対象格納領域がシステム利用者により選択されたときなど、電子文書一覧を表示する格納領域が指定されたときとすることができる。
図10に示すように、電子文書一覧表示処理において、管理サーバ103は、まず、システム利用者により選択された分析対象格納領域に格納された電子文書のソート条件を参照する(ステップS1001)。ここで、電子文書のソート条件は、システム管理者が、分析項目などを条件に設定することができる。
つぎに、電子文書のソート条件にしたがって、電子文書をソートする(ステップS1002)。たとえば、重複・類似(グループが設定されていること)をソート条件とした場合、属する電子文書の数が多いグループの電子文書が上になるようにソートする。また、さらに、同一のグループ内の電子文書間においては、更新日405が新しい電子文書が上になるようにソートする。
つぎに、グループがあるか(グループ番号が設定されているか)否かを判定する(ステップS1003)。グループがある場合には(ステップS1003:Yes)、グループに対して、グループごとに異なるグループ色を設定して(ステップS1004)、電子文書一覧画面を表示させ(ステップS1005)、電子文書一覧表示処理を終了する。
グループがない場合には(ステップS1003:No)、グループ色を設定せず(ステップS1004)、電子文書一覧画面を表示させ(ステップS1005)、電子文書一覧表示処理を終了する。グループ色が設定されて表示された電子文書と、グループ色が設定されず表示された電子文書との表示の違いについては図13を用いて後述する。
(電子文書管理装置による表示画面の一例)
つぎに、本実施の形態の電子文書管理装置による表示画面の一例について説明する。図11は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その1)である。たとえば、本実施の形態において以下に示す表示例は、管理サーバ103はシステム管理者からの要求に応じて、自身のディスプレイ208などに表示させる。また、管理者端末104が管理サーバ103から分析結果や集計結果を受け付けることで、管理者端末104のディスプレイ208に表示してもよい。
図11に示すように、分析対象格納領域一覧画面1100では、縦軸1101に沿って分析対象格納領域が配置され、それぞれの分析対象格納領域に対応するように、横軸1102に沿って分析項目の集計結果が配置されている。ここで、縦軸1101に沿って配置された分析対象格納領域は、システム管理者などにより予め定められた分析項目によりソートされて配置される。
具体的に、図11に示す例では、重複(属性・本文重複)の条件を満たす電子文書が多く格納された分析対象格納領域が上となるようにソートされている。具体的に、図11で示す例では、「Folder1」には重複の条件を満たす電子文書が9個、「Folder5」には重複の条件を満たす電子文書が7個、「Folder4」には重複の条件を満たす電子文書が2個、「Folder2」には重複の条件を満たす電子文書が1個、「Folder3」には重複の条件を満たす電子文書が0個、格納されている。このため、上から「Folder1」→「Folder5」→「Folder4」→「Folder2」→「Folder3」となるようにソートされている。
また、ここでは、重複の条件を満たす電子文書が占める割合が高い分析対象格納領域が上となるようにソートしてもよい。前述したように、いずれの分析項目を用いてソートするかはシステム管理者の任意によって設定することができる。また、図11に示すように、それぞれの分析対象格納領域に対応するように、横軸1102に沿って格納領域のサイズ(データ容量)や格納された電子文書の数(図11中「電子文書数」)などを配置してもよい。
図11に示す例では、分析項目として、陳腐化、未参照、不要な種類、重複、名称類似を表示しているがこれに限らない。システム管理者は、任意の分析項目を設定することにより、横軸1102に沿って配置される分析項目を変更することができる。たとえば、分析項目として、陳腐化および重複を設定した場合、横軸1102に沿っては陳腐化および重複の2項目のみが配置される。また、分析項目として、陳腐化、未参照、不要な種類、重複、名称類似を設定した場合、横軸1102に沿ってはこれら5項目が配置される。
図12は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その2)である。図11では、それぞれの分析対象格納領域に対応するように、分析項目を数値によって表示したが、システム管理者にとって視覚的に分かり易いように、割合を模式的にあらわしたインジケータにより表示してもよい。
図12に示すように、分析対象格納領域一覧画面1200では、図11に示した分析対象格納領域一覧画面1100と同様に、縦軸1101に沿って分析対象格納領域が配置され、それぞれの分析対象格納領域に対応するように、横軸1102に沿って分析項目の集計結果が配置されている。
たとえば、図12において、電子文書が「20個」格納された「Folder1」には、重複(属性・本文重複)の条件を満たす電子文書が「9個」格納されている。このため、図12に示すように、9/20をあらわすような(たとえば図示のように9/20の割合で黒く塗りつぶされた)インジケータ1204を表示させる。
また、「Folder1」には、陳腐化の条件を満たす電子文書が「8個」格納されている。このため、図12に示すように、8/20をあらわすような(たとえば図示のように8/20の割合で黒く塗りつぶされた)インジケータ1201を表示する。以下、同様に、未参照、不要な種類、名称類似についても、「Folder1」に格納された電子文書数と、それぞれの項目の条件を満たす電子文書との割合をあらわしたインジケータ1202とインジケータ1203とインジケータ1205とを表示させることができる。
また、前述したように、本発明の実施の形態にかかる電子文書管理装置では、所定条件を満たす電子文書が占める割合に対する閾値を予め設定しておくことで、この割合が閾値以上となった分析対象格納領域を強調表示することができる。たとえば、40%以上の分析対象格納領域「Folder1」には「●」1206を表示することで、強調表示をおこなっている。また、複数の閾値を用いて強調表示をおこなう場合、たとえば、40%以上の分析対象格納領域には「●(たとえば赤色)」1206を表示し、20%以上40%未満の分析対象格納領域には「○(たとえば黄色)」1207を表示するようにして、段階的な強調表示をおこなってもよい。また、このように、閾値を設定することで、図12中の符号1208で示すチェックボックスにチェックを入れることで閾値を超えた分析対象格納領域だけを絞り込んで表示させることもできる。
図13は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その3)である。たとえば、分析対象格納領域一覧画面1100において、いずれかの分析対象格納領域がシステム利用者により選択(指定)されることで、図13に示す電子文書一覧画面1300が表示される。
図13に示すように、電子文書一覧画面1300では、縦軸1301に沿って指定された分析対象格納領域に格納された電子文書が配置され、それぞれの電子文書に対応するように、横軸1302に沿って分析項目が配置されている。ここで、縦軸1301に沿って配置された電子文書は、システム管理者などにより予め定められた分析項目によりソートされて配置される。
具体的に、図13に示す例では重複を条件にソートされる。また、このとき、重複した電子文書同士は集合して表示されるようになっており、どこからどこまでが重複した電子文書であるかをシステム利用者に示唆するために、グループごとに設定されたグループ色を用いて、色分けして強調表示をおこなう。たとえば、図13に示すように、重複した電子文書同士の集合の名称の背景色を、他の電子文書の背景色とは異ならせる(図13中のハッチング部分)。また、同一のグループ内の電子文書同士は、更新日が新しい電子文書が上となるようにソートされる。
また、たとえば、管理サーバ103が、公知の技術による電子文書の類似度を判定するアルゴリズム(電子文書同士の類似している度合いを数値化できるアルゴリズム)を実装しており、電子文書同士の類似度を判定できる場合には、たとえば、それぞれの類似度が所定の閾値以上となる電子文書同士をグループ化して表示させるようにしてもよい。また、類似度を評価するための閾値を複数設定して、複数段階で類似度を評価し、段階ごとに強調表示の内容を異なるようにしてもよい。たとえば、類似度が高い(たとえば類似度が90%以上の)電子文書同士のグループは背景色が赤くなるように強調表示し、類似度がやや高い(たとえば類似度が70%以上90%未満の)電子文書同士のグループは背景色が黄色くなるように強調表示するようにしてもよい。
図14は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その4)である。図15は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その5)である。図13の電子文書一覧画面1300では、複数の分析項目を並べて表示したが、たとえば、システム管理者は、それぞれの分析項目ごとにさらに絞り込んで表示させることができる。図14に示す電子文書一覧画面1400は、電子文書一覧画面1300を、重複の分析項目にて絞り込んだ後の電子文書一覧画面である。図15に示す電子文書一覧画面1500は、電子文書一覧画面1300を、陳腐化の分析項目にて絞り込んだ後の電子文書一覧画面である。
図16は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その6)である。図13で示した電子文書一覧画面1300などでは、縦軸1301に沿って電子文書を配置したが、電子文書の数が多い場合などはグループごとに表示した方が簡潔な表示となり、システム管理者にとって視覚的に分かり易いようにすることができる。
図16(1)に示すように、グループ一覧画面1600では、縦軸1601に沿って指定された分析対象格納領域に格納された電子文書群によるグループが配置される。また、それぞれのグループ名の右には、それぞれのグループに属する電子文書の数が表示されている(グループ1は[9]、グループ2は[2])。
図16(1)に示すとき、システム管理者は、グループ名の左に配置された展開ボタン(図中の「+」マーク)1602や展開ボタン1603を押下すると、ツリー表示で対応するグループを展開させて、グループに属する電子文書の一覧を表示させることができる。たとえば、図16(2)では、グループ1に対応して設けられた展開ボタン1602が押下されたため、グループ1に属する電子文書の一覧が表示されている。ここで、グループ1は図14に示す電子文書群とすると、展開ボタン1602が押下されることにより、図16(2)に示すような電子文書の一覧が表示される。
図17は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その7)である。たとえば、電子文書一覧画面1300などにおいて、システム管理者は所定の操作をおこなうことで、図17に示す電子文書整理画面1700を呼び出すことができる。
図17に示すように、電子文書整理画面1700において、システム管理者は、分析対象格納領域一覧画面1100で選択した格納領域内の全電子文書、または電子文書一覧画面1300で選択した電子文書を、任意のコピー先にそのままコピーしたり、圧縮ファイルにしてコピーしたり、削除したりすることができる。
図18は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その8)である。前述したように、本実施の形態において、システム管理者は、任意の分析項目を設定することができる。システム管理者は所定の操作をおこなうことで、図18に示す分析項目設定画面1800を呼び出すことができる。
図18に示すように、分析項目設定画面1800において、システム管理者は、たとえば、アプリケーションのインストール時の初期状態で設定された分析項目である、陳腐化と、未参照と、不要な種類と、重複と、名称類似との有効性を設定および解除することができる。たとえば、システム管理者は、有効性を変更したい分析項目の変更ボタンを押下することで、有効性が設定されている分析項目であれば有効性を解除することができる。
図19は、本実施の形態の電子文書管理装置による表示画面の一例を示す説明図(その9)である。前述したように、本実施の形態において、システム管理者は、任意の分析項目を設定することができる。図18に示した分析項目設定画面1800では、初期状態で設定された分析項目の有効性を変更することで分析項目を設定できたが、図19に示した分析項目設定画面1900では一層と自由度の高い分析項目の設定をおこなうことができる。
たとえば、図19に示すように、分析項目設定画面1900では、システム管理者は、名称401に任意の文字列を含む電子文書を分析するような分析項目を設定することができる(図19中符号1901)。また、電子文書のカテゴリによっても、そのカテゴリに含まれる電子文書を分析するような分析項目を設定することができる(図19中符号1902)。さらに、拡張子、作成者、所有者、サイズなど、電子文書が属性情報として有する項目についても分析項目として設定することができる(図19中符号1903)。
以上に説明したように、本実施の形態の電子文書管理装置は、分析対象格納領域に設定された格納領域に格納された電子文書を分析し、分析結果に基づいて、分析対象格納領域一覧画面1100を表示することができる。ここで、分析対象格納領域一覧画面1100では、縦軸1101に沿って複数の分析対象格納領域が配置され、それぞれの分析対象格納領域に対応するように、当該格納領域の分析結果(またはその集計結果)が横軸1102に沿って配置されている。これにより、電子文書管理装置は、複数の分析対象格納領域における電子文書の格納状態を同時にシステム管理者に示唆することができるとともに、システム管理者が確認作業をおこなうべき格納領域を示唆することができる。このため、電子文書の管理を容易におこなわせることができる。
また、本実施の形態の電子文書管理装置は、それぞれの分析対象格納領域において所定の条件を満たす電子文書が占める割合をインジケータ1201〜1205であらわすこともできる。これにより、本実施の形態の電子文書管理装置は、数値で表示した場合に比べて、システム管理者にとって視覚的に分かり易いように表示することができ、電子文書の管理を一層と容易におこなわせることができる。
さらに、本実施の形態の電子文書管理装置は、所定の条件を満たす電子文書が占める割合が、所定の閾値以上である分析対象格納領域を強調表示することができる。これにより、強調表示しない場合に比べて、システム管理者にとって視覚的に分かり易いように表示することができ、分析対象格納領域の管理を一層と容易化することができる。また、閾値を段階的に設定することとすれば、強調表示も段階的におこなうことができるようになるので、システム管理者にとって視覚的に分かり易いように表示することができ、電子文書の管理を一層と容易におこなわせることができる。
そして、本実施の形態の電子文書管理装置は、所定の条件を満たす電子文書が多く格納された分析対象格納領域や、所定の条件を満たす電子文書が占める割合が高い分析対象格納領域が上となるようにソートして表示することができる。これにより、所定条件を満たす電子文書が多く格納された分析対象格納領域(たとえばシステム利用者により確認が必要だと思われる格納領域)が上(先に目に入る位置)に配置され、システム利用者などによる格納領域の確認作業を省力化することができる。
本実施の形態では、分析項目を、所定期間活用されていない陳腐化した電子文書や未参照の電子文書、本文や属性が重複した電子文書や名称が類似した電子文書(重複した電子文書である可能性が高い電子文書)とした。これにより、削除しても問題が生じにくいような電子文書(システム管理者が削除したいと思うような電子文書)の削除作業を省力化することができ、このような電子文書によるファイルサーバ102の記憶容量の圧迫を防止することができる。また、ファイルサーバ102に格納された電子文書の削減を促すことができ、必要な電子文書を探そうとしたときの労力を低減させることができる。
また、本実施の形態の電子文書管理装置は、電子文書一覧画面1300において、重複した電子文書や類似した電子文書をグループ化して表示することができる。これにより、システム管理者はどこからどこまでが同じような電子文書であるのかを容易に把握することができ、同じような電子文書の中から必要な電子文書を探す労力を低減させたり、同じような電子文書をまとめて削除したりすることができる。
さらに、本実施の形態の電子文書管理装置は、電子文書一覧画面1300において、複数の分析項目を並べて表示したり、一つの分析項目にて絞り込んだりすることができる。これにより、システム管理者は総合的にそれぞれの電子文書の状態を確認したり、所望の条件でのみ電子文書の状態を確認したりすることができ、電子文書管理時の状況に応じた確認作業をおこなえ、確認作業の省力化や高精度化を図ることができる。
なお、本実施の形態で説明した表示方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータ装置で実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、このプログラムは、インターネットなどのネットワークを介して配布することが可能な媒体であってもよい。
以上に説明したように、本発明にかかる電子文書管理装置、表示方法、表示プログラムおよび記録媒体によれば、電子文書の格納状態の把握を容易化し、確認作業が必要な格納領域を管理者に示唆することで電子文書の管理を容易におこなわせることができる。