JP2014010758A - ファイル管理装置、ファイル管理方法、及びプログラム - Google Patents

ファイル管理装置、ファイル管理方法、及びプログラム Download PDF

Info

Publication number
JP2014010758A
JP2014010758A JP2012148590A JP2012148590A JP2014010758A JP 2014010758 A JP2014010758 A JP 2014010758A JP 2012148590 A JP2012148590 A JP 2012148590A JP 2012148590 A JP2012148590 A JP 2012148590A JP 2014010758 A JP2014010758 A JP 2014010758A
Authority
JP
Japan
Prior art keywords
keyword
virtual
folder
search
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012148590A
Other languages
English (en)
Other versions
JP5836893B2 (ja
Inventor
Mitsuharu Ohazama
光晴 大峡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012148590A priority Critical patent/JP5836893B2/ja
Publication of JP2014010758A publication Critical patent/JP2014010758A/ja
Application granted granted Critical
Publication of JP5836893B2 publication Critical patent/JP5836893B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ファイルを仮想分類する際に発生する仮想フォルダ作成作業を効率化する。
【解決手段】本発明によるシステムは、検索に使用された文字列を記憶する機能と、メタデータに含まれるキーワードとその頻度を抽出する機能と、このキーワードと同じメタデータに出現する別のキーワードとその頻度を抽出する機能と、検索履歴に含まれる文字列とその頻度を抽出する機能と、抽出した各キーワードと頻度に基づいて仮想フォルダを生成する機能を有している。メタデータからキーワードを抽出する際には、キーワードと考えられる文字列を網羅的に抽出する。また、仮想フォルダを生成する際には、仮想上位フォルダと仮想下位フォルダの少なくとも2階層の階層構造を持つようにする。仮想下位フォルダを生成する際には、頻度が同等の仮想下位フォルダ候補が存在した場合は、より長い文字列の候補を採用する。
【選択図】図17

Description

本発明は、ファイル管理装置、ファイル管理方法、及びプログラムに関し、例えば、コンピュータ上のファイルを仮想的に分類するための技術に関するものである。
近年コンピュータの発達により、ネットワークにより結合された複数のコンピュータにおいて、複数のユーザがファイルを共有することが日常的に行われている。例えば、ファイルサーバ上のファイルを複数ユーザで共有する場合がある。ファイルを管理する際には、固定的な階層構造のフォルダ(物理フォルダ)を用いることが一般的である。ファイルを格納する際には、組織内の運用ルールによって決められたフォルダに格納する場合がある。運用ルールとは、例えばファイルの種類毎や所属する部門毎に、決められたフォルダに格納するというものである。さらに、ファイルが作成された年度毎にフォルダを作成したり、製品毎にフォルダを作成するなど様々なパターンが考えられる。このようなフォルダ管理方法は、複数人でファイルを共有する場合だけでなく、1人のユーザがファイルを管理する場合でも行われている。
ユーザの作業内容によっては、複数の物理フォルダに格納されたファイルをいくつかまとめて1つの用途で使用したいという場合がある。このような場合に、例えば各フォルダから必要なファイルを探し出し、1つのフォルダにコピーするという作業が必要になるためユーザの負担となる。また、このような作業を繰り返すと同一ファイルがファイルサーバ内に増え、ファイルサーバの容量を圧迫する。さらに、その中の一部のファイルにのみ変更を加えると類似したファイルがファイルサーバ内に散在することになり、最新のファイルがわからなくなるという問題も発生する。
そこで、文書(ファイル)のメタデータ(属性情報)を文書に対応付けて管理する方法が考えられている。例えば特許文献1では、仮想フォルダシステムが提案されている。仮想フォルダシステムとは、実際にファイルが存在する場所とは無関係に、条件に合致するファイルやフォルダを格納するフォルダ(仮想フォルダ)を提供するシステムである。例えば、ファイルにメタデータを設定しておき、仮想フォルダにはメタデータに対する検索条件を定義することで、検索条件に合致するファイルを仮想フォルダに格納することができる。仮想フォルダ参照時には、検索条件に基づいたファイルのみが表示される。例えば、営業文書を管理する場面では、まず「文書種別」(契約書・注文書・見積書など)を属性として定義しておく。属性とは、例えば「文書種別」や「取引先」などのメタデータの種類を表す語句である。全てのファイルについて文書種別を付与し、仮想フォルダに「文書種別が“契約書”であるもの」という検索条件を割り当てておけば、その仮想フォルダを参照すると契約書の一覧が取得できる。このように、仮想フォルダシステムでは、ファイルを意味的に分類するので、文書の効果的な活用が可能となる。また、物理的なフォルダ構造に関係なく、仮想的に様々なフォルダで管理できるため、ファイルの無駄なコピーによる容量圧迫や、最新版がわからなくなるという問題を解決できる。
特開2003−323326号公報
小山照夫, "日本語テキストからの複合語用語抽出", 情報知識学会誌, vol.19, No.4, pp.306-315, 2010
しかしながら、特許文献1の技術によると、仮想フォルダの定義をユーザが行わなければならず、その作業がユーザの負担となってしまう。また、ファイルをどのような基準で分類するかをユーザが検討しなければならない。この作業を行うためには、ファイルサーバ内にどのようなファイルが存在するか知っておく必要があり、さらにどのような観点で分類すべきかをユーザが判断しなければならない。一般にファイルサーバ全体の内容を把握し、適切に分類を行う作業には困難が伴う。
本発明はこのような状況に鑑みてなされたものであり、ファイルサーバに格納されたファイルに対して、精度良く、かつユーザにとって使い易いように、自動的に仮想分類を行うための技術を提供する。
上記目的を達成するために、本発明のファイル管理装置は、ファイルを仮想分類するための仮想フォルダを生成する装置である。当該装置は、ファイルのメタデータを構成する文字列や検索ログにおける検索クエリなどからキーワードを抽出し、記憶装置に登録する。また、当該装置は仮想フォルダを生成する際に用いるメタデータ群及び検索クエリ群において、出現頻度が多いキーワードを基に、仮想フォルダに格納されるファイルの条件を自動的に決定する。
即ち、本発明によるファイル管理装置は、複数の物理ファイルを分類するための仮想フォルダを生成するプログラムを実行するプロセッサと、複数の物理ファイルのメタデータを管理するためのメタデータ管理情報を格納する記憶装置と、を有している。ここで、仮想フォルダは、複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、複数の物理ファイル及び物理フォルダのリンク情報を管理するための仮想的なフォルダである。
そして、プロセッサは、まず、メタデータ管理情報の複数のファイルのメタデータを構成する文字列から複数のキーワードを抽出し、当該抽出した各キーワードの出現頻度の情報を取得する。また、プロセッサは、検索ログデータに含まれる複数の検索クエリを構成する文字列から複数のキーワードを抽出し、当該抽出した各キーワードの出現頻度の情報を取得する。また、プロセッサは、出現頻度が所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成する。さらに、プロセッサは、仮想上位フォルダに対して用いたキーワードを含む別のキーワード、あるいは仮想上位フォルダに対して用いたキーワードと同時に検索したキーワード、あるいはメタデータを構成する文字列において、仮想上位フォルダに対して用いたキーワードと同時に使用されるキーワードを用いて、仮想上位フォルダに関連付けられる仮想下位フォルダを生成する。そして、プロセッサは、生成した仮想上位フォルダと仮想下位フォルダフォルダとの関係、及び仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示を出力する。
本発明によれば、ファイルサーバに格納されたファイル群を検索するための仮想フォルダを、精度よく、かつユーザにとって使い易いように、自動的に作成することができる。これにより、ユーザはファイルサーバ内に格納されているファイルの内容に関する知識が乏しくても、少ない作業工数で仮想フォルダを構築することが可能となる。頻出キーワード、検索キーワード、共起キーワードをもとに仮想フォルダを生成するため、よりユーザにとって利便性が高い仮想フォルダが生成される。
本発明に関連する更なる特徴(課題、構成、効果)は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明の実施形態に係るシステム(ファイル管理装置)の概略構成を示す図である。 メタデータファイルの一例を示す図である。 検索ログデータの一例を示す図である。 仮想フォルダデータの一例を示す図である。 抽出キーワードデータの一例を示す図である。 検索キーワード管理データの一例を示す図である。 共起キーワードデータの一例を示す図である。 仮想上位フォルダデータの一例を示す図である。 仮想下位フォルダデータの一例を示す図である。 キーワード登録処理を説明するためのフローチャートである。 抽出キーワード登録処理を説明するためのフローチャートである。 検索キーワード登録処理を説明するためのフローチャートである。 共起キーワード登録処理を説明するためのフローチャートである。 仮想フォルダ生成処理の全体を説明するためのフローチャートである。 仮想フォルダ生成処理の一部を説明するためのフローチャートである。 抽出キーワード登録処理で使用するデータの一例を示す図である。 仮想分類画面の一例を示す図である。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
なお、以後の説明では表(テーブル)形式によって本発明の情報を説明するが、これら情報は必ずしも表形式によるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以後の説明では「プログラム」を主語として説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
<仮想分類装置の構成>
図1は、本発明の実施形態による仮想分類装置(ファイル管理装置や文書処理装置ということもできる)の概略構成を示す機能ブロック図である。この仮想分類装置は、必要な演算処理及び制御処理等を行う中央処理装置(プロセッサ)100と、データの入出力を行うための入出力装置110と、中央処理装置100での処理に必要なプログラムを格納するプログラムメモリ120と、中央処理装置100での処理後のデータを格納する記憶装置130と、中央処理装置100での処理対象となるデータを格納するデータメモリ140と、を有している。
入出力装置110は、データを表示するための表示装置111やプリンタ(図示せず)等で構成される出力デバイスと、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード112、マウスなどのポインティングデバイス113と、を有している。
プログラムメモリ120は、メタデータの検索を行う検索プログラム121と、メタデータ及び検索ログからキーワードを抽出するキーワード登録プログラム122と、キーワードを基に仮想フォルダを生成する仮想フォルダ生成プログラム123と、仮想フォルダを画面表示し、各仮想フォルダに格納されたファイルの内容の表示を行う仮想分類プログラム124と、を格納している。なお、各処理プログラムは、プログラムコードとしてプログラムメモリ120に格納されており、中央処理装置100が各プログラムコードを実行することによって各処理が実現される。
記憶装置130は、各ファイルのメタデータファイル131と、検索クエリのログが格納される検索ログデータ132と、キーワードを基に生成される仮想フォルダの定義情報が格納される仮想フォルダデータ133と、を格納している。なお、記憶装置130は、ネットワークを介して遠隔的に配置されていているストレージシステムであってもよい。
データメモリ140は、抽出キーワードデータ141と、検索キーワード管理データ142と、共起キーワードデータ143と、仮想上位フォルダデータ144と、仮想下位フォルダデータ145と、を格納している。これらのデータの詳細については後述する。
以上に述べた処理プログラム・データ・各プログラム等は、CD−ROM、DVD−ROM、MO、フロッピー(登録商標)ディスク、USBメモリ等の種々の記録媒体に格納して提供することもできる。
<メタデータ>
図2は、記憶装置130内のメタデータファイル131の一例を示す図である。本発明の実施形態では、メタデータファイル131に登録された各ファイル(ファイル001、002、003、・・・・)は、メタデータ202と共にメタデータファイル131内で管理されるものとする。従って、メタデータ202が未登録のファイルはここには登録されていないものとする。
メタデータファイル131は例えば表形式で管理され、1つのファイルが1行に対応している。メタデータファイル131は、ファイルを一意に示すID201と、ファイルに登録されたメタデータ202と、を構成項目として有している。
メタデータ202は、本システムで管理する属性毎に列を構成している。図2には、例えば、紙の営業文書をスキャナでスキャンして得られたファイルのメタデータが示されている。図2の例では、属性として、ファイルのファイルパス203、文書種別204、顧客名205等がある。なお、メタデータは図2で示したもの以外にも、様々なパターンが考えられる。例えば、ファイルのアクセス日、最終更新日など日付に関するメタデータや、ファイルの作成者、更新者などの人に関するメタデータも考えられる。
<検索ログデータ>
図3は、記憶装置130内の検索ログデータ132の一例を示す図である。検索ログデータ132は、ユーザから入力された検索クエリとその日時303が記載されたデータである。検索クエリは、複数のデータを保持する。図3は、二種類のデータ(検索クエリA301、検索クエリB302)を保持している場合の例を示す。これはユーザが検索クエリA301と検索クエリB302でAND検索を行ったログであることを示す。図3の例において、一行目のデータは、「契約書」と「文書管理システム」がAND検索されたログであることを示す。検索クエリB302が空欄の場合は、検索クエリA301のみで検索を行ったログであることを示す。
なお、本実施形態では、検索ログデータ132が2つの検索クエリで構成される場合で説明するが、検索クエリの数は1つ或いは3つ以上であっても構わない。
また、検索ログデータ132は、例えば、属性ごとに複数の登録情報ファイルを有している。従って、例えば、文書種別と顧客名を使った検索の場合、それぞれ属性ごと(文書種別と顧客名)に別々に重複して登録されるようにしても良い。
<仮想フォルダデータ>
図4は、記憶装置130内の仮想フォルダデータ133の一例を示す図である。この仮想フォルダデータは最終的に生成された仮想フォルダの情報を示している。
仮想フォルダデータ133は属性単位で作成され、後述の仮想フォルダ生成プログラムによって生成される仮想フォルダの定義が記載されたデータである。ここで、仮想フォルダとは、実際にファイルやフォルダ(物理ファイル及び物理フォルダ)が存在する場所とは無関係に、条件に合致するファイルやフォルダを格納するフォルダをいう。また、仮想フォルダは、ファイルやフォルダの本体を格納しているのではなく、1つ又は複数のショートカットを格納することになる。そして、物理ファイル・フォルダが変更・新規作成・削除された場合、その結果が仮想フォルダに反映されて仮想フォルダの内容が変化する。なお、仮想フォルダは、単なるショートカットやエイリアスとは異なる概念である。より具体的には、ファイルのショートカットはフォルダではないので、複数のファイルをまとめることはできないし、フォルダのショートカットは、物理フォルダを別の場所から参照できるようにしているだけである。また、エイリアスは、ショートカットとほぼ同義だが、別名で別の場所から参照できるようにする技術である。ショートカット及びエイリアスはいずれも条件に合致するファイル(フォルダ)を格納するものではない。
図4は、属性が文書種別であり、仮想上位フォルダ401と仮想下位フォルダ402の2階層の仮想フォルダが記載された例を示している。
仮想上位フォルダ401は、仮想下位フォルダ402の内容を包括する単一のキーワードで定義される。仮想上位フォルダ401に付与された文字列は検索条件を表す。より具体的には、メタデータファイルにおける対象の属性において、仮想上位フォルダに付与された文字列を含むファイルが検索対象となる。例えば、図4の1つ目のデータでは、文書種別に「契約」という文字列を含むファイルが検索対象となる。
仮想下位フォルダ402は、仮想上位フォルダ401の内容を、より詳細化したキーワードで定義され、以下の3パターンがある。
1つは、仮想上位フォルダ401のキーワードを含む文字列で構成される場合である。例えば、仮想上位フォルダ401が「契約」、仮想下位フォルダ402が「契約書」となるような場合である。この場合、文書種別に「契約書」という文字列を含むファイルが検索対象となる。
2つ目は、仮想上位フォルダ401のキーワードが、検索ログデータ132における検索クエリA301である場合である。例えば、仮想上位フォルダ401が「契約」、仮想下位フォルダ402が「契約, 法務」となるような場合である。この場合、文書種別に「契約」と「法務」を共に含むファイルが検索対象となる。つまり、上位仮想フォルダの文言(例:契約)とペアで検索に用いられることが多い文言(例:法務)を共に含むファイルの場合である。
3つ目は、2つ目の場合と同様に、2つのキーワードで構成される。一方のキーワードは仮想上位フォルダ401のキーワードである。もう一方のキーワードは、メタデータファイル131におけるメタデータにおいて、仮想上位フォルダ401のキーワードと同時に出現する別のキーワードである場合である。例えば、メタデータが「基本契約書作成依頼(製品ABC)」の場合に、仮想下位フォルダ402が「契約, 製品ABC」となるような場合である。この場合、文書種別に「契約」と「製品ABC」を共に含むファイルが検索対象となる。このパターンは、検索に関係なく、共に出現し易い文言のペアを含むファイルの場合である。
なお、仮想フォルダデータ133は、仮想分類処理実行の指示が入力されてから生成するようにしても良いし、所定数のファイルが蓄積された時点で自動的に生成したり、所定時間間隔で溜まったファイルに対して自動的に生成するようにしても良い。また、仮想フォルダデータ133を生成する際に、ユーザがフォルダ生成に用いるキーワードを指定するようにしても良い。
<抽出キーワードデータ>
図5は、データメモリ140内の抽出キーワードデータ141の一例を示す図である。抽出キーワードデータ141は、メタデータファイル131における文字列情報(例えば、ファイルパス203、文書種別204、顧客名205等)を基に、特徴的な単語(抽出キーワード)501と、その頻度502が記載されたデータである。頻度502は、記憶装置130におけるメタデータファイル131において、当該キーワードを含むファイルの件数を表している。図5の例では、メタデータファイル131に登録されているファイルには、「検収」というキーワードを含むファイルが292件存在することを表している。
抽出キーワードデータ141は、例えば、属性ごとに複数の登録情報ファイルを有している。なお、このような抽出キーワードデータ141は、非特許文献1に記載された方法によって生成することができるため、その生成方法についての説明は省略する。
<検索キーワード管理データ>
図6は、データメモリ140内の検索キーワード管理データ142の一例を示す図である。検索キーワード管理データ142は、記憶装置130における検索ログデータ132をもとに生成されるデータである。検索クエリA601及び検索クエリB602は、検索ログデータ132の検索クエリA301及び検索クエリB302の組み合わせを表す。組み合わせを表すため、検索クエリA301と検索クエリB302の文字列が入れ替わっていた場合も同一データとなる。この際、文字コードでソートされ、検索クエリA601と検索クエリB602の順番は統一される。例えば、検索クエリA301と検索クエリB302が、「契約, 書類」の場合と、「書類, 契約」の場合は、検索クエリA601と検索クエリB602は、「契約, 書類」のように統一される。出現頻度603は、検索ログデータ132において、検索クエリA301と検索クエリB302の組み合わせが出現した件数を表す。検索クエリA301とB302のいずれか一方が空欄の場合は、検索クエリB602は空欄となる。
なお、検索キーワード管理データ142は、例えば、属性ごとに複数の登録情報ファイルを有している。また、検索キーワード管理データ142は、所定期間内の検索ログから得られる上記情報を管理するようにしても良い。
<共起キーワードデータ>
図7は、データメモリ140内の共起キーワードデータ143の一例を示す図である。共起キーワードデータ143は、データメモリ140内の抽出キーワードデータ141から得られる抽出キーワード701と、記憶装置130内のメタデータファイル131において、抽出キーワード701の文字列と共に出現する別のキーワードである共起キーワード702と、抽出キーワード701と共起キーワード702の組み合わせの頻度703が記載されたデータである。頻度703は、メタデータファイル131において、当該キーワードの組み合わせを含むファイルの件数を表している。図7の例では、メタデータファイル131に登録されているファイルには、「納品書」というキーワードと、「検収」というキーワードを共に含むファイルが80件存在することを表している。別の例を挙げると、図2における文書011や文書008の文書種別204は、「納品書兼検収依頼書」や「契約書等審査票」となっている。このように独立した文言(キーワード)が「兼」や「等」、さらには「/」「+」等の記号によって区切られている場合、この独立したキーワードは同一メタデータ内に一緒に出現する可能性が高く、共起キーワードとなる。
なお、共起キーワードデータ143は、例えば、属性ごとに複数の登録情報ファイルを有している。また、共起キーワードデータ143は、非特許文献1に記載された方法によって生成することができるため、その生成方法についての説明は省略する。
<仮想上位フォルダデータ>
図8は、データメモリ140内の仮想上位フォルダデータ144の一例を示す図である。仮想上位フォルダデータ144は、仮想上位フォルダの検索条件となる文字列の候補であり、検索キーワード管理データ142から抽出されたキーワード801と、抽出キーワードデータ141において、当該キーワードの頻度を表す抽出キーワード頻度802と、検索キーワード管理データ142において、当該キーワードの頻度を表す検索頻度803と、抽出キーワード頻度802及び検索頻度803に基づいて算出されるスコア804が記載されたデータである。スコア804は、当該キーワードの仮想上位フォルダとしての適合の度合いを表している。仮想フォルダ生成プログラム123は、スコア804に基づいて仮想上位フォルダを決定する。
なお、仮想上位フォルダデータ144は、例えば、属性ごとに複数の登録情報ファイルを有している。
<仮想下位フォルダデータ>
図9は、データメモリ140内の仮想下位フォルダデータ145の一例を示す図である。仮想下位フォルダデータ145は、仮想下位フォルダの検索条件の文字列の組み合わせとなる、キーワードA901及びキーワードB902と、抽出キーワードデータ141において、当該キーワードの件数を表す抽出キーワード頻度903と、検索キーワード管理データ142において、当該キーワードの組み合わせを含むデータの件数を表す検索頻度904と、共起キーワードデータ143において、当該キーワードの組み合わせを含むデータの件数を表す共起頻度905と、抽出キーワード頻度903及び検索頻度904及び共起頻度905に基づいて算出されるスコア906が記載されたデータである。
キーワードA901には、仮想上位フォルダに含まれるキーワード(例:契約)が記入されている。キーワードB902には、キーワードA901に対して共起キーワードとなるキーワードが記入されている。キーワードB902に「−」が記入される場合は、共起キーワードが存在しないときである。
スコア906は、当該キーワードの組み合わせの仮想下位フォルダとしての適合の度合いを表している。仮想フォルダ生成プログラム123は、スコア906に基づいて仮想下位フォルダを決定する。
なお、仮想下位フォルダデータ145は、例えば、属性ごとに複数の登録情報ファイルを有している。
<仮想分類画面>
図17は、仮想分類プログラム124が生成する仮想分類の表示画面(GUI)の一例を示す図である。図17に示されるように、GUIのウインドウでは、左側のペインに、ファイルを検索するための検索機能1701と、仮想フォルダによるツリー表示1702が表示され、右側のペインに、検索機能、あるいは仮想フォルダを選択されることによって、該当するファイルの検索結果1703が表示される。
検索プログラム121は、検索結果を表示する際、記憶装置130におけるメタデータファイル131を使用する。
仮想分類プログラム124は、仮想フォルダをGUI画面に表示する際、記憶装置130における仮想フォルダデータ133を使用する。また、仮想分類プログラム124は、仮想フォルダが選択されると、検索プログラム121を実行する。すなわち、仮想フォルダに付与された文字列で検索プログラムを実行するのと同一の処理を行う。検索プログラムは、記憶装置130におけるメタデータファイル131から、検索クエリの文字列を含むファイルを検索結果1703に表示する。検索クエリが2つの場合には、2つの文字列を共に含むファイルが検索結果として表示される。本実施形態では、検索クエリが3つ以上の場合については、詳細な説明はしないが、検索クエリが2つの場合と同様に処理可能である。
更新ボタン1707が押下されると、キーワード登録プログラム122、仮想フォルダ生成プログラム123、仮想分類プログラム124が順に実行され、表示画面(GUI)が更新される。
検索機能部分には、検索対象の属性を選択するためのプルダウン1704、検索クエリを入力するテキストボックス1705、検索処理を実行するための検索実行ボタン1706がある。仮想分類表示部分には、仮想上位フォルダ1708と仮想下位フォルダ1709が表示される。
仮想フォルダによるツリー表示1702は、記憶装置130における仮想フォルダデータが定義されている場合のみ表示される。定義されていない場合には表示されない。
検索プログラム121によって実行された検索クエリは、記憶装置130における検索ログデータに記憶される。
検索の方法には大きく2つある。属性をプロダウン1704によって選択し、キーワード1705を入力して該当文書を検索する方法と、属性をプルダウン1704によって選択し、表示される仮想分類1702から1つの仮想フォルダを選択して該当文書を検索する方法である。前者の方法は仮想フォルダとは無関係であり、その場合、仮想分類1702のツリー表示では、どのフォルダも開かれていない状態となっている。
図17では、属性「文書種別」が選択され、また、仮想上位フォルダ「契約」の子フォルダ「契約, 製品ABC」が選択された状態が示されている。検索結果1703には、属性「文書種別」において、「契約」と「製品ABC」を共に含むファイルが表示されている。また、ファイル名1711、文書種別1712、取引先名1713などの属性のメタデータが表示されている。また、仮想上位フォルダ1708が選択されると、検索結果1703には、仮想上位フォルダの文字列を含むファイルが表示される。検索結果1703において、ユーザによってファイルが選択されると、オペレーティングシステムによって関連付けられたアプリケーションが起動し、当該ファイルが開かれる。
仮想分類処理によって、例えば図17に示すようなるユーザインターフェース(GUI)を表示し、ユーザはそれを用いることにより、物理的に異なるフォルダに格納されたファイルを、仮想フォルダ毎に参照することが可能となる。そして、ユーザは、ファイルの実体が保存された物理フォルダを考慮せずとも、意味的な分類によってファイルを参照できる。また、ユーザは、GUI上で属性を選択することも可能であり、属性毎に異なる仮想フォルダツリーが構成され、探したい観点でファイルの検索が可能となる。
<文書処理装置における処理概要>
上述の構成を有する文書処理装置において行われる処理(図17のGUI上での操作に対応する処理)の概要についてまず説明する。この際の動作主体は、特に断らない限りは中央処理装置100であり、中央処理装置100が各種プログラムを読み込み、実行する。
まず、仮想分類プログラム124が実行される。仮想分類プログラム124は、記憶装置130からメタデータファイル131と仮想フォルダデータ133を読み込み、仮想フォルダデータ133に記載された仮想フォルダの定義に基づいて仮想フォルダ(図17参照)を表示する。
次に、仮想分類プログラム124は、ユーザからの入力を受け付け、検索処理または、仮想フォルダが選択されると、メタデータファイル131から該当するファイルを検索し、検索結果1703に表示する。この際、使用された検索クエリは、記憶装置130における検索ログデータ132として保存する。
更新ボタン1707が押下されると、キーワード登録プログラム122、仮想フォルダ生成プログラム123、仮想分類プログラム124が順に実行される。
キーワード登録プログラム122は、記憶装置130におけるメタデータファイル131と検索ログデータ132を読み込み、メタデータファイルから特徴的な単語(キーワード)を抽出し、抽出キーワードデータ141としてデータメモリ140に格納する。また、使用された検索クエリの統計情報を検索キーワード管理データ142としてデータメモリ140に格納する。また、メタデータファイル131において、抽出キーワードデータ141に登録されているキーワードと共に使用されている別のキーワードの統計情報を、共起キーワードデータ143としてデータメモリ140に格納する。
仮想フォルダ生成プログラム123は、データメモリ140から、抽出キーワードデータ141、検索キーワード管理データ142、共起キーワードデータ143を読み込み、これらのキーワードの特徴に基づいて仮想フォルダの定義情報を生成し、記憶装置130に仮想フォルダデータ133として格納する。この際、仮想上位フォルダの候補となるキーワードが格納されたデータを仮想上位フォルダデータ144としてデータメモリ140に格納する。また、仮想下位フォルダの候補となるキーワードが格納されたデータを仮想下位フォルダデータ145としてデータメモリ140に格納する。
仮想分類プログラム124は、記憶装置130からメタデータファイル131と仮想フォルダデータ133を読みこみ、仮想フォルダデータ133に記載された仮想フォルダの定義に基づいて仮想フォルダを表示する。そして、仮想分類プログラム124は、ユーザからの入力を受け付け、仮想フォルダが選択されると、メタデータファイル131から仮想フォルダに格納されるファイルを検索し、該当するファイルを表示する。それぞれの処理について、以下詳細に説明する。
<キーワード登録処理>
図10は、キーワード登録プログラム122が実行するキーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
ステップ1001において、キーワード登録プログラム122は、仮想フォルダ生成対象の属性を1つ選択する。以降、属性として「文書種別」を選択した場合で説明する。なお、仮想フォルダを生成しなくてもよい属性は読み込む必要はない。
ステップ1002において、キーワード登録プログラム122は、後述する抽出キーワード登録処理を行い、抽出キーワードデータ141を生成する。
ステップ1003において、キーワード登録プログラム122は、後述する検索キーワード登録処理を行い、検索キーワード管理データ142を生成する。
ステップ1004において、キーワード登録プログラム122は、後述する共起キーワード登録処理を行い、共起キーワードデータ143を生成する。
ステップ1005において、キーワード登録プログラム122は、仮想フォルダ生成対象の属性すべてについて処理を行ったか否かを判定し、まだ処理していない属性があればステップ1002に戻り、すべて処理済であれば処理を終了する。
<抽出キーワード登録処理>
図11は、キーワード登録プログラムが実行する、抽出キーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
ステップ1101において、キーワード登録プログラム122は、記憶装置130からメタデータファイル131(ステップ1001で選択された属性のメタデータ)を全て読み込む。
ステップ1102において、キーワード登録プログラム122は、読み込んだメタデータファイルからファイルを1つ選択しメタデータを読み込む。例えば、属性「文書種別」の値が「検収通知書1」であるデータを読み込んだ場合を考える。
ステップ1103において、キーワード登録プログラム122は、ステップ1102で読み込んだデータに対して形態素解析を行う。形態素解析の詳細については非特許文献1に開示されている。図16Aは、「検収通知書1」に対して形態素解析を行った結果を表す。「検収通知書1」は、「検収」、「通知」、「書」、「1」の4つの文字列に分割される。また、品詞の行には、それぞれの文字列が、名詞または未知語であることと、付属的な内容が記載されている。未知語とは、形態素解析の結果、品詞が不明と判定された文字列である。形態素解析は、内部で使用している辞書を元にして、入力文字列の品詞を判定しているため、辞書に登録されていない文字列は未知語として判定される。具体的には、製品名や個人名などの固有名詞が未知語となり得る。また、形態素解析は日本語の解析に利用されるため、英数字や記号などが辞書登録されていない場合がある。前述した例では、「1」が未知語と判定された場合を示した。
ステップ1104において、キーワード登録プログラム122は、ステップ1103の形態素解析の結果をもとに、名詞または未知語が1つ以上連続した文字列を抽出し、この文字列を抽出キーワードとする。このような品詞パターンの文字列をキーワードとして抽出する手法は一般によく用いられている。抽出されたキーワードをさらに詳細に分析し、よりキーワードの抽出精度を高める技術も多数提案されている。
ステップ1105において、キーワード登録プログラム122は、予め定義されたルールに従って、抽出キーワードのフィルタリングを行う。仮想フォルダ生成プログラム123による仮想フォルダ生成処理では、抽出されたキーワードを基に仮想フォルダの生成が行われるため、仮想フォルダとして不適であるキーワードが含まれると、不適当な仮想フォルダが生成してしまう可能性がある。このため、仮想フォルダとして不適と考えられるキーワードをこの処理で除外する。例えば「検収通知書1」というキーワードから仮想フォルダを定義する場合、ユーザにとっての分類のわかりやすさの観点から、数字は除外した方が望ましいと考えられる。なお、フィルタリングを実現するには、予め除外すべき文字や特殊な名詞を辞書やDBに登録しておき、それを参照して除外すべき文字か否か判断する。除外すべき文字としては、米印、矢印等の記号や、数字である(ただし、数字はキーワードとして必要な場合もあるため、常に除外対象とするのは不適である。従って、最終的にユーザに除外するか否かについて確認するようにしても良い)。図16Cは、図16Bにおけるキーワードから数字を含むキーワードを除外した例を示している。また、名詞の中で特殊なパターンも除外すべきである。例えば、代名詞、ナイ形容詞語幹、一部の接尾辞などである。ナイ形容詞語幹とは、「申し訳」、「大人げ」などの「〜ない」の形をとる名詞である。また、除外すべき名詞接尾辞としては、例えば、「〜君」、「〜さん」などの人名に続く敬称や、「休みがち」の「がち」や、「勝ったも同然」の「同然」などの形容動詞語幹などがある。
ステップ1106において、キーワード登録プログラム122は、データメモリにおける抽出キーワードデータ141を更新する。すなわち、キーワード登録プログラム122は、ステップ1102からステップ1105の過程で取得した抽出キーワードを登録する。抽出キーワードデータ141に、すでに登録されている抽出キーワードがあった場合は、頻度を1加算する。抽出キーワードデータ141に、まだ登録されていない抽出キーワードであった場合は、その抽出キーワードを頻度1として登録する。
ステップ1107において、キーワード登録プログラム122は、全メタデータに対してステップ1102からステップ1106までの処理を行ったか否かを判定し、まだ行っていないメタデータがある場合にはステップ1102に戻り、すべてのメタデータが処理済の場合は処理を終了する。
<検索キーワード登録処理>
図12は、キーワード登録プログラムが実行する、検索キーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
ステップ1201において、キーワード登録プログラム122は、ステップ1001で選択された属性について、記憶装置130から検索ログデータ132を読み込む。
ステップ1202において、キーワード登録プログラム122は、読み込んだ検索ログデータ132からデータを1つ選択する。例えば、検索クエリAが「契約書」、検索クエリBが「文書管理システム」、日時が「2009/01/22 23:12:05」の場合が考えられる。
ステップ1203において、キーワード登録プログラム122は、読み込んだデータをもとに、データメモリ140内の検索キーワード管理データ142を更新する。具体的には、読み込んだデータにおける検索クエリAと検索クエリBの組み合わせが、検索キーワード管理データ142内に含まれていれば、検索キーワード管理データ142における該当データの頻度を1だけ加算する。含まれていなければ、読み込んだデータのエントリを追加し、頻度を1として登録する。
ステップ1204において、キーワード登録プログラム122は、検索ログデータ132内の全データを処理したか否かを判定する。全データを処理していなければステップ1202に戻り、全データを処理済であれば処理を終了する。
<共起キーワード登録処理>
図13は、キーワード登録プログラムが実行する、共起キーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
ステップ1301において、キーワード登録プログラム122は、ステップ1001で選択された属性について、記憶装置130からメタデータファイル131をすべて読み込み、また、データメモリ140から抽出キーワードデータ141を読み込む。
ステップ1302において、キーワード登録プログラム122は、読み込んだ抽出キーワードデータの中から、抽出キーワードをひとつ読み込む。ここでは、例えば、抽出キーワードを「契約書」として説明する。
ステップ1303において、キーワード登録プログラム122は、メタデータファイル131からメタデータを1つ読み込む。例えば、メタデータを「契約書(検索システム)」として説明する。
ステップ1304において、キーワード登録プログラム122は、抽出キーワードが、メタデータ内に含まれているか否かを判定する。含まれていない場合はステップ1308に進む。含まれている場合はステップ1305に進む。抽出キーワード「契約書」、メタデータ「契約書(検索システム)」の場合は、メタデータ内に、「契約書」という文字列が含まれるためステップ1305に進む。
ステップ1305において、キーワード登録プログラム122は、メタデータを形態素解析する。上記の例の場合には、「契約」「書」「(」「検索」「システム」「)」のように分解され、それぞれについて品詞情報が付与される。
ステップ1306において、キーワード登録プログラム122は、形態素解析後の各単語を基に、ステップ1302で選択された抽出キーワードを含まず、かつ含まれず、かつ隣接していないキーワードを抽出する。キーワードの抽出方法は、前述した抽出キーワード登録処理におけるキーワード抽出方法と同様であり、名詞または未知語が連続した文字列をキーワードとみなす。上記の例の場合には、「契約書」を含まず、かつ「契約書」に含まれず、かつ「契約書」と隣接していないキーワードは、「検索」「システム」「検索システム」の3パターンが考えられる。他の例として、抽出キーワード「契約書」、メタデータ「基本契約書」の場合がある。この場合、形態素解析の結果、「基本契約書」は、「基本」「契約」「書」のように分解される。抽出キーワード「契約書」を含まないキーワードとして、「基本」「契約」「書」がある。この中で、「契約」と「書」は「契約書」に含まれるため不適である。また、「基本」は「契約書」と隣接したキーワードであるため不適である。さらに、他の例として、抽出キーワード「納品書」、メタデータ「納品書兼検収依頼書」の場合、「納品書兼検収依頼書」は、形態素解析の結果、「納品」「書」「兼」「検収」「依頼」「書」のように分解される。この中で、「納品書」と「検収依頼書」では、「検収依頼書」が「納品書」の文言を含まず、2つが「兼」で区切られているため、共起キーワードとして適していると判断される。
ステップ1307において、キーワード登録プログラム122は、データメモリ140における共起キーワードデータ143を更新する。具体的には、ステップ1302で選択した抽出キーワードと、ステップ1306で抽出したキーワードの組み合わせを登録する。上記例の場合には、3パターンのデータを登録する。1つは、「契約書」と「検索」、2つ目は、「契約書」と「システム」、3つ目は、「契約書」と「検索システム」である。これらのデータが、共起キーワードデータ143内に含まれていれば、共起キーワードデータ143における該当データの頻度を1だけ加算して登録する。含まれていなければ、そのデータのエントリを新たに追加し、頻度を1として登録する。
ステップ1308において、キーワード登録プログラム122は、全メタデータに対して処理を行ったか否かを判定する。全メタデータを処理していなければ、ステップ1303に戻り、全メタデータを処理済であればステップ1309に進む。
ステップ1309において、キーワード登録プログラム122は、全抽出キーワードを処理したか否かを判定する。全抽出キーワードを処理していなければ、ステップ1302に戻り、全抽出キーワードを処理済であれば処理を終了する。
<仮想フォルダ生成処理>
図14は、仮想フォルダ生成プログラム123が実行する仮想フォルダ生成処理を説明するためのフローチャートである。仮想フォルダ生成処理では、データメモリ140における抽出キーワードデータ141、検索キーワード管理データ142、共起キーワードデータ143を基に、仮想上位フォルダデータ144と仮想下位フォルダデータ145を生成し、さらにそのデータを基に、記憶装置130における仮想フォルダデータ133を生成する。
ステップ1401において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータ(図8参照)を生成し、スコアの降順にソートする。具体的には、仮想フォルダ生成プログラム123は、まずデータメモリ140における抽出キーワードデータ141と検索キーワード管理データ142を読み込み、それらのデータをマージする。マージする際には、抽出キーワードデータ141における抽出キーワード、または検索キーワード管理データ142における検索クエリA、または検索クエリB、の文字列を1つのエントリとして合算して登録する。例えば、抽出キーワード「契約書」が頻度100であり、検索クエリAと検索クエリBの組み合わせが、「契約書」と「A社」で頻度が80であった場合は、図8における1行目のデータのように登録する。その際のスコア804については後述する。なお、検索クエリA、検索クエリBのいずれか一方に該当する文字列があれば、合算の対象となる。例えば、検索クエリAと検索クエリBの組み合わせが、「契約書」及び「A社」で頻度が100の場合と、「契約書」及び「B社」で頻度が50のデータがあった場合には、仮想上位フォルダデータ144における検索頻度803は150となる。スコア804は、抽出キーワード頻度802と検索頻度803を重み付き加算することにより求める。図8の例では、メタデータ頻度の重みを1、検索頻度の重みを5として、加算した結果を表している。重み付け加算を行う理由は、どのようなデータから取得したかによってユーザにとっての重要の度合いが異なるためである。図8の例では、検索頻度の重みを、メタデータ頻度の5倍の重みを与えている。これは、検索に使用された文字列はユーザによって意図的に指定された文字列であるため重要度が高いと考えられるためである。全データに関してスコアの算出まで終了したら、スコアの大きい順にソートする。なお、仮想上位フォルダデータの生成は、仮想フォルダ生成対象の全属性について行う。
ステップ1402からステップ1409までの処理では、仮想上位フォルダデータ144に基づいて仮想フォルダの検索条件となるキーワードを決定し、仮想フォルダデータ133として生成する。
ステップ1402において、仮想フォルダ生成プログラム123は、仮想フォルダ生成対象の属性を1つ選択する。
ステップ1403において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータ144からキーワードを1つ選択する。この際、未処理のキーワードの中から頻度が最も高いキーワードを選択する。
ステップ1405において、仮想フォルダ生成プログラム123は、ステップ1404で採用されたキーワードを仮想上位フォルダにおけるキーワードとして仮想上位フォルダデータ144に登録する。この際、前述したように必要に応じて登録済みの仮想上位フォルダと、その仮想下位フォルダのデータを削除する。
ステップ1406において、仮想フォルダ生成プログラム123は、ステップ1405で登録した仮想上位フォルダのキーワードを基にして仮想下位フォルダを生成、即ち仮想下位フォルダデータ145を登録する。仮想下位フォルダデータの生成については後述する。
ステップ1407において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータにおける全キーワードを処理したか否かを判定する。処理していないキーワードがあれば処理はステップ1408に進み、全キーワードが処理済であれば処理はステップ1409に進む。
ステップ1408において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータ144における仮想上位フォルダの数が規定値に達したか否かを判定する。既定値に達していなければ処理はステップ1403に進み、既定値に達していれば処理はステップ1409に進む。
ステップ1409において、仮想フォルダ生成プログラム123は、仮想フォルダ生成対象の全属性を処理したか否かを判定する。全属性を処理していなければステップ1402に進み、全属性を処理済であれば処理を終了する。
以上のような処理によって、図4に示されるような仮想フォルダデータ133が生成される。
<仮想下位フォルダ生成処理>
図15は、仮想フォルダ生成プログラム123が実行する仮想下位フォルダ生成処理を説明するためのフローチャートである。仮想下位フォルダ生成処理では、仮想上位フォルダに指定されたキーワードを基に仮想下位フォルダとなるキーワードを選定する。ここでは、動作主体が仮想フォルダ生成プログラム123であるとして説明する。
ステップ1501において、仮想フォルダ生成プログラム123は、仮想上位フォルダのキーワードを基に仮想下位フォルダデータを生成し、スコアの降順にソートする。具体的には、まずデータメモリ140における抽出キーワードデータ141と、検索キーワード管理データ142と、共起キーワードデータ143を読み込み、仮想上位フォルダデータ144を生成する際と同様に、それらのデータをマージする。マージする際には、抽出キーワードデータ141、検索キーワード管理データ142、共起キーワードデータ143における、抽出キーワード、検索クエリA、検索クエリB、共起キーワード、の文字列を1つのエントリとして合算して登録する。この際の合算には2パターンある。1つ目のパターンは、仮想下位フォルダデータ145において、キーワードBがNull値となる場合であり、もう1つのパターンは、キーワードBがNull値とならないパターンである。それぞれのパターンについて説明する。まず、キーワードBがNull値となる場合について説明する。この場合は、抽出キーワードデータ141における抽出キーワード、あるいは検索キーワード管理データ142における検索クエリBがNull値であるデータの検索クエリA内に、仮想上位フォルダのキーワードを含むデータを合算する。例えば、図9における1つ目のデータが該当する。これは、仮想上位フォルダのキーワード「契約」を含む文字列「契約書」のデータを合算した結果を表している。この場合、抽出キーワード頻度903が100で、検索頻度904が80となった場合を表している。キーワードB902、及び共起頻度905は、使用していない。また、スコア906は仮想下位フォルダとしての、適合の度合いを示している。スコア906が高いほど仮想下位フォルダとしての適合の度合いが高いことを表す。スコア906の算出方法については後述する。次にキーワードBがNull値とならないパターンについて説明する。この場合は、検索キーワード管理データ142における検索クエリAと検索クエリBの組み合わせのどちらかが仮想上位フォルダのキーワードであるデータと、共起キーワードデータ143における抽出キーワードが仮想上位フォルダのキーワードであるデータを合算する。例えば、図9における2つ目のデータが該当する。スコア906は、抽出キーワード頻度903、検索頻度904、共起頻度905を重み付き加算することにより求める。図9の例では、メタデータ頻度の重みを2、検索頻度の重みを10、共起頻度の重みを1として、加算した結果を表している。重み付け加算を行う理由は、仮想上位フォルダ生成の際と同様である。全データに関してスコア算出まで終了したら、スコアの大きい順にソートする。
ステップ1502からステップ1508までの処理では、ステップ1501で生成した仮想下位フォルダデータ145に基づいて、仮想上位フォルダの仮想下位フォルダを決定し、仮想フォルダデータ133として記憶装置130に格納する処理である。以降、仮想下位フォルダデータ145においてスコアが上位のデータから順に処理が行われる。
ステップ1502において、仮想フォルダ生成プログラム123は、仮想下位フォルダデータ145内のすべてのキーワードを処理したか否かを判定する。すべてのキーワードを処理済であれば処理を終了する。未処理のキーワードが含まれていればステップ1503に進む。
ステップ1503において、仮想フォルダ生成プログラム123は、仮想下位フォルダデータ145(図9参照)から未処理のデータ(Pとする)を1つ選択する。
ステップ1504において、仮想フォルダ生成プログラム123は、スコアが一定値以上であるか否かを判定する。条件を満たす場合はステップ1505に進み、満たさない場合は処理を終了する。
ステップ1505において、仮想フォルダ生成プログラム123は、PにおけるキーワードA・Bの文字列の長さが共に一定以上であるか否かを判定する。この条件を満たす場合はステップ1505に進み、満たさない場合はステップ1502に戻る。
ステップ1506において、仮想フォルダ生成プログラム123は、仮想下位フォルダデータ145内に、PのキーワードA・Bの文字列を共に含み、かつ、スコアが同程度以上のより長いキーワードが存在するか否かを判定する。ここで、「同程度以上」とは、当該スコア値をSCとすると、SCよりも多少小さいスコア値も許容する意味であり、スコア値が(SC−α)以上であると表現可能である。例えば、PのキーワードA・Bが(契約,委託)でスコア906が612であり、仮想下位フォルダデータ145内に、キーワードA・Bが(契約,業務委託)でスコア906が645であった場合が該当する。この場合、ステップ1506の条件を満たすためステップ1502に戻る。すなわち、Pは仮想下位フォルダとして生成されないことになる。スコアがほぼ同程度であった場合、キーワードの文字列がより長い方が仮想下位フォルダの性質上適しているからである。ステップ1506の条件を満たさない場合はステップ1507に進む。ステップ1506の処理は、同じようなキーワードの仮想下位フォルダが何個も生成されないようにするための処理である。上記の例で、キーワードA・Bが(契約, 委託)と(契約, 業務委託)だとスコア値が612と645で同程度となっている。この場合、(契約, 委託)で仮想下位フォルダは生成されず、(契約, 業務委託)で仮想下位フォルダが生成される。後者の方が前者よりも具体的で分かり易いからである。そして、(契約, 委託)では仮想下位フォルダが生成されないため、キーワード(契約, 委託)を含む文書(業務委託を含む文書は除かれる)は、キーワード「契約」の仮想上位フォルダの直下に分類されることになる。
ステップ1507において、仮想フォルダ生成プログラム123は、Pのキーワードを仮想下位フォルダとして、記憶装置130における仮想フォルダデータ133に格納する。
ステップ1508において、仮想フォルダ生成プログラム123は、対象の仮想上位フォルダに対する仮想下位フォルダ数が規定値に達したか否かを判定する。条件を満たさない場合はステップ1502に戻り、条件を満たす場合は処理を終了する。
<まとめ>
以上説明したように、本実施の形態によれば、メタデータファイル上で管理されている複数の物理的なファイル(物理ファイル)のメタデータ(特に、各属性情報)を構成する文字列から形態素解析等を用いて複数のキーワードを抽出し、また、ユーザが検索時に使用した検索クエリのログデータから検索クエリのキーワードを抽出し、また、メタデータから抽出したキーワードと共に出現することが多いキーワードを、メタデータから抽出し、それらのキーワードから、仮想フォルダとしての適合の度合いを示すスコアを算出する。そして、スコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成し、さらに、仮想上位フォルダのキーワードを含む別のキーワードを用いて、その仮想上位フォルダと関連付けられる仮想下位フォルダを生成する。また、生成した仮想上位フォルダと仮想下位フォルダとの関係、及び仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示(図17)を画面上にGUIとして表示する。このようにすることにより、ファイルを自動的に仮想分類すことが容易になり、仮想フォルダを使用したファイル管理を効率的に実現できる。一般に、人間が仮想フォルダを生成する場合、出現頻度が多い文字列や、検索に頻繁に使用する文字列や、出現頻度が多い文字列と共に出現することが多い文字列で仮想フォルダを定義する傾向があると考えられる。そのため、本発明は、人間の思考に沿った処理を行っていると考えられ、人間の分類方針に近い分類が可能になる。また、仮想上位フォルダは様々な文字列を包括するように生成されるため、類似した仮想上位フォルダが生成されることが少なく、洗練された処理結果となる。さらに、仮想上位フォルダに含まれるファイルの中で、頻出するキーワードや検索に頻繁に使用されるキーワードを基に仮想下位フォルダを生成するため、より細かい粒度でも効率良くファイルを検索することが可能である。
また、仮想上位フォルダを生成する場合には、文字列長が所定値以上のキーワードを用いている。これにより、過度に多数の仮想上位フォルダを生成してしまうことを防止することができるようになる。この文字列長については、ユーザが指定することができるようになっており、自動仮想分類処理後に、自分が想定していた数とは異なる数の仮想フォルダが生成されてしまった場合に、変更可能なようになっている。
また、メタデータの属性情報毎に複数のキーワードを抽出し、当該抽出した各キーワードの仮想フォルダとしての適合の度合いを示すスコアの情報を算出する。そして、複数の属性情報毎に、仮想上位フォルダ及び仮想下位フォルダを作成し、ユーザの属性の選択入力に応答して、当該選択された属性に対応する仮想分類表示(図17)を出力するようにしている。これにより、属性毎に仮想フォルダを生成して、ユーザによって統一感のある仮想分類表示を提示することができる。よって、この仮想分類表示は、ユーザによって非常に使い勝手が良いものとなる。
さらに、仮想下位フォルダを生成する際、仮想上位フォルダ名に相当するキーワードを含み、当該キーワードよりも文字列長が長い複数のキーワードの中で、出現頻度の比が所定範囲内にあるキーワードが複数存在した場合、文字列長が最長のキーワードをフォルダ名として用いて仮想下位フォルダを生成するようにする。これにより、フォルダの特徴をより具体的に示した仮想下位フォルダを生成することができ、ユーザはファイル分類の傾向を把握しやすくなる。
なお、本発明は、実施形態そのままに限定されるものではなく、実施段階では、その要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
また、実施形態で示された各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良い。また、上記各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現しても良い。各機能等を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録或いは記憶装置、またはICカード、SDカード、DVD等の記録或いは記憶媒体に格納することができる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
100・・・中央処理装置(プロセッサ)
110・・・入出力装置
111・・・表示装置
112・・・キーボード
113・・・ポインティングデバイス(マウス)
120・・・プログラムメモリ
121・・・検索プログラム
122・・・キーワード登録プログラム
123・・・仮想フォルダ生成プログラム
124・・・仮想分類プログラム
130・・・記憶装置
131・・・メタデータファイル
132・・・検索ログデータ
133・・・仮想フォルダデータ
140・・・データメモリ
141・・・抽出キーワードデータ
142・・・検索キーワード管理データ
143・・・共起キーワードデータ
144・・・仮想上位フォルダデータ
145・・・仮想下位フォルダデータ

Claims (10)

  1. 複数の物理ファイルを分類し、管理するファイル管理装置であって、
    前記複数の物理ファイルを分類するための仮想フォルダを生成するプログラムを実行するプロセッサと、
    前記複数の物理ファイルのメタデータを管理するためのメタデータ管理情報と、検索履歴を管理するための検索ログ情報とを格納する記憶装置と、を有し、
    前記仮想フォルダは、前記複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、前記複数の物理ファイル及び物理フォルダのリンク情報を管理するための非実体的なフォルダであり、
    前記プロセッサは、
    前記メタデータ管理情報の前記複数のファイルのメタデータを構成する各構成文字列から複数のメタデータキーワードを抽出し、当該抽出した各メタデータキーワードの出現頻度を示す第1の出現頻度情報を取得し、
    前記検索ログ情報の前記複数の検索履歴を構成する各検索文字列から複数の検索キーワードを抽出し、当該抽出した各検索キーワードの出現頻度を示す第2の出現頻度情報を取得し、
    前記第1及び第2の出現頻度情報で示される各キーワードの頻度を重み付け加算することにより、前記各キーワードのスコアである第1のスコアを算出し、
    前記第1のスコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成し、
    前記作成した仮想上位フォルダを、表示画面上に表示する、
    ことを特徴とするファイル管理装置。
  2. 請求項1において、
    前記プロセッサは、
    前記仮想上位フォルダの生成に用いたキーワードを含む別のキーワードである包含キーワード、前記仮想上位フォルダの生成に用いたキーワードと同一メタデータ内に含まれる別のキーワードである併用キーワード、及び前記仮想上位フォルダの生成に用いたキーワードと同時に検索される別のキーワードである共起キーワードの少なくとも1つを用いて、前記仮想上位フォルダに関連付けられる仮想下位フォルダを生成し、
    前記生成した仮想上位フォルダと仮想下位フォルダとの関係、及び前記仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示を前記表示画面上に行う、
    ことを特徴とするファイル管理装置。
  3. 請求項2において、
    前記プロセッサは、
    前記仮想上位フォルダの生成に用いたキーワードと前記共起キーワードの組み合わせが検索の際に用いられた出現頻度を示す第3の出現頻度情報を取得し、
    前記包含キーワードについての前記第1及び第2の出現頻度情報、及び前記併用キーワード及び前記共起キーワードについての前記第2及び第3の出現頻度情報で示される、仮想下位フォルダ生成に用いる各キーワードの頻度を重み付け加算することにより、前記仮想下位フォルダ生成に用いる各キーワードのスコアである第2のスコアを算出し、
    前記第2のスコアが所定値以上のキーワードを用いて、規定数分の前記仮想下位フォルダを生成する、
    ことを特徴とするファイル管理装置。
  4. 請求項3において、
    前記プロセッサは、所定長さ以上の文字列を有するキーワードで前記仮想下位フォルダを生成することを特徴とするファイル管理装置。
  5. 請求項3において、
    前記プロセッサは、前記仮想下位フォルダの生成処理の対象となっている対象キーワードを含む、より長い文字列で構成される下位概念キーワードがあるとき、当該下位概念キーワードの前記第2のスコアが(前記対象キーワードの前記第2のスコア−所定値)以上である場合には、前記元キーワードを用いずに前記下位概念キーワードで前記仮想下位フォルダを生成することを特徴とするファイル管理装置。
  6. 請求項1において、
    前記プロセッサは、既存の仮想上位フォルダを構成する文字列を含む下位概念キーワードについて仮想上位フォルダを生成するか否か判断する場合、前記既存の仮想上位フォルダを構成する文字列の前記第1のスコアと前記下位概念キーワードの前記第1のスコアとを比較し、大きい方を用いて仮想上位フォルダを構成することを特徴とするファイル管理装置。
  7. 請求項6において、
    前記プロセッサは、前記既存の仮想上位フォルダを構成する文字列の前記第1のスコアと前記下位概念キーワードの前記第1のスコアとの比較の結果、前記下位概念キーワードの前記第1のスコアが前記既存の仮想上位フォルダを構成する文字列の前記第1のスコアよりも大きい場合、前記既存の仮想上位フォルダを削除し、前記下位概念キーワードで仮想上位フォルダを構成することを特徴とするファイル管理装置。
  8. 複数の物理ファイルを仮想フォルダに分類し、管理するファイル管理方法であって、
    前記仮想フォルダは、前記複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、前記複数の物理ファイル及び物理フォルダのリンク情報を管理するための非実体的なフォルダであり、
    前記仮想フォルダを生成する処理を実行するプロセッサが、記憶装置から前記複数の物理ファイルのメタデータを管理するためのメタデータ管理情報を読み出して、当該メタデータ管理情報の前記複数のファイルのメタデータを構成する各構成文字列から複数のメタデータキーワードを抽出し、当該抽出した各メタデータキーワードの出現頻度を示す第1の出現頻度情報を取得するステップと、
    前記プロセッサが、前記記憶装置から検索履歴を管理するための検索ログ情報を読み出して、当該検索ログ情報の前記複数の検索履歴を構成する各検索文字列から複数の検索キーワードを抽出し、当該抽出した各検索キーワードの出現頻度を示す第2の出現頻度情報を取得するステップと、
    前記プロセッサが、前記第1及び第2の出現頻度情報で示される各キーワードの頻度を重み付け加算することにより、前記各キーワードのスコアである第1のスコアを算出するステップと、
    前記プロセッサが、前記第1のスコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成するステップと、
    前記プロセッサが、前記作成した仮想上位フォルダを、表示画面上に表示するステップと、
    を有することを特徴とするファイル管理方法。
  9. 請求項8において、さらに、
    前記プロセッサが、前記仮想上位フォルダの生成に用いたキーワードを含む別のキーワードである包含キーワード、前記仮想上位フォルダの生成に用いたキーワードと同一メタデータ内に含まれる別のキーワードである併用キーワード、及び前記仮想上位フォルダの生成に用いたキーワードと同時に検索される別のキーワードである共起キーワードの少なくとも1つを用いて、前記仮想上位フォルダに関連付けられる仮想下位フォルダを生成するステップと、
    前記プロセッサが、前記生成した仮想上位フォルダと仮想下位フォルダとの関係、及び前記仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示を前記表示画面上に行うステップと、
    を有することを特徴とするファイル管理方法。
  10. 複数の物理ファイルを仮想フォルダに分類し、管理するためのプログラムであって、
    前記仮想フォルダは、前記複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、前記複数の物理ファイル及び物理フォルダのリンク情報を管理するための非実体的なフォルダであり、
    前記仮想フォルダを生成する処理を実行するプロセッサに、
    記憶装置から前記複数の物理ファイルのメタデータを管理するためのメタデータ管理情報を読み出して、当該メタデータ管理情報の前記複数のファイルのメタデータを構成する各構成文字列から複数のメタデータキーワードを抽出し、当該抽出した各メタデータキーワードの出現頻度を示す第1の出現頻度情報を取得する処理と、
    前記記憶装置から検索履歴を管理するための検索ログ情報を読み出して、当該検索ログ情報の前記複数の検索履歴を構成する各検索文字列から複数の検索キーワードを抽出し、当該抽出した各検索キーワードの出現頻度を示す第2の出現頻度情報を取得する処理と、
    前記第1及び第2の出現頻度情報で示される各キーワードの頻度を重み付け加算することにより、前記各キーワードのスコアである第1のスコアを算出する処理と、
    前記第1のスコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成する処理と、
    前記作成した仮想上位フォルダを、表示画面上に表示する処理と、
    を実行させることを特徴とするプログラム。
JP2012148590A 2012-07-02 2012-07-02 ファイル管理装置、ファイル管理方法、及びプログラム Expired - Fee Related JP5836893B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012148590A JP5836893B2 (ja) 2012-07-02 2012-07-02 ファイル管理装置、ファイル管理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012148590A JP5836893B2 (ja) 2012-07-02 2012-07-02 ファイル管理装置、ファイル管理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014010758A true JP2014010758A (ja) 2014-01-20
JP5836893B2 JP5836893B2 (ja) 2015-12-24

Family

ID=50107370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012148590A Expired - Fee Related JP5836893B2 (ja) 2012-07-02 2012-07-02 ファイル管理装置、ファイル管理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5836893B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015162200A (ja) * 2014-02-28 2015-09-07 株式会社日立ソリューションズ ファイル管理装置
KR101589969B1 (ko) * 2015-03-24 2016-01-29 서영덕 네트워크형 파일 관리 방법 및 시스템
JP2017072917A (ja) * 2015-10-05 2017-04-13 富士通株式会社 情報処理装置、名称決定方法、および名称決定プログラム
CN107451168A (zh) * 2016-05-30 2017-12-08 中华电信股份有限公司 基于词汇统计的档案分类系统及方法
JP2019530063A (ja) * 2016-08-09 2019-10-17 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
JP7251876B1 (ja) 2022-03-14 2023-04-04 Necプラットフォームズ株式会社 サーバ装置、サーバ装置の制御方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749875A (ja) * 1993-08-06 1995-02-21 Hitachi Ltd 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム
JP2007272699A (ja) * 2006-03-31 2007-10-18 Research Organization Of Information & Systems 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP2009110260A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd 検索エンジン連携ファイル共有システム
JP2012093927A (ja) * 2010-10-27 2012-05-17 Hitachi Solutions Ltd ファイル管理装置及びファイル管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749875A (ja) * 1993-08-06 1995-02-21 Hitachi Ltd 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム
JP2007272699A (ja) * 2006-03-31 2007-10-18 Research Organization Of Information & Systems 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP2009110260A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd 検索エンジン連携ファイル共有システム
JP2012093927A (ja) * 2010-10-27 2012-05-17 Hitachi Solutions Ltd ファイル管理装置及びファイル管理方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015162200A (ja) * 2014-02-28 2015-09-07 株式会社日立ソリューションズ ファイル管理装置
KR101589969B1 (ko) * 2015-03-24 2016-01-29 서영덕 네트워크형 파일 관리 방법 및 시스템
JP2017072917A (ja) * 2015-10-05 2017-04-13 富士通株式会社 情報処理装置、名称決定方法、および名称決定プログラム
CN107451168A (zh) * 2016-05-30 2017-12-08 中华电信股份有限公司 基于词汇统计的档案分类系统及方法
CN107451168B (zh) * 2016-05-30 2023-08-04 台湾中华电信股份有限公司 基于词汇统计的档案分类系统及方法
JP2019530063A (ja) * 2016-08-09 2019-10-17 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
US11580141B2 (en) 2016-08-09 2023-02-14 Ripcord Inc. Systems and methods for records tagging based on a specific area or region of a record
JP7251876B1 (ja) 2022-03-14 2023-04-04 Necプラットフォームズ株式会社 サーバ装置、サーバ装置の制御方法、及びプログラム
WO2023176011A1 (ja) * 2022-03-14 2023-09-21 Necプラットフォームズ株式会社 サーバ装置、サーバ装置の制御方法、及びプログラム
JP2023134044A (ja) * 2022-03-14 2023-09-27 Necプラットフォームズ株式会社 サーバ装置、サーバ装置の制御方法、及びプログラム

Also Published As

Publication number Publication date
JP5836893B2 (ja) 2015-12-24

Similar Documents

Publication Publication Date Title
JP5512489B2 (ja) ファイル管理装置及びファイル管理方法
US10565234B1 (en) Ticket classification systems and methods
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US10073875B2 (en) System and method of search indexes using key-value attributes to searchable metadata
US9864741B2 (en) Automated collective term and phrase index
US8346795B2 (en) System and method for guiding entity-based searching
US20160098433A1 (en) Method for facet searching and search suggestions
US20130110839A1 (en) Constructing an analysis of a document
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
JP2018538603A (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
WO2016067396A1 (ja) 文の並び替え方法および計算機
JP7110554B2 (ja) オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
JP2019021194A (ja) 情報処理システムおよび情報処理方法
JP5438603B2 (ja) 感性辞書編集支援システム及びプログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP2020064482A (ja) 属性抽出装置および属性抽出方法
WO2015125209A1 (ja) 情報構造化システム及び情報構造化方法
JP3743204B2 (ja) データ分析支援方法および装置
JP7364512B2 (ja) ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP7412307B2 (ja) 作成支援装置、作成支援方法、および作成支援プログラム
JP2022050011A (ja) 情報処理装置及びプログラム
JP7488207B2 (ja) 将来事象推定システム、および将来事象推定方法
JP7375657B2 (ja) 検索プログラム、検索方法、及び、検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150126

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151104

R150 Certificate of patent or registration of utility model

Ref document number: 5836893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees