JP5836893B2 - File management apparatus, file management method, and program - Google Patents
File management apparatus, file management method, and program Download PDFInfo
- Publication number
- JP5836893B2 JP5836893B2 JP2012148590A JP2012148590A JP5836893B2 JP 5836893 B2 JP5836893 B2 JP 5836893B2 JP 2012148590 A JP2012148590 A JP 2012148590A JP 2012148590 A JP2012148590 A JP 2012148590A JP 5836893 B2 JP5836893 B2 JP 5836893B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- virtual
- folder
- search
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、ファイル管理装置、ファイル管理方法、及びプログラムに関し、例えば、コンピュータ上のファイルを仮想的に分類するための技術に関するものである。 The present invention relates to a file management apparatus, a file management method, and a program, for example, to a technique for virtually classifying files on a computer.
近年コンピュータの発達により、ネットワークにより結合された複数のコンピュータにおいて、複数のユーザがファイルを共有することが日常的に行われている。例えば、ファイルサーバ上のファイルを複数ユーザで共有する場合がある。ファイルを管理する際には、固定的な階層構造のフォルダ(物理フォルダ)を用いることが一般的である。ファイルを格納する際には、組織内の運用ルールによって決められたフォルダに格納する場合がある。運用ルールとは、例えばファイルの種類毎や所属する部門毎に、決められたフォルダに格納するというものである。さらに、ファイルが作成された年度毎にフォルダを作成したり、製品毎にフォルダを作成するなど様々なパターンが考えられる。このようなフォルダ管理方法は、複数人でファイルを共有する場合だけでなく、1人のユーザがファイルを管理する場合でも行われている。 In recent years, with the development of computers, a plurality of users commonly share files in a plurality of computers connected by a network. For example, a file on a file server may be shared by multiple users. When managing files, it is common to use a fixed hierarchical folder (physical folder). When a file is stored, it may be stored in a folder determined by operational rules in the organization. The operation rule is, for example, storing in a predetermined folder for each file type or each department to which the user belongs. Furthermore, various patterns are conceivable, such as creating a folder for each year in which a file is created or creating a folder for each product. Such a folder management method is performed not only when a file is shared by a plurality of people but also when a single user manages the file.
ユーザの作業内容によっては、複数の物理フォルダに格納されたファイルをいくつかまとめて1つの用途で使用したいという場合がある。このような場合に、例えば各フォルダから必要なファイルを探し出し、1つのフォルダにコピーするという作業が必要になるためユーザの負担となる。また、このような作業を繰り返すと同一ファイルがファイルサーバ内に増え、ファイルサーバの容量を圧迫する。さらに、その中の一部のファイルにのみ変更を加えると類似したファイルがファイルサーバ内に散在することになり、最新のファイルがわからなくなるという問題も発生する。 Depending on the work contents of the user, there are cases where it is desired to use several files stored in a plurality of physical folders for one purpose. In such a case, for example, it is necessary to find a necessary file from each folder and copy it to one folder, which is a burden on the user. In addition, if such work is repeated, the same files increase in the file server, which reduces the capacity of the file server. Furthermore, if only some of the files are changed, similar files will be scattered in the file server, and the latest file will not be known.
そこで、文書(ファイル)のメタデータ(属性情報)を文書に対応付けて管理する方法が考えられている。例えば特許文献1では、仮想フォルダシステムが提案されている。仮想フォルダシステムとは、実際にファイルが存在する場所とは無関係に、条件に合致するファイルやフォルダを格納するフォルダ(仮想フォルダ)を提供するシステムである。例えば、ファイルにメタデータを設定しておき、仮想フォルダにはメタデータに対する検索条件を定義することで、検索条件に合致するファイルを仮想フォルダに格納することができる。仮想フォルダ参照時には、検索条件に基づいたファイルのみが表示される。例えば、営業文書を管理する場面では、まず「文書種別」(契約書・注文書・見積書など)を属性として定義しておく。属性とは、例えば「文書種別」や「取引先」などのメタデータの種類を表す語句である。全てのファイルについて文書種別を付与し、仮想フォルダに「文書種別が“契約書”であるもの」という検索条件を割り当てておけば、その仮想フォルダを参照すると契約書の一覧が取得できる。このように、仮想フォルダシステムでは、ファイルを意味的に分類するので、文書の効果的な活用が可能となる。また、物理的なフォルダ構造に関係なく、仮想的に様々なフォルダで管理できるため、ファイルの無駄なコピーによる容量圧迫や、最新版がわからなくなるという問題を解決できる。
Therefore, a method for managing metadata (attribute information) of a document (file) in association with the document is considered. For example,
しかしながら、特許文献1の技術によると、仮想フォルダの定義をユーザが行わなければならず、その作業がユーザの負担となってしまう。また、ファイルをどのような基準で分類するかをユーザが検討しなければならない。この作業を行うためには、ファイルサーバ内にどのようなファイルが存在するか知っておく必要があり、さらにどのような観点で分類すべきかをユーザが判断しなければならない。一般にファイルサーバ全体の内容を把握し、適切に分類を行う作業には困難が伴う。
However, according to the technique of
本発明はこのような状況に鑑みてなされたものであり、ファイルサーバに格納されたファイルに対して、精度良く、かつユーザにとって使い易いように、自動的に仮想分類を行うための技術を提供する。 The present invention has been made in view of such a situation, and provides a technique for automatically performing virtual classification on a file stored in a file server with high accuracy and ease of use for a user. To do.
上記目的を達成するために、本発明のファイル管理装置は、ファイルを仮想分類するための仮想フォルダを生成する装置である。当該装置は、ファイルのメタデータを構成する文字列や検索ログにおける検索クエリなどからキーワードを抽出し、記憶装置に登録する。また、当該装置は仮想フォルダを生成する際に用いるメタデータ群及び検索クエリ群において、出現頻度が多いキーワードを基に、仮想フォルダに格納されるファイルの条件を自動的に決定する。 In order to achieve the above object, a file management apparatus of the present invention is an apparatus that generates a virtual folder for virtually classifying files. The device extracts a keyword from a character string constituting file metadata, a search query in a search log, and the like, and registers the keyword in a storage device. In addition, in the metadata group and the search query group used when generating the virtual folder, the apparatus automatically determines the condition of the file stored in the virtual folder based on keywords that appear frequently.
即ち、本発明によるファイル管理装置は、複数の物理ファイルを分類するための仮想フォルダを生成するプログラムを実行するプロセッサと、複数の物理ファイルのメタデータを管理するためのメタデータ管理情報を格納する記憶装置と、を有している。ここで、仮想フォルダは、複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、複数の物理ファイル及び物理フォルダのリンク情報を管理するための仮想的なフォルダである。 That is, the file management apparatus according to the present invention stores a processor that executes a program for generating a virtual folder for classifying a plurality of physical files, and metadata management information for managing the metadata of the plurality of physical files. And a storage device. Here, the virtual folder is a virtual folder for managing link information of a plurality of physical files and physical folders irrespective of the locations where the plurality of physical files or the plurality of physical folders storing them exist. .
そして、プロセッサは、まず、メタデータ管理情報の複数のファイルのメタデータを構成する文字列から複数のキーワードを抽出し、当該抽出した各キーワードの出現頻度の情報を取得する。また、プロセッサは、検索ログデータに含まれる複数の検索クエリを構成する文字列から複数のキーワードを抽出し、当該抽出した各キーワードの出現頻度の情報を取得する。また、プロセッサは、出現頻度が所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成する。さらに、プロセッサは、仮想上位フォルダに対して用いたキーワードを含む別のキーワード、あるいは仮想上位フォルダに対して用いたキーワードと同時に検索したキーワード、あるいはメタデータを構成する文字列において、仮想上位フォルダに対して用いたキーワードと同時に使用されるキーワードを用いて、仮想上位フォルダに関連付けられる仮想下位フォルダを生成する。そして、プロセッサは、生成した仮想上位フォルダと仮想下位フォルダフォルダとの関係、及び仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示を出力する。 Then, the processor first extracts a plurality of keywords from the character strings constituting the metadata of the plurality of files of the metadata management information, and acquires information on the appearance frequency of each extracted keyword. Further, the processor extracts a plurality of keywords from character strings constituting a plurality of search queries included in the search log data, and acquires information on the appearance frequency of each of the extracted keywords. Further, the processor generates a specified number of virtual upper folders using keywords whose appearance frequency is equal to or higher than a predetermined value. In addition, the processor uses another keyword including a keyword used for the virtual upper folder, a keyword searched simultaneously with the keyword used for the virtual upper folder, or a character string constituting the metadata in the virtual upper folder. A virtual lower folder associated with the virtual upper folder is generated using a keyword used at the same time as the keyword used for the virtual upper folder. Then, the processor outputs a virtual classification display for displaying the relationship between the generated virtual upper folder and virtual lower folder folder, and the contents of the virtual upper folder and the virtual lower folder.
本発明によれば、ファイルサーバに格納されたファイル群を検索するための仮想フォルダを、精度よく、かつユーザにとって使い易いように、自動的に作成することができる。これにより、ユーザはファイルサーバ内に格納されているファイルの内容に関する知識が乏しくても、少ない作業工数で仮想フォルダを構築することが可能となる。頻出キーワード、検索キーワード、共起キーワードをもとに仮想フォルダを生成するため、よりユーザにとって利便性が高い仮想フォルダが生成される。 ADVANTAGE OF THE INVENTION According to this invention, the virtual folder for searching the file group stored in the file server can be created automatically so that it may be accurate and easy for the user to use. Thereby, even if the user has little knowledge about the contents of the file stored in the file server, the user can construct a virtual folder with a small number of work steps. Since the virtual folder is generated based on the frequently used keyword, the search keyword, and the co-occurrence keyword, a virtual folder that is more convenient for the user is generated.
本発明に関連する更なる特徴(課題、構成、効果)は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。 Further features (problems, configurations, and effects) related to the present invention will become apparent from the description of the present specification and the accompanying drawings. The embodiments of the present invention can be achieved and realized by elements and combinations of various elements and the following detailed description and appended claims.
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。 It should be understood that the description herein is merely exemplary and is not intended to limit the scope of the claims or the application of the invention in any way.
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. However, it should be noted that this embodiment is merely an example for realizing the present invention, and does not limit the technical scope of the present invention. In each drawing, the same reference numerals are assigned to common components.
なお、以後の説明では表(テーブル)形式によって本発明の情報を説明するが、これら情報は必ずしも表形式によるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。 In the following description, the information of the present invention will be described in the form of a table (table). However, the information does not necessarily have to be expressed in a data structure in the form of a table. It may be expressed in other than. Therefore, “table”, “list”, “DB”, “queue”, etc. may be simply referred to as “information” to indicate that they do not depend on the data structure.
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。 In addition, when explaining the contents of each information, the expressions “identification information”, “identifier”, “name”, “name”, “ID” can be used, and these can be replaced with each other. It is.
以後の説明では「プログラム」を主語として説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。 In the following description, “program” will be the subject, but the program is executed by the processor, and processing determined by using the memory and communication port (communication control device) will be performed. It is good. Further, the processing disclosed with the program as the subject may be processing performed by a computer such as a management server or an information processing apparatus. Part or all of the program may be realized by dedicated hardware, or may be modularized. Various programs may be installed in each computer by a program distribution server or a storage medium.
<仮想分類装置の構成>
図1は、本発明の実施形態による仮想分類装置(ファイル管理装置や文書処理装置ということもできる)の概略構成を示す機能ブロック図である。この仮想分類装置は、必要な演算処理及び制御処理等を行う中央処理装置(プロセッサ)100と、データの入出力を行うための入出力装置110と、中央処理装置100での処理に必要なプログラムを格納するプログラムメモリ120と、中央処理装置100での処理後のデータを格納する記憶装置130と、中央処理装置100での処理対象となるデータを格納するデータメモリ140と、を有している。
<Configuration of virtual classification device>
FIG. 1 is a functional block diagram showing a schematic configuration of a virtual classification device (also referred to as a file management device or a document processing device) according to an embodiment of the present invention. The virtual classification device includes a central processing unit (processor) 100 that performs necessary arithmetic processing and control processing, an input /
入出力装置110は、データを表示するための表示装置111やプリンタ(図示せず)等で構成される出力デバイスと、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード112、マウスなどのポインティングデバイス113と、を有している。
The input /
プログラムメモリ120は、メタデータの検索を行う検索プログラム121と、メタデータ及び検索ログからキーワードを抽出するキーワード登録プログラム122と、キーワードを基に仮想フォルダを生成する仮想フォルダ生成プログラム123と、仮想フォルダを画面表示し、各仮想フォルダに格納されたファイルの内容の表示を行う仮想分類プログラム124と、を格納している。なお、各処理プログラムは、プログラムコードとしてプログラムメモリ120に格納されており、中央処理装置100が各プログラムコードを実行することによって各処理が実現される。
The
記憶装置130は、各ファイルのメタデータファイル131と、検索クエリのログが格納される検索ログデータ132と、キーワードを基に生成される仮想フォルダの定義情報が格納される仮想フォルダデータ133と、を格納している。なお、記憶装置130は、ネットワークを介して遠隔的に配置されていているストレージシステムであってもよい。
The
データメモリ140は、抽出キーワードデータ141と、検索キーワード管理データ142と、共起キーワードデータ143と、仮想上位フォルダデータ144と、仮想下位フォルダデータ145と、を格納している。これらのデータの詳細については後述する。
The
以上に述べた処理プログラム・データ・各プログラム等は、CD−ROM、DVD−ROM、MO、フロッピー(登録商標)ディスク、USBメモリ等の種々の記録媒体に格納して提供することもできる。 The processing program, data, each program, etc. described above can be provided by being stored in various recording media such as a CD-ROM, DVD-ROM, MO, floppy (registered trademark) disk, USB memory or the like.
<メタデータ>
図2は、記憶装置130内のメタデータファイル131の一例を示す図である。本発明の実施形態では、メタデータファイル131に登録された各ファイル(ファイル001、002、003、・・・・)は、メタデータ202と共にメタデータファイル131内で管理されるものとする。従って、メタデータ202が未登録のファイルはここには登録されていないものとする。
<Metadata>
FIG. 2 is a diagram illustrating an example of the
メタデータファイル131は例えば表形式で管理され、1つのファイルが1行に対応している。メタデータファイル131は、ファイルを一意に示すID201と、ファイルに登録されたメタデータ202と、を構成項目として有している。
The
メタデータ202は、本システムで管理する属性毎に列を構成している。図2には、例えば、紙の営業文書をスキャナでスキャンして得られたファイルのメタデータが示されている。図2の例では、属性として、ファイルのファイルパス203、文書種別204、顧客名205等がある。なお、メタデータは図2で示したもの以外にも、様々なパターンが考えられる。例えば、ファイルのアクセス日、最終更新日など日付に関するメタデータや、ファイルの作成者、更新者などの人に関するメタデータも考えられる。
The
<検索ログデータ>
図3は、記憶装置130内の検索ログデータ132の一例を示す図である。検索ログデータ132は、ユーザから入力された検索クエリとその日時303が記載されたデータである。検索クエリは、複数のデータを保持する。図3は、二種類のデータ(検索クエリA301、検索クエリB302)を保持している場合の例を示す。これはユーザが検索クエリA301と検索クエリB302でAND検索を行ったログであることを示す。図3の例において、一行目のデータは、「契約書」と「文書管理システム」がAND検索されたログであることを示す。検索クエリB302が空欄の場合は、検索クエリA301のみで検索を行ったログであることを示す。
<Search log data>
FIG. 3 is a diagram illustrating an example of the
なお、本実施形態では、検索ログデータ132が2つの検索クエリで構成される場合で説明するが、検索クエリの数は1つ或いは3つ以上であっても構わない。
In the present embodiment, the case where the
また、検索ログデータ132は、例えば、属性ごとに複数の登録情報ファイルを有している。従って、例えば、文書種別と顧客名を使った検索の場合、それぞれ属性ごと(文書種別と顧客名)に別々に重複して登録されるようにしても良い。
Further, the
<仮想フォルダデータ>
図4は、記憶装置130内の仮想フォルダデータ133の一例を示す図である。この仮想フォルダデータは最終的に生成された仮想フォルダの情報を示している。
<Virtual folder data>
FIG. 4 is a diagram illustrating an example of the
仮想フォルダデータ133は属性単位で作成され、後述の仮想フォルダ生成プログラムによって生成される仮想フォルダの定義が記載されたデータである。ここで、仮想フォルダとは、実際にファイルやフォルダ(物理ファイル及び物理フォルダ)が存在する場所とは無関係に、条件に合致するファイルやフォルダを格納するフォルダをいう。また、仮想フォルダは、ファイルやフォルダの本体を格納しているのではなく、1つ又は複数のショートカットを格納することになる。そして、物理ファイル・フォルダが変更・新規作成・削除された場合、その結果が仮想フォルダに反映されて仮想フォルダの内容が変化する。なお、仮想フォルダは、単なるショートカットやエイリアスとは異なる概念である。より具体的には、ファイルのショートカットはフォルダではないので、複数のファイルをまとめることはできないし、フォルダのショートカットは、物理フォルダを別の場所から参照できるようにしているだけである。また、エイリアスは、ショートカットとほぼ同義だが、別名で別の場所から参照できるようにする技術である。ショートカット及びエイリアスはいずれも条件に合致するファイル(フォルダ)を格納するものではない。
The
図4は、属性が文書種別であり、仮想上位フォルダ401と仮想下位フォルダ402の2階層の仮想フォルダが記載された例を示している。
FIG. 4 shows an example in which the attribute is a document type and a virtual folder having two layers of a virtual
仮想上位フォルダ401は、仮想下位フォルダ402の内容を包括する単一のキーワードで定義される。仮想上位フォルダ401に付与された文字列は検索条件を表す。より具体的には、メタデータファイルにおける対象の属性において、仮想上位フォルダに付与された文字列を含むファイルが検索対象となる。例えば、図4の1つ目のデータでは、文書種別に「契約」という文字列を含むファイルが検索対象となる。
The virtual
仮想下位フォルダ402は、仮想上位フォルダ401の内容を、より詳細化したキーワードで定義され、以下の3パターンがある。
The virtual
1つは、仮想上位フォルダ401のキーワードを含む文字列で構成される場合である。例えば、仮想上位フォルダ401が「契約」、仮想下位フォルダ402が「契約書」となるような場合である。この場合、文書種別に「契約書」という文字列を含むファイルが検索対象となる。
One is a case of being composed of a character string including a keyword of the virtual
2つ目は、仮想上位フォルダ401のキーワードが、検索ログデータ132における検索クエリA301である場合である。例えば、仮想上位フォルダ401が「契約」、仮想下位フォルダ402が「契約, 法務」となるような場合である。この場合、文書種別に「契約」と「法務」を共に含むファイルが検索対象となる。つまり、上位仮想フォルダの文言(例:契約)とペアで検索に用いられることが多い文言(例:法務)を共に含むファイルの場合である。
The second is a case where the keyword of the virtual
3つ目は、2つ目の場合と同様に、2つのキーワードで構成される。一方のキーワードは仮想上位フォルダ401のキーワードである。もう一方のキーワードは、メタデータファイル131におけるメタデータにおいて、仮想上位フォルダ401のキーワードと同時に出現する別のキーワードである場合である。例えば、メタデータが「基本契約書作成依頼(製品ABC)」の場合に、仮想下位フォルダ402が「契約, 製品ABC」となるような場合である。この場合、文書種別に「契約」と「製品ABC」を共に含むファイルが検索対象となる。このパターンは、検索に関係なく、共に出現し易い文言のペアを含むファイルの場合である。
The third is composed of two keywords as in the second case. One keyword is a keyword of the virtual
なお、仮想フォルダデータ133は、仮想分類処理実行の指示が入力されてから生成するようにしても良いし、所定数のファイルが蓄積された時点で自動的に生成したり、所定時間間隔で溜まったファイルに対して自動的に生成するようにしても良い。また、仮想フォルダデータ133を生成する際に、ユーザがフォルダ生成に用いるキーワードを指定するようにしても良い。
Note that the
<抽出キーワードデータ>
図5は、データメモリ140内の抽出キーワードデータ141の一例を示す図である。抽出キーワードデータ141は、メタデータファイル131における文字列情報(例えば、ファイルパス203、文書種別204、顧客名205等)を基に、特徴的な単語(抽出キーワード)501と、その頻度502が記載されたデータである。頻度502は、記憶装置130におけるメタデータファイル131において、当該キーワードを含むファイルの件数を表している。図5の例では、メタデータファイル131に登録されているファイルには、「検収」というキーワードを含むファイルが292件存在することを表している。
<Extracted keyword data>
FIG. 5 is a diagram illustrating an example of the extracted
抽出キーワードデータ141は、例えば、属性ごとに複数の登録情報ファイルを有している。なお、このような抽出キーワードデータ141は、非特許文献1に記載された方法によって生成することができるため、その生成方法についての説明は省略する。
The extracted
<検索キーワード管理データ>
図6は、データメモリ140内の検索キーワード管理データ142の一例を示す図である。検索キーワード管理データ142は、記憶装置130における検索ログデータ132をもとに生成されるデータである。検索クエリA601及び検索クエリB602は、検索ログデータ132の検索クエリA301及び検索クエリB302の組み合わせを表す。組み合わせを表すため、検索クエリA301と検索クエリB302の文字列が入れ替わっていた場合も同一データとなる。この際、文字コードでソートされ、検索クエリA601と検索クエリB602の順番は統一される。例えば、検索クエリA301と検索クエリB302が、「契約, 書類」の場合と、「書類, 契約」の場合は、検索クエリA601と検索クエリB602は、「契約, 書類」のように統一される。出現頻度603は、検索ログデータ132において、検索クエリA301と検索クエリB302の組み合わせが出現した件数を表す。検索クエリA301とB302のいずれか一方が空欄の場合は、検索クエリB602は空欄となる。
<Search keyword management data>
FIG. 6 is a diagram illustrating an example of search
なお、検索キーワード管理データ142は、例えば、属性ごとに複数の登録情報ファイルを有している。また、検索キーワード管理データ142は、所定期間内の検索ログから得られる上記情報を管理するようにしても良い。
Note that the search
<共起キーワードデータ>
図7は、データメモリ140内の共起キーワードデータ143の一例を示す図である。共起キーワードデータ143は、データメモリ140内の抽出キーワードデータ141から得られる抽出キーワード701と、記憶装置130内のメタデータファイル131において、抽出キーワード701の文字列と共に出現する別のキーワードである共起キーワード702と、抽出キーワード701と共起キーワード702の組み合わせの頻度703が記載されたデータである。頻度703は、メタデータファイル131において、当該キーワードの組み合わせを含むファイルの件数を表している。図7の例では、メタデータファイル131に登録されているファイルには、「納品書」というキーワードと、「検収」というキーワードを共に含むファイルが80件存在することを表している。別の例を挙げると、図2における文書011や文書008の文書種別204は、「納品書兼検収依頼書」や「契約書等審査票」となっている。このように独立した文言(キーワード)が「兼」や「等」、さらには「/」「+」等の記号によって区切られている場合、この独立したキーワードは同一メタデータ内に一緒に出現する可能性が高く、共起キーワードとなる。
<Co-occurrence keyword data>
FIG. 7 is a diagram showing an example of
なお、共起キーワードデータ143は、例えば、属性ごとに複数の登録情報ファイルを有している。また、共起キーワードデータ143は、非特許文献1に記載された方法によって生成することができるため、その生成方法についての説明は省略する。
The
<仮想上位フォルダデータ>
図8は、データメモリ140内の仮想上位フォルダデータ144の一例を示す図である。仮想上位フォルダデータ144は、仮想上位フォルダの検索条件となる文字列の候補であり、検索キーワード管理データ142から抽出されたキーワード801と、抽出キーワードデータ141において、当該キーワードの頻度を表す抽出キーワード頻度802と、検索キーワード管理データ142において、当該キーワードの頻度を表す検索頻度803と、抽出キーワード頻度802及び検索頻度803に基づいて算出されるスコア804が記載されたデータである。スコア804は、当該キーワードの仮想上位フォルダとしての適合の度合いを表している。仮想フォルダ生成プログラム123は、スコア804に基づいて仮想上位フォルダを決定する。
<Virtual upper folder data>
FIG. 8 is a diagram illustrating an example of the virtual
なお、仮想上位フォルダデータ144は、例えば、属性ごとに複数の登録情報ファイルを有している。
Note that the virtual
<仮想下位フォルダデータ>
図9は、データメモリ140内の仮想下位フォルダデータ145の一例を示す図である。仮想下位フォルダデータ145は、仮想下位フォルダの検索条件の文字列の組み合わせとなる、キーワードA901及びキーワードB902と、抽出キーワードデータ141において、当該キーワードの件数を表す抽出キーワード頻度903と、検索キーワード管理データ142において、当該キーワードの組み合わせを含むデータの件数を表す検索頻度904と、共起キーワードデータ143において、当該キーワードの組み合わせを含むデータの件数を表す共起頻度905と、抽出キーワード頻度903及び検索頻度904及び共起頻度905に基づいて算出されるスコア906が記載されたデータである。
<Virtual subfolder data>
FIG. 9 is a diagram illustrating an example of the virtual
キーワードA901には、仮想上位フォルダに含まれるキーワード(例:契約)が記入されている。キーワードB902には、キーワードA901に対して共起キーワードとなるキーワードが記入されている。キーワードB902に「−」が記入される場合は、共起キーワードが存在しないときである。 In keyword A901, a keyword (eg, contract) included in the virtual upper folder is entered. In keyword B902, a keyword that is a co-occurrence keyword with respect to keyword A901 is entered. The case where “-” is entered in the keyword B902 is when the co-occurrence keyword does not exist.
スコア906は、当該キーワードの組み合わせの仮想下位フォルダとしての適合の度合いを表している。仮想フォルダ生成プログラム123は、スコア906に基づいて仮想下位フォルダを決定する。
The
なお、仮想下位フォルダデータ145は、例えば、属性ごとに複数の登録情報ファイルを有している。
The virtual
<仮想分類画面>
図17は、仮想分類プログラム124が生成する仮想分類の表示画面(GUI)の一例を示す図である。図17に示されるように、GUIのウインドウでは、左側のペインに、ファイルを検索するための検索機能1701と、仮想フォルダによるツリー表示1702が表示され、右側のペインに、検索機能、あるいは仮想フォルダを選択されることによって、該当するファイルの検索結果1703が表示される。
<Virtual classification screen>
FIG. 17 is a diagram illustrating an example of a virtual classification display screen (GUI) generated by the
検索プログラム121は、検索結果を表示する際、記憶装置130におけるメタデータファイル131を使用する。
The
仮想分類プログラム124は、仮想フォルダをGUI画面に表示する際、記憶装置130における仮想フォルダデータ133を使用する。また、仮想分類プログラム124は、仮想フォルダが選択されると、検索プログラム121を実行する。すなわち、仮想フォルダに付与された文字列で検索プログラムを実行するのと同一の処理を行う。検索プログラムは、記憶装置130におけるメタデータファイル131から、検索クエリの文字列を含むファイルを検索結果1703に表示する。検索クエリが2つの場合には、2つの文字列を共に含むファイルが検索結果として表示される。本実施形態では、検索クエリが3つ以上の場合については、詳細な説明はしないが、検索クエリが2つの場合と同様に処理可能である。
The
更新ボタン1707が押下されると、キーワード登録プログラム122、仮想フォルダ生成プログラム123、仮想分類プログラム124が順に実行され、表示画面(GUI)が更新される。
When an
検索機能部分には、検索対象の属性を選択するためのプルダウン1704、検索クエリを入力するテキストボックス1705、検索処理を実行するための検索実行ボタン1706がある。仮想分類表示部分には、仮想上位フォルダ1708と仮想下位フォルダ1709が表示される。
The search function part includes a pull-
仮想フォルダによるツリー表示1702は、記憶装置130における仮想フォルダデータが定義されている場合のみ表示される。定義されていない場合には表示されない。
The virtual
検索プログラム121によって実行された検索クエリは、記憶装置130における検索ログデータに記憶される。
The search query executed by the
検索の方法には大きく2つある。属性をプロダウン1704によって選択し、キーワード1705を入力して該当文書を検索する方法と、属性をプルダウン1704によって選択し、表示される仮想分類1702から1つの仮想フォルダを選択して該当文書を検索する方法である。前者の方法は仮想フォルダとは無関係であり、その場合、仮想分類1702のツリー表示では、どのフォルダも開かれていない状態となっている。
There are two major search methods. A method for selecting an attribute with a pro-down 1704 and inputting a
図17では、属性「文書種別」が選択され、また、仮想上位フォルダ「契約」の子フォルダ「契約, 製品ABC」が選択された状態が示されている。検索結果1703には、属性「文書種別」において、「契約」と「製品ABC」を共に含むファイルが表示されている。また、ファイル名1711、文書種別1712、取引先名1713などの属性のメタデータが表示されている。また、仮想上位フォルダ1708が選択されると、検索結果1703には、仮想上位フォルダの文字列を含むファイルが表示される。検索結果1703において、ユーザによってファイルが選択されると、オペレーティングシステムによって関連付けられたアプリケーションが起動し、当該ファイルが開かれる。
FIG. 17 shows a state where the attribute “document type” is selected and the child folder “contract, product ABC” of the virtual upper folder “contract” is selected. The
仮想分類処理によって、例えば図17に示すようなるユーザインターフェース(GUI)を表示し、ユーザはそれを用いることにより、物理的に異なるフォルダに格納されたファイルを、仮想フォルダ毎に参照することが可能となる。そして、ユーザは、ファイルの実体が保存された物理フォルダを考慮せずとも、意味的な分類によってファイルを参照できる。また、ユーザは、GUI上で属性を選択することも可能であり、属性毎に異なる仮想フォルダツリーが構成され、探したい観点でファイルの検索が可能となる。 For example, a user interface (GUI) as shown in FIG. 17 is displayed by the virtual classification process, and the user can refer to files stored in physically different folders for each virtual folder. It becomes. The user can refer to the file by semantic classification without considering the physical folder in which the file entity is stored. In addition, the user can select an attribute on the GUI, and a different virtual folder tree is configured for each attribute, and a file can be searched from the viewpoint of searching.
<文書処理装置における処理概要>
上述の構成を有する文書処理装置において行われる処理(図17のGUI上での操作に対応する処理)の概要についてまず説明する。この際の動作主体は、特に断らない限りは中央処理装置100であり、中央処理装置100が各種プログラムを読み込み、実行する。
<Outline of processing in document processing apparatus>
First, an outline of processing (processing corresponding to the operation on the GUI in FIG. 17) performed in the document processing apparatus having the above-described configuration will be described. The operating subject at this time is the
まず、仮想分類プログラム124が実行される。仮想分類プログラム124は、記憶装置130からメタデータファイル131と仮想フォルダデータ133を読み込み、仮想フォルダデータ133に記載された仮想フォルダの定義に基づいて仮想フォルダ(図17参照)を表示する。
First, the
次に、仮想分類プログラム124は、ユーザからの入力を受け付け、検索処理または、仮想フォルダが選択されると、メタデータファイル131から該当するファイルを検索し、検索結果1703に表示する。この際、使用された検索クエリは、記憶装置130における検索ログデータ132として保存する。
Next, the
更新ボタン1707が押下されると、キーワード登録プログラム122、仮想フォルダ生成プログラム123、仮想分類プログラム124が順に実行される。
When an
キーワード登録プログラム122は、記憶装置130におけるメタデータファイル131と検索ログデータ132を読み込み、メタデータファイルから特徴的な単語(キーワード)を抽出し、抽出キーワードデータ141としてデータメモリ140に格納する。また、使用された検索クエリの統計情報を検索キーワード管理データ142としてデータメモリ140に格納する。また、メタデータファイル131において、抽出キーワードデータ141に登録されているキーワードと共に使用されている別のキーワードの統計情報を、共起キーワードデータ143としてデータメモリ140に格納する。
The
仮想フォルダ生成プログラム123は、データメモリ140から、抽出キーワードデータ141、検索キーワード管理データ142、共起キーワードデータ143を読み込み、これらのキーワードの特徴に基づいて仮想フォルダの定義情報を生成し、記憶装置130に仮想フォルダデータ133として格納する。この際、仮想上位フォルダの候補となるキーワードが格納されたデータを仮想上位フォルダデータ144としてデータメモリ140に格納する。また、仮想下位フォルダの候補となるキーワードが格納されたデータを仮想下位フォルダデータ145としてデータメモリ140に格納する。
The virtual
仮想分類プログラム124は、記憶装置130からメタデータファイル131と仮想フォルダデータ133を読みこみ、仮想フォルダデータ133に記載された仮想フォルダの定義に基づいて仮想フォルダを表示する。そして、仮想分類プログラム124は、ユーザからの入力を受け付け、仮想フォルダが選択されると、メタデータファイル131から仮想フォルダに格納されるファイルを検索し、該当するファイルを表示する。それぞれの処理について、以下詳細に説明する。
The
<キーワード登録処理>
図10は、キーワード登録プログラム122が実行するキーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
<Keyword registration process>
FIG. 10 is a flowchart for explaining the keyword registration process executed by the
ステップ1001において、キーワード登録プログラム122は、仮想フォルダ生成対象の属性を1つ選択する。以降、属性として「文書種別」を選択した場合で説明する。なお、仮想フォルダを生成しなくてもよい属性は読み込む必要はない。
In
ステップ1002において、キーワード登録プログラム122は、後述する抽出キーワード登録処理を行い、抽出キーワードデータ141を生成する。
In
ステップ1003において、キーワード登録プログラム122は、後述する検索キーワード登録処理を行い、検索キーワード管理データ142を生成する。
In
ステップ1004において、キーワード登録プログラム122は、後述する共起キーワード登録処理を行い、共起キーワードデータ143を生成する。
In
ステップ1005において、キーワード登録プログラム122は、仮想フォルダ生成対象の属性すべてについて処理を行ったか否かを判定し、まだ処理していない属性があればステップ1002に戻り、すべて処理済であれば処理を終了する。
In
<抽出キーワード登録処理>
図11は、キーワード登録プログラムが実行する、抽出キーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
<Extracted keyword registration process>
FIG. 11 is a flowchart for explaining extracted keyword registration processing executed by the keyword registration program. Here, a description will be given assuming that the operation subject is the
ステップ1101において、キーワード登録プログラム122は、記憶装置130からメタデータファイル131(ステップ1001で選択された属性のメタデータ)を全て読み込む。
In
ステップ1102において、キーワード登録プログラム122は、読み込んだメタデータファイルからファイルを1つ選択しメタデータを読み込む。例えば、属性「文書種別」の値が「検収通知書1」であるデータを読み込んだ場合を考える。
In
ステップ1103において、キーワード登録プログラム122は、ステップ1102で読み込んだデータに対して形態素解析を行う。形態素解析の詳細については非特許文献1に開示されている。図16Aは、「検収通知書1」に対して形態素解析を行った結果を表す。「検収通知書1」は、「検収」、「通知」、「書」、「1」の4つの文字列に分割される。また、品詞の行には、それぞれの文字列が、名詞または未知語であることと、付属的な内容が記載されている。未知語とは、形態素解析の結果、品詞が不明と判定された文字列である。形態素解析は、内部で使用している辞書を元にして、入力文字列の品詞を判定しているため、辞書に登録されていない文字列は未知語として判定される。具体的には、製品名や個人名などの固有名詞が未知語となり得る。また、形態素解析は日本語の解析に利用されるため、英数字や記号などが辞書登録されていない場合がある。前述した例では、「1」が未知語と判定された場合を示した。
In
ステップ1104において、キーワード登録プログラム122は、ステップ1103の形態素解析の結果をもとに、名詞または未知語が1つ以上連続した文字列を抽出し、この文字列を抽出キーワードとする。このような品詞パターンの文字列をキーワードとして抽出する手法は一般によく用いられている。抽出されたキーワードをさらに詳細に分析し、よりキーワードの抽出精度を高める技術も多数提案されている。
In
ステップ1105において、キーワード登録プログラム122は、予め定義されたルールに従って、抽出キーワードのフィルタリングを行う。仮想フォルダ生成プログラム123による仮想フォルダ生成処理では、抽出されたキーワードを基に仮想フォルダの生成が行われるため、仮想フォルダとして不適であるキーワードが含まれると、不適当な仮想フォルダが生成してしまう可能性がある。このため、仮想フォルダとして不適と考えられるキーワードをこの処理で除外する。例えば「検収通知書1」というキーワードから仮想フォルダを定義する場合、ユーザにとっての分類のわかりやすさの観点から、数字は除外した方が望ましいと考えられる。なお、フィルタリングを実現するには、予め除外すべき文字や特殊な名詞を辞書やDBに登録しておき、それを参照して除外すべき文字か否か判断する。除外すべき文字としては、米印、矢印等の記号や、数字である(ただし、数字はキーワードとして必要な場合もあるため、常に除外対象とするのは不適である。従って、最終的にユーザに除外するか否かについて確認するようにしても良い)。図16Cは、図16Bにおけるキーワードから数字を含むキーワードを除外した例を示している。また、名詞の中で特殊なパターンも除外すべきである。例えば、代名詞、ナイ形容詞語幹、一部の接尾辞などである。ナイ形容詞語幹とは、「申し訳」、「大人げ」などの「〜ない」の形をとる名詞である。また、除外すべき名詞接尾辞としては、例えば、「〜君」、「〜さん」などの人名に続く敬称や、「休みがち」の「がち」や、「勝ったも同然」の「同然」などの形容動詞語幹などがある。
In
ステップ1106において、キーワード登録プログラム122は、データメモリにおける抽出キーワードデータ141を更新する。すなわち、キーワード登録プログラム122は、ステップ1102からステップ1105の過程で取得した抽出キーワードを登録する。抽出キーワードデータ141に、すでに登録されている抽出キーワードがあった場合は、頻度を1加算する。抽出キーワードデータ141に、まだ登録されていない抽出キーワードであった場合は、その抽出キーワードを頻度1として登録する。
In
ステップ1107において、キーワード登録プログラム122は、全メタデータに対してステップ1102からステップ1106までの処理を行ったか否かを判定し、まだ行っていないメタデータがある場合にはステップ1102に戻り、すべてのメタデータが処理済の場合は処理を終了する。
In
<検索キーワード登録処理>
図12は、キーワード登録プログラムが実行する、検索キーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
<Search keyword registration process>
FIG. 12 is a flowchart for explaining search keyword registration processing executed by the keyword registration program. Here, a description will be given assuming that the operation subject is the
ステップ1201において、キーワード登録プログラム122は、ステップ1001で選択された属性について、記憶装置130から検索ログデータ132を読み込む。
In
ステップ1202において、キーワード登録プログラム122は、読み込んだ検索ログデータ132からデータを1つ選択する。例えば、検索クエリAが「契約書」、検索クエリBが「文書管理システム」、日時が「2009/01/22 23:12:05」の場合が考えられる。
In
ステップ1203において、キーワード登録プログラム122は、読み込んだデータをもとに、データメモリ140内の検索キーワード管理データ142を更新する。具体的には、読み込んだデータにおける検索クエリAと検索クエリBの組み合わせが、検索キーワード管理データ142内に含まれていれば、検索キーワード管理データ142における該当データの頻度を1だけ加算する。含まれていなければ、読み込んだデータのエントリを追加し、頻度を1として登録する。
In
ステップ1204において、キーワード登録プログラム122は、検索ログデータ132内の全データを処理したか否かを判定する。全データを処理していなければステップ1202に戻り、全データを処理済であれば処理を終了する。
In
<共起キーワード登録処理>
図13は、キーワード登録プログラムが実行する、共起キーワード登録処理を説明するためのフローチャートである。ここでは、動作主体がキーワード登録プログラム122であるとして説明する。
<Co-occurrence keyword registration process>
FIG. 13 is a flowchart for explaining the co-occurrence keyword registration process executed by the keyword registration program. Here, a description will be given assuming that the operation subject is the
ステップ1301において、キーワード登録プログラム122は、ステップ1001で選択された属性について、記憶装置130からメタデータファイル131をすべて読み込み、また、データメモリ140から抽出キーワードデータ141を読み込む。
In
ステップ1302において、キーワード登録プログラム122は、読み込んだ抽出キーワードデータの中から、抽出キーワードをひとつ読み込む。ここでは、例えば、抽出キーワードを「契約書」として説明する。
In
ステップ1303において、キーワード登録プログラム122は、メタデータファイル131からメタデータを1つ読み込む。例えば、メタデータを「契約書(検索システム)」として説明する。
In
ステップ1304において、キーワード登録プログラム122は、抽出キーワードが、メタデータ内に含まれているか否かを判定する。含まれていない場合はステップ1308に進む。含まれている場合はステップ1305に進む。抽出キーワード「契約書」、メタデータ「契約書(検索システム)」の場合は、メタデータ内に、「契約書」という文字列が含まれるためステップ1305に進む。
In
ステップ1305において、キーワード登録プログラム122は、メタデータを形態素解析する。上記の例の場合には、「契約」「書」「(」「検索」「システム」「)」のように分解され、それぞれについて品詞情報が付与される。
In
ステップ1306において、キーワード登録プログラム122は、形態素解析後の各単語を基に、ステップ1302で選択された抽出キーワードを含まず、かつ含まれず、かつ隣接していないキーワードを抽出する。キーワードの抽出方法は、前述した抽出キーワード登録処理におけるキーワード抽出方法と同様であり、名詞または未知語が連続した文字列をキーワードとみなす。上記の例の場合には、「契約書」を含まず、かつ「契約書」に含まれず、かつ「契約書」と隣接していないキーワードは、「検索」「システム」「検索システム」の3パターンが考えられる。他の例として、抽出キーワード「契約書」、メタデータ「基本契約書」の場合がある。この場合、形態素解析の結果、「基本契約書」は、「基本」「契約」「書」のように分解される。抽出キーワード「契約書」を含まないキーワードとして、「基本」「契約」「書」がある。この中で、「契約」と「書」は「契約書」に含まれるため不適である。また、「基本」は「契約書」と隣接したキーワードであるため不適である。さらに、他の例として、抽出キーワード「納品書」、メタデータ「納品書兼検収依頼書」の場合、「納品書兼検収依頼書」は、形態素解析の結果、「納品」「書」「兼」「検収」「依頼」「書」のように分解される。この中で、「納品書」と「検収依頼書」では、「検収依頼書」が「納品書」の文言を含まず、2つが「兼」で区切られているため、共起キーワードとして適していると判断される。
In
ステップ1307において、キーワード登録プログラム122は、データメモリ140における共起キーワードデータ143を更新する。具体的には、ステップ1302で選択した抽出キーワードと、ステップ1306で抽出したキーワードの組み合わせを登録する。上記例の場合には、3パターンのデータを登録する。1つは、「契約書」と「検索」、2つ目は、「契約書」と「システム」、3つ目は、「契約書」と「検索システム」である。これらのデータが、共起キーワードデータ143内に含まれていれば、共起キーワードデータ143における該当データの頻度を1だけ加算して登録する。含まれていなければ、そのデータのエントリを新たに追加し、頻度を1として登録する。
In
ステップ1308において、キーワード登録プログラム122は、全メタデータに対して処理を行ったか否かを判定する。全メタデータを処理していなければ、ステップ1303に戻り、全メタデータを処理済であればステップ1309に進む。
In
ステップ1309において、キーワード登録プログラム122は、全抽出キーワードを処理したか否かを判定する。全抽出キーワードを処理していなければ、ステップ1302に戻り、全抽出キーワードを処理済であれば処理を終了する。
In
<仮想フォルダ生成処理>
図14は、仮想フォルダ生成プログラム123が実行する仮想フォルダ生成処理を説明するためのフローチャートである。仮想フォルダ生成処理では、データメモリ140における抽出キーワードデータ141、検索キーワード管理データ142、共起キーワードデータ143を基に、仮想上位フォルダデータ144と仮想下位フォルダデータ145を生成し、さらにそのデータを基に、記憶装置130における仮想フォルダデータ133を生成する。
<Virtual folder generation process>
FIG. 14 is a flowchart for explaining virtual folder generation processing executed by the virtual
ステップ1401において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータ(図8参照)を生成し、スコアの降順にソートする。具体的には、仮想フォルダ生成プログラム123は、まずデータメモリ140における抽出キーワードデータ141と検索キーワード管理データ142を読み込み、それらのデータをマージする。マージする際には、抽出キーワードデータ141における抽出キーワード、または検索キーワード管理データ142における検索クエリA、または検索クエリB、の文字列を1つのエントリとして合算して登録する。例えば、抽出キーワード「契約書」が頻度100であり、検索クエリAと検索クエリBの組み合わせが、「契約書」と「A社」で頻度が80であった場合は、図8における1行目のデータのように登録する。その際のスコア804については後述する。なお、検索クエリA、検索クエリBのいずれか一方に該当する文字列があれば、合算の対象となる。例えば、検索クエリAと検索クエリBの組み合わせが、「契約書」及び「A社」で頻度が100の場合と、「契約書」及び「B社」で頻度が50のデータがあった場合には、仮想上位フォルダデータ144における検索頻度803は150となる。スコア804は、抽出キーワード頻度802と検索頻度803を重み付き加算することにより求める。図8の例では、メタデータ頻度の重みを1、検索頻度の重みを5として、加算した結果を表している。重み付け加算を行う理由は、どのようなデータから取得したかによってユーザにとっての重要の度合いが異なるためである。図8の例では、検索頻度の重みを、メタデータ頻度の5倍の重みを与えている。これは、検索に使用された文字列はユーザによって意図的に指定された文字列であるため重要度が高いと考えられるためである。全データに関してスコアの算出まで終了したら、スコアの大きい順にソートする。なお、仮想上位フォルダデータの生成は、仮想フォルダ生成対象の全属性について行う。
In
ステップ1402からステップ1409までの処理では、仮想上位フォルダデータ144に基づいて仮想フォルダの検索条件となるキーワードを決定し、仮想フォルダデータ133として生成する。
In the processing from
ステップ1402において、仮想フォルダ生成プログラム123は、仮想フォルダ生成対象の属性を1つ選択する。
In
ステップ1403において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータ144からキーワードを1つ選択する。この際、未処理のキーワードの中から頻度が最も高いキーワードを選択する。
In
ステップ1405において、仮想フォルダ生成プログラム123は、ステップ1404で採用されたキーワードを仮想上位フォルダにおけるキーワードとして仮想上位フォルダデータ144に登録する。この際、前述したように必要に応じて登録済みの仮想上位フォルダと、その仮想下位フォルダのデータを削除する。
In
ステップ1406において、仮想フォルダ生成プログラム123は、ステップ1405で登録した仮想上位フォルダのキーワードを基にして仮想下位フォルダを生成、即ち仮想下位フォルダデータ145を登録する。仮想下位フォルダデータの生成については後述する。
In
ステップ1407において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータにおける全キーワードを処理したか否かを判定する。処理していないキーワードがあれば処理はステップ1408に進み、全キーワードが処理済であれば処理はステップ1409に進む。
In
ステップ1408において、仮想フォルダ生成プログラム123は、仮想上位フォルダデータ144における仮想上位フォルダの数が規定値に達したか否かを判定する。既定値に達していなければ処理はステップ1403に進み、既定値に達していれば処理はステップ1409に進む。
In
ステップ1409において、仮想フォルダ生成プログラム123は、仮想フォルダ生成対象の全属性を処理したか否かを判定する。全属性を処理していなければステップ1402に進み、全属性を処理済であれば処理を終了する。
In
以上のような処理によって、図4に示されるような仮想フォルダデータ133が生成される。
Through the processing as described above,
<仮想下位フォルダ生成処理>
図15は、仮想フォルダ生成プログラム123が実行する仮想下位フォルダ生成処理を説明するためのフローチャートである。仮想下位フォルダ生成処理では、仮想上位フォルダに指定されたキーワードを基に仮想下位フォルダとなるキーワードを選定する。ここでは、動作主体が仮想フォルダ生成プログラム123であるとして説明する。
<Virtual subfolder generation process>
FIG. 15 is a flowchart for explaining a virtual lower folder generation process executed by the virtual
ステップ1501において、仮想フォルダ生成プログラム123は、仮想上位フォルダのキーワードを基に仮想下位フォルダデータを生成し、スコアの降順にソートする。具体的には、まずデータメモリ140における抽出キーワードデータ141と、検索キーワード管理データ142と、共起キーワードデータ143を読み込み、仮想上位フォルダデータ144を生成する際と同様に、それらのデータをマージする。マージする際には、抽出キーワードデータ141、検索キーワード管理データ142、共起キーワードデータ143における、抽出キーワード、検索クエリA、検索クエリB、共起キーワード、の文字列を1つのエントリとして合算して登録する。この際の合算には2パターンある。1つ目のパターンは、仮想下位フォルダデータ145において、キーワードBがNull値となる場合であり、もう1つのパターンは、キーワードBがNull値とならないパターンである。それぞれのパターンについて説明する。まず、キーワードBがNull値となる場合について説明する。この場合は、抽出キーワードデータ141における抽出キーワード、あるいは検索キーワード管理データ142における検索クエリBがNull値であるデータの検索クエリA内に、仮想上位フォルダのキーワードを含むデータを合算する。例えば、図9における1つ目のデータが該当する。これは、仮想上位フォルダのキーワード「契約」を含む文字列「契約書」のデータを合算した結果を表している。この場合、抽出キーワード頻度903が100で、検索頻度904が80となった場合を表している。キーワードB902、及び共起頻度905は、使用していない。また、スコア906は仮想下位フォルダとしての、適合の度合いを示している。スコア906が高いほど仮想下位フォルダとしての適合の度合いが高いことを表す。スコア906の算出方法については後述する。次にキーワードBがNull値とならないパターンについて説明する。この場合は、検索キーワード管理データ142における検索クエリAと検索クエリBの組み合わせのどちらかが仮想上位フォルダのキーワードであるデータと、共起キーワードデータ143における抽出キーワードが仮想上位フォルダのキーワードであるデータを合算する。例えば、図9における2つ目のデータが該当する。スコア906は、抽出キーワード頻度903、検索頻度904、共起頻度905を重み付き加算することにより求める。図9の例では、メタデータ頻度の重みを2、検索頻度の重みを10、共起頻度の重みを1として、加算した結果を表している。重み付け加算を行う理由は、仮想上位フォルダ生成の際と同様である。全データに関してスコア算出まで終了したら、スコアの大きい順にソートする。
In
ステップ1502からステップ1508までの処理では、ステップ1501で生成した仮想下位フォルダデータ145に基づいて、仮想上位フォルダの仮想下位フォルダを決定し、仮想フォルダデータ133として記憶装置130に格納する処理である。以降、仮想下位フォルダデータ145においてスコアが上位のデータから順に処理が行われる。
The processing from
ステップ1502において、仮想フォルダ生成プログラム123は、仮想下位フォルダデータ145内のすべてのキーワードを処理したか否かを判定する。すべてのキーワードを処理済であれば処理を終了する。未処理のキーワードが含まれていればステップ1503に進む。
In
ステップ1503において、仮想フォルダ生成プログラム123は、仮想下位フォルダデータ145(図9参照)から未処理のデータ(Pとする)を1つ選択する。
In
ステップ1504において、仮想フォルダ生成プログラム123は、スコアが一定値以上であるか否かを判定する。条件を満たす場合はステップ1505に進み、満たさない場合は処理を終了する。
In
ステップ1505において、仮想フォルダ生成プログラム123は、PにおけるキーワードA・Bの文字列の長さが共に一定以上であるか否かを判定する。この条件を満たす場合はステップ1505に進み、満たさない場合はステップ1502に戻る。
In
ステップ1506において、仮想フォルダ生成プログラム123は、仮想下位フォルダデータ145内に、PのキーワードA・Bの文字列を共に含み、かつ、スコアが同程度以上のより長いキーワードが存在するか否かを判定する。ここで、「同程度以上」とは、当該スコア値をSCとすると、SCよりも多少小さいスコア値も許容する意味であり、スコア値が(SC−α)以上であると表現可能である。例えば、PのキーワードA・Bが(契約,委託)でスコア906が612であり、仮想下位フォルダデータ145内に、キーワードA・Bが(契約,業務委託)でスコア906が645であった場合が該当する。この場合、ステップ1506の条件を満たすためステップ1502に戻る。すなわち、Pは仮想下位フォルダとして生成されないことになる。スコアがほぼ同程度であった場合、キーワードの文字列がより長い方が仮想下位フォルダの性質上適しているからである。ステップ1506の条件を満たさない場合はステップ1507に進む。ステップ1506の処理は、同じようなキーワードの仮想下位フォルダが何個も生成されないようにするための処理である。上記の例で、キーワードA・Bが(契約, 委託)と(契約, 業務委託)だとスコア値が612と645で同程度となっている。この場合、(契約, 委託)で仮想下位フォルダは生成されず、(契約, 業務委託)で仮想下位フォルダが生成される。後者の方が前者よりも具体的で分かり易いからである。そして、(契約, 委託)では仮想下位フォルダが生成されないため、キーワード(契約, 委託)を含む文書(業務委託を含む文書は除かれる)は、キーワード「契約」の仮想上位フォルダの直下に分類されることになる。
In
ステップ1507において、仮想フォルダ生成プログラム123は、Pのキーワードを仮想下位フォルダとして、記憶装置130における仮想フォルダデータ133に格納する。
In
ステップ1508において、仮想フォルダ生成プログラム123は、対象の仮想上位フォルダに対する仮想下位フォルダ数が規定値に達したか否かを判定する。条件を満たさない場合はステップ1502に戻り、条件を満たす場合は処理を終了する。
In
<まとめ>
以上説明したように、本実施の形態によれば、メタデータファイル上で管理されている複数の物理的なファイル(物理ファイル)のメタデータ(特に、各属性情報)を構成する文字列から形態素解析等を用いて複数のキーワードを抽出し、また、ユーザが検索時に使用した検索クエリのログデータから検索クエリのキーワードを抽出し、また、メタデータから抽出したキーワードと共に出現することが多いキーワードを、メタデータから抽出し、それらのキーワードから、仮想フォルダとしての適合の度合いを示すスコアを算出する。そして、スコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成し、さらに、仮想上位フォルダのキーワードを含む別のキーワードを用いて、その仮想上位フォルダと関連付けられる仮想下位フォルダを生成する。また、生成した仮想上位フォルダと仮想下位フォルダとの関係、及び仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示(図17)を画面上にGUIとして表示する。このようにすることにより、ファイルを自動的に仮想分類すことが容易になり、仮想フォルダを使用したファイル管理を効率的に実現できる。一般に、人間が仮想フォルダを生成する場合、出現頻度が多い文字列や、検索に頻繁に使用する文字列や、出現頻度が多い文字列と共に出現することが多い文字列で仮想フォルダを定義する傾向があると考えられる。そのため、本発明は、人間の思考に沿った処理を行っていると考えられ、人間の分類方針に近い分類が可能になる。また、仮想上位フォルダは様々な文字列を包括するように生成されるため、類似した仮想上位フォルダが生成されることが少なく、洗練された処理結果となる。さらに、仮想上位フォルダに含まれるファイルの中で、頻出するキーワードや検索に頻繁に使用されるキーワードを基に仮想下位フォルダを生成するため、より細かい粒度でも効率良くファイルを検索することが可能である。
<Summary>
As described above, according to the present embodiment, morphemes are generated from character strings that constitute metadata (particularly, each attribute information) of a plurality of physical files (physical files) managed on the metadata file. Extract multiple keywords using analysis, etc., extract search query keywords from the log data of search queries used by the user, and search for keywords that often appear with keywords extracted from metadata Then, the metadata is extracted from the metadata, and a score indicating the degree of matching as a virtual folder is calculated from the keywords. Then, a specified number of virtual upper folders are generated using keywords whose score is equal to or greater than a predetermined value, and a virtual lower folder associated with the virtual upper folder is further generated using another keyword including the keyword of the virtual upper folder. Generate. Further, a virtual classification display (FIG. 17) for displaying the relationship between the generated virtual upper folder and the virtual lower folder and the contents of the virtual upper folder and the virtual lower folder is displayed as a GUI on the screen. By doing so, it becomes easy to automatically classify files automatically, and file management using virtual folders can be realized efficiently. Generally, when a human creates a virtual folder, the tendency to define a virtual folder with a character string that frequently appears, a character string that is frequently used for search, or a character string that often appears with a character string that frequently appears It is thought that there is. Therefore, it is considered that the present invention performs processing according to human thought, and classification close to human classification policy is possible. In addition, since the virtual upper folder is generated so as to include various character strings, similar virtual upper folders are rarely generated, resulting in a refined processing result. In addition, because the virtual subfolder is generated based on the keywords that appear frequently and the keywords that are frequently used for searching among the files contained in the virtual upper folder, it is possible to search for files efficiently even with finer granularity. is there.
また、仮想上位フォルダを生成する場合には、文字列長が所定値以上のキーワードを用いている。これにより、過度に多数の仮想上位フォルダを生成してしまうことを防止することができるようになる。この文字列長については、ユーザが指定することができるようになっており、自動仮想分類処理後に、自分が想定していた数とは異なる数の仮想フォルダが生成されてしまった場合に、変更可能なようになっている。 Further, when generating a virtual upper folder, a keyword having a character string length of a predetermined value or more is used. As a result, it is possible to prevent an excessive number of virtual upper folders from being generated. This character string length can be specified by the user, and can be changed when a number of virtual folders different from the number expected by the user are generated after the automatic virtual classification process. It is possible.
また、メタデータの属性情報毎に複数のキーワードを抽出し、当該抽出した各キーワードの仮想フォルダとしての適合の度合いを示すスコアの情報を算出する。そして、複数の属性情報毎に、仮想上位フォルダ及び仮想下位フォルダを作成し、ユーザの属性の選択入力に応答して、当該選択された属性に対応する仮想分類表示(図17)を出力するようにしている。これにより、属性毎に仮想フォルダを生成して、ユーザによって統一感のある仮想分類表示を提示することができる。よって、この仮想分類表示は、ユーザによって非常に使い勝手が良いものとなる。 Also, a plurality of keywords are extracted for each piece of metadata attribute information, and score information indicating the degree of matching of each extracted keyword as a virtual folder is calculated. Then, a virtual upper folder and a virtual lower folder are created for each of a plurality of attribute information, and a virtual classification display (FIG. 17) corresponding to the selected attribute is output in response to a user attribute selection input. I have to. Thereby, a virtual folder can be generated for each attribute, and a virtual classification display with a sense of unity can be presented by the user. Therefore, this virtual classification display is very convenient for the user.
さらに、仮想下位フォルダを生成する際、仮想上位フォルダ名に相当するキーワードを含み、当該キーワードよりも文字列長が長い複数のキーワードの中で、出現頻度の比が所定範囲内にあるキーワードが複数存在した場合、文字列長が最長のキーワードをフォルダ名として用いて仮想下位フォルダを生成するようにする。これにより、フォルダの特徴をより具体的に示した仮想下位フォルダを生成することができ、ユーザはファイル分類の傾向を把握しやすくなる。 Furthermore, when generating a virtual lower folder, a plurality of keywords including a keyword corresponding to the virtual upper folder name and having a character string length longer than the keyword and having an appearance frequency ratio within a predetermined range are included. If it exists, a virtual subfolder is generated using the keyword with the longest character string length as the folder name. This makes it possible to generate a virtual lower folder that more specifically shows the characteristics of the folder, and the user can easily grasp the tendency of file classification.
なお、本発明は、実施形態そのままに限定されるものではなく、実施段階では、その要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 Note that the present invention is not limited to the embodiments as they are, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
また、実施形態で示された各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良い。また、上記各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現しても良い。各機能等を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録或いは記憶装置、またはICカード、SDカード、DVD等の記録或いは記憶媒体に格納することができる。 In addition, each configuration, function, processing unit, processing unit, and the like described in the embodiments may be realized in hardware by designing a part or all of them with, for example, an integrated circuit. Further, each of the above-described configurations, functions, etc. may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files for realizing each function is stored in a recording or storage device such as a memory, hard disk, or SSD (Solid State Drive), or in a recording or storage medium such as an IC card, SD card, or DVD. be able to.
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。 Furthermore, in the above-described embodiment, control lines and information lines are those that are considered necessary for explanation, and not all control lines and information lines on the product are necessarily shown. All the components may be connected to each other.
100・・・中央処理装置(プロセッサ)
110・・・入出力装置
111・・・表示装置
112・・・キーボード
113・・・ポインティングデバイス(マウス)
120・・・プログラムメモリ
121・・・検索プログラム
122・・・キーワード登録プログラム
123・・・仮想フォルダ生成プログラム
124・・・仮想分類プログラム
130・・・記憶装置
131・・・メタデータファイル
132・・・検索ログデータ
133・・・仮想フォルダデータ
140・・・データメモリ
141・・・抽出キーワードデータ
142・・・検索キーワード管理データ
143・・・共起キーワードデータ
144・・・仮想上位フォルダデータ
145・・・仮想下位フォルダデータ
100: Central processing unit (processor)
110 ... Input /
120 ...
Claims (10)
前記複数の物理ファイルを分類するための仮想フォルダを生成するプログラムを実行するプロセッサと、
前記複数の物理ファイルのメタデータを管理するためのメタデータ管理情報と、検索履歴を管理するための検索ログ情報とを格納する記憶装置と、を有し、
前記仮想フォルダは、前記複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、前記複数の物理ファイル及び物理フォルダのリンク情報を管理するための非実体的なフォルダであり、
前記プロセッサは、
前記メタデータ管理情報の前記複数のファイルのメタデータを構成する各構成文字列から複数のメタデータキーワードを抽出し、当該抽出した各メタデータキーワードの出現頻度を示す第1の出現頻度情報を取得し、
前記検索ログ情報の前記複数の検索履歴を構成する各検索文字列から複数の検索キーワードを抽出し、当該抽出した各検索キーワードの出現頻度を示す第2の出現頻度情報を取得し、
前記第1及び第2の出現頻度情報で示される各キーワードの頻度を重み付け加算することにより、前記各キーワードのスコアである第1のスコアを算出し、
前記第1のスコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成し、
前記作成した仮想上位フォルダを、表示画面上に表示する、
ことを特徴とするファイル管理装置。 A file management device for classifying and managing a plurality of physical files,
A processor for executing a program for generating a virtual folder for classifying the plurality of physical files;
A storage device for storing metadata management information for managing metadata of the plurality of physical files and search log information for managing search history;
The virtual folder is a substantive folder for managing link information of the plurality of physical files and physical folders regardless of the location of the plurality of physical files or the plurality of physical folders storing them. Yes,
The processor is
A plurality of metadata keywords are extracted from the constituent character strings constituting the metadata of the plurality of files of the metadata management information, and first appearance frequency information indicating the appearance frequency of the extracted metadata keywords is obtained. And
Extracting a plurality of search keywords from each search character string constituting the plurality of search histories of the search log information, obtaining second appearance frequency information indicating an appearance frequency of each of the extracted search keywords,
Calculating a first score that is a score of each keyword by weighted addition of the frequency of each keyword indicated by the first and second appearance frequency information;
Generating a specified number of virtual upper folders using keywords whose first score is equal to or greater than a predetermined value;
Displaying the created virtual upper folder on a display screen;
A file management apparatus.
前記プロセッサは、
前記仮想上位フォルダの生成に用いたキーワードを含む別のキーワードである包含キーワード、前記仮想上位フォルダの生成に用いたキーワードと同一メタデータ内に含まれる別のキーワードである併用キーワード、及び前記仮想上位フォルダの生成に用いたキーワードと同時に検索される別のキーワードである共起キーワードの少なくとも1つを用いて、前記仮想上位フォルダに関連付けられる仮想下位フォルダを生成し、
前記生成した仮想上位フォルダと仮想下位フォルダとの関係、及び前記仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示を前記表示画面上に行う、
ことを特徴とするファイル管理装置。 In claim 1,
The processor is
An inclusion keyword which is another keyword including the keyword used for generating the virtual upper folder, a combination keyword which is another keyword included in the same metadata as the keyword used for generating the virtual upper folder, and the virtual upper Using at least one of the co-occurrence keywords that are searched simultaneously with the keyword used to generate the folder, to generate a virtual lower folder associated with the virtual upper folder;
The virtual classification display for displaying the relationship between the generated virtual upper folder and the virtual lower folder and the contents of the virtual upper folder and the virtual lower folder is performed on the display screen.
A file management apparatus.
前記プロセッサは、
前記仮想上位フォルダの生成に用いたキーワードと前記共起キーワードの組み合わせが検索の際に用いられた出現頻度を示す第3の出現頻度情報を取得し、
前記包含キーワードについての前記第1及び第2の出現頻度情報、及び前記併用キーワード及び前記共起キーワードについての前記第2及び第3の出現頻度情報で示される、仮想下位フォルダ生成に用いる各キーワードの頻度を重み付け加算することにより、前記仮想下位フォルダ生成に用いる各キーワードのスコアである第2のスコアを算出し、
前記第2のスコアが所定値以上のキーワードを用いて、規定数分の前記仮想下位フォルダを生成する、
ことを特徴とするファイル管理装置。 In claim 2,
The processor is
Obtaining third appearance frequency information indicating an appearance frequency in which a combination of the keyword used for generating the virtual upper folder and the co-occurrence keyword is used in the search;
The first and second appearance frequency information about the inclusion keyword, and the second and third appearance frequency information about the combined keyword and the co-occurrence keyword, for each keyword used for virtual subfolder generation Calculating a second score that is a score of each keyword used for generating the virtual subfolder by weighting and adding the frequency;
Generating a specified number of virtual subfolders using a keyword having the second score equal to or greater than a predetermined value;
A file management apparatus.
前記プロセッサは、所定長さ以上の文字列を有するキーワードで前記仮想下位フォルダを生成することを特徴とするファイル管理装置。 In claim 3,
The file management apparatus, wherein the processor generates the virtual subfolder with a keyword having a character string having a predetermined length or more.
前記プロセッサは、前記仮想下位フォルダの生成処理の対象となっている対象キーワードを含む、より長い文字列で構成される下位概念キーワードがあるとき、当該下位概念キーワードの前記第2のスコアが(前記対象キーワードの前記第2のスコア−所定値)以上である場合には、前記元キーワードを用いずに前記下位概念キーワードで前記仮想下位フォルダを生成することを特徴とするファイル管理装置。 In claim 3,
When there is a lower concept keyword composed of a longer character string including the target keyword that is the target of the generation process of the virtual lower folder, the processor determines that the second score of the lower concept keyword is (the A file management device that generates the virtual subfolder with the subordinate concept keyword without using the original keyword when the target keyword is equal to or greater than the second score-a predetermined value.
前記プロセッサは、既存の仮想上位フォルダを構成する文字列を含む下位概念キーワードについて仮想上位フォルダを生成するか否か判断する場合、前記既存の仮想上位フォルダを構成する文字列の前記第1のスコアと前記下位概念キーワードの前記第1のスコアとを比較し、大きい方を用いて仮想上位フォルダを構成することを特徴とするファイル管理装置。 In claim 1,
When the processor determines whether to generate a virtual upper folder for a lower concept keyword including a character string constituting an existing virtual upper folder, the first score of the character string constituting the existing virtual upper folder is determined. And the first score of the lower concept keyword, and a larger one is used to construct a virtual upper folder.
前記プロセッサは、前記既存の仮想上位フォルダを構成する文字列の前記第1のスコアと前記下位概念キーワードの前記第1のスコアとの比較の結果、前記下位概念キーワードの前記第1のスコアが前記既存の仮想上位フォルダを構成する文字列の前記第1のスコアよりも大きい場合、前記既存の仮想上位フォルダを削除し、前記下位概念キーワードで仮想上位フォルダを構成することを特徴とするファイル管理装置。 In claim 6,
As a result of the comparison between the first score of the character string constituting the existing virtual upper folder and the first score of the lower concept keyword, the processor determines that the first score of the lower concept keyword is the A file management device that deletes the existing virtual upper folder and configures a virtual upper folder with the lower concept keywords when the character string constituting the existing virtual upper folder is larger than the first score .
前記仮想フォルダは、前記複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、前記複数の物理ファイル及び物理フォルダのリンク情報を管理するための非実体的なフォルダであり、
前記仮想フォルダを生成する処理を実行するプロセッサが、記憶装置から前記複数の物理ファイルのメタデータを管理するためのメタデータ管理情報を読み出して、当該メタデータ管理情報の前記複数のファイルのメタデータを構成する各構成文字列から複数のメタデータキーワードを抽出し、当該抽出した各メタデータキーワードの出現頻度を示す第1の出現頻度情報を取得するステップと、
前記プロセッサが、前記記憶装置から検索履歴を管理するための検索ログ情報を読み出して、当該検索ログ情報の前記複数の検索履歴を構成する各検索文字列から複数の検索キーワードを抽出し、当該抽出した各検索キーワードの出現頻度を示す第2の出現頻度情報を取得するステップと、
前記プロセッサが、前記第1及び第2の出現頻度情報で示される各キーワードの頻度を重み付け加算することにより、前記各キーワードのスコアである第1のスコアを算出するステップと、
前記プロセッサが、前記第1のスコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成するステップと、
前記プロセッサが、前記作成した仮想上位フォルダを、表示画面上に表示するステップと、
を有することを特徴とするファイル管理方法。 A file management method for classifying and managing a plurality of physical files into virtual folders,
The virtual folder is a substantive folder for managing link information of the plurality of physical files and physical folders regardless of the location of the plurality of physical files or the plurality of physical folders storing them. Yes,
A processor that executes processing for generating the virtual folder reads metadata management information for managing metadata of the plurality of physical files from a storage device, and metadata of the plurality of files of the metadata management information Extracting a plurality of metadata keywords from each constituent character string that constitutes the first character, and obtaining first appearance frequency information indicating an appearance frequency of each extracted metadata keyword;
The processor reads search log information for managing a search history from the storage device, extracts a plurality of search keywords from each search character string constituting the plurality of search histories of the search log information, and extracts the search Obtaining second appearance frequency information indicating the appearance frequency of each search keyword,
The processor calculates a first score that is a score of each keyword by weighted addition of the frequency of each keyword indicated by the first and second appearance frequency information;
The processor generates a predetermined number of virtual upper folders using a keyword having the first score equal to or greater than a predetermined value;
The processor displaying the created virtual upper folder on a display screen;
A file management method characterized by comprising:
前記プロセッサが、前記仮想上位フォルダの生成に用いたキーワードを含む別のキーワードである包含キーワード、前記仮想上位フォルダの生成に用いたキーワードと同一メタデータ内に含まれる別のキーワードである併用キーワード、及び前記仮想上位フォルダの生成に用いたキーワードと同時に検索される別のキーワードである共起キーワードの少なくとも1つを用いて、前記仮想上位フォルダに関連付けられる仮想下位フォルダを生成するステップと、
前記プロセッサが、前記生成した仮想上位フォルダと仮想下位フォルダとの関係、及び前記仮想上位フォルダ及び仮想下位フォルダの内容を表示する仮想分類表示を前記表示画面上に行うステップと、
を有することを特徴とするファイル管理方法。 The claim 8, further comprising:
An inclusion keyword that is another keyword including the keyword used by the processor to generate the virtual upper folder, a combined keyword that is another keyword included in the same metadata as the keyword used to generate the virtual upper folder, And generating a virtual lower folder associated with the virtual upper folder using at least one of the co-occurrence keywords that are searched simultaneously with the keyword used for generating the virtual upper folder;
The processor performs a virtual classification display on the display screen for displaying the relationship between the generated virtual upper folder and the virtual lower folder and the contents of the virtual upper folder and the virtual lower folder;
A file management method characterized by comprising:
前記仮想フォルダは、前記複数の物理ファイル或いはそれらを格納する複数の物理フォルダが存在する場所とは無関係に、前記複数の物理ファイル及び物理フォルダのリンク情報を管理するための非実体的なフォルダであり、
前記仮想フォルダを生成する処理を実行するプロセッサに、
記憶装置から前記複数の物理ファイルのメタデータを管理するためのメタデータ管理情報を読み出して、当該メタデータ管理情報の前記複数のファイルのメタデータを構成する各構成文字列から複数のメタデータキーワードを抽出し、当該抽出した各メタデータキーワードの出現頻度を示す第1の出現頻度情報を取得する処理と、
前記記憶装置から検索履歴を管理するための検索ログ情報を読み出して、当該検索ログ情報の前記複数の検索履歴を構成する各検索文字列から複数の検索キーワードを抽出し、当該抽出した各検索キーワードの出現頻度を示す第2の出現頻度情報を取得する処理と、
前記第1及び第2の出現頻度情報で示される各キーワードの頻度を重み付け加算することにより、前記各キーワードのスコアである第1のスコアを算出する処理と、
前記第1のスコアが所定値以上のキーワードを用いて規定数分の仮想上位フォルダを生成する処理と、
前記作成した仮想上位フォルダを、表示画面上に表示する処理と、
を実行させることを特徴とするプログラム。 A program for classifying and managing multiple physical files into virtual folders,
The virtual folder is a substantive folder for managing link information of the plurality of physical files and physical folders regardless of the location of the plurality of physical files or the plurality of physical folders storing them. Yes,
In a processor that executes processing for generating the virtual folder,
Metadata management information for managing the metadata of the plurality of physical files is read from the storage device, and a plurality of metadata keywords are formed from the constituent character strings constituting the metadata of the plurality of files of the metadata management information. And obtaining first appearance frequency information indicating the appearance frequency of each extracted metadata keyword;
The search log information for managing the search history is read from the storage device, a plurality of search keywords are extracted from the search character strings constituting the plurality of search histories of the search log information, and the extracted search keywords Processing for obtaining second appearance frequency information indicating the appearance frequency of
A process of calculating a first score that is a score of each keyword by weighted addition of the frequency of each keyword indicated by the first and second appearance frequency information;
A process of generating a predetermined number of virtual upper folders using a keyword having the first score equal to or greater than a predetermined value;
A process of displaying the created virtual upper folder on a display screen;
A program characterized by having executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012148590A JP5836893B2 (en) | 2012-07-02 | 2012-07-02 | File management apparatus, file management method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012148590A JP5836893B2 (en) | 2012-07-02 | 2012-07-02 | File management apparatus, file management method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014010758A JP2014010758A (en) | 2014-01-20 |
JP5836893B2 true JP5836893B2 (en) | 2015-12-24 |
Family
ID=50107370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012148590A Expired - Fee Related JP5836893B2 (en) | 2012-07-02 | 2012-07-02 | File management apparatus, file management method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5836893B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015162200A (en) * | 2014-02-28 | 2015-09-07 | 株式会社日立ソリューションズ | File management device |
KR101589969B1 (en) * | 2015-03-24 | 2016-01-29 | 서영덕 | File management method and system of network structure |
JP6565565B2 (en) * | 2015-10-05 | 2019-08-28 | 富士通株式会社 | Information processing apparatus, name determination method, and name determination program |
TWI605353B (en) * | 2016-05-30 | 2017-11-11 | Chunghwa Telecom Co Ltd | File classification system, method and computer program product based on lexical statistics |
KR102448370B1 (en) * | 2016-08-09 | 2022-09-28 | 립코드 인크. | Systems and methods for tagging electronic records |
JP7251876B1 (en) | 2022-03-14 | 2023-04-04 | Necプラットフォームズ株式会社 | SERVER DEVICE, CONTROL METHOD FOR SERVER DEVICE, AND PROGRAM |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0749875A (en) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | Document information classifying method, and method and system for document information collection using the same |
JP4362492B2 (en) * | 2006-03-31 | 2009-11-11 | 大学共同利用機関法人情報・システム研究機構 | Document indexing device, document search device, document classification device, method and program thereof |
JP5106045B2 (en) * | 2007-10-30 | 2012-12-26 | 株式会社日立製作所 | Search engine linkage file sharing system |
JP5512489B2 (en) * | 2010-10-27 | 2014-06-04 | 株式会社日立ソリューションズ | File management apparatus and file management method |
-
2012
- 2012-07-02 JP JP2012148590A patent/JP5836893B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014010758A (en) | 2014-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5512489B2 (en) | File management apparatus and file management method | |
US10565234B1 (en) | Ticket classification systems and methods | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US8346795B2 (en) | System and method for guiding entity-based searching | |
US20160098433A1 (en) | Method for facet searching and search suggestions | |
US20160085742A1 (en) | Automated collective term and phrase index | |
JP5836893B2 (en) | File management apparatus, file management method, and program | |
US20130110839A1 (en) | Constructing an analysis of a document | |
JP2018538603A (en) | Identify query patterns and related total statistics between search queries | |
US20140188456A1 (en) | Dictionary Markup System and Method | |
JP6409071B2 (en) | Sentence sorting method and calculator | |
Kerremans et al. | Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler | |
JP7110554B2 (en) | Ontology generation device, ontology generation program and ontology generation method | |
JP2019021194A (en) | Information processing system and information processing method | |
JP5438603B2 (en) | Kansei dictionary editing support system and program | |
JP5269399B2 (en) | Structured document retrieval apparatus, method and program | |
JP7122773B2 (en) | DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM | |
JP3743204B2 (en) | Data analysis support method and apparatus | |
JP2020064482A (en) | Attribute extraction device and attribute extraction method | |
WO2015125209A1 (en) | Information structuring system and information structuring method | |
JP7364512B2 (en) | Labeling model generation device and labeling model generation method | |
JP2022050011A (en) | Information processing device and program | |
JP2012043258A (en) | Retrieval system, retrieval device, retrieval program, recording medium and retrieval method | |
JP7412307B2 (en) | Creation support device, creation support method, and creation support program | |
JP7375657B2 (en) | Search program, search method, and search device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150126 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151014 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5836893 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |