JP2003196130A

JP2003196130A - ファイル管理装置およびコンピュータプログラム

Info

Publication number: JP2003196130A
Application number: JP2001392621A
Authority: JP
Inventors: Naoya Uematsu; 直也植松
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 2001-12-25
Filing date: 2001-12-25
Publication date: 2003-07-11

Abstract

(57)【要約】【課題】大量のファイルを内容で分類して管理するの
は煩雑であった。【解決手段】解析処理部２２は蓄積ファイルの構造の
解析を行う。次に生成処理部２４が蓄積ファイルをＸＭ
Ｌ変換して解析の結果を反映させ、重要度判定部６０が
蓄積ファイルの各要素の重要度を判定する。マーク付与
部６２が重要と判定された要素に対して、マークを付与
しＸＭＬ変換された蓄積ファイルに反映させ、要約作成
部６４は不要な要素を削除し要約を作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ファイル管理技
術に関する。この発明は特に、多数のファイルを検索が
容易となる形で効率的に管理する技術に関する。

【０００２】

【従来の技術】近年、ＰＣ（パーソナルコンピュータ）
の普及により、あらゆる書類の電子化が進んでいる。ワ
ードプロセッサなどの文書作成ソフトウエアを用いてフ
ァイルを電子的に作成し、これがハードディスクに蓄積
されていく。企業内の環境ではコンピュータ同士をネッ
トワークで接続し、大量の文書ファイルを複数ユーザ間
で共有することも多い。インターネットが普及した現在
では、ウェブページや電子メールなどの社外から受け取
るデータも増えている。こうした大量のファイルの中か
ら誰でも所望のファイルを探せるように、所定の管理者
が予め分類しておくこともある。

【０００３】

【発明が解決しようとする課題】ここで、複数のファイ
ルを分類する方法として、ファイルの内容に応じてグル
ープ化してそれぞれを別々のフォルダに格納する方法が
ある。しかしながら、ファイルのグループを一義的に定
めることは困難であるばかりか、大量のファイルを特定
の管理者が予め分類したとしても分類の基準が管理者の
主観に依存して却って検索が困難となる場合もある。こ
うして管理と検索の双方が容易でないために、貴重な資
料が再利用されずに眠ったままになることは決して珍し
くない。

【０００４】一方、複数ユーザ間で共有されるファイル
は、多くのユーザにとって利用価値の高いものもあれ
ば、そもそもほんの一部のユーザにしか利用価値がない
ものもある。また、頻繁に再利用されるものやそうでな
いものも含まれる。したがって、大量のファイルのうち
大半が各ユーザにとって不要である可能性が高い。その
ようなファイルが混在した状態でファイルを種類別に分
類しても、必ずしも検索の容易化にはつながらない。真
に利用価値の高いファイルだけを簡単に探し出すことが
できれば、多くのユーザに作業効率の向上をもたらすこ
とになる。

【０００５】本発明者は以上の認識に基づき本発明をな
したもので、その目的は、利便性の高い方法で多数のフ
ァイルを管理するための技術の提供にある。

【０００６】

【課題を解決するための手段】本発明のある態様は、フ
ァイル管理装置に関する。この装置は、コンピュータで
利用可能に電子的に記録された複数のファイルを管理す
る装置であって、ファイルの構造を解析する構造解析部
と、その解析の結果、その構造が特徴的か否かを判定す
る重要度判定部と、重要度判定部にてファイルの構造が
特徴的と判定された場合、その構造が特徴的である旨を
所定のマークで示しそれをファイルに関連づけるマーク
付与部とを含む。

【０００７】「複数のファイル」とは、後の要約作成の
対象となるファイル群であり、要約作成のための特別な
管理が成されている必要はない。また、ここで言うファ
イルとは、文書ファイルなどテキストデータを想定して
いるがこれに限る趣旨ではなく、イメージデータや音声
データであってもよいし、それら任意の組合せにより構
成されていてもよい。

【０００８】また、ファイルの構造を解析するにあた
り、既知の技術である構文解析、意味解析、レイアウト
解析などの手法を利用してよい。「構造が特徴的」と
は、画像データが多く含まれていたり、音声データが多
く含まれていたり、ということが想定できるがこれに限
る趣旨ではない。

【０００９】本発明の別の態様もファイル管理装置に関
する。この装置は、コンピュータで利用可能に電子的に
記録された複数のファイルを管理する装置であって、フ
ァイルを要素に分解する構造解析部と、分解された各要
素がそのファイルにおいて特徴的か否かを判定する重要
度判定部と、重要度判定部にて特徴的と判定された要素
に、それが前記ファイル中にて顕在化されるよう所定の
マークを付与するマーク付与部とを含む。

【００１０】ここでファイルを要素に分解する手法とし
て形態素解析が想定できるがこれに限る趣旨ではない。
当然、上述の構文解析、意味解析、レイアウト解析など
の手法が組み合わされてもよい。また、付与されるマー
クは、複数であってよく、一般にその要素の「特徴的で
ある度合い」が「１、２、３」のように数段階に分けて
表される。また、そのマークに要素の属性が利用されて
もよい。例えば、形態素解析により、ある要素が「固有
名詞」と解析されたとき、その要素に「固有名詞」とい
うマークを付与する。

【００１１】また、重要度判定部は、要素のファイル中
において出現する位置を検出し、その位置を参照してそ
の要素が特徴的か否か判定してもよい。例えば、ある文
書ファイルにこの装置を適用することを想定し、そのフ
ァイルにタイトルが記述してある場合、一般にタイトル
中に含まれる単語はキーワードとなる場合が多いので、
そのような単語は特徴的であると判定する。

【００１２】また、重要度判定部は、要素の当該ファイ
ル中における出現の頻度と、他のファイル中における出
現の頻度を比較することで、その要素が特徴的であるか
否かを判定してもよい。例えば、そのファイル中である
一定回数出現する単語を特徴的と判定する。また、例え
ば同一装置内において管理されている他のファイルを参
照し、特徴的か否か判定すべき要素の出現頻度を比較
し、他のファイル中で出現頻度が多いものを特徴的と判
定したり、逆に特徴的でなく一般的と判定する。この判
定の基準は多数存在し、一般に、この装置を利用するユ
ーザがその基準を適宜設定する。

【００１３】また、マークが付与された対象とそのマー
クの組み合わせをインデックスとして記録する索引格納
部と、をさらに含んでもよい。例えば、マークが付与さ
れた要素とその出現頻度の対応を示したテーブルが想定
できるがこれに限る趣旨ではない。

【００１４】また、索引格納部は、重要度判定部におい
て特徴的と判定された対象を抽出することで、特徴的で
ないと判定された対象を省きファイルを圧縮しインデッ
クスを作成してもよい。ファイル中で、特徴的でない
と、つまりは重要でないと判定された要素を削除する。
そのときファイルの要約がインデックスとして作成され
てもよい。当然、このとき文章として体裁を成すよう、
上述の形態素解析や構文解析などの手法が用いられる。

【００１５】また、索引格納部は、作成されるインデッ
クスが保存されるべき記憶媒体の記憶可能な残容量に応
じて、ファイルのインデックスを作成する際の圧縮の程
度を決定してもよい。また、索引格納部は、ファイルの
インデックスを作成する際の圧縮の程度に関する指示、
例えば「ファイルのサイズを３０％にする」や「２００
語以内にする」などの指示をユーザから受け付けてもよ
い。

【００１６】また、ファイルの更新履歴を検査する更新
検査部を含んでもよく、そのファイルの更新が確認され
たとき索引格納部が再度前記ファイルのインデックスを
作成してもよい。

【００１７】なお、以上の構成要素の任意の組合せや、
本発明の構成要素や表現を方法、装置、システム、コン
ピュータプログラム、コンピュータプログラムを格納し
た記録媒体などの間で相互に置換したものもまた、本発
明の態様として有効である。

【００１８】

【発明の実施の形態】（前提技術）この前提技術におけ
るファイル検索装置は、検索条件としてユーザが指定し
た文章に類似するファイルを複数のファイルの中から検
索する。これにより、予め内容に応じてファイルを分類
しておかなくともファイルの検索が容易となり、大量の
ファイルを管理する負担が軽減される。

【００１９】図１は、前提技術におけるファイル検索装
置の構成を示す機能ブロック図である。ファイル検索装
置１０は、複数のファイルから所望のファイルを検索す
る際に参照される索引データの生成に必要な処理をなす
処理ユニット２０と、ユーザから指定された条件に基づ
いて検索処理をなす検索ユニット３０と、検索対象とな
る複数のファイル（以下、「蓄積ファイル」という。）
や検索処理に必要なデータを保持する保持ユニット４０
と、本装置と外部との間でデータの入出力を処理する入
出力処理部５０と、を有する。

【００２０】このファイル検索装置１０は、ハードウエ
ア的にはコンピュータのＣＰＵやメモリなどの構成で実
現でき、ソフトウエア的にはファイル管理やファイル検
索機能のあるプログラムなどによって実現できるが、本
図ではそれらの連携によって実現される機能ブロックを
描いている。したがって、これらの機能ブロックはハー
ドウエア、ソフトウエアの組合せによっていろいろなか
たちで実現できる。

【００２１】処理ユニット２０は、保持ユニット４０が
保持する複数の蓄積ファイルを処理対象とし、それぞれ
から特徴的な文字列を複数抽出する。この複数の特徴的
な文字列は、その蓄積ファイルの内容を端的に示したコ
ンセプト（概念）を形成するものとし、このコンセプト
を索引データとして記録する。処理ユニット２０は、蓄
積ファイルに含まれる文字列を言語解析する解析処理部
２２と、その解析結果に基づいて索引データを生成する
生成処理部２４とを含む。

【００２２】解析処理部２２は、前処理部２６と文字列
抽出部２７を含む。前処理部２６は、言語解析に先だっ
て前処理を行う。例えば、処理対象となる蓄積ファイル
からファイル形式や文書形式を検出し、これに基づいて
その蓄積ファイルをテキスト形式などの非定型な形式に
変換して解析容易な状態を形成してもよい。ひとつの蓄
積ファイルを複数のブロックに分割して解析に適した状
態を形成してもよい。このとき形態素解析、構文解析、
意味解析などの技術を利用してもよい。

【００２３】文字列抽出部２７は、処理対象の蓄積ファ
イルから複数の文字列を抽出する。後述する単語辞書に
含まれる単語を抽出する形でもよいし、スペースやブラ
ンクで区切られた文字列を単語として認識してもよい。

【００２４】生成処理部２４は、統計処理部２８と索引
生成部２９を含む。統計処理部２８は、抽出された文字
列のその蓄積ファイルにおける出現頻度を計数するとと
もに、ファイル格納部４２が保持する複数の蓄積ファイ
ル全体にわたるその文字列の出現頻度を計数する。この
とき文字列同士の類似性を考慮する。例えば、類義語、
同義語、統制語として定義された相互に意味が近似する
複数の単語間の相違を吸収して文字列の出現頻度を計数
する。

【００２５】索引生成部２９は、統計処理部２８によっ
て計数された文字列の出現頻度に基づいて索引データを
生成する。この索引データは、抽出された複数の文字列
にそれぞれの出現頻度に応じた重み付けが付加された一
覧として構成される。各文字列に対する重み付けは、処
理対象の蓄積ファイルにおける出願頻度が高い文字列ほ
ど重み付けを高くする一方で、ファイル格納部４２が保
持する複数の蓄積ファイル全体にわたって出現頻度が高
い文字列に対しては重み付けを低くする。その結果、そ
の蓄積ファイルに特有な文字列を統計的な手法で顕在化
させることができる。各蓄積ファイルが前処理部２６に
よって複数のブロックに分割された場合はブロックごと
に索引データが生成される。

【００２６】保持ユニット４０は、ファイル格納部４
２、索引格納部４４、辞書格納部４６、および関連デー
タ格納部４８を含む。ファイル格納部４２は、複数の蓄
積ファイルを保持する。例えばワードプロセッサなどの
文書作成ソフトウエアによって生成された文書ファイ
ル、ＨＴＭＬ（Hyper Text Markup Language）やＸＭＬ
（eXtensible Markup Language）などの記述言語を用い
て生成されたファイルなど、多様な形式のファイルを含
み、その内容は必ずしも文章でなくともよい。また、蓄
積ファイル自体は、検索を前提とした分類および定型化
が予めなされることを必要としない。

【００２７】索引格納部４４は、処理ユニット２０によ
って生成された索引データを蓄積ファイルと対応づけら
れたかたちで保持する。辞書格納部４６は、単語辞書、
類義語辞書、同義語辞書、統制語辞書など、処理ユニッ
ト２０による言語解析や統計処理において参照されるデ
ータを保持する。関連データ格納部４８は、検索ユニッ
ト３０による処理においてオプション的に利用されるデ
ータを保持する。例えば、検索条件として指定された言
葉を上位概念の単語、下位概念の単語、関連性をもつ単
語などに置き換えるために参照する関連辞書を保持す
る。こうしたデータを処理ユニット２０が蓄積ファイル
から抽出して生成してもよい。

【００２８】検索ユニット３０は、ユーザから検索条件
を受け取り、これに適合する蓄積ファイルをファイル格
納部４２から抽出する。検索ユニット３０は、検索条件
と索引データを比較する比較処理部３２と、比較結果に
基づいて検索条件に適合する蓄積ファイルをユーザに提
示する結果処理部３４を含む。

【００２９】比較処理部３２は、条件設定部３６および
類似度判断部３７を含む。条件設定部３６は、ユーザか
ら検索条件を取得する。この検索条件は、自然文によっ
て記述された文章のかたちでもよいし、何らかの文字列
を含んだファイルのかたちでもよい。その検索条件は処
理ユニット２０に送られて前述した索引データの生成過
程と同様の処理対象となり、その検索条件のコンセプト
が生成される。

【００３０】類似度判断部３７は、検索条件のコンセプ
トと索引データとして記録されたコンセプト同士を比較
することにより、検索条件と蓄積ファイルの類似度を検
出する。比較の際に、辞書格納部４６や関連データ格納
部４８が保持する各種辞書に基づき、検索条件に含まれ
る文字列と関連する他の文字列を追加してその検索条件
を補完してもよい。

【００３１】ここで、検索条件と索引データの比較には
ベクトル空間モデルを利用する。すなわち、検索条件の
コンセプトと索引データのコンセプトをそれぞれ多次元
空間上のベクトルとして表現し、これらを比較する。コ
ンセプトにｎ個の文字列が含まれる場合はｎ次元のベク
トル空間が形成され、各文字列の出現頻度に応じた重み
付けが各成分に加えられる。こうして形成されるベクト
ル同士の近似度が検索条件と蓄積ファイルの類似度とな
る。

【００３２】結果処理部３４は、一覧生成部３８および
表示処理部３９を含む。一覧生成部３８は、類似度の高
い順に蓄積ファイルの一覧を生成する。このとき一覧に
含まれる蓄積ファイルの数が適当な数に限定されるよう
調整してもよい。

【００３３】表示処理部３９は、検索結果として蓄積フ
ァイルの一覧を画面に表示させる。蓄積ファイルの一覧
は、ファイル名とその内容の要約で構成してもよい。

【００３４】入出力処理部５０は、ファイル検索装置１
０に対する各種処理の指示、検索条件の入力、検索結果
の出力など、ファイル検索装置１０とその外部との間で
データを入出力するインタフェイスである。ファイル検
索装置１０がスタンドアロンで実現される場合にはユー
ザと本装置を結ぶインタフェイスとなり、ファイル検索
装置１０がネットワークサーバとして実現される場合に
は本装置をクライアント端末とネットワークを介して接
続させる通信インタフェイスとなる。

【００３５】図２は、前提技術における索引データの生
成過程を示すフローチャートである。まず、複数のファ
イルから処理対象となる蓄積ファイルを設定し（Ｓ１
０）、その蓄積ファイルに前処理を施し（Ｓ１２）、そ
の蓄積ファイルから形態素解析などの処理により文字列
を抽出する（Ｓ１４）。抽出された文字列ごとに出現頻
度などの統計的なデータを算出し（Ｓ１６）、これをも
とに索引データを生成する（Ｓ１８）。まだ索引データ
生成がされていない蓄積ファイルがファイル格納部４２
に残っている場合（Ｓ２０Ｙ）、その残りファイルを処
理対象にしてＳ１０〜Ｓ１８の処理を施し、すべての蓄
積ファイルを処理するまでこれを繰り返す（Ｓ２０）。

【００３６】図３は、前提技術における検索過程を示す
フローチャートである。まず、検索条件となる文章をユ
ーザが自然文の形で指定すると（Ｓ３０）、処理ユニッ
ト２０がその検索条件から文字列を抽出して索引データ
を生成する（Ｓ３２）。その索引データと索引格納部４
４が保持する複数の索引データを照合してそれぞれの類
似度を判断し（Ｓ３４）、その類似度の順に蓄積ファイ
ルの一覧を生成し（Ｓ３６）、これを検索結果として画
面に表示させる（Ｓ３８）。

【００３７】以上の前提技術との対比において、以下、
実施の形態を説明する。なお、前提技術に含まれる機能
ブロックと同じ働きをなす機能ブロックに対しては同じ
名称と符号を付すとともに、その説明を適宜省略する。

【００３８】（実施の形態）本実施の形態では、ファイ
ルを検索する際に利用するユーザが利用しやすいインデ
ックスファイルを作成するものである。特にそのインデ
ックスファイルとして、要約が利用される。ファイルの
要約を作成する際に、ファイルの構造を解析し、その結
果特徴的であると判定された部分に、その「特徴的であ
る」程度を重要度という属性で表しマークとして付与す
る。そして、付与されたマークを手がかりに要約が作成
される。以下の説明では、要約作成の対象となるファイ
ルをＸＭＬ形式に変換することで、ファイルの構造の解
析結果や重要度といった属性をファイル中で顕在化させ
ることが容易となる。

【００３９】図４は、実施の形態に係るファイル管理サ
ーバ１２０を含む検索システム１３０の全体構成を示す
機能ブロック図である。検索システム１３０において、
ファイル管理サーバ１２０はネットワーク１２４を介し
て複数のユーザ端末１２２と接続される。ファイル管理
サーバ１２０は、例えば業務において複数のユーザ間で
共有されるビジネス文書などの複数の蓄積ファイルを保
持する。ユーザがファイル管理サーバ１２０上の蓄積フ
ァイルを操作または検索する場合、ユーザ端末１２２が
その指示をファイル管理サーバ１２０へ発する。ユーザ
端末１２２はＰＣ等の情報処理装置である。ネットワー
ク１２４は、例えば企業内で敷設されるＬＡＮ（Local
Area Network）である。

【００４０】図５は、ファイル管理サーバ１２０の構成
を示す機能ブロック図である。ファイル管理サーバ１２
０は、処理ユニット２０と、検索ユニット３０と、保持
ユニット４０と、および入出力処理部５０を有する。入
出力処理部５０は、ネットワーク１２４を介してユーザ
端末１２２との間でデータを送受信する。

【００４１】処理ユニット２０は、前提技術と同様の構
成である解析処理部２２および生成処理部２４と、本実
施形態に特有の構成である重要度判定部６０と、マーク
付与部６２と、要約作成部６４と更新監視部１００を含
む。

【００４２】重要度判定部６０は、解析処理部２２と生
成処理部２４における処理の結果にもとづき、ファイル
を構成する要素が特徴的であるか否かを判定する。マー
ク付与部６２は、重要度判定部６０において特徴的であ
ると判定された要素に対し、その「特徴的である」程度
を示すマークを重要度として付与する。重要度は重み付
けがされていてもよく、つまり何段階かに重要度を分け
てマークが付与されていてもよい。

【００４３】要約作成部６４は、特徴的であると判定さ
れた要素を残し、それ以外の要素を適宜削除することで
対象となるファイルの要約を作成する。要約作成部６４
はさらにサイズ決定部６８を含み、これは、作成される
要約の大きさを決定する。サイズ決定部６８は要約のサ
イズの指示を、例えば「１００字以内」のようにユーザ
から受け付けてもよいし、作成される要約が格納される
べき記録媒体、例えばハードディスクの使用可能残容量
に応じて要約のサイズを決定してもよい。

【００４４】更新監視部１００は、ファイル格納部４２
を監視し、そこに保持され要約作成の対象となるファイ
ルに更新があった場合、要約を再度作成するよう解析処
理部２２、生成処理部２４、重要度判定部６０、マーク
付与部６２、要約作成部６４に対し上述の処理をするよ
うに指示を出す。

【００４５】保持ユニット４０は、前提技術と同様の構
成であるファイル格納部４２、索引格納部４４、辞書格
納部４６、および関連データ格納部４８と、本実施形態
に特有の構成である要約格納部６６を含む。要約格納部
６６は、要約作成部６４で作成された要約を記録し保持
する。

【００４６】検索ユニット３０は、前提技術と同様の構
成である比較処理部３２と、検索の結果をユーザ端末１
２２に提示する結果提示部１１２を含む。

【００４７】以上の構成による、要約の作成手順を図６
に示すフローチャートをもとに説明する。まず、解析処
理部２２は蓄積ファイルを形態素解析、レイアウト解
析、構文解析などの手法を用いて構造の解析を行う（Ｓ
１００）。次に生成処理部２４が蓄積ファイルをＸＭＬ
変換して解析の結果を反映させる（Ｓ１０２）。つづい
て、重要度判定部６０が変換された蓄積ファイルの各要
素の重要度を判定する（Ｓ１０４）。判定の基準は、フ
ァイル中の出現頻度や出現位置であったり、品詞名であ
ったり、それら組合せなど多数存在する。マーク付与部
６２が重要と判定された要素に対して、図８に示したよ
う、マークを付与しそれを先のＸＭＬ変換された蓄積フ
ァイルに反映させ（Ｓ１０６）、要約作成部６４はそれ
をもとに不要な要素を削除し要約を作成する（Ｓ１０
８）。

【００４８】図７は、要約を作成すべき蓄積ファイルの
原文の一部であり、図８はそのファイルを単純にＸＭＬ
変換したものであり、図９はさらに重要度判定の結果を
ＸＭＬの文法に沿って盛り込んだものである。図７にお
いて、１行目の中央にタイトルとして「Ａ社とＢ社、メ
モリ事業で提携」、２行目の右端に日付として「２００
１．１２．０１」、３行目以降に本文「日本のコンピュ
ータ大手Ａ社は、メモリ事業での提携をめぐり、米国の
Ｂ社との間で暫定合意が成立したと発表した。合意は・
・・。」が記述されている。

【００４９】図８は、単純にＸＭＬ変換した文書であり
重要度を判定していないので、属性として「タイトル」
「日付」「本文」の３種類のみが示されている。図９で
は、重要度判定部６０における判定の結果が反映され、
特徴的であると判定された要素には、「重要度」という
タグが付与されており、その際重要度の度合いはその高
い順に「３、２、１」の３段階で記述されている。

【００５０】例えば、図７の１行目の「メモリ事業」と
いう語に着目すると、この語の品詞、出現頻度、出現位
置を基準に重要度判定部６０で重要度が最も高い「３」
と判定され、この重要度「３」がマーク付与部６２によ
り「メモリ事業」という語に付与される。その場合、Ｘ
ＭＬ形式のファイル中では図９の３行目に示すように、
「＜重要度レベル＝“３”＞メモリ事業＜／重要度
＞」と属性を示すタグが「メモリ事業」という語を挟み
重要度が「３」である旨を顕在化している。ここでは、
ＸＭＬ形式のファイル作成する際に必要となる文法規則
上の要素宣言、属性宣言などの記述は省略している。重
要度を表すタグに、出現頻度や品詞がなどの属性をタグ
に盛り込んで、例えば「＜重要度レベル＝“３” 品
詞＝“名詞” 出現頻度＝“１０”＞メモリ事業＜／重
要度＞」としてもよい。

【００５１】図９に示したように、重要度を盛り込んだ
あと、サイズ決定部６８において設定された条件に応じ
て要約を作成する。例えば、ユーザにより「３０字以
内」という指示がなされていると想定し、ここでは２９
字で「Ａ社は、メモリ事業の提携をめぐり、Ｂ社と暫定
合意に達する。」という要約が作成され、要約格納部６
６にその基となった蓄積ファイルと関連づけられて保持
される。

【００５２】図１０は、図７で示した蓄積ファイル中の
単語の出現頻度示す出現頻度テーブルを示しており、こ
れは索引格納部に保持され、検索の際に利用される。品
詞の欄に記述されている「名」「固」「動」は、それぞ
れ「一般名詞」「固有名詞」「動詞」を示しており、
「名・動」は、例えば「合意」と「合意する」のように
名詞と動詞の両方に使用されていることを示している。

【００５３】図７は、蓄積ファイルの一部のみを示して
いるが、全体では、例えば「メモリ事業」という語はこ
の蓄積ファイル中で１０回出現していることが示されて
いる。また、「特記」事項として、特に重要な出現位
置、例えばタイトル中に出現している場合はその旨を記
述する。図示はしないが、ファイル管理サーバ１２０に
より管理されている他の蓄積ファイルに関しても出現頻
度が記述されている同様のテーブルが索引格納部４４に
保持されている。

【００５４】以上、実施の形態によれば、ファイルの特
徴的な部分を顕在化させることで精度の高い要約の作成
ができる。特に、ＸＭＬ形式のファイルに変換すること
で、ファイル中の各要素の属性をファイル中に盛り込む
ことができ要約作成のみならず、それら要素を利用した
検索機能を利用できる。

【００５５】以上、本発明を実施の形態をもとに説明し
た。この実施の形態は例示であり、それら各構成要素や
各処理プロセスの組合せにいろいろな変形例が可能なこ
と、またそうした変形例も本発明の範囲であることは当
業者に理解されるところである。そうした変形例を挙げ
る。

【００５６】実施の形態では、要約作成の対象となる蓄
積ファイルと作成された要約は同一の装置に保持された
がこれに限らず、異なる装置に保持されてもよい。例え
ば図１１に示すように、ファイル管理サーバ１２０とは
別にデータベースサーバ１４０を設け、その中にファイ
ル格納部４２を備える構成にする。

【００５７】実施の形態では、要約ファイルを作成する
ためにＸＭＬ形式のファイルに変換したがこれに限る趣
旨ではない。ＸＭＬ形式のファイルは、そのファイルの
記述の際に、ファイルを要素に分割しその要素の属性を
フレキシブルに記述できる特徴を持つので、本発明を実
現するに非常に有効である。また、図８に示した、属性
が盛り込まれたタグを含むファイルは、「“メモリ事
業”という単語が“タイトル”に含まれるファイル」と
いった条件でファイル検索をする上で有効なので保持さ
れてもよい。

【００５８】

【発明の効果】本発明によれば、利便性の高い方法で多
数のファイルを管理できる。

【図面の簡単な説明】

【図１】前提技術におけるファイル検索装置の構成を
示す機能ブロック図である。

【図２】前提技術における索引データの生成過程を示
すフローチャートである。

【図３】前提技術における検索過程を示すフローチャ
ートである。

【図４】本実施形態における検索システムの全体構成
を示す機能ブロック図である。

【図５】本実施形態におけるファイル管理サーバの構
成を示す機能ブロック図である。

【図６】要約作成の手順を示すフローチャートであ
る。

【図７】要約作成の対象となる蓄積ファイルの原文の
一部を示す図である。

【図８】単純にＸＭＬの形式に変換した蓄積ファイル
を示す図である。

【図９】重要度の判定結果を盛り込んだＸＭＬ形式の
蓄積ファイルを示す図である。

【図１０】ファイル中の要素の出現頻度を表したテー
ブルを示す図である。

【図１１】本実施形態の変形例における検索システム
の全体構成を示す機能ブロック図である。

【符号の説明】

２０処理ユニット、２２解析処理部、２４生
成処理部、４２ファイル格納部、４４索引格納
部、６０重要度判定部、６２マーク付与部、
６４要約作成部、６６要約格納部、６８サイ
ズ決定部、１００更新監視部、１２０ファイル
管理サーバ。

Claims

【特許請求の範囲】

【請求項１】コンピュータで利用可能に電子的に記録
された複数のファイルを管理する装置であって、ファイルの構造を解析する構造解析部と、その解析の結果、その構造が特徴的か否かを判定する重
要度判定部と、前記重要度判定部にて前記ファイルの構造が特徴的と判
定された場合、その構造が特徴的である旨を所定のマー
クで示し、それを前記ファイルに関連づけるマーク付与
部と、を含むことを特徴とするファイル管理装置。
【請求項２】コンピュータで利用可能に電子的に記録
された複数のファイルを管理する装置であって、ファイルを要素に分解する構造解析部と、分解された各要素がそのファイルにおいて特徴的か否か
を判定する重要度判定部と、前記重要度判定部にて特徴的と判定された要素に、それ
が前記ファイル中にて顕在化されるよう所定のマークを
付与するマーク付与部と、を含むことを特徴とするファイル管理装置。
【請求項３】前記重要度判定部は、前記要素の前記フ
ァイル中において出現する位置を検出し、その位置を参
照してその要素が特徴的か否か判定することを特徴とす
る請求項２に記載のファイル管理装置。
【請求項４】前記重要度判定部は、前記要素の前記フ
ァイル中における出現の頻度と、他のファイル中におけ
る出現の頻度を比較することで、その要素が特徴的であ
るか否かを判定することを特徴とする請求項２または３
に記載のファイル管理装置。
【請求項５】前記マークが付与された対象とそのマー
クの組み合わせをインデックスとして記録する索引格納
部をさらに含むことを特徴とする請求項１から４のいず
れかに記載のファイル管理装置。
【請求項６】前記索引格納部は、前記重要度判定部に
おいて特徴的と判定された対象を抽出することで、特徴
的でないと判定された対象を省きファイルを圧縮しイン
デックスを作成することを特徴とする請求項５に記載の
ファイル管理装置。
【請求項７】前記索引格納部は、作成されるインデッ
クスが保存されるべき記憶媒体の記憶可能な残容量に応
じて、前記ファイルのインデックスを作成する際の圧縮
の程度を決定することを特徴とする請求項６に記載のフ
ァイル管理装置。
【請求項８】前記索引格納部は、前記ファイルのイン
デックスを作成する際の圧縮の程度に関する指示をユー
ザから受け付けることを特徴とする請求項６に記載のフ
ァイル管理装置。
【請求項９】前記ファイルの更新履歴を検査する更新
検査部を含み、そのファイルの更新が確認されたとき前
記索引格納部が再度前記ファイルのインデックスを作成
することを特徴とする請求項５から８のいずれかに記載
のファイル管理装置。
【請求項１０】コンピュータで利用可能に電子的に記
録された複数のファイルを管理するプログラムであっ
て、ファイルの構造を解析する工程と、その解析の結果、その構造が特徴的か否かを判定する工
程と、前記重要度判定部にて前記ファイルの構造が特徴的と判
定された場合、その構造が特徴的である旨を所定のマー
クで示し、それを前記ファイルに関連づけるマーク付与
部と、をコンピュータに実行させることを特徴とするコンピュ
ータプログラム。
【請求項１１】コンピュータで利用可能に電子的に記
録された複数のファイルを管理するプログラムであっ
て、ファイルを要素に分解する工程と、分解された各要素がそのファイルにおいて特徴的か否か
を判定する工程と、前記重要度判定部にて特徴的と判定された要素に、それ
が前記ファイル中にて顕在化されるよう所定のマークを
付与する工程と、をコンピュータに実行させることを特徴とするコンピュ
ータプログラム。