JP2003196130A - ファイル管理装置およびコンピュータプログラム - Google Patents

ファイル管理装置およびコンピュータプログラム

Info

Publication number
JP2003196130A
JP2003196130A JP2001392621A JP2001392621A JP2003196130A JP 2003196130 A JP2003196130 A JP 2003196130A JP 2001392621 A JP2001392621 A JP 2001392621A JP 2001392621 A JP2001392621 A JP 2001392621A JP 2003196130 A JP2003196130 A JP 2003196130A
Authority
JP
Japan
Prior art keywords
file
characteristic
unit
index
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001392621A
Other languages
English (en)
Inventor
Naoya Uematsu
直也 植松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2001392621A priority Critical patent/JP2003196130A/ja
Publication of JP2003196130A publication Critical patent/JP2003196130A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 大量のファイルを内容で分類して管理するの
は煩雑であった。 【解決手段】 解析処理部22は蓄積ファイルの構造の
解析を行う。次に生成処理部24が蓄積ファイルをXM
L変換して解析の結果を反映させ、重要度判定部60が
蓄積ファイルの各要素の重要度を判定する。マーク付与
部62が重要と判定された要素に対して、マークを付与
しXML変換された蓄積ファイルに反映させ、要約作成
部64は不要な要素を削除し要約を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ファイル管理技
術に関する。この発明は特に、多数のファイルを検索が
容易となる形で効率的に管理する技術に関する。
【0002】
【従来の技術】近年、PC(パーソナルコンピュータ)
の普及により、あらゆる書類の電子化が進んでいる。ワ
ードプロセッサなどの文書作成ソフトウエアを用いてフ
ァイルを電子的に作成し、これがハードディスクに蓄積
されていく。企業内の環境ではコンピュータ同士をネッ
トワークで接続し、大量の文書ファイルを複数ユーザ間
で共有することも多い。インターネットが普及した現在
では、ウェブページや電子メールなどの社外から受け取
るデータも増えている。こうした大量のファイルの中か
ら誰でも所望のファイルを探せるように、所定の管理者
が予め分類しておくこともある。
【0003】
【発明が解決しようとする課題】ここで、複数のファイ
ルを分類する方法として、ファイルの内容に応じてグル
ープ化してそれぞれを別々のフォルダに格納する方法が
ある。しかしながら、ファイルのグループを一義的に定
めることは困難であるばかりか、大量のファイルを特定
の管理者が予め分類したとしても分類の基準が管理者の
主観に依存して却って検索が困難となる場合もある。こ
うして管理と検索の双方が容易でないために、貴重な資
料が再利用されずに眠ったままになることは決して珍し
くない。
【0004】一方、複数ユーザ間で共有されるファイル
は、多くのユーザにとって利用価値の高いものもあれ
ば、そもそもほんの一部のユーザにしか利用価値がない
ものもある。また、頻繁に再利用されるものやそうでな
いものも含まれる。したがって、大量のファイルのうち
大半が各ユーザにとって不要である可能性が高い。その
ようなファイルが混在した状態でファイルを種類別に分
類しても、必ずしも検索の容易化にはつながらない。真
に利用価値の高いファイルだけを簡単に探し出すことが
できれば、多くのユーザに作業効率の向上をもたらすこ
とになる。
【0005】本発明者は以上の認識に基づき本発明をな
したもので、その目的は、利便性の高い方法で多数のフ
ァイルを管理するための技術の提供にある。
【0006】
【課題を解決するための手段】本発明のある態様は、フ
ァイル管理装置に関する。この装置は、コンピュータで
利用可能に電子的に記録された複数のファイルを管理す
る装置であって、ファイルの構造を解析する構造解析部
と、その解析の結果、その構造が特徴的か否かを判定す
る重要度判定部と、重要度判定部にてファイルの構造が
特徴的と判定された場合、その構造が特徴的である旨を
所定のマークで示しそれをファイルに関連づけるマーク
付与部とを含む。
【0007】「複数のファイル」とは、後の要約作成の
対象となるファイル群であり、要約作成のための特別な
管理が成されている必要はない。また、ここで言うファ
イルとは、文書ファイルなどテキストデータを想定して
いるがこれに限る趣旨ではなく、イメージデータや音声
データであってもよいし、それら任意の組合せにより構
成されていてもよい。
【0008】また、ファイルの構造を解析するにあた
り、既知の技術である構文解析、意味解析、レイアウト
解析などの手法を利用してよい。「構造が特徴的」と
は、画像データが多く含まれていたり、音声データが多
く含まれていたり、ということが想定できるがこれに限
る趣旨ではない。
【0009】本発明の別の態様もファイル管理装置に関
する。この装置は、コンピュータで利用可能に電子的に
記録された複数のファイルを管理する装置であって、フ
ァイルを要素に分解する構造解析部と、分解された各要
素がそのファイルにおいて特徴的か否かを判定する重要
度判定部と、重要度判定部にて特徴的と判定された要素
に、それが前記ファイル中にて顕在化されるよう所定の
マークを付与するマーク付与部とを含む。
【0010】ここでファイルを要素に分解する手法とし
て形態素解析が想定できるがこれに限る趣旨ではない。
当然、上述の構文解析、意味解析、レイアウト解析など
の手法が組み合わされてもよい。また、付与されるマー
クは、複数であってよく、一般にその要素の「特徴的で
ある度合い」が「1、2、3」のように数段階に分けて
表される。また、そのマークに要素の属性が利用されて
もよい。例えば、形態素解析により、ある要素が「固有
名詞」と解析されたとき、その要素に「固有名詞」とい
うマークを付与する。
【0011】また、重要度判定部は、要素のファイル中
において出現する位置を検出し、その位置を参照してそ
の要素が特徴的か否か判定してもよい。例えば、ある文
書ファイルにこの装置を適用することを想定し、そのフ
ァイルにタイトルが記述してある場合、一般にタイトル
中に含まれる単語はキーワードとなる場合が多いので、
そのような単語は特徴的であると判定する。
【0012】また、重要度判定部は、要素の当該ファイ
ル中における出現の頻度と、他のファイル中における出
現の頻度を比較することで、その要素が特徴的であるか
否かを判定してもよい。例えば、そのファイル中である
一定回数出現する単語を特徴的と判定する。また、例え
ば同一装置内において管理されている他のファイルを参
照し、特徴的か否か判定すべき要素の出現頻度を比較
し、他のファイル中で出現頻度が多いものを特徴的と判
定したり、逆に特徴的でなく一般的と判定する。この判
定の基準は多数存在し、一般に、この装置を利用するユ
ーザがその基準を適宜設定する。
【0013】また、マークが付与された対象とそのマー
クの組み合わせをインデックスとして記録する索引格納
部と、をさらに含んでもよい。例えば、マークが付与さ
れた要素とその出現頻度の対応を示したテーブルが想定
できるがこれに限る趣旨ではない。
【0014】また、索引格納部は、重要度判定部におい
て特徴的と判定された対象を抽出することで、特徴的で
ないと判定された対象を省きファイルを圧縮しインデッ
クスを作成してもよい。ファイル中で、特徴的でない
と、つまりは重要でないと判定された要素を削除する。
そのときファイルの要約がインデックスとして作成され
てもよい。当然、このとき文章として体裁を成すよう、
上述の形態素解析や構文解析などの手法が用いられる。
【0015】また、索引格納部は、作成されるインデッ
クスが保存されるべき記憶媒体の記憶可能な残容量に応
じて、ファイルのインデックスを作成する際の圧縮の程
度を決定してもよい。また、索引格納部は、ファイルの
インデックスを作成する際の圧縮の程度に関する指示、
例えば「ファイルのサイズを30%にする」や「200
語以内にする」などの指示をユーザから受け付けてもよ
い。
【0016】また、ファイルの更新履歴を検査する更新
検査部を含んでもよく、そのファイルの更新が確認され
たとき索引格納部が再度前記ファイルのインデックスを
作成してもよい。
【0017】なお、以上の構成要素の任意の組合せや、
本発明の構成要素や表現を方法、装置、システム、コン
ピュータプログラム、コンピュータプログラムを格納し
た記録媒体などの間で相互に置換したものもまた、本発
明の態様として有効である。
【0018】
【発明の実施の形態】(前提技術)この前提技術におけ
るファイル検索装置は、検索条件としてユーザが指定し
た文章に類似するファイルを複数のファイルの中から検
索する。これにより、予め内容に応じてファイルを分類
しておかなくともファイルの検索が容易となり、大量の
ファイルを管理する負担が軽減される。
【0019】図1は、前提技術におけるファイル検索装
置の構成を示す機能ブロック図である。ファイル検索装
置10は、複数のファイルから所望のファイルを検索す
る際に参照される索引データの生成に必要な処理をなす
処理ユニット20と、ユーザから指定された条件に基づ
いて検索処理をなす検索ユニット30と、検索対象とな
る複数のファイル(以下、「蓄積ファイル」という。)
や検索処理に必要なデータを保持する保持ユニット40
と、本装置と外部との間でデータの入出力を処理する入
出力処理部50と、を有する。
【0020】このファイル検索装置10は、ハードウエ
ア的にはコンピュータのCPUやメモリなどの構成で実
現でき、ソフトウエア的にはファイル管理やファイル検
索機能のあるプログラムなどによって実現できるが、本
図ではそれらの連携によって実現される機能ブロックを
描いている。したがって、これらの機能ブロックはハー
ドウエア、ソフトウエアの組合せによっていろいろなか
たちで実現できる。
【0021】処理ユニット20は、保持ユニット40が
保持する複数の蓄積ファイルを処理対象とし、それぞれ
から特徴的な文字列を複数抽出する。この複数の特徴的
な文字列は、その蓄積ファイルの内容を端的に示したコ
ンセプト(概念)を形成するものとし、このコンセプト
を索引データとして記録する。処理ユニット20は、蓄
積ファイルに含まれる文字列を言語解析する解析処理部
22と、その解析結果に基づいて索引データを生成する
生成処理部24とを含む。
【0022】解析処理部22は、前処理部26と文字列
抽出部27を含む。前処理部26は、言語解析に先だっ
て前処理を行う。例えば、処理対象となる蓄積ファイル
からファイル形式や文書形式を検出し、これに基づいて
その蓄積ファイルをテキスト形式などの非定型な形式に
変換して解析容易な状態を形成してもよい。ひとつの蓄
積ファイルを複数のブロックに分割して解析に適した状
態を形成してもよい。このとき形態素解析、構文解析、
意味解析などの技術を利用してもよい。
【0023】文字列抽出部27は、処理対象の蓄積ファ
イルから複数の文字列を抽出する。後述する単語辞書に
含まれる単語を抽出する形でもよいし、スペースやブラ
ンクで区切られた文字列を単語として認識してもよい。
【0024】生成処理部24は、統計処理部28と索引
生成部29を含む。統計処理部28は、抽出された文字
列のその蓄積ファイルにおける出現頻度を計数するとと
もに、ファイル格納部42が保持する複数の蓄積ファイ
ル全体にわたるその文字列の出現頻度を計数する。この
とき文字列同士の類似性を考慮する。例えば、類義語、
同義語、統制語として定義された相互に意味が近似する
複数の単語間の相違を吸収して文字列の出現頻度を計数
する。
【0025】索引生成部29は、統計処理部28によっ
て計数された文字列の出現頻度に基づいて索引データを
生成する。この索引データは、抽出された複数の文字列
にそれぞれの出現頻度に応じた重み付けが付加された一
覧として構成される。各文字列に対する重み付けは、処
理対象の蓄積ファイルにおける出願頻度が高い文字列ほ
ど重み付けを高くする一方で、ファイル格納部42が保
持する複数の蓄積ファイル全体にわたって出現頻度が高
い文字列に対しては重み付けを低くする。その結果、そ
の蓄積ファイルに特有な文字列を統計的な手法で顕在化
させることができる。各蓄積ファイルが前処理部26に
よって複数のブロックに分割された場合はブロックごと
に索引データが生成される。
【0026】保持ユニット40は、ファイル格納部4
2、索引格納部44、辞書格納部46、および関連デー
タ格納部48を含む。ファイル格納部42は、複数の蓄
積ファイルを保持する。例えばワードプロセッサなどの
文書作成ソフトウエアによって生成された文書ファイ
ル、HTML(Hyper Text Markup Language)やXML
(eXtensible Markup Language)などの記述言語を用い
て生成されたファイルなど、多様な形式のファイルを含
み、その内容は必ずしも文章でなくともよい。また、蓄
積ファイル自体は、検索を前提とした分類および定型化
が予めなされることを必要としない。
【0027】索引格納部44は、処理ユニット20によ
って生成された索引データを蓄積ファイルと対応づけら
れたかたちで保持する。辞書格納部46は、単語辞書、
類義語辞書、同義語辞書、統制語辞書など、処理ユニッ
ト20による言語解析や統計処理において参照されるデ
ータを保持する。関連データ格納部48は、検索ユニッ
ト30による処理においてオプション的に利用されるデ
ータを保持する。例えば、検索条件として指定された言
葉を上位概念の単語、下位概念の単語、関連性をもつ単
語などに置き換えるために参照する関連辞書を保持す
る。こうしたデータを処理ユニット20が蓄積ファイル
から抽出して生成してもよい。
【0028】検索ユニット30は、ユーザから検索条件
を受け取り、これに適合する蓄積ファイルをファイル格
納部42から抽出する。検索ユニット30は、検索条件
と索引データを比較する比較処理部32と、比較結果に
基づいて検索条件に適合する蓄積ファイルをユーザに提
示する結果処理部34を含む。
【0029】比較処理部32は、条件設定部36および
類似度判断部37を含む。条件設定部36は、ユーザか
ら検索条件を取得する。この検索条件は、自然文によっ
て記述された文章のかたちでもよいし、何らかの文字列
を含んだファイルのかたちでもよい。その検索条件は処
理ユニット20に送られて前述した索引データの生成過
程と同様の処理対象となり、その検索条件のコンセプト
が生成される。
【0030】類似度判断部37は、検索条件のコンセプ
トと索引データとして記録されたコンセプト同士を比較
することにより、検索条件と蓄積ファイルの類似度を検
出する。比較の際に、辞書格納部46や関連データ格納
部48が保持する各種辞書に基づき、検索条件に含まれ
る文字列と関連する他の文字列を追加してその検索条件
を補完してもよい。
【0031】ここで、検索条件と索引データの比較には
ベクトル空間モデルを利用する。すなわち、検索条件の
コンセプトと索引データのコンセプトをそれぞれ多次元
空間上のベクトルとして表現し、これらを比較する。コ
ンセプトにn個の文字列が含まれる場合はn次元のベク
トル空間が形成され、各文字列の出現頻度に応じた重み
付けが各成分に加えられる。こうして形成されるベクト
ル同士の近似度が検索条件と蓄積ファイルの類似度とな
る。
【0032】結果処理部34は、一覧生成部38および
表示処理部39を含む。一覧生成部38は、類似度の高
い順に蓄積ファイルの一覧を生成する。このとき一覧に
含まれる蓄積ファイルの数が適当な数に限定されるよう
調整してもよい。
【0033】表示処理部39は、検索結果として蓄積フ
ァイルの一覧を画面に表示させる。蓄積ファイルの一覧
は、ファイル名とその内容の要約で構成してもよい。
【0034】入出力処理部50は、ファイル検索装置1
0に対する各種処理の指示、検索条件の入力、検索結果
の出力など、ファイル検索装置10とその外部との間で
データを入出力するインタフェイスである。ファイル検
索装置10がスタンドアロンで実現される場合にはユー
ザと本装置を結ぶインタフェイスとなり、ファイル検索
装置10がネットワークサーバとして実現される場合に
は本装置をクライアント端末とネットワークを介して接
続させる通信インタフェイスとなる。
【0035】図2は、前提技術における索引データの生
成過程を示すフローチャートである。まず、複数のファ
イルから処理対象となる蓄積ファイルを設定し(S1
0)、その蓄積ファイルに前処理を施し(S12)、そ
の蓄積ファイルから形態素解析などの処理により文字列
を抽出する(S14)。抽出された文字列ごとに出現頻
度などの統計的なデータを算出し(S16)、これをも
とに索引データを生成する(S18)。まだ索引データ
生成がされていない蓄積ファイルがファイル格納部42
に残っている場合(S20Y)、その残りファイルを処
理対象にしてS10〜S18の処理を施し、すべての蓄
積ファイルを処理するまでこれを繰り返す(S20)。
【0036】図3は、前提技術における検索過程を示す
フローチャートである。まず、検索条件となる文章をユ
ーザが自然文の形で指定すると(S30)、処理ユニッ
ト20がその検索条件から文字列を抽出して索引データ
を生成する(S32)。その索引データと索引格納部4
4が保持する複数の索引データを照合してそれぞれの類
似度を判断し(S34)、その類似度の順に蓄積ファイ
ルの一覧を生成し(S36)、これを検索結果として画
面に表示させる(S38)。
【0037】以上の前提技術との対比において、以下、
実施の形態を説明する。なお、前提技術に含まれる機能
ブロックと同じ働きをなす機能ブロックに対しては同じ
名称と符号を付すとともに、その説明を適宜省略する。
【0038】(実施の形態)本実施の形態では、ファイ
ルを検索する際に利用するユーザが利用しやすいインデ
ックスファイルを作成するものである。特にそのインデ
ックスファイルとして、要約が利用される。ファイルの
要約を作成する際に、ファイルの構造を解析し、その結
果特徴的であると判定された部分に、その「特徴的であ
る」程度を重要度という属性で表しマークとして付与す
る。そして、付与されたマークを手がかりに要約が作成
される。以下の説明では、要約作成の対象となるファイ
ルをXML形式に変換することで、ファイルの構造の解
析結果や重要度といった属性をファイル中で顕在化させ
ることが容易となる。
【0039】図4は、実施の形態に係るファイル管理サ
ーバ120を含む検索システム130の全体構成を示す
機能ブロック図である。検索システム130において、
ファイル管理サーバ120はネットワーク124を介し
て複数のユーザ端末122と接続される。ファイル管理
サーバ120は、例えば業務において複数のユーザ間で
共有されるビジネス文書などの複数の蓄積ファイルを保
持する。ユーザがファイル管理サーバ120上の蓄積フ
ァイルを操作または検索する場合、ユーザ端末122が
その指示をファイル管理サーバ120へ発する。ユーザ
端末122はPC等の情報処理装置である。ネットワー
ク124は、例えば企業内で敷設されるLAN(Local
Area Network)である。
【0040】図5は、ファイル管理サーバ120の構成
を示す機能ブロック図である。ファイル管理サーバ12
0は、処理ユニット20と、検索ユニット30と、保持
ユニット40と、および入出力処理部50を有する。入
出力処理部50は、ネットワーク124を介してユーザ
端末122との間でデータを送受信する。
【0041】処理ユニット20は、前提技術と同様の構
成である解析処理部22および生成処理部24と、本実
施形態に特有の構成である重要度判定部60と、マーク
付与部62と、要約作成部64と更新監視部100を含
む。
【0042】重要度判定部60は、解析処理部22と生
成処理部24における処理の結果にもとづき、ファイル
を構成する要素が特徴的であるか否かを判定する。マー
ク付与部62は、重要度判定部60において特徴的であ
ると判定された要素に対し、その「特徴的である」程度
を示すマークを重要度として付与する。重要度は重み付
けがされていてもよく、つまり何段階かに重要度を分け
てマークが付与されていてもよい。
【0043】要約作成部64は、特徴的であると判定さ
れた要素を残し、それ以外の要素を適宜削除することで
対象となるファイルの要約を作成する。要約作成部64
はさらにサイズ決定部68を含み、これは、作成される
要約の大きさを決定する。サイズ決定部68は要約のサ
イズの指示を、例えば「100字以内」のようにユーザ
から受け付けてもよいし、作成される要約が格納される
べき記録媒体、例えばハードディスクの使用可能残容量
に応じて要約のサイズを決定してもよい。
【0044】更新監視部100は、ファイル格納部42
を監視し、そこに保持され要約作成の対象となるファイ
ルに更新があった場合、要約を再度作成するよう解析処
理部22、生成処理部24、重要度判定部60、マーク
付与部62、要約作成部64に対し上述の処理をするよ
うに指示を出す。
【0045】保持ユニット40は、前提技術と同様の構
成であるファイル格納部42、索引格納部44、辞書格
納部46、および関連データ格納部48と、本実施形態
に特有の構成である要約格納部66を含む。要約格納部
66は、要約作成部64で作成された要約を記録し保持
する。
【0046】検索ユニット30は、前提技術と同様の構
成である比較処理部32と、検索の結果をユーザ端末1
22に提示する結果提示部112を含む。
【0047】以上の構成による、要約の作成手順を図6
に示すフローチャートをもとに説明する。まず、解析処
理部22は蓄積ファイルを形態素解析、レイアウト解
析、構文解析などの手法を用いて構造の解析を行う(S
100)。次に生成処理部24が蓄積ファイルをXML
変換して解析の結果を反映させる(S102)。つづい
て、重要度判定部60が変換された蓄積ファイルの各要
素の重要度を判定する(S104)。判定の基準は、フ
ァイル中の出現頻度や出現位置であったり、品詞名であ
ったり、それら組合せなど多数存在する。マーク付与部
62が重要と判定された要素に対して、図8に示したよ
う、マークを付与しそれを先のXML変換された蓄積フ
ァイルに反映させ(S106)、要約作成部64はそれ
をもとに不要な要素を削除し要約を作成する(S10
8)。
【0048】図7は、要約を作成すべき蓄積ファイルの
原文の一部であり、図8はそのファイルを単純にXML
変換したものであり、図9はさらに重要度判定の結果を
XMLの文法に沿って盛り込んだものである。図7にお
いて、1行目の中央にタイトルとして「A社とB社、メ
モリ事業で提携」、2行目の右端に日付として「200
1.12.01」、3行目以降に本文「日本のコンピュ
ータ大手A社は、メモリ事業での提携をめぐり、米国の
B社との間で暫定合意が成立したと発表した。合意は・
・・。」が記述されている。
【0049】図8は、単純にXML変換した文書であり
重要度を判定していないので、属性として「タイトル」
「日付」「本文」の3種類のみが示されている。図9で
は、重要度判定部60における判定の結果が反映され、
特徴的であると判定された要素には、「重要度」という
タグが付与されており、その際重要度の度合いはその高
い順に「3、2、1」の3段階で記述されている。
【0050】例えば、図7の1行目の「メモリ事業」と
いう語に着目すると、この語の品詞、出現頻度、出現位
置を基準に重要度判定部60で重要度が最も高い「3」
と判定され、この重要度「3」がマーク付与部62によ
り「メモリ事業」という語に付与される。その場合、X
ML形式のファイル中では図9の3行目に示すように、
「<重要度 レベル=“3”>メモリ事業</重要度
>」と属性を示すタグが「メモリ事業」という語を挟み
重要度が「3」である旨を顕在化している。ここでは、
XML形式のファイル作成する際に必要となる文法規則
上の要素宣言、属性宣言などの記述は省略している。重
要度を表すタグに、出現頻度や品詞がなどの属性をタグ
に盛り込んで、例えば「<重要度 レベル=“3” 品
詞=“名詞” 出現頻度=“10”>メモリ事業</重
要度>」としてもよい。
【0051】図9に示したように、重要度を盛り込んだ
あと、サイズ決定部68において設定された条件に応じ
て要約を作成する。例えば、ユーザにより「30字以
内」という指示がなされていると想定し、ここでは29
字で「A社は、メモリ事業の提携をめぐり、B社と暫定
合意に達する。」という要約が作成され、要約格納部6
6にその基となった蓄積ファイルと関連づけられて保持
される。
【0052】図10は、図7で示した蓄積ファイル中の
単語の出現頻度示す出現頻度テーブルを示しており、こ
れは索引格納部に保持され、検索の際に利用される。品
詞の欄に記述されている「名」「固」「動」は、それぞ
れ「一般名詞」「固有名詞」「動詞」を示しており、
「名・動」は、例えば「合意」と「合意する」のように
名詞と動詞の両方に使用されていることを示している。
【0053】図7は、蓄積ファイルの一部のみを示して
いるが、全体では、例えば「メモリ事業」という語はこ
の蓄積ファイル中で10回出現していることが示されて
いる。また、「特記」事項として、特に重要な出現位
置、例えばタイトル中に出現している場合はその旨を記
述する。図示はしないが、ファイル管理サーバ120に
より管理されている他の蓄積ファイルに関しても出現頻
度が記述されている同様のテーブルが索引格納部44に
保持されている。
【0054】以上、実施の形態によれば、ファイルの特
徴的な部分を顕在化させることで精度の高い要約の作成
ができる。特に、XML形式のファイルに変換すること
で、ファイル中の各要素の属性をファイル中に盛り込む
ことができ要約作成のみならず、それら要素を利用した
検索機能を利用できる。
【0055】以上、本発明を実施の形態をもとに説明し
た。この実施の形態は例示であり、それら各構成要素や
各処理プロセスの組合せにいろいろな変形例が可能なこ
と、またそうした変形例も本発明の範囲であることは当
業者に理解されるところである。そうした変形例を挙げ
る。
【0056】実施の形態では、要約作成の対象となる蓄
積ファイルと作成された要約は同一の装置に保持された
がこれに限らず、異なる装置に保持されてもよい。例え
ば図11に示すように、ファイル管理サーバ120とは
別にデータベースサーバ140を設け、その中にファイ
ル格納部42を備える構成にする。
【0057】実施の形態では、要約ファイルを作成する
ためにXML形式のファイルに変換したがこれに限る趣
旨ではない。XML形式のファイルは、そのファイルの
記述の際に、ファイルを要素に分割しその要素の属性を
フレキシブルに記述できる特徴を持つので、本発明を実
現するに非常に有効である。また、図8に示した、属性
が盛り込まれたタグを含むファイルは、「“メモリ事
業”という単語が“タイトル”に含まれるファイル」と
いった条件でファイル検索をする上で有効なので保持さ
れてもよい。
【0058】
【発明の効果】本発明によれば、利便性の高い方法で多
数のファイルを管理できる。
【図面の簡単な説明】
【図1】 前提技術におけるファイル検索装置の構成を
示す機能ブロック図である。
【図2】 前提技術における索引データの生成過程を示
すフローチャートである。
【図3】 前提技術における検索過程を示すフローチャ
ートである。
【図4】 本実施形態における検索システムの全体構成
を示す機能ブロック図である。
【図5】 本実施形態におけるファイル管理サーバの構
成を示す機能ブロック図である。
【図6】 要約作成の手順を示すフローチャートであ
る。
【図7】 要約作成の対象となる蓄積ファイルの原文の
一部を示す図である。
【図8】 単純にXMLの形式に変換した蓄積ファイル
を示す図である。
【図9】 重要度の判定結果を盛り込んだXML形式の
蓄積ファイルを示す図である。
【図10】 ファイル中の要素の出現頻度を表したテー
ブルを示す図である。
【図11】 本実施形態の変形例における検索システム
の全体構成を示す機能ブロック図である。
【符号の説明】
20 処理ユニット、 22 解析処理部、 24 生
成処理部、 42 ファイル格納部、 44 索引格納
部、 60 重要度判定部、 62 マーク付与部、
64 要約作成部、 66 要約格納部、 68 サイ
ズ決定部、 100 更新監視部、 120 ファイル
管理サーバ。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータで利用可能に電子的に記録
    された複数のファイルを管理する装置であって、 ファイルの構造を解析する構造解析部と、 その解析の結果、その構造が特徴的か否かを判定する重
    要度判定部と、 前記重要度判定部にて前記ファイルの構造が特徴的と判
    定された場合、その構造が特徴的である旨を所定のマー
    クで示し、それを前記ファイルに関連づけるマーク付与
    部と、 を含むことを特徴とするファイル管理装置。
  2. 【請求項2】 コンピュータで利用可能に電子的に記録
    された複数のファイルを管理する装置であって、 ファイルを要素に分解する構造解析部と、 分解された各要素がそのファイルにおいて特徴的か否か
    を判定する重要度判定部と、 前記重要度判定部にて特徴的と判定された要素に、それ
    が前記ファイル中にて顕在化されるよう所定のマークを
    付与するマーク付与部と、 を含むことを特徴とするファイル管理装置。
  3. 【請求項3】 前記重要度判定部は、前記要素の前記フ
    ァイル中において出現する位置を検出し、その位置を参
    照してその要素が特徴的か否か判定することを特徴とす
    る請求項2に記載のファイル管理装置。
  4. 【請求項4】 前記重要度判定部は、前記要素の前記フ
    ァイル中における出現の頻度と、他のファイル中におけ
    る出現の頻度を比較することで、その要素が特徴的であ
    るか否かを判定することを特徴とする請求項2または3
    に記載のファイル管理装置。
  5. 【請求項5】 前記マークが付与された対象とそのマー
    クの組み合わせをインデックスとして記録する索引格納
    部をさらに含むことを特徴とする請求項1から4のいず
    れかに記載のファイル管理装置。
  6. 【請求項6】 前記索引格納部は、前記重要度判定部に
    おいて特徴的と判定された対象を抽出することで、特徴
    的でないと判定された対象を省きファイルを圧縮しイン
    デックスを作成することを特徴とする請求項5に記載の
    ファイル管理装置。
  7. 【請求項7】 前記索引格納部は、作成されるインデッ
    クスが保存されるべき記憶媒体の記憶可能な残容量に応
    じて、前記ファイルのインデックスを作成する際の圧縮
    の程度を決定することを特徴とする請求項6に記載のフ
    ァイル管理装置。
  8. 【請求項8】 前記索引格納部は、前記ファイルのイン
    デックスを作成する際の圧縮の程度に関する指示をユー
    ザから受け付けることを特徴とする請求項6に記載のフ
    ァイル管理装置。
  9. 【請求項9】 前記ファイルの更新履歴を検査する更新
    検査部を含み、そのファイルの更新が確認されたとき前
    記索引格納部が再度前記ファイルのインデックスを作成
    することを特徴とする請求項5から8のいずれかに記載
    のファイル管理装置。
  10. 【請求項10】 コンピュータで利用可能に電子的に記
    録された複数のファイルを管理するプログラムであっ
    て、 ファイルの構造を解析する工程と、 その解析の結果、その構造が特徴的か否かを判定する工
    程と、 前記重要度判定部にて前記ファイルの構造が特徴的と判
    定された場合、その構造が特徴的である旨を所定のマー
    クで示し、それを前記ファイルに関連づけるマーク付与
    部と、 をコンピュータに実行させることを特徴とするコンピュ
    ータプログラム。
  11. 【請求項11】 コンピュータで利用可能に電子的に記
    録された複数のファイルを管理するプログラムであっ
    て、 ファイルを要素に分解する工程と、 分解された各要素がそのファイルにおいて特徴的か否か
    を判定する工程と、 前記重要度判定部にて特徴的と判定された要素に、それ
    が前記ファイル中にて顕在化されるよう所定のマークを
    付与する工程と、 をコンピュータに実行させることを特徴とするコンピュ
    ータプログラム。
JP2001392621A 2001-12-25 2001-12-25 ファイル管理装置およびコンピュータプログラム Pending JP2003196130A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001392621A JP2003196130A (ja) 2001-12-25 2001-12-25 ファイル管理装置およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001392621A JP2003196130A (ja) 2001-12-25 2001-12-25 ファイル管理装置およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2003196130A true JP2003196130A (ja) 2003-07-11

Family

ID=27599878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001392621A Pending JP2003196130A (ja) 2001-12-25 2001-12-25 ファイル管理装置およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2003196130A (ja)

Similar Documents

Publication Publication Date Title
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US7814043B2 (en) Content information analyzing method and apparatus
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US8224641B2 (en) Language identification for documents containing multiple languages
KR100953238B1 (ko) 콘텐츠 정보 해석 방법, 시스템 및 기록 매체
US8117177B2 (en) Apparatus and method for searching information based on character strings in documents
US20070136280A1 (en) Factoid-based searching
US20120109949A1 (en) Two stage search
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
US20050108266A1 (en) Method and apparatus for browsing document content
JP4179858B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP2003186888A (ja) 部品情報分類装置、部品情報検索装置および部品情報検索サーバ
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체
Croft et al. Search engines
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2003196130A (ja) ファイル管理装置およびコンピュータプログラム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145236A (ja) 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体