JP2632092B2

JP2632092B2 - データベースを生成する装置および方法

Info

Publication number: JP2632092B2
Application number: JP3080504A
Authority: JP
Inventors: ウェイン・シィ・グラムリッチ; ソーレン・ジェイ・ティアフィング
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1990-03-27
Filing date: 1991-03-20
Publication date: 1997-07-16
Anticipated expiration: 2012-07-16
Also published as: HK52794A; GB9016310D0; GB2242549A; JPH05135108A; GB2242549B; CA2026253A1; US5202982A; CA2026253C

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明の方法及び装置はデータベ
ースの編成に関し、特に、テキスト形ファイルの検索及
び記憶の効率をできる限り高くするための、データベー
スを形成するテキスト形ソースファイルから取成される
データベースファイル及びデータベースファイルに含ま
れる情報の編成と識別に関する。

【０００２】

【従来の技術】データベースは、後の探索と検索に備え
て所定の方式で編成され且つ記憶された情報の集合体で
ある。通常、データは、いくつかのパラメータに従って
データを索引付けし、それらのパラメータに従ってデー
タを検索することができるように編成される。データベ
ースに含まれるデータはアプリケーションによって異な
る。たとえば、データベースは、テキストファイル中の
語又は語のストリングを迅速に検索できるようにテキス
トファイル中の語に索引付けするための情報を含んでい
ても良い。

【０００３】データベースに含まれるデータはアクセス
と検索に備えて単一のファイルに編成されても良いが、
複数のファイルにまたがっていても良い。場合によって
は、データベースを取り出す元になるソース情報の性質
上、ファイルの重複が起こる可能性がある。すなわち、
ソース情報が重複する情報を含んでいる場合には、デー
タベースも同様に重複情報を含む可能性がある。これが
起こるアプリケーションの１つは、コンピュータプログ
ラムコンパイラと、テキスト形態のソースファイルのコ
ンパイルプロセスの間に生成される何らかのコンパイラ
情報に従ってソースファイル情報の索引付けと検索を補
助するプロセスの環境である。

【０００４】たとえば、ソフトウェアの開発に際して
は、テキスト形態をとるソースコードプログラムの中で
何らかの変数又は記号（以下、まとめて「記号等」とい
う）が現れる箇所を確定し、且つプログラムの実行を通
してその記号等の値がどのように変化するかを知るため
に、プログラムにおいて記号を含んでいる特定の行又は
部分を検閲することが必要になる場合は多い。この探索
・検索能力を実現する１つの方法は、ソースプログラム
中の全ての記号等のインデックスと、それらの記号等が
現われる対応するソースファイル中の行の行番号とを含
むデータベースを形成するというものである。しかしな
がら、ソースプログラムがきわめて大きく、１つのファ
イルではなく、複数の別個ファイルにまたがっているこ
ともありうるので、コンパイルプロセスの間に、主プロ
グラムに入っているリンキング又は取り込みステートメ
ント（Ｃプログラミング言語の「＃include」ステート
メントなど）によってファイルを組合わせる。従って、
頻繁に使用されるファイルは、それに含まれている情報
が同一であるにもかかわらず、何度もデータベースに取
り込まれるのである。

【０００５】また、データベースを構成しているデータ
ベースコンポーネントファイルが、データベースコンポ
ーネントファイルを取り出す元になったソースファイル
の現在バージョンと一致するように保証することも必要
である。データベースを取り出す元になったテキスト形
ソースファイルを、データベースコンポーネントファイ
ルを更新せずに更新してしまうという不注意なミスは起
こりうる。そのような場合、ソースファイルからのテキ
ストの検索時に、データベースは不正確な情報を提供す
るであろう。

【０００６】多重タスク処理環境では、複数のプロセス
又は装置がファイルを同時にアクセスするか又はアクセ
スしようとすることがある。１つのプロセス又は装置が
ある１つのファイルに情報を書込もうとしている間に別
のプロセス又は装置が同じファイルに対して情報の読取
り又は書込みを実行しようとしたときにレース状態は起
こる。その結果、正しくないデータがファイルに書込ま
れ且つ／又は正しくないデータがファイルから読取られ
ることになる。

【０００７】

【発明が解決しようとする課題】本発明の課題は、デー
タベース内部のファイルの重複をできる限り少なくする
手段を提供することである。本発明の他の課題は、デー
タベースファイルを探索すると共に、場合によっては、
データファイルとソースファイルとの保全性が失われた
ときにソースファイルの対応する部分を提供する手段を
構成する手段を提供することである。さらに本発明の課
題は、データベースとソースファイルの現在バージョン
との保全性を検査する手段を提供することである。さら
に本発明の課題は、多重タスク処理システムで起こるレ
ース状態のために発生する誤りを阻止する手段を提供す
ることである。

【０００８】

【課題を解決するための手段】本発明の方法及び装置に
おいては、データベースに追加すべきデータベースコン
ポーネントファイルに、ファイルの内容によって決まる
一意の名が与えられるので、ソースファイルの内容が変
化すると、データベースに追加すべき対応するデータベ
ースコンポーネントファイルの名も変わる。逆に、２つ
のデータベースコンポーネントファイルが同一の情報を
含んでいる場合には、同じファイル名が生成され、ファ
イルを生成し且つそのファイルをデータベースを追加す
る前にデータベースコンポーネントファイルの名の有無
を検査する単純な試験を実行することにより、データベ
ースにおける情報の重複を阻止する。ファイル名がデー
タベースにあれば、情報は既にデータベースに含まれて
いるので、ファイルを生成してデータベース情報に追加
する動作は実行されない。

【０００９】ファイルの名は、ファイルの内容の和から
ハッシュ値を計算し、そのハッシュ値をファイルの名と
組合わせることにより生成されるのが好ましい。データ
ベースコンポーネントファイル名を構成するためにソー
スファイル名をハッシュ値と関連させて使用するので、
ハッシュ値は全てのファイルについて一意である必要は
なく、同一の名を有するソースファイルについてのみ一
意であれば良い。従って、コンフリクトが生じる確率は
最小限である。さらに、ハッシュ値を計算するために発
見的方法を選択することにより、ファイル名が一意であ
るという確信を高いレベルで得続けることができる。ま
た、データベースコンポーネントファイル名はソースフ
ァイルごとに一意であるので、正しいファイルを探索す
るプロセスは簡略化され、データベースコンポーネント
ファイルの位置、たとえば、データベースコンポーネン
トファイルが入っている登録簿を指定する必要はない。
これは、ファイル名が特定のファイル内容に対して一意
性をもち、問い合わせ、すなわち探索プログラムによっ
て、同一の名を有するどのファイルも同じソースファイ
ルから生成されたものであるということを間違いなく仮
定できるからである。

【００１０】各データベースコンポーネントファイルは
１つのソースファイルに含まれるテキストに関する情報
を含んでおり、そのため、ユーザーは指定のテキストの
発生頻度と、ソースファイルにおける指定のテキストの
位置とを迅速に確定することができる。テキスト語（こ
こでは「記号」という）ごとに、データベースコンポー
ネントファイルには記号情報を含むエントリが設けられ
ている。記号情報は記号名と、記号の型と、ソースファ
イル中の、記号が位置している行の行番号とを含む。ま
た、ソースファイルの行番号と、行の長さ（すなわち、
行の文字数）と、ソースファイル中のテキストの行の内
容から計算された対応するハッシュ値とを含む行識別情
報も提供される。問い合わせで識別されたテキストの行
を表示する前に、行識別情報は、記号情報で識別された
テキストの行がソースファイルに現在含まれているのと
同じテキストの行であることを検査するための手段を構
成する。（データベースで参照された）テキストの行に
対応するハッシュ値と行長さを、現在ソースファイルか
ら検索したテキストについて計算されたハッシュ値及び
行長さと比較する。計算したハッシュ値と行長さが行識
別情報に含まれているハッシュ値及び行長さと一致しな
い場合には、データベースの生成後にソースファイルが
変更されたために、テキストはデータベース参照部分と
一致しないことになる。

【００１１】また、多重タスク処理システムにおいてレ
ース状態が起こったといきに発生する誤りを、原子指令
と関連させて一時ファイル名及び一時ファイル登録簿を
使用することにより阻止するロッキングメカニズムも提
供される。本発明の目的、特徴及び利点は以下の詳細な
説明から明白になるであろう。

【００１２】

【実施例】表記法及び用語以下の詳細な説明の大半は、コンピュータメモリ内部の
データビットの操作の記号表示及びアルゴリズムによっ
て表されている。そのようなアルゴリズムによる説明や
表示は、データ処理技術に熟達した人がその作業の内容
を同じ技術分野の当業者に最も有効に伝達するための手
段である。

【００１３】ここでは、また、一般的にも、アルゴリズ
ムは、所望の結果に至る首尾一貫したステップのシーケ
ンスであると考えられている。それらのステップは、物
理的な量の物理的な操作を必要とするステップである。
通常、物理的な量は記憶，転送，組合わせ，比較及びそ
の他の方法による操作が可能である電気信号又は磁気信
号の形態をとるが、必ずしもそうである必要はない。時
によっては、主に一般に共通して使用されている用語で
あるという理由により、それらの信号をビット，値，要
素，記号，文字，項，数などと呼ぶと好都合であること
がわかる。ただし、それらの用語及びそれに類する用語
は適切な物理的な量と関連させるべきものであり、その
ような量に便宜上付与されたラベルであるにすぎないと
いうことを忘れてはならない。

【００１４】さらに、実行される操作を、オペレータが
実行する知的動作と一般には関連している加算又は比較
などの用語で呼ぶことが多いが、ここで説明する動作の
どれをとっても、本発明の一部を形成している。そのよ
うなオペレータの能力は不要であり、多くの場合に望ま
しくない。動作は機械の動作である。本発明の動作を実
行するのに有用な機械には、汎用デジタルコンピュータ
又は他の同様な装置がある。いずれの場合にも、コンピ
ュータを動作させる際の方法の動作と、計算それ自体の
方法との明確な区別に留意すべきである。本発明は、電
気的信号又はその他の物理的（たとえば、機械的，化学
的）信号を処理して、他の所望の物理的信号を発生させ
るに際してコンピュータを動作させる方法のステップに
関する。

【００１５】また、本発明はこのような動作を実行する
装置にも関する。この装置は必要とされる目的に合わせ
て特別に構成されても良いが、汎用コンピュータを、コ
ンピュータに記憶されたコンピュータプログラムにより
選択的に動作させるか又は再構成することにより使用し
ても良い。ここで提示するアルゴリズムは、元来、特定
のコンピュータ又はその他の装置と関連するものではな
い。詳細にいえば、ここで示す教示に従って書込まれた
プログラムと共に様々な汎用機械を使用できるが、要求
される方法ステップを実行するためには、さらに特殊化
した装置を構成するほうが好都合であると判明するかも
しれない。そのような多様な機械について要求される構
造は以下の説明から明白になるであろう。

【００１６】システム全般の構成図１は、本発明によるデータベースに使用される代表的
なコンピュータベースシステムを示す。図１に示されて
いるコンピュータ１０１は３つの主要な構成要素を含
む。その第１のものは、適切に構造化された情報をコン
ピュータ１０１の他の部分との間で通信するために使用
される入出力（Ｉ／Ｏ）回路１０２である。コンピュー
タ１０１の一部としてさらに示されているのは中央処理
装置（ＣＰＵ）１０３と、メモリ１０４である。これら
２つの構成要素は多くの汎用コンピュータ及びほぼ全て
の専用コンピュータで通常見られる装置である。コンピ
ュータ１０１の中に含まれるいくつかの要素は、事実
上、この広い意味でのデータプロセッサを表そうとする
ものである。コンピュータ１０１の役割を果たすのに適
するデータプロセッサの特定の例には、カリフォルニア
州マウンテンビューのSun Microsystems,Inc．が製造し
ている機械がある。以下で説明する機械を実行するため
に、同様の能力をもつ他のコンピュータを簡単に適合さ
せることが可能であるのは自明である。

【００１７】図１には入力装置１０５も示されている
が、典型的な実施例では、これをキーボードとして構成
している。しかしながら、入力装置が実際にはカード読
取り装置，磁気テープ又は紙テープ読取り装置、あるい
は他の周知の入力装置（当然のことながら別のコンピュ
ータを含む）であっても良いことを理解すべきである。
入出力回路１０２に結合する大容量メモリ装置１０６
は、コンピュータ１０１にさらに大きな記憶能力を追加
する。大容量メモリは他のプログラムなどを含んでいて
も良く、また、磁気テープ又は紙テープ読取り装置、あ
るいは他の周知の装置の形態をとっていても良い。大容
量メモリ１０６に保持されているデータを場合に応じて
メモリ１０４の一部としてコンピュータ１０１に標準の
方法で適宜取り入れても良いことは明きらかであろう。

【００１８】さらに、図示されている表示モニター１０
７はメッセージ又は他の通信をユーザーに対して表示す
るために使用される。このような表示モニターは良く知
られている数種類のＣＲＴ表示装置の中のいずれか１つ
の形態をとっていても良い。カーソル制御装置１０８は
指令モードを選択すると共に、たとえば、データベース
に問い合わせをするためのパラメータのような入力デー
タを編集するために使用され、情報をシステムに入力す
る手段としてはより便利である。

【００１９】プロセスの説明本発明の好ましい一実施例に関する以下の説明では、コ
ンピュータプログラムのソースコードファイルとしての
ソースファイルを説明する。「コレクタ」と呼ばれるデ
ータベースファイル生成手段は、ソースコードをオブジ
ェクトコードファイルにコンパイルするコンパイラの一
部として説明される。本発明があらゆる種類のテキスト
ファイルに適用可能であり、コンピュータプログラムソ
ースファイルには限定されないことは当業者には自明で
あろう。さらに、コレクタ機能をここで説明するコンパ
イラのように、他の機能を実行する要素と組合わせも良
く、あるいは、コレクタを独立した手段として動作させ
ても良い。

【００２０】図２に関して説明する。図２には、本発明
を例示するために使用されるデータベースを示す。この
データベースは，少なくとも１つのデータベースコンポ
ーネントファイル（図２では、「ブラウザデータ」とい
う用語を表す接尾部「．ｂｄ」を有するものとして示し
てある）と、データベースコンポーネントファイルの中
における情報の位置を規定するために使用されるインデ
ックスファイルとを含む。各データベースコンポーネン
トファイルは、問い合わせに応答して１つのソースファ
イルを探索する能力を得るために、記号情報と、行識別
情報とを含む。ソーステキストファイル中の記号はテキ
ストファイルのあらゆるワードを含んでいても良いが、
記号の型に従って識別されたテキストを選択しても良
い。１９９０年３月２７日に「ＵｓｅｒＥｘｔｅｎｓ
ｉｂｌｅ，ＬａｎｇｕａｇｅＳｅｎｓｉｔｉｖｅＤ
ａｔａｂａｓｅＳｙｓｔｅｍ」の名称で出願された米
国特許出願第５００１３８号（米国特許第５，１１７，
３４９号）に記載されているインタフェースのように、
記号の識別を指定するインタフェースを使用することに
より、ソースファイルの型に従って記号を分類し且つ識
別しても良い。

【００２１】データベースコンポーネントファイルはソ
ースファイルごとに作成され、現在作業ファイルディレ
クトリに記憶される。このことは図２に示されている。
サブディレクトリSource１はソースファイル a.c 及び
b.c を含む。データベースファイル a.c.^*.bd 及び b.
c.^*.bd と、インデックスファイルIndex１とを含むサブ
ディレクトリ .sb が作成される。ディレクトリSource
２のサブディレクトリであるサブディレクトリ .sb は
データベース e.c.^*.bd 及びf.c.^*.bd と、インデック
スファイルIndex２とを含むが、これはディレクトリSou
rce ２に含まれているソースファイル e.c 及び f.c に
対応する。以下に詳細に説明するが、データベースファ
イル名の中の「^*」は、ソースファイルの内容に対応す
る一意のファイル名を与えるためにファイル名に組込ま
れるハッシュ値を表す。

【００２２】このことを図３ａ及び図３ｂに示す例によ
ってさらに説明する。図３ａは、Ｃ言語で書かれ、「pr
intf」ステートメントと、ファイル「stdio．h」をプロ
グラムに取り入れる「include」ステートメントとを含
む単純なコンピュータプログラムであるテキストファイ
ルを示す。「コレクタ」と呼ばれ、この実施例ではコン
ピュータプログラムをコンパイルするコンパイラの一部
であるデータベース生成手段は、図３ｂに示すデータベ
ースファイルを生成する。図３ｂに示されているのは、
ソースファイル「 foo．c 」を表すデータベースコンポ
ーネントファイルである連係実行可能ファイル foo．c.
Iuo Yuw．bd を表すデータベースコンポーネントファ
イルであるデータベースコンポーネントファイル foo.
２rBQsT.bd と、includeステートメントを経てプログラ
ム foo.c に取り入れられたソースファイル「stdio.h
」に関するデータベースコンポーネントファイルstdi
o．h．OyPdOs．bd である。

【００２３】各データベースコンポーネントファイルの
ファイル名は、ソースファイルのファイル名と組合され
て一意のファイル名を形成するハッシュ値を含む。ハッ
シュ値はソースファイルの内容の関数として計算され、
ソースファイルの内容が変われば、ハッシュコードも変
化する。たとえば、データベースファイル名foo .２rBQ
sT.bd の中の文字列「２rBQsT」、データベースファイ
ル名foo．c．IuoYuw ．db の中の文字列「IuoYuw」及
びデータベースファイル名stdio．h．OyPdOs．bdの中の
文字列「OyPdOs」は、生成され且つデータベースファイ
ル名に取り入れられたハッシュ値である。

【００２４】データベースコンポーネントファイル記号
参照は記号識別情報と、行識別情報とを含む。記号識別
情報は、記号名と、記号が位置しているソースファイル
中の行番号と、記号の型とを含む記号の三重項から構成
される。行識別情報は三重項のリストから構成され、各
三重項はソースファイル内部における相対行番号と、行
の長さと、行のハッシュ値とを識別する。ハッシュ値は
テキストの行の内容（たとえば、行の中のバイトの和）
から計算される。すなわち、行の内容が変更されるか又
はテキストの挿入又は削除によって行が移動した場合に
は、それに相応してハッシュ値は変化する。

【００２５】図３ａのプログラムに関連するデータベー
スコンポーネントファイルの内容の実施を図３ｃに示
す。「symbol table section（記号テーブルセクショ
ン）」４００は記号の名と、「semantic table secti
on（意味テーブルセクション）」４１０における記号の
位置とを含む。意味テーブルセクション４１０は各記号
の用途ごとに記号名と、記号が位置しているソースファ
イル中の行番号と、記号の型とを識別する三重項を含
む。「line identification section（行識別セクシ
ョン）」４２０はソースファイル中のテキストの行に対
応する行番号と、長さと、ハッシュ値の三重項を含む。

【００２６】インデックスファイルは、問い合わせの対
象である記号の発生についてデータベースコンポーネン
トファイルに対し問い合わせ、すなわち探索を行うため
の手段である。この実施例では、インデックスファイル
は使用される全ての記号のリストと、それぞれの記号が
含まれているデータベースコンポーネントファイル名と
を含む。

【００２７】ソースは１つ又は複数のテキストファイル
を含む。それらのテキストファイルは、用途に応じて、
互いに関連していても良いが、関連していなくとも差支
えない。たとえば、本又は雑誌の記事などの文書を表す
テキストから構成されるソースが考えられる。文書の表
題，序文，摘要，文献目録並びに本文といった文書の様
々に異なる部分について、別個のテキストファイルを作
成しても良い。ソースがコンピュータプログラムである
場合、ソースはそのプログラムの後続するコンパイル及
び実行に必要な全てのコードを含む単一のファイルであ
っても良い。あるいは、ソースは複数のファイルにまた
がっていても良く、そのような場合には、１つのファイ
ルは主プログラムのコードを含み、他のファイルは、主
プログラムの中で、サブルーチン呼び出し又はＣプログ
ラミング言語で利用する「＃include」ステートメント
のようなincludeステートメントの形態をとって参照さ
れるサブプログラムに関するソースコードを含んでい
る。

【００２８】コードを含むファイルがそれぞれコンパイ
ルされるときに、データベースコンポーネントファイル
（「bd. file」）に取り入れるべき情報が生成される。
データベースコンポーネントファイルの生成に先立っ
て、作成すべきデータベースコンポーネントファイルに
ついて一意の名を生成する。このデータベースコンポー
ネントファイルはテキストファイルの名と、ハッシュ値
とから得られる。ハッシュ値は、テキストファイルの内
容が変わった場合にはハッシュコードも変化し、それに
より、同じテキストファイルの様々に異なるバージョン
についてデータベースコンポーネントファイルを区別で
きるように、ファイルの内容の関数として計算される。

【００２９】場合によっては、同じテキストファイルを
複数の異なるソースに頻繁に取り入れることがある。た
とえば、コンピュータプログラムソースに関していう
と、サブプログラムを参照する宣言を含む同じテキスト
ファイルを、主プログラムのコードを含むテキストソー
スファイルに取り入れても良い。そのような場合に同じ
データベースコンポーネントファイルの重複をなくすた
めに、データベースコンポーネントファイルを生成する
前に、そのデータベースコンポーネントファイルの名を
生成し、現在存在しているデータベースコンポーネント
ファイルのリストと比較する。データベースコンポーネ
ントファイルの名が既にあれば、ソースファイルに対し
て既存のデータベースファイルを使用できるので、デー
タベースファイルは重ねて生成はされず、重複は起こら
ない。データベースファイルの重複をなくすことによっ
て、プロセッサのオーバヘッドと、データベースコンポ
ーネントファイルを記憶するために使用されるメモリが
セーブされる。

【００３０】ハッシュ値は、データベースコンポーネン
トファイルの内容からハッシュ値を取り出す数多くの方
法の中のいずれか１つによって生成されれば良い。たと
えば、データベースコンポーネントファイル名を形成す
るために使用されるハッシュ値を、ファイルに含まれて
いる全てのバイトの和に従って計算できる。

【００３１】ハッシュ値は、データベースコンポーネン
トファイルに含まれるべき様々なキー情報の和であるの
が好ましい。たとえば、データベースコンポーネントフ
ァイルに含まれるべき情報が図３ｃに示す情報である場
合、ハッシュ値は次のようにして生成されるものと考え
られる。ファイルのセクションごとに別個のハッシュ値
を計算する。それにより、ファイル名に取り入れられる
ハッシュ値はファイルのセクションごとのハッシュ値の
和となる。

【００３２】ファイルのセクションごとにハッシュ値を
生成するために、セクションから何らかの情報を選択
し、合計する。たとえば、魔法数（ＵＮＩＸ（登録商
標）ファイルの初めの２バイト又は４バイト）と、ソー
ス型ＩＤと、ファイルの大きいほうのバージョン番号及
び小さいほうのバージョン番号（たとえば、バージョン
２，１）と、行標識と、ケース標識（ケース標識は、文
字のケースが重要でない場合にセットされる）と、言語
名文字列の各文字列とを合計して、セクションのハッシ
ュ値を計算する。ソース名セクションのハッシュ値は、
相対フィールドが１の値にセットされていれば、ファイ
ル名の中のそれぞれの文字のＡＳＣII値と、相対フィー
ルドとから生成される（相対フィールドは、ファイルが
相対経路により識別されたか又は絶対経路により識別さ
れたかを指示する）。参照されるセクションのハッシュ
値は、参照されるファイルごとの各ハッシュ値の和と、
参照されるそれぞれのファイルの中の各文字のＡＳＣII
値とから生成される。記号テーブルセクションのハッシ
ュ値は、記号テーブルセクションの文字列ごとのそれぞ
れの文字のＡＳＣII値の和である。意味テーブルセクシ
ョンについては、記録ごとの記録型ＩＤと、行番号と、
意味タグとを合計して、ハッシュ値を生成する。さら
に、行ＩＤセクションの行ごとの行長さ及びハッシュ値
（行のバイトの和に従って決定される）を合計し、非活
動標識フラグがセットされている行ごとに１の値を加算
して（非活動標識はツールをデバックするために使用さ
れる）、データベースコンポーネントファイルの行ＩＤ
セクションのハッシュ値を生成する。

【００３３】このように、ハッシュ値を取り入れたファ
イル名は「［source code filename］．［hash valu
e］．bd」となるであろう。識別を容易にするために、
データベースコンポーネントファイルであるファイルを
首尾一貫して識別できるように接尾部「.bd」を使用す
るのが好ましい。

【００３４】メモリスペースをセーブし、ファイル名生
成プロセスを単純にすると共に、問い合わせ、すなわち
検索プロセスを単純にするためには、データベースコン
ポーネントファイルが常駐しているディレクトリの名を
ファイル名に取り入れないのが好ましい。各データベー
スコンポーネントファイルの名は一意性をもち且つソー
スの特定の１つのテキストファイルに関連しているの
で、これが可能なのである。従って、問い合わせ、すな
わち探索プログラムは、テキストファイル名に対応する
一意のデータベースコンポーネントファイル名が見つか
るまで、ファイルシステム内のファイルディレクトリを
探索するだけである。データベースコンポーネントファ
イルを求めて探索すべきファイルディレクトリの数をで
きる限り少なくするために、データベースコンポーネン
トファイルが位置している全てのディレクトリのリスト
を記憶する手段を設けるのが好ましい。その場合、問い
合わせプログラムはリストに挙げられているディレクト
リでのみデータベースコンポーネントファイルを探索す
る。デフオルトにより、問い合わせプログラムは現在作
業ディレクトリのみを探索するのが好ましい。その後、
探索すべきファイルシステムのディレクトリのリストを
構成するために、ブラウザにより認識された特定のファ
イルにより、作業ディレクトリを越える探索の拡張を指
示する。

【００３５】データベースコンポーネントファイルが作
成されたならば、データベースコンポーネントファイル
へのインデックスを得るために、インデックスファイル
を生成する。インデックスファイルは、問い合わせを実
行するために使用できる記号（たとえばテキスト）と、
各記号が入っているデータベースコンポーネントファイ
ルのリストとを含む。

【００３６】ある記号についてデータベースを問い合わ
せる（探索する又は検索するともいう）ときには、記号
が入っているデータベースのデータベースコンポーネン
トファイル、すなわち、ソースの対応するテキストファ
イルを確定するために、インデックスファイルを検閲す
る。記号を含んでいるデータベースコンポーネントファ
イルを検閲して、その中に記憶され、ソーステキストフ
ァイルにおける記号の位置を指示する記号情報を検索す
る。次に、問い合わせの結果がユーザーに戻される。戻
される情報は、ソーステキストファイルのリスト及び記
号が位置している行の行番号，記号が入っているファイ
ルからのテキストの行、あるいは記号が位置している行
を含めた、テキストファイルのその周辺の複数の行など
の形態をとる様々なフォーマットで現れることが可能で
ある。

【００３７】図１に示す実施例について説明を続ける
と、特定の１つの記号が問い合わせの対象であり、それ
を求めてサブディレクトリSource１を探索する場合に
は、その記号がどのデータベースコンポーネントファイ
ルに含まれているかを確定するために、インデックスフ
ァイルIndex１を検閲する。記号が a.c.^*.bd で見つか
ることをインデックスファイルが知らせると、記号名，
行番号及び記号の型と、行長さ及びハッシュ値とを含む
記号情報を検索するために、そのデータベースコンポー
ネントファイルを検閲する。データベースコンポーネン
トファイルに対応するソーステキストファイル、すなわ
ち a.cを検閲し、指定された行番号のテキストの行をユ
ーザーに対し検索する。

【００３８】データベースコンポーネントファイルとイ
ンデックスファイルが生成された後にソースファイルが
変更された場合、続いてデータベースコンポーネントフ
ァイルとインデックスファイルも更新しておかないと、
探索誤りが発生する。データベース不一致の影響を軽減
するために、行識別情報をデータベースコンポーネント
ファイルに取り入れている。行識別情報は行番号と、行
長さと、行の内容に従って生成されたハッシュ値とを含
む。ソーステキストファイルからのテキストの行の検索
に先立って、参照された行番号におけるテキストに従っ
てハッシュ値を計算し、行長さと、計算したハッシュ値
をデータベースコンポーネントファイルに記憶されてい
る行長さ及びハッシュ値とそれぞれ比較する。値が等し
ければ、テキストの正しい行を見つけだしたことにな
り、その行を問い合わせの結果としてユーザーに提供す
る。一方又は双方の値が一致しない場合には、データベ
ースファイルの生成後にソースファイルが変更されてい
るのである。そこで、データベースファイルを更新しな
ければならないことをユーザーに告げるエラーメッセー
ジを発生させても良い。また、テキストの行がソーステ
キストファイル中の別の行へ移動したような場合には、
データベースファイルに記憶されている行長さとハッシ
ュ値とをソーステキストファイルの他の行に関する行長
さ及び生成ハッシュ値と比較し、それらの間に一致を見
出すことで行を求めても良い。一致をさらに正確に発見
するためには、検索すべきテキストの行の上下にあるテ
キストの行に関する行長さと生成ハッシュ値を、データ
ベースコンポーネントファイルに記憶されているテキス
トの３つの連続する行を表す行長さ及びハッシュ値とそ
れぞれ比較するのが好ましい。すなわち、テキストの３
つの行のシーケンスの行長さとハッシュコードがデータ
ベースコンポーネントファイルに記憶されている行長さ
とハッシュ値のシーケンスと一致すれば、一致を認め、
そのテキストの行を問い合わせの結果としてユーザーに
戻すのである。

【００３９】図４ａ，図４ｂ及び図４ｃを参照して、本
発明の好ましい一実施例を説明する。本発明を２つのタ
スク又は構造（ここでは、「コレクタ」及び「ブラウ
ザ」と呼ぶ）に分割するのが好ましい。ここで示す好ま
しい実施例では、ソーステキストファイルはＣ言語で書
かれたプログラムのようなコンピュータコードの形態を
とるテキストファイルから構成される。コレクタはＣ言
語コンパイラ２２０に組込まれている。すなわち、コン
パイラ２２０はコンパイルされたコード、すなわちオブ
ジェクトコード２２５を生成すると共に、ソーステキス
トファイル２１０に対して対応するデータベースコンポ
ーネントファイル２３０を生成する。データベースコン
ポーネントファイルは、記号名と、記号が位置している
行番号と、記号の型とを含む記号識別情報のリストを記
憶している。さらに、データベースコンポーネントファ
イルは行番号と、行の長さと、それらから生成されたハ
ッシュ値とから成る行識別情報を含む。先に説明した通
り、行識別情報は、データベースファイルにより識別さ
れた行番号がテキストファイルから検索し且つ問い合わ
せに対する応答としてユーザーに提示すべき正しいテキ
ストの行であるか否かを検査するために使用される。

【００４０】問い合わせを実行すべきときにはブラウザ
２４０を使用する。ブラウザ２４０は、記号の参照リス
トと、それらの記号が入っているデータベースコンポー
ネントファイル２３０の名とを表すインデックスファイ
ル２５０を生成する。問い合わせを実行するときには、
ブラウザ２４０はインデックスファイル２５０を検閲
し、インデックスファイルで問い合わせの対象である記
号を含むものとして識別されたデータベースコンポーネ
ントファイル２３０を検閲し、データベースコンポーネ
ントファイル２３０で識別された記号を含むソーステキ
ストファイル２１０中のテキストの行を検索し、そのよ
うな情報を出力情報２５５としてユーザーに提示する。

【００４１】図４ｂは、好ましい実施例の構造を示す。
図４ｂでは、ソースファイルＡ２６０とソースファイル
Ｂ２７０という２つのテキストファイルがソースを形成
しており、ソースはコンパイラ２２０に入力されて、コ
ンパイル済コード２２５と、データベースコンポーネン
トファイルＡ２８０及びデータベースコンポーネントフ
ァイルＢ２９０から成るデータベースとを生成する。ブ
ラウザ２４０はそれらのデータベースコンポーネントフ
ァイルを利用して出力情報２５５を発生し、その出力情
報は問い合わせの結果としてユーザーに示される。尚、
インデックスファイル２５０は１つしか生成されない。
テキストファイルＡとテキストファイルＢが同一のディ
レクトリに含まれている限り、インデックスファイルは
１つあれば良い。ただし、データベースコンポーネント
ファイルがファイルシステム内の別個のディレクトリに
書込まれている場合には、別個のインデックスファイル
が生成されるであろう。

【００４２】図４ｃは、ソースにテキストファイルＣ３
００が追加された場合を示す。このファイルは、テキス
トスファイルＡ２６０及びテキストファイルＢ２７０と
共に、コンパイラ２２０によりコンパイルされて、コン
パイラコード２２５と、データベースコンポーネントフ
ァイルＡ２８０、データベースコンポーネントファイル
Ｂ２９０及びデータベースコンポーネントファイルＣ３
１０から成るデータベースとを生成する。テキストファ
イルＣ３００がテキストファイルＡ２６０及びテキスト
ファイルＢ２７０とは異なるディレクトリに入っている
場合には、ディレクトリごとに１つずつ、２つのインデ
ックスファイルが生成される。ブラウザ２４０はデータ
ベースコンポーネント２８０，２９０に関するインデッ
クスファイル１２５０と、データベースコンポーネン
トファイル３１０に関するインデックスファイル３２０
という２つのインデックスを生成する。ブラウザ２４０
はそれらのインデックスファイル２５０，３２０を利用
して、ユーザーに対して出力情報２５５として提示すべ
き問い合わせの内容に従って、ソースファイル２６０，
２７０及び３００から検索すべきテキストの行を確定す
る。

【００４３】図５ａ及び図５ｂを参照して、本発明の好
ましい実施例のプロセスを説明する。まず、図５ａにお
いて、ブロック４００で、コレクタはデータベースコン
ポーネントファイルを識別するための一意の名を生成す
る。データベースコンポーネントファイル名はソーステ
キストファイル名と、ファイルをデータベースコンポー
ネントファイルであると識別する識別接尾部（たとえば
「.bd」）を連結させたハッシュ値との組合わせであ
る。ハッシュ値はデータベースコンポーネントファイル
の内容の関数として生成され、ファイルの内容が変更す
ればハッシュ値も変わるように計算されるべきである。
ブロック４１０では、生成したデータベースコンポーネ
ントファイル名を既存のデータベースコンポーネントフ
ァイル名に対して検査する。データベースコンポーネン
トファイル名が既に存在していれば、その特定のソース
テキストファイルに関するデータベースコンポーネント
ファイルは既にあり、別途にデータベースコンポーネン
トファイルを生成する必要はないことがわかる。データ
ベースコンポーネントファイル名がなければ、一意のデ
ータベースコンポーネントファイル名により識別される
データベースコンポーネントファイルを生成する。

【００４４】図５ｂは、インデックスファイルの生成及
び問い合わせの実行を含めて、ブラウザ素子が実行する
と考えられる機能を示す。ブロック４３０では問い合わ
せを受信し、ブロック４４０で、インデックスファイル
を生成又は更新する必要があるか否かを判定するために
ファイルディレクトリを検査する。インデックスがなけ
ればスクラッチから構成される。最後にインデックスが
作成／更新された時点の後で作成されたデータベースコ
ンポーネントファイルがあれば、インデックスを更新す
る。インデックスファイルを生成又は更新する必要があ
る場合には、ブロック４５０でインデックスファイルを
生成又は更新する。ブロック４６０では、インデックス
ファイルを検閲し、問い合わせの対象である記号に関す
るデータベースコンポーネントファイルに識別情報を検
索する。次に、ブロック４７０で、この情報を使用し
て、識別された第１のデータベースコンポーネントファ
イルをアクセスする。ブロック４７５で、第１の記号参
照の行番号を識別し、ブロック４８０で、記号識別情報
及び行識別情報をデータベースコンポーネントファイル
から検索する。ブロック４９０で、ソースファイルから
対応するテキストの行を検索し、ブロック５００では、
そのテキストの行に関するハッシュ値を計算する。

【００４５】ブロック５１０で、行の長さ及び計算した
ハッシュ値を、データベースコンポーネントファイルか
ら検索した行識別情報の中の行長さ及びハッシュ値と比
較する。２つが共に等しければ、ブロック５２０で、問
い合わせの対象である記号を含むテキストの行をユーザ
ーへ出力する。行長さ又はハッシュ値が等しくない場合
には、ブロック５３０で、データベースファイルの生成
後にテキストの挿入及び／又は削除によって移動した可
能性のあるテキストの行を発見するために、ソースファ
イル全体について探索を試みる。先に説明した通り、こ
の探索は、ソースファイルの行ごとに行長さ及びハッシ
ュ値を生成し、この第１の行長さ及びハッシュ値をデー
タベースコンポーネントファイル中の行識別情報から検
索した行長さ及びハッシュ値と比較することにより実行
されても良い。検索すべき行の上のテキストの１行と、
検索すべき行の下のテキストの１行とを含め、テキスト
の３つの行についてこのプロセスを実行するのが好まし
い。すなわち、３つの連続する行に関する行長さと対応
するハッシュ値のシーケンスがデータベースコンポーネ
ントから検索した行長さとハッシュ値のシーケンスと一
致した場合に、テキストのその行を問い合わせに対する
応答としてユーザーへ出力する。

【００４６】ブロック５２５及び５２７では、問い合わ
せの対象である記号を含む次の行についてプロセスは継
続し、現在データベースコンポーネントファイル及び対
応するテキストファイルの中の全ての参照部分を検索し
終えるまでプロセスは続く。プロセスは、インデックス
ファイルにより識別された次のデータベースコンポーネ
ントファイルへブロック５３０及び５４０を経て続き、
最後のデータベースファイルが検索されて、問い合わせ
プロセスが完了するまで、ブロック４８０からブロック
５３０までを処理する。

【００４７】本発明に従って生成されるデータベースを
構成するデータベースファイルはファイルシステム内部
の１つのディレクトリに入っていても良いが、複数のデ
ィレクトリにまたがっていても良い。コレクタは、ソー
スのテキストファイルごとに、対応する１つのデータベ
ースコンポーネントファイルを作成し、デフオルトによ
り、ソーステキストファイルが入っている現在作業ディ
レクトリの１つのサブディレクトリにそのデータベース
コンポーネントファイルを導入する。データベースコン
ポーネントファイルを含むサブディレクトリは経路名
［Source Directory Udme ／.sb ］によって一意性を
もって識別されるのが好ましい。インデックスファイル
も各データベースコンポーネントファイルサブディレク
トリの中に含まれ、そのサブディレクトリに入っている
データベースコンポーネントファイルに対するインデッ
クスを与える。

【００４８】本発明のデータベースを様々に向上させる
ことによって、データベースを様々なやりかたで拡張し
たり、参照したりできるであろう。たとえば、全てのデ
ィレクトリが単一の共通データベースディレクトリを使
用するようにしても良い。この場合、ソースプログラム
は、コレクタを介して、ソースファイルディレクトリと
共通データベースコンポーネントファイルを含むディレ
クトリとの間に「記号リンク」と呼ばれる参照結合を設
けることにより処理される。このことは図６に示されて
おり、図６では、主ディレクトリProject （プロジェク
ト）は２つのサブディレクトリSource１（ソース１）及
びSource２（ソース２）を含み、ソース１はソースファ
イル a.c及び b.cを含み、ソース２はソースファイル
e.c 及び f.c を含んでいる。これに対応するデータベ
ースコンポーネントファイルは、主ディレクトリプロジ
ェクトの１つのサブディレクトリである共通ディレクト
リ .sb の中に入っており、.sb は１つのインデックス
ファイルと、データベースコンポーネントファイル a.
c.^*.bd ，b.c,^*.bd , e.c.^*.bd 及び f.c.^*.bd とを含
む。たとえば、ＵＮＩＸ（ＵＮＩＸはＡＴ＆Ｔの商標で
ある）オペレーティングシステムの場合、記号リンク
は、 In−s＜directory path name＞／.sd という指令を実行することにより成立する。

【００４９】さらに、データベースコンポーネントファ
イルを生成するときに、そのデータベースコンポーネン
トファイルを現在作業ディレクトリのサブディレクトリ
とは別のディレクトリに記憶することが望ましいことが
あるだろう。たとえば、複数のディレクトリに位置する
複数のソースファイルにより共通して参照されるデータ
ベースコンポーネントは、参照を容易にするために、単
一のディレクトリに導入されるのが望ましいであろう。
その上に、問い合わせ時には、インデックスファイル
と、現在作業ディレクトリに入っている対応するデータ
ベースコンポーネントファイルとをデフオルトにより検
閲する。現在作業ディレクトリの内と外のデータベース
コンポーネントファイルについて問い合わせを実行する
ことが望ましい場合は多い。

【００５０】好ましい実施例では .sbinitファイルと呼
ばれる、所定の識別可能名を有するファイルは、データ
ベース構造に関する情報を得るためにコレクタ及びブラ
ウザにより使用される。.sbinitファイルは「import
（インポート）」，「export （エクスポート）」及び
「split（分割）」という指令を含む。

【００５１】現在作業ディレクトリ以外のディレクトリ
にある複数のデータベースコンポーネントファイルに対
し問い合わせを実行するときには、インポート指令を使
用して、問い合わせを実行するたびに読取るべき現在作
業ディレクトリの外のデータベースコンポーネントファ
イルを含むディレクトリの経路名をブラウザに指令す
る。インポート指令は import＜path＞という形態を示し、ここで、経路は、インポートすべき
データベースコンポーネントファイルを含む .sdサブデ
ィレクトリを含んでいるファイルディレクトリに至る経
路名である。たとえば、現在作業ディレクトリが／プロ
ジェクト／ソース１であり、且つ問い合わせを実行すべ
きときにブラウザがプロジェクト／ソース２並びにプロ
ジェクト／ソース１を探索すべき場合には、インポート
指令は、 import／project／source２となるであろう。

【００５２】同様に、データベースコンポーネントファ
イルを生成するコレクタに、それらのファイルを現在作
業ディレクトリ以外のディレクトリを記憶させるため
に、「エクスポート」指令を使用しても良い。エクスポ
ート指令は、指定されたディレクトリに導入すべきデー
タベースコンポーネントファイルの元を成すソースファ
イルの経路名及びソースファイル名を識別する。これに
よって、ユーザーは、同一のファイルと関連するデータ
ベースコンポーネントファイルを単一のデータベースに
導入する一方で、個々のプロジェクトについては別個の
ディレクトリに明確に異なるデータベースを依然として
保持することにより、ディスクスペースをセーブでき
る。エクスポート指令は export＜prefix＞into＜path name＞という形態を有する。すなわち、コレクタが＜prefix＞
で始まる経路名を有するソースファイルを処理するたび
に、その結果として得られたデータベースコンポーネン
トファイルを＜path name＞／.sb に記憶するのであ
る。たとえば、／usr／includeからのソースファイルに
ついて作成されたデータベースコンポーネントファイル
をディレクトリproject／sys の .sb サブディレクトリ
に導入すべき場合のエクスポート指令は export／usr／include into／project／sys となるであろう。

【００５３】多数のデータベースコンポーネントファイ
ルを使用しての作業の場合にシステムの性能を改善する
ために、分割機能を実現しても良い。分割機能は、イン
デックスファイルのサイズが指定のバイト数を越え、デ
ータベースが大きくなりすぎて、所定の時間内に効率良
く更新を実行できなくなったことが示されるたびに、デ
ータベースコンポーネントファイルを「旧」グループ
と、「新」グループとに分割する。すなわち、データベ
ースコンポーネントファイルが更新されて、インデック
スファイルを更新する必要が生じたときに、最後にデー
タベースコンポーネントファイルが更新された時点から
後に変化したソースファイルを更新し、それらを「新」
グループのデータベースコンポーネントファイルとして
分類し、残ったデータベースコンポーネントファイルは
「旧」グループとして変化しないままである。これに相
応して、新グループのデータベースコンポーネントに索
引付けするために新たなインデックスファイルが作成さ
れるが、旧グループのデータベースコンポーネントファ
イルに対するインデックスファイルは変化しないままで
ある。インデックスファイルを構成するのに要する時間
は索引付けを必要とするデータベースファイルの数に比
例するので、新旧のグループ分けによってシステム性能
は向上する。すなわち、新旧合わせた全てのデータベー
スコンポーネントファイルについて１つの大きなインデ
ックスファイルを再構成するより、新グループのデータ
ベースコンポーネントファイルについて小さなインデッ
クスファイルを構成するほうが要する時間は短くてすむ
のである。このことを図７に示す。ソース１／.sb のイ
ンデックスファイルのサイズは所定のバイト数を越えて
いる。そこで、旧グループのデータベースコンポーネン
トファイルをサブディレクトリソース１／.sb／.sbに下
ろし、最後にコレクタプロセスが実行され且つデータベ
ースコンポーネントファイルが更新された時点より後に
変更されたソースファイルに対応するデータベースコン
ポーネントファイルから成る新グループのデータベース
コンポーネントファイルを作成する。この例では、ソー
スファイルa.c にのみ変更があった。従って、ソース１
／.sd の新グループのデータベースファイルは a.c.^*.b
d を含み、a.c.^*.bd について新たなインデックスファ
イルを作成するのである。分割指令は、 split＜size＞という形態をとる。尚、＜size＞はデータベースインデ
ックスのバイト単位のサイズである。インデックスファ
イルが＜size＞より大きいか又はそれと等しいとき、分
割機能は開始される。

【００５４】ユーザーに問い合わせの結果を示すために
提供される情報は多様な形態をとって良く、実現形態に
よって異なる。図８は、ソースファイルと、問い合わせ
のパラメータと、問い合わせに従って戻されたソースフ
ァイルからのテキストの行と、問い合わせの対象である
記号を含むテキストの行を取り囲むソースファイルの所
定数の行とに関する情報を含むユーザーインタフェース
の１例である。

【００５５】フレームヘッダ５００は現在作業ディレク
トリを指示する。制御サブウィンドゥ５１０は、現在一
致を含むソースファイルの名５４０，問い合わせパラメ
ータ５５０，一致の数（問い合わせにより指定された記
号の発生数）並びに現在表示される一致５６０，現在一
致に関する識別子，すなわち文字列定数５７０及び表示
されるテキストの行番号５８０などの現在問い合わせ情
報を表示する。制御サブウィンドゥ５１０はブラウザを
操作するために必要な制御要素をされに含む。たとえ
ば、ユーザーは、サブウィンドゥで利用できるボタンに
よって問い合わせを発行する，一致間を移動する，問い
合わせ間を移動する，一致及び問い合わせを削除する，
問い合わせを厳正にする又は狭めるなどの動作を行うこ
とができる。

【００５６】一致サブウィンドゥ５２０は、現在問い合
わせにより見出された全ての一致を表示する。一致ごと
に提供される情報は、一致が現れたファイルの名５９０
と，一致が現れたファイル中の行の行番号６００と，一
致が現れた機能（適用可能であれば）６１０と，一致を
含むテキストの行６２０とを含む。

【００５７】ソースサブウィンドゥ５３０はソースファ
イルの、現在一致を含む一部分を表示する。一致は黒色
の矢印６３０などのマーカーによって識別される。ソー
スサブウィンドゥ５３０は、現在問い合わせ中又はその
他の問い合わせ中に見出された他の一致を識別するため
に、灰色の矢印６４０の形態をとるマーカーを任意に含
んでいても良い。

【００５８】このように、ユーザーは、図８に示すもの
のようなユーザーインタフェースを利用して、本発明の
システムを採用する問い合わせの発行，問い合わせの変
更，探索するデータベースの変更並びに問い合わせの結
果の検閲などの様々なタスクを実行することができる。
当業者には明白であろうが、実現形態ごとに、ユーザー
の問い合わせをさらに厳正するためにユーザーが利用で
きる機能又はツールを追加したり、実行した問い合わせ
の結果を示すためにユーザーに提示される情報の内容及
び情報の編成を変更したりできるように、ユーザーイン
タフェースを適合させることは可能である

【００５９】本発明のシステムは融通性に富んでいるた
め、複数のコレクタと、複数のブラウザとが多数のデー
タベースファイルについて同時に動作しているような多
重タスク処理が可能である。動作の対象であるデータベ
ースファイルは、複数のコレクタ又はブラウザによりア
クセスされる複製ファイルを含んでいても良い。多重タ
スク処理環境で起こる問題は競合条件が存在しているこ
とである。この問題は、２つのプロセス又は装置が１つ
のソースファイル又はそれに対応する１つのデータベー
スコンポーネントファイルを同時にアクセスするときに
起こり、その結果、正しくないデータがデータベースコ
ンポーネントファイルに書込まれ且つ／又は正しくない
データがデータベースコンポーネントファイルから読取
られてしまう。競合条件の１例を図９を参照しながら説
明する。主ディレクトリプロジェクトはソースファイル
a.c , b.c 及び i.h を含む。ソースファイル a.c 及
びb.c は、ファイル i.h を含むステートメントを含ん
でいる。すなわち、２つのコンパイラがファイル a.c
及び b.c をコンパイルし始めた場合、i.h がソースフ
ァイル a.c 及び b.c に含まれているために、双方のコ
ンパイラは i.h に関するデータベースコンポーネント
ファイルを生成しようとする。その結果、２つのコンパ
イラは同時に i.h.^*.bd を作成しようとするので、双方
が同じファイルに同時に書き込んでいることになり、正
しくないデータが発生してしまう。さらに、２つの問い
合わせを平行して実行したときに、データベース a.c
及び b.cに関するインデックスが生成されていなかった
場合には、それぞれの問い合わせメカニズムはインデッ
クスを構成するためのプロセスを開始する。従って、２
つのプロセスが同一のインデックスファイルに同時に書
込む結果となるため、インデックスファイルは正しくな
いデータを含むようになる。

【００６０】上記の問題を防止するために、ロッキング
メカニズムを使用して２つ以上のプロセスが一度に１つ
のファイルをアクセスするのを阻止するようなプロセス
を利用する。ここでは「新ルート」と呼ぶ、所定の名に
よって参照されるサブディレクトリを作成し、２つ以上
のコレクタ又はブラウザが１つのデータベースコンポー
ネントファイルと同時に対話するのを阻止するために、
これをロッキングメカニズムの一部として使用する。特
殊な名を与えられたサブディレクトリと関連して、ロッ
キングメカニズムは原子動作を使用して採用されるの
で、動作が滞れば、プロセスステップも滞り、プロセス
は（アプリケーションに応じて）待機状態又は誤り状態
に入る。その上、このサブディレクトリの使用によっ
て、データベースコンポーネントファイルの最近の変更
に従うためにインデックスファイルが更新を要求する時
点を確定する手段が得られる。

【００６１】図１０に関して説明すると、ブロック７０
０で、コレクタは、データベースコンポーネントファイ
ルを生成するに先立って、ハッシュ値を生成し、それを
ソースファイル名と組合わせ、そのデータベースコンポ
ーネントファイル名が既に存在しているか否か、すなわ
ち、新たなデータベースコンポーネントファイルを生成
する必要があるか否かを検査する。ブロック７１０で
は、生成されたハッシュ値及びそのハッシュ値を使用し
て生成されたデータベースコンポーネントファイル名を
既存のデータベースファイル名と比較する。ファイル名
があれば、データベースは既に存在しているので、新た
なデータベースを生成する必要はない。ファイル名がな
い場合には、ブロック７２０で、ここでは「新ルート」
と呼ぶサブディレクトリを作成する。次に、ブロック７
３０では、データベースファイルを生成し、新ルートデ
ィレクトリに導入する。データベースコンポーネントフ
ァイルの作成中、ファイルは一時ファイル名により識別
される。一時ファイル名は、ファイルが開かれた時点
と、コレクタが動作を実行している機械の機械１Ｄと、
プロセス１Ｄとを連結したものであるのが好ましい。す
なわち、一時ファイル名は［time］［machine ID］［p
rocess ID］．IPとなるであろう。

【００６２】データベースコンポーネントファイルの生
成が完了した後、ブロック７３１で、ファイルを一時フ
ァイル名からデータベースコンポーネントファイル名に
付け替える。ブロック７３２において、同一のデータベ
ースコンポーネントファイル名をもつファイルが存在し
ているために改名動作が不成功である場合には、システ
ムは、重復してファイルを生成する必要がないことを認
識し、ブロック７３４で、一時ファイル名により識別さ
れるファイルを削除する。時々、１つのコンパイラプロ
セスがデータベースコンポーネントファイルを生成して
いる間に、ブラウザプロセスも動作中であり、インデッ
クスファイルを生成又は更新する必要があると判定する
ことがある。たとえば、このような事態は、インデック
スファイルが生成されるときに、第１のデータベースコ
ンポーネントファイルは既に生成されているが、第２の
データベースコンポーネントファイルは生成途中である
ような場合に起こると思われる。以下に詳細に説明する
通り、インデックスファイル生成プロセスにおけるステ
ップの１つは、新ルートディレクトリを「ロック済」デ
ィレクトリと改名し、ロック済ディレクトリに含まれて
いる全てのファイルをここでは「旧ルート」と呼ぶ別の
ディレクトリに移すステップである。すなわち、データ
ベースコンポーネントファイルを新たな根の中の一時名
から同様に新ルートにあるデータベースコンポーネント
ファイル名に改名するためのファイル改名動作は、その
一時ファイル名をもつファイルが新ルートの中に存在し
ていなければ失敗してしまう。ブロック７３６で、ファ
イルが見つからないために改名動作が失敗した場合に
は、ブロック７３８で、一時ファイル名により識別され
るデータベースコンポーネントファイルをロック済ディ
レクトリから新ルートディレクトリへ移動させると共
に、一時ファイル名からデータベースコンポーネントフ
ァイル名に改名する。

【００６３】図１１に関して説明すると、ブロック７４
０でインデックスファイルを生成すべき場合（好ましい
実施例では、これは探索、すなわち問い合わせが開始さ
れたときに実行される）、新ルートとして識別されるサ
ブディレクトリが存在するか否かを判定するためにサブ
ディレクトリを検査する（ブロック７５０）。新ルート
と名付けられるディレクトリがあるときには、それに含
まれているデータベースコンポーネントファイルについ
てインデックスファイルを更新しなければならない。ブ
ロック７６０では、新ルートディレクトリを第２の所定
のサブディレクトリ名、すなわち「ロック済み」に改名
する。以下の説明から明らかになるであろうが、これ
は、インデックスファイルの生成が完了する時点まで、
ディレクトリに含まれているデータベースファイルのア
クセス及び利用を防止するものである。ブロック７６５
で、ロック済ディレクトリが既に存在するために改名動
作が失敗したならば、インデックス構成は進行中であ
り、現在プロセスはインデックス構成が完了するまで待
機しなければならないことがわかる。従って、ブロック
７６７では、現在プロセスは所定に時間（たとえば１０
秒）だけ自らを「スリープ」（すなわち、一時停止）さ
せる。この時間が終了すると、プロセスはブロック７５
０に戻り、新ルートディレクトリがまだ存在しているか
否かを検査する。このプロセスは、ロック済ディレクト
リがなくなるまで続く。ブロック７６０で、「新ルー
ト」から「ロック済」への改名動作が実行されたなら
ば、ブロック７７０で、「ロック済」ディレクトリから
第３の所定の名、この実施例では「旧ルート」という名
をもつサブディレクトリへデータベースコンポーネント
ファイルを移動させ、インデックスファイルを生成す
る。ブロック７７５で、存在している全てのＩＰをロッ
ク済ディレクトリから既に存在している又はプロセスに
より作成された新ルートディレクトリへ送り出す。

【００６４】ファイルを転送し且つインデックスファイ
ルを生成したならば、動作は完了する。データベースフ
ァイルをアクセスしようとしている他のプロセスに動作
が完了したことを指示するために、ブロック７８０で
は、ロック済ディレクトリをファイルシステムから除去
する。すなわち、後続するプロセスが新ルートディレク
トリを求めて探索を実行した場合、ディレクトリの存在
を見い出せないので、インデックスファイルは最新のも
のであり、新たなインデックスファイルを生成する必要
はないことがわかる。

【００６５】問い合わせが始まり、新たなインデックス
ファイルの生成中にブラウザがデータベースコンポーネ
ントファイルをアクセスしようとしたとき、インデック
スファイルは存在していないので、ブラウザはその動作
を阻止され、新ルートディレクトリの探索は（既に「ロ
ック済」と改名されてしまっているために）失敗に終わ
る。すなわち、原子動作であるディレクトリ改名動作は
失敗し、プロセスは動作を実行できるようになるまで待
機状態のままである（すなわち、「自己スリープさせ
る」）か、又は誤り状態又はアクセス待機などの所定の
状態に分岐する。ブラウザプロセスは所定に時間、たと
えば１０秒間だけ待機状態となり、インデックスファイ
ル生成プロセスが完了したか否かを検査し、さらにその
時間だけ待機状態を続けるのが好ましい。このプロセス
は、インデックスファイル生成プロセスが完了して、改
名動作が実行可能となるまで継続する。

【００６６】さらに、インデックス構成プロセスの間に
新ルートディレクトリが作成され、別の問い合わせが発
行された場合には、第２の問い合わせも待機状態とされ
て、ロック済ディレクトリが除去されるまでインデック
ス構成を一時中止するのである。

【００６７】以上、本発明を好ましい実施例に関連して
説明したが、以上の説明に照らして当業者に数多くの代
替構成，変形，変更及び用途が明らかになるであろうと
いうことは自明である。

【図面の簡単な説明】

【図１】本発明で採用するコンピュータの１例を示すブ
ロック線図である。

【図２】本発明に従って生成されるデータベースコンポ
ーネントファイルを示す図である。

【図３】ソースファイルと、本発明の好ましい一実施例
に従ってソースファイルから生成されたデータベースコ
ンポーネントファイルと、データベースコンポーネント
ファイルの内容とを示す図である。

【図４】本発明の好ましい一実施例の構造を示す図であ
る。

【図５】本発明の好ましい実施例のプロセスのフローチ
ャートである。

【図６】共通するデータベースコンポーネントファイル
をシステム内の１つ又は複数のディレクトリに結合する
記号リンクを示す図である。

【図７】大きなデータベースコンポーネントファイルに
ついて問い合わせの実行速度を増すために、分割機能を
いかに実現するかを示す図である。

【図８】本発明のシステムに対するユーザーインタフェ
ースを示す図である。

【図９】多重タスク処理環境で起こりうる競合条件を示
す図である

【図１０】データベースコンポーネントファイルを作成
するプロセスを示すフローチャートである。

【図１１】本発明の好ましい実施例に従って問い合わせ
を発行し且つインデックスファイルを構成するプロセス
を示すフローチャートである。

【符号の説明】

２１０ソースファイル２２０コンパイラ２２５コンパイル済コイル２３０データコンポーネントファイル２４０ブラウザ２５０インデックスファイル２５５出力情報２６０ソースファイルＡ２７０ソースファイルＢ２８０データベースコンポーネントファイルＡ２９０データベースコンポーネントファイルＢ３００ソースファイルＣ３１０データベースコンポーネントファイルＣ３２０インデックスファイル

フロントページの続き (72)発明者ソーレン・ジェイ・ティアフィングアメリカ合衆国・94303 カリフォルニア州・パロアルト・ミドルフィールドロード・3895 (56)参考文献特開平１−134624（ＪＰ，Ａ) 特開昭60−191342（ＪＰ，Ａ) 特開昭63−255734（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】ＣＰＵと、入出力手段と、テキストが含
まれるソースファイルを少なくとも１つ含むファイルシ
ステムを記憶するメモリとを具備するコンピュータシス
テムにおいて、ソースファイルから導出される少なくと
も１つのデータベースコンポーネントファイルから構成
されるデータベースを、ファイルシステム内に生成する
にあたり、少なくとも１つのデータベースコンポーネン
トファイルを、ソースファイル毎に、そのソースファイ
ルのコピーがファイルシステム内において幾つ生じてい
るかその数には関係なく生成し、ファイルシステム内に
データベースを生成する装置であって、データベースコンポーネントファイルについて、その名
を、ソースファイル名と、ソースファイルの内容に従っ
て計算されるハッシュ値とを組み合わせて生成し、ソー
スファイルの内容が変化すればハッシュ値も変化して、
異なるデータベースコンポーネントファイル名が生成さ
れるようした、データベースコンポーネントファイルの
重複しない名を生成する手段と、生成したデータベースコンポーネントファイルと同一名
であるデータベースコンポーネントファイルを求めてフ
ァイルシステムを探索する手段と、生成したデータベースコンポーネントファイルと同一名
であるデータベースコンポーネントファイルがファイル
システム内に存在していなければ、当該ソースファイル
について、記号と、その記号が発生するソースファイル
中の行の行番号とのリストを含むデータベースコンポー
ネントファイルを生成する生成手段にして、生成したデ
ータベースコンポーネントファイルと同一名のデータベ
ースコンポーネントファイルが存在していれば、データ
ベースコンポーネントファイルを生成せず、データベー
スコンポーネントファイルの重複及び重複するファイル
を書込むためにコンピュータシステムの利用を回避させ
る、生成手段とを備える、データベースを生成する装
置。
【請求項２】ＣＰＵと、入出力手段と、テキストが含
まれるソースファイルを少なくとも１つ含むファイルシ
ステムを記憶するメモリとを具備するコンピュータシス
テムにおいて、ソースファイルから導出される少なくと
も１つのデータベースコンポーネントファイルから構成
されるデータベースを、ファイルシステム内に生成する
にあたり、少なくとも１つのデータベースコンポーネン
トファイルを、ソースファイル毎に、そのソースファイ
ルのコピーがファイルシステム内において幾つ生じてい
るかその数には関係なく生成し、ファイルシステム内に
データベースを生成する方法であって、データベースコンポーネントファイルについて、その名
を、ソースファイル名と、ソースファイルの内容に従っ
て計算されるハッシュ値とを組み合わせて生成し、ソー
スファイルの内容が変化すればハッシュ値も変化して、
異なるデータベースコンポーネントファイル名が生成さ
れるようした、データベースコンポーネントファイルの
重複しない名を生成する過程と、生成したデータベースコンポーネントファイルと同一名
であるデータベースコンポーネントファイルを求めてフ
ァイルシステムを探索する過程と、生成したデータベースコンポーネントファイルと同一名
であるデータベースコンポーネントファイルがファイル
システム内に存在していなければ、当該ソースファイル
について、記号と、その記号が発生するソースファイル
中の行の行番号とのリストを含むデータベースコンポー
ネントファイルを生成し、生成したデータベースコンポ
ーネントファイルと同一名のデータベースコンポーネン
トファイルが存在していれば、データベースコンポーネ
ントファイルを生成せず、データベースコンポーネント
ファイルの重複及び重複するファイルを書込むためにコ
ンピュータシステムの利用を回避させる、過程とを備え
る、データベースを生成する方法。