JPH0816600A

JPH0816600A - 構造化文書検索方法

Info

Publication number: JPH0816600A
Application number: JP6147399A
Authority: JP
Inventors: Katsumi Tada; 勝己多田; Atsushi Hatakeyama; 敦畠山; Hisamitsu Kawaguchi; 川口　　久光; Natsuko Mizutani; 奈津子水谷; Kanji Kato; 寛次加藤; Satoshi Asakawa; 悟志浅川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-06-29
Filing date: 1994-06-29
Publication date: 1996-01-19
Anticipated expiration: 2019-08-18
Also published as: JP3555181B2

Abstract

(57)【要約】【目的】検索対象に指定されていない論理構造に含ま
れるテキストを読み飛ばし照合処理の対象から外すこと
により、実用上許容しうる十分な検索時間で検索結果が
得られる高速な構造化文書検索方法を提供する。【構成】文書のテキストに加えて、文書を構成する論
理構造ごとの開始位置に構造識別子及びその論理構造長
を付加した検索用データベースを検索して行く。前方マ
ーカ判定ステップ４０では、構造識別子を検出するとそ
れが検索対象に指定された論理構造を示す識別子か否か
判定する。ＹＥＳの場合は文字列照合ステップ５０に移
り、論理構造長分だけ検索を行ってテキストの文字列中
に検索タームがあるか照合する。ＮＯの場合は照合処理
スキップステップ６０に移り、論理構造長分だけ検索を
スキップして前方マーカ判定ステップ４０にもどる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】SGML(Standard Generalized Mark
up Language)形式で記述された文書などのように、１件
の文書が複数の論理構造で構成される構造化文書に対
し、目的とする論理構造だけを対象とした検索を行う構
造化文書検索方法と、そのシステムに関する。

【０００２】

【従来の技術】近年、情報化社会の本格的な進展に伴
い、ワードプロセッサやパーソナルコンピュータ、ワー
クステーションなどが急速に拡大、普及してきている。
これに伴い、作成される電子化文書情報も急速に増加し
てきている。このような状況下で、大量の文書情報の中
から目的とする文書を探し出す手法の一つとして、文字
列データからなる文書群の中から検索者が指定したある
特定の文字列（以下、検索タームと呼ぶ）を含む全ての
文書を探し出すことが一つの重要な処理となっている。

【０００３】その中でも、最近SGML(Standard Generali
zed Markup Language)などのように１件の文書が複数の
論理構造で構成される文書（以下、構造化文書と呼ぶ）
が用いられるようになるにつれ、目的とする論理構造を
指定した検索（以下、構造指定検索と呼ぶ）を行うこと
が、精度の高い検索を実現する上で重要な機能として挙
げられてきている。

【０００４】このような構造指定検索を実現する方法の
一例が、「SGMLと全文データベース」(情報の科学と技術,
43巻12号,1993,pp1097〜1103)に述べられている。以
下、本従来方法について例を挙げて説明する。

【０００５】まず始めに、構造化文書における論理構造
の識別方法について簡単に説明する。

【０００６】構造化文書では、文書の論理構造を識別す
るために各論理構造の先頭および末尾に特定の文字列
（以下、前方マーカおよび後方マーカと呼ぶ）が書き込
まれる。例えばSGML文書では、前方マーカおよび後方マ
ーカはそれぞれ開始タグおよび終了タグと呼ばれ、開始
タグは“<"＋識別文字列＋">”で、また終了タグは“<
/"＋識別文字列＋">”で表される。以後、本識別文字列
を論理構造識別子と呼ぶ。論理構造識別子は該当する論
理構造に何が記述されているのかを識別するためのもの
であり、通常は記述内容の名称の省略記号で表わされ
る。例えば、電子出願特許明細書テキストにおいて要約
の論理構造を示す開始タグは"<SDO ABJ>"で、終了タグ
は"</SDO>"で表されている（SDOは SubDOcumentの、ABJ
は ABstractJapanの省略記号である)。

【０００７】次に、本従来方法における構造指定検索の
実現方法について図２に例を挙げて説明する。

【０００８】この例では、SGML形式で記述された電子出
願特許明細書テキストにおいて、要約という論理構造中
に“音声認識”という文字列を含む文書を検索する場合
を想定している。

【０００９】先に述べたように、電子出願特許明細書テ
キストにおいて要約の論理構造に対応する開始タグは"<
SDO ABJ>"で、終了タグは"</SDO>"で表されるため、検
索条件は「文字列"<SDO ABJ>"と文字列"</SDO>"で囲ま
れる範囲に“音声認識”という文字列を含む文書を検索
する」という条件と同じになる。すなわち指定された条
件の検索は、"*"を可変長の不定文字(don't care文字)
とすると電子出願特許明細書テキスト全文中に検索ター
ム"<SDO ABJ>*音声認識*</SDO>"が含まれる文書を検索
するという処理を行うことにより実現される。

【００１０】

【発明が解決しようとする課題】従来の方法で、電子出
願特許明細書テキスト１０万件(約100日分、容量:約1,
400MB)に対し、要約という論理構造中に“音声認識”と
いう文字列が含まれる明細書を検索する時の検索時間を
推定すると以下のようになる。

【００１１】文書の内容を全部読んで検索するフルテキ
ストサーチ方式としては、「ワークステーション内蔵型
フルテキストデータベースプロセッサＳＤＰ」（情報処
理学会研究報告，Ｖｏｌ.９１，Ｎｏ.８６，計算機アー
キテクチャ９０−８，１９９１.１０.７）が発表されて
いる。このフルテキストサーチシステムではメモリ上に
格納したテキストに対し文字列照合専用のハードウェア
を用いて10MB/秒の検索速度が実現されている。これを
もとに、テキストをメモリ上に格納した際の検索速度を
10MB/秒と仮定すると、検索に要する時間としては、 1,400MB ÷ 10MB/秒＝ 140秒＝ 2分20秒掛かることになる。しかし、電子出願特許明細書テキス
ト１０万件(容量：約1,400MB)の内、要約という論理構
造に対応するテキストは約50MBのため、要約の論理構造
だけを照合処理の対象とした場合の検索時間は 50MB ÷ 10MB/秒＝ 5秒となる。

【００１２】つまり、従来の方法では電子出願特許明細
書テキスト１０万件全文(約1,400MB)に対して照合処理
を行う必要があるため、要約の論理構造(約50MB)だけに
対して照合処理を行う場合に比べ、検索時間が5秒から1
40秒へと約30倍長く掛かってしまうことになる。

【００１３】すなわち、本発明が解決しようとする課題
は、実用規模の構造化文書データベースを対象とした場
合でも、実用上許容しうる十分な検索時間で検索結果が
得られる高速な構造化文書検索方法を提供することにあ
る。

【００１４】

【課題を解決するための手段】上記課題は、以下のステ
ップから構成される構造化文書検索方法により解決され
る。

【００１５】すなわち本発明による構造化文書検索方法
は、 (1) 文書の登録時に、論理構造の始まりを表わす前方マ
ーカを検出する前方マーカ検出ステップと (2) 前方マーカ検出ステップにおいて検出された前方マ
ーカに対応する後方マーカまでのテキスト長（以後、論
理構造長と呼ぶ）を算出する論理構造長算出ステップと (3) 上記前方マーカに、上記論理構造長を付加して検索
用データベースを作成する検索用データベース作成ステ
ップと (4) 文書の検索時に、照合対象とするテキスト中から前
方マーカを検出するとともに検索対象に指定した論理構
造に該当する前方マーカであるか否かを判定する前方マ
ーカ判定ステップと (5) 上記前方マーカ判定ステップにおいて前方マーカ
が、検索対象に指定された論理構造に該当する前方マー
カであると判定された場合には、該当する論理構造に含
まれるテキストに対し指定された検索タームとの文字列
照合処理を行う文字列照合ステップと、 (6) 上記前方マーカ判定ステップにおいて前方マーカ
が、検索対象に指定された論理構造に該当する前方マー
カでないと判定された場合には、該当する論理構造長を
参照して、この論理構造長だけテキストをスキップし文
字列照合処理の対象から外す照合処理スキップステップ
により構成する。

【００１６】

【作用】本発明によると、文字列照合処理の対象を検索
対象に指定した論理構造中のテキストに限定することが
できるため、全文に対して照合処理を行う従来方法に比
べ検索時間を大幅に削減することが可能になる。

【００１７】すなわち、本発明による構造指定検索方法
では、まず前方マーカ検出ステップと論理構造長算出ス
テップにおいて、登録文書に対し各論理構造の前方マー
カを検出するとともに各論理構造の論理構造長を算出す
る。そして、検索用データベース作成ステップにおいて
各論理構造の前方マーカの後に該当する論理構造の論理
構造長を付加して検索用データベースを作成する。すな
わち図２に示す例では、要約の前方マーカである“<SDO
ABJ>”の後に要約の論理構造長を付加して検索用デー
タベースを作成する。

【００１８】次に、検索時には検索用データベースから
検索対象文書を読み出し、この中に含まれるテキストに
対し文字列照合処理を行う。この時、まず前方マーカ判
定ステップで各論理構造の前方マーカを検出し、検出さ
れた前方マーカが検索対象に指定された論理構造に対応
する前方マーカであるか否かを判定する。そして、前方
マーカ判定ステップにおける判定の結果、検索対象に指
定された論理構造であると判定された場合には文字列照
合ステップを実行する。すなわち、前方マーカの後に格
納されている論理構造長を読み込むとともにその後に続
く論理構造長分のテキストに対し文字列照合処理を行
う。また、前方マーカ判定ステップにおける判定の結
果、検索対象に指定された論理構造ではないと判定され
た場合には照合処理スキップステップを実行する。すな
わち、前方マーカの後に格納されている論理構造長を読
み込み論理構造長だけその後に続くテキストをスキップ
することにより、該当する論理構造中のテキストを文字
列照合処理の対象から外す。

【００１９】このようにして、本発明による構造指定検
索方法では検索対象に指定されない論理構造中のテキス
トを照合処理の対象から外すことにより、文字列照合処
理の対象を指定された論理構造中のテキストのみに削減
できるため、検索に要する時間を大幅に削減することが
可能となる。

【００２０】例えば、従来の方法では電子出願特許明細
書テキスト１０万件(約100日分、容量:約1,400MB)に対
し文字列照合処理を行うため検索に140秒(1,400MB÷10M
B/秒)の時間を要していたものを、本発明では要約に対
応するテキスト(約50MB)に対して文字列照合処理を行う
だけで済むため、検索に要する時間を5秒(50MB÷10MB/
秒)に削減することが可能になる。

【００２１】

【実施例】本発明の構造指定検索方法を用いた第一の実
施例について、技術報告書を検索対象としたときを例に
説明する。

【００２２】まず始めに、本発明の構造指定検索方法を
実現する検索システムの構成を図１を用いて説明する。
本検索システムは、ディスプレイ１、キーボード２、中
央制御装置ＣＰＵ３、フロッピーディスクドライバ４、
フロッピーディスク５、主メモリ６および磁気ディスク
装置７で構成され、磁気ディスク装置７には検索用デー
タベース格納領域８が確保されている。また、主メモリ
６には前方マーカ検出プログラム１０、論理構造長算出
プログラム２０、検索用データベース作成プログラム３
０、前方マーカ検出プログラム４０、文字列照合プログ
ラム５０、照合処理スキッププログラム６０、登録制御
プログラム７０および検索制御プログラム８０が格納さ
れるとともにデータエリア９０が確保されている。な
お、本実施例において検索用データベース格納領域８を
磁気ディスク装置７上に確保したが、光磁気ディスク装
置など他の二次記憶装置であっても構わない。

【００２３】以上が本検索システムの構成である。

【００２４】次に、実施例で検索の対象とする構造化文
書の論理構造について図３を用いて説明する。

【００２５】本実施例で検索対象とする技術報告書は表
題、作成日、著者名、緒言、章題、章本文および結言で
構成されるものとする。そして、各論理構造はそれぞれ
開始タグおよび終了タグによって分割されているものと
する。すなわち、例えば表題という論理構造は開始タグ
“<表題>”および終了タグ“</表題>”で囲まれてい
る。

【００２６】さらに、本実施例に示す構造指定検索方法
の文書登録時の処理と検索時の処理についてそれぞれ図
４および図６を用いて説明する。

【００２７】まず、文書登録時の処理を図４に示したプ
ログラムの処理フローにしたがって図３に示した例を用
いて詳細に説明する。

【００２８】始めに、キーボード２から入力されるコマ
ンドにより登録制御プログラム７０を起動する。そし
て、フロッピーディスクドライバ４に挿入されたフロッ
ピーディスクから登録文書を読み込み、データエリア９
０に格納する。そして、前方マーカ検出ステップ１０で
各論理構造の始まりを表わす開始タグを検出するととも
に、論理構造識別子をデータエリア９０に格納する。こ
こで、開始タグの検出は開始タグまたは終了タグの先頭
を表わす“<”に続く１文字が“/”以外であるか否かに
よって判定される。例えば図３に示す例では、表題とい
う論理構造の開始タグである“<表題>”を検出するとと
も“表題”という文字列を論理構造識別子として格納す
る。

【００２９】次に、論理構造長算出ステップ２０では前
方マーカ検出ステップ１０で検出した前方マーカに対応
する論理構造の論理構造長を算出する。この例では、表
題に対応するテキストは“画像認識システムの技術動
向”で、13文字すなわち26Byte(1文字を2バイトの文字
コードで表す)であるため、表題という論理構造に対応
する論理構造長は26と算出される。

【００３０】そして、前方マーカ検出ステップ１０およ
び論理構造長算出ステップ２０を登録文書の末尾まで繰
り返した後、検索用データベース作成ステップ３０で各
論理構造の開始タグの後に先に算出した各論理構造の論
理構造長を付加するとともに、文書の先頭を表す特定の
制御コードｔｏｔ(top of text)、登録文書に対応する
文書の識別番号（以後、文書ＩＤと呼ぶ）、文書の終了
を表す特定の制御コードｅｏｔ(end of text)を書き込
み込み検索用データベースを作成する。そして、全文書
の登録が終了するまで以上の処理を繰り返した後、検索
用データベースの末尾を表わす特定のコード(end of fi
le)を書き込み検索用データベースを作成するととも
に、これを検索用データベース格納領域８に格納する。
すなわち、図３に示した例では、表題という論理構造に
対しては開始タグである“<表題>”の後に表題の論理構
造長である26を固定長のバイナリデータとして書き込み
検索用データベースを作成する。

【００３１】以上の処理によって作成した検索用データ
ベースの例を図５に示す。

【００３２】以上が登録時処理の具体的内容である。

【００３３】次に、本発明の構造指定検索方法を用いた
第一の実施例における文書検索時の処理フローを図６に
示す。以下、図５に示した検索用データベースに対し、
緒言の中に“ワークステーション”という文字列を含む
文書を検索する場合について具体的に例を挙げて説明す
る。

【００３４】始めに、検索条件を入力する前に予めキー
ボード２から入力されるコマンドにより検索制御プログ
ラム８０を起動し、磁気ディスク内７の検索用データベ
ース格納領域８に格納された検索用データベースを主メ
モリ６上のデータエリア９０に読み込む。そして、検索
条件が入力されるとデータエリア９０に読み込まれた検
索用データベースからｔｏｔを検出するとともにｔｏｔ
に続くバイナリデータを文書ＩＤとして保持する。すな
わち、図５に示す例では文書ＩＤとして1857が保持され
ることになる。

【００３５】次に、ｅｏｔ１１０が現れるまで前方マー
カ判定ステップ４０を実行する。すなわち、ここで、開
始タグの検出は開始タグまたは終了タグの先頭を表わす
“<”に続く１文字が“/”以外であるか否かを判定する
ことによって論理構造の開始タグを検出し、開始タグの
末尾を表わす“>”まで文字列を論理構造識別子として
取り込むとともに、開始タグの後に現れるバイナリデー
タを論理構造長としてデータエリア９０に保持する。す
なわち、図５に示した例では表題の開始タグである“<
表題>”中から“表題”の文字列が読み込まれるととも
に論理構造長として26が読み込まれることになる。そし
て、先ほど取り込んだ論理構造識別子が検索対象に指定
した論理構造の論理構造識別子であるか否かを判定す
る。検索対象に指定した論理構造に対応した論理構造識
別子を求める方法として本実施例では図７に示す対応表
を用いている。この方法では、検索用データベースを作
成する際に、SGML文書におけるDTD(Document Type Defi
nition)などの構造化文書の型定義文をもとに、登録制
御プログラム７０で論理構造名と各論理構造に固有の番
号（以後、論理構造識別番号と呼ぶ）および論理構造識
別子の間の対応表をあらかじめ作成する。そして検索時
には、この対応表をもとに検索者が指定した論理構造に
対応する論理構造識別子を求める。すなわち、図７に示
す対応表中の論理構造名と目的とする論理構造名を比較
し、一致した時の論理構造識別番号に該当する論理構造
識別子を目的とする論理構造識別子として用いる。ま
た、検索対象とする論理構造識別子を指定する方法とし
て、目的とする論理構造の論理構造識別子を検索者が入
力する方法であっても構わない。

【００３６】前方マーカー判定ステップ４０における判
定の結果、検索対象に指定した論理構造である場合に
は、文字列照合ステップ５０を実行する。すなわち、先
ほど読み込んだ論理構造長分のテキストに対して照合処
理を行う。また判定の結果、検索対象に指定した論理構
造でない場合には、照合処理スキップステップを実行す
る。すなわち、先ほど読み込んだ論理構造長分のテキス
トをスキップし、文字列照合処理の対象から外す。例え
ば図５に示した例では、検索対象に指定された論理構造
の論理構造識別子は“緒言”なのに対し、取り込まれた
論理構造識別子は“表題”であり検索対象に指定された
論理構造ではないため、該当する論理構造長すなわち26
Byte分のテキスト“画像認識システムの技術動向”を読
み飛ばし照合処理の対象から外す。続いて読み込まれる
作成日および著者名に含まれるテキストも同様に照合処
理の対象から外される。次に、論理構造識別子として"
緒言"が読み込まれるが、これは検索対象とする論理構
造の識別子であるため緒言の論理構造長である636Byte
分のテキストに対して照合処理を開始する。最後に検索
タームがヒットしたか否かを判定し、検索タームがヒッ
トした場合には該当する文書の文書ＩＤを照合結果とし
てデータエリア９０に出力する。

【００３７】そして、以上の処理を検索用データベース
の終了を表わすｅｏｆが現われるまで繰り返す。

【００３８】以上が、文書検索時処理の具体的内容であ
る。

【００３９】以上のように本発明の第一の実施例では、
文書登録時に各論理構造の前方マーカの後にその論理構
造のテキスト長を書き込み検索用データベースを作成
し、検索時には検索対象に指定されていない論理構造に
ついては、その論理構造長分だけテキストを読み飛ばし
文字列照合処理の対象から外し、無駄な照合処理を省く
ことにより構造指定検索を高速に実現することが可能に
なる。

【００４０】なお、本実施例では検索用データベースは
検索条件を入力する前に予め磁気ディスク７上の検索用
データベース格納領域８から主メモリ６上のデータエリ
ア９０に読み込む場合について説明したが、検索条件が
入力される度毎に磁気ディスク７から主メモリ６に検索
用データベースを読み出す方法を用いても構わない。

【００４１】また、本実施例では前方マーカおよび後方
マーカとしてSGMLタグを用いた例について説明したが、
ODA(Office Document Architecture)タグを用いた文書
であっても構わない。各論理構造の先頭および末尾が特
定の文字列により区切られる文書であれば、本発明に示
す構造指定検索が実現可能であることは明らかである。

【００４２】さらに、本実施例では各論理構造に対応巣
る論理構造長が付加されていない構造か文書に対し、デ
ータベース登録時に各論理構造の先頭を表す前方マーカ
と、該当する論理構造の末尾を表す後方マーカを検出す
ることにより該当する論理構造長を算出し、これを文書
中に付加する方式について説明した。しかし、ワードプ
ロセッサ等を用いて文書を作成する際に予め論理構造長
が付加された文書や、メール等のようにネットワークア
等を通じて文書を転送する際に予め論理構造長が付加さ
れた文書をそのままデータベースに格納した場合につい
ても、本実施例における検索時処理と同様に検索対象に
指定されていない論理構造については、その論理構造長
野分だけテキストを読み飛ばし、つまり文字列照合処理
の対象から外し、無度名照合処理を省くことにより構造
指定検索を高速に実現することが可能である。

【００４３】以上に述べた第一の実施例では、検索用デ
ータベース内で論理構造の区切りを表す文字列として開
始タグおよび終了タグをそのまま用いている。しかし、
この方式ではタグ内の論理構造識別子に含まれる文字列
が検索タームに指定されたときには、不要な文書が検索
されてしまうという問題が生じる。すなわち、図５に示
した検索用データベースを対象として技術報告書全文中
に“作成”という文字列を含む文書を検索した際には、
作成日という論理構造に対応する開始タグおよび終了タ
グである“<作成日>”および“</作成日>”に含まれる
“作成”が照合されてしまうという問題が生じる。そこ
で次に説明する本発明の第二の実施例では、以上述べた
問題を解決するためSGML文書中のタグを特定の制御コー
ドに置き換えて検索用データベースを作成する。

【００４４】まず、第二の実施例おける文書登録時の処
理を図８に示したプログラムの処理フローにしたがって
説明する。なお、本図に示す文書登録時の処理フローは
第一の実施例における登録処理フロー（図４）におい
て、前方マーカ検出ステップ１０の後に該当する論理構
造識別番号を算出する処理を加えるとともに、検索用デ
ータベース作成ステップ３０における処理の内容を一部
変更したものである。

【００４５】始めに、前方マーカ検出ステップ１０では
第一の実施例と同様に登録文書に対し、開始タグまたは
終了タグの先頭を表わす“<”に続く１文字が“/”以外
であるか否かを判定することにより開始タグの検出を行
う。そして、開始タグの終了を表す“>”までの文字列
を論理構造識別子としてデータエリア９０に取り込む。
そして、該当する論理構造識別子に対応する論理構造識
別番号を図７に示した論理構造識別子と論理構造識別番
号の対応表から算出する。例えば図３に示した例では、
開始タグ“<表題>”から論理構造識別子“表題”を取り
込むとともに、図７に示す対応表を参照し論理構造識別
番号として“1”の値を得る。

【００４６】そして、論理構造長算出ステップ２０では
該当する論理構造の論理構造長を算出する。

【００４７】さらに、検索用データベース作成ステップ
３０で各論理構造の開始タグの代わりに論理構造の先頭
を表す特定の制御コード“α”を書き込むとともに、先
ほど算出した論理構造識別番号および論理構造長を制御
コード“α”の後に書き込む。また、終了タグを削除す
るとともにｔｏｔ、文書ＩＤ、ｅｏｔなどの制御コード
を書き込み検索用データベースを作成する。そして、全
文書の登録が終了するまで以上の処理を繰り返した後、
検索用データベースの末尾を表わすｅｏｆを書き込み検
索用データベースを作成する。

【００４８】以上が、文書登録時の処理である。

【００４９】以上の処理によって作成した検索用データ
ベースの例を図９に示す。本図に示す検索用データベー
スは、第一の実施例で用いた検索用データベース（図
５）において開始タグを論理構造の先頭を表す制御コー
ドα３００および論理構造識別番号３１０で置き換える
とともに終了タグを削除したものである。

【００５０】次に、第二の実施例における検索時の処理
フローを図１０に示し、処理内容について説明する。な
お、本図に示す検索時処理フローは本発明第一の実施例
における検索時処理フロー（図６）に対し前方マーカ判
定ステップ４０の内容を変更したものである。以下、図
９に示した検索用データベースに対し、緒言の中に“ワ
ークステーション”という文字列を含む文書を検索する
場合について具体的に例を挙げて説明する。

【００５１】始めに前方マーカ判定ステップ４０では、
検索用データベース中から制御コード“α”を検出する
とともに、続くバイナリデータを論理構造識別番号とし
てデータエリア９０に保持する。さらに、続くバイナリ
データを論理構造長として保持する。そして、検索対象
に指定した論理構造に対応する論理構造識別番号と、先
ほどデータエリア９０に保持した論理構造識別番号を比
較することにより該当する論理構造が検索対象に指定し
た論理構造であるか否かの判定を行う。そして、第一の
実施例と同様に前方マーカ判定ステップ４０の判定結果
が検索対象に指定された論理構造である場合には文字列
照合処理ステップ５０を実行する。すなわち、該当する
論理構造長分のテキストに対し文字列照合処理を行う。
また、検索対象に指定されていない論理構造の場合には
照合処理スキップステップを実行する。すなわち、図９
に示す例では制御コードαに続く論理構造識別番号とし
て“0001”が取り込まれるが、これは検索対象に指定し
た緒言の論理構造に対応する論理構造識別番号“0004”
ではないため、該当する論理構造長すなわち２６Ｂｙｔ
ｅ分のテキスト“画像認識システムの技術動向”を読み
飛ばし照合処理の対象から外す。続いて読み込まれる論
理構造識別番号“０００２”および“0003”に含まれる
テキストも同様に照合処理の対象から外される。次に、
論理構造識別番号として“0004”が読み込まれるが、こ
れは検索対象とする論理構造識別番号に等しいため該当
する論理構造長である636Byte分のテキストに対して照
合処理を開始する。

【００５２】以上が、第二の実施例における検索時の処
理フローである。

【００５３】以上のように、第一の実施例における検索
用データベース内で論理構造の区切りを表す文字列とし
て開始タグおよび終了タグをそのまま用いたのに対し、
第二の実施例ではこれを特定の制御コードに置き換えて
検索用データベースを作成する。この第二の実施例によ
れば、第一の実施例と同様にテキストの検索対象に指定
されない論理構造部分については文字列照合処理がスキ
ップされるので高速の構造指定検索が実現し、加えて、
タグ内の論理構造識別子に含まれる文字列が検索ターム
に指定された場合にも不要な文書が検索されないので高
い検索精度を実現することができる。

【００５４】次に、階層構造を持つ構造化文書を対象と
した際に、前方マーカ判定処理の頻度が低減し、もって
上述の第一、第二の実施例よりさらに高速の構造指定検
索が可能な第三の実施例について説明する。

【００５５】図１１には階層構造を持つ構造化文書の例
を示す。図示した技術報告書は書誌と本文で構成され
る。さらにこの書誌は表題、作成日及び著者名で構成さ
れ、一方本文は緒言、複数の章題及びその章本文、並び
に結言で構成される。つまりこの文書は、第１階層目の
論理構造として書誌と本文とを有し、第２階層目の論理
構造として書誌に対して表題、作成日及び著者名を、本
文に対して緒言、章題、章本文及び結言をそれぞれ有す
る。この階層構造を持つ構造化文書を検索対象とし、緒
言という論理構造中に“ワークステーション”という文
字列を含む文書を抽出するばあいを考える。検索対象と
する論理構造は本文中の緒言であり、書誌については前
方マーカの判定処理を行う必要はない。それにもかかわ
らず、上述の第一、第二の．実施例の構造指定検索方法
では、書誌内の全ての論理構造に対しても前方マーカ判
定ステップを実行するという無駄な処理が発生する。こ
れに対して、図１２から図１４で示す第三の実施例で
は、論理構造識別番号を複数レベルで設定する手法を採
用して無駄な処理を省き、より一増すの高速化を達成す
る。

【００５６】始めに、本実施例で用いる論理構造名と論
理構造識別子との対応表を図１２に示すとともに、この
対応表を用いた構造指定検索方法の概要について簡単に
説明する。なお、図１２に示す対応表は本発明第一の実
施例において用いた対応表（図７）において、論理構造
識別番号を階層的に定義したものである。

【００５７】まず、登録時の処理については本発明第二
の実施例における登録処理（図８）と同じ処理フローに
より実現される。すなわち、前方マーカ検出ステップ１
０では第一の実施例と同様に登録文書に対し、開始タグ
または終了タグの先頭を表わす“<”に続く１文字が
“/”以外であるか否かを判定することにより開始タグ
の検出を行う。そして、開始タグの終了を表す“>”ま
での文字列を論理構造識別子としてデータエリア９０に
取り込む。そして、該当する論理構造識別子に対応する
論理構造識別番号を図１２に示した論理構造識別子と論
理構造識別番号の対応表から算出する。例えば図１１に
示した例では、開始タグ“<書誌>”から論理構造識別子
“書誌”を取り込むとともに、図１２に示す対応表を参
照しレベル１の論理構造識別番号として“0001”を、レ
ベル２の論理構造識別番号として“0000”の値を得る。
そして、論理構造長算出ステップ２０では該当する論理
構造の論理構造長を算出する。さらに、検索用データベ
ース作成ステップ３０で各論理構造の開始タグの代わり
に論理構造の先頭を表す特定の制御コード“α”を書き
込むとともに、先ほど算出した論理構造識別番号および
論理構造長を制御コード“α”の後に書き込む。また、
終了タグを削除するとともにｔｏｔ、文書ＩＤ、ｅｏｔ
などの制御コードを書き込み検索用データベースを作成
する。そして、全文書の登録が終了するまで以上の処理
を繰り返した後、検索用データベースの終了を表わすｅ
ｏｆを書き込み検索用データベースを作成する。

【００５８】以上が、文書登録時の処理である。

【００５９】以上の処理によって作成した検索用データ
ベースの例を図１３に示す。本図に示す検索用データベ
ースは、第二の実施例で用いた検索用データベース（図
９）において論理構造識別番号３１０を２レベルで構成
したものである。

【００６０】次に、第三の実施例における検索時の処理
フローを図１４に示し、処理内容について説明する。な
お、本図に示す検索時処理フローは本発明第二の実施例
における検索時処理フロー（図１０）に対し前方マーカ
判定ステップ４０の内容を変更したものである。

【００６１】始めに前方マーカ判定ステップ４０では、
データエリア９０に読み込まれた検索用データベース中
から制御コード“α”を検出するとともに、続く２個の
バイナリデータをレベル１とレベル２の論理構造識別番
号としてデータエリア９０に保持する。さらに、続くバ
イナリデータを論理構造長として保持する。そして、検
索対象に指定した論理構造に対応する論理構造識別番号
と、先ほどデータエリア９０に保持した論理構造識別番
号をレベル１とレベル２の２段階で比較することによ
り、検索対象に指定した論理構造であるか否かを判定す
る。以下、本判定処理の概要について説明する。

【００６２】第一に、レベル１の判定では１階層目の論
理構造について検索対象に指定した論理構造であるか否
かを判定する。そして、検索対象に指定された論理構造
である場合には、引き続きレベル２の判定を行う。検索
対象に指定されない論理構造の場合には該当する論理構
造長分のテキストをスキップし照合処理の対象から外
す。

【００６３】第二に、レベル２の判定では２階層目の論
理構造について検索対象に指定した論理条件であるか否
かを判定する。そして、検索対象に指定した論理構造で
ある場合には該当する論理構造長のテキストに対し文字
列照合処理を開始する。また、検索対象に指定されない
論理構造である場合には、レベル２の論理構造識別番号
が“０”でないか否か、すなわち該当する論理構造識別
子が１階層目のものであるか、２階層目のものであるか
を判定する。そして、レベル２の論理構造識別番号が
“０”でない時、すなわち２階層目の論理構造識別子の
時には該当する論理構造長のテキストをスキップし、文
字列照合処理の対象から外す処理を行う。また、レベル
２の論理構造識別番号が“０”である時、すなわち１階
層目の論理構造識別子の時には、引き続き前方マーカ判
定処理を行うことにより、２階層目の論理構造に対し構
造指定検索を実行する。

【００６４】以上が文書検索時の概要である。

【００６５】次に、図１３に示した検索用データベース
に対し緒言の中に“ワークステーション”という文字列
を含む文書を検索する場合について具体的に例を挙げて
説明する。

【００６６】まず、図１２に示す論理構造名と論理構造
識別番号の対応表から検索対象とする緒言の論理構造識
別番号を求める。その結果、レベル１とレベル２の論理
構造識別番号として、それぞれ“２”と“１”を得る。
次に、検索用データベース中から制御コードαを検出
し、検索対象に指定した論理構造であるか否かの判定を
行う。すなわち図１３に示す例では、まず始めに制御コ
ードαに続く“１”をレベル１の、"０”をレベル２の
論理構造識別番号として取り込む。そして、これが検索
対象に指定した論理構造に対応する論理構造識別番号で
あるか否かを判定する。その結果、レベル１の判定で検
索対象に指定した論理構造でないと判定されるため、該
当する１階層目の論理構造、すなわち書誌に含まれるテ
キストをスキップし文字列照合処理の対象から外す。続
いて、“２”をレベル１の、“０”をレベル２の論理構
造識別番号として取り込む。そしてレベル１の判定の結
果、検索対象に指定した論理構造であると判定されるた
め、引き続きレベル２の判定を実行する。その結果、検
索対象に指定した論理構造でないと判定されるが、レベ
ル２の論理構造識別番号が“０”、すなわち、１階層目
の論理構造である本文に対応する論理構造であるため、
引き続き前方マーカ判定処理を行うことにより２階層目
の論理構造に対し構造指定検索を実行する。そして、次
に取り込まれる論理構造識別番号はレベル１が“２”、
レベル２が“１”であり、検索対象に指定した論理構造
に対応する論理構造識別番号に等しいため、該当する論
理構造長である636Byte分のテキストに対し文字列照合
処理を開始する。

【００６７】以上が、本発明第三の実施例における検索
時の処理フローである。

【００６８】以上のように、本発明第三の実施例におけ
る構造指定検索方法では、論理構造識別番号を複数レベ
ルで定義することにより、無駄な前方マーカ検出処理を
省略することができ検索時間をさらに短縮することがで
きる。なお、本実施例において論理構造が２階層の場合
について例を挙げて説明したが、３階層以上の論理構造
からなる構造化文書に対しても適応できることは明らか
である。

【００６９】さらに上述の第一の実施例における構造指
定検索方法では、検索条件が入力される前に予め磁気デ
ィスク７内の検索用データベースをメモリ６上のデータ
エリア８に読み込んでいた。これに代えて、検索条件が
入力される度毎に検索用データベースを磁気ディスク７
からデータエリア９０に読み込む方法も可能である。た
だし、この方法を採用した場合には磁気ディスクからの
読み出し時間が大きく影響し、検索時間の短縮の効果が
十分に上がらないいという問題点がある。すなわち、第
一の実施例では、メモリ６上のデータエリア９０に格納
されたテキストに対して前方マーカ判定ステップ４０、
文字列照合ステップ５０および照合処理スキップステッ
プ６０を実行し、文字列照合処理の対象とするテキスト
容量を削減することにより検索時間を短縮したが、検索
用データベースをメモリ６上のデータアリア９０に取り
込む際には全ての論理構造に対応するテキストを磁気デ
ィスク７から読み出す必要があ。このため、特に検索条
件が入力される度毎に検索用データベースを磁気ディス
ク７からデータエリア９０に読み込む方法を採用した場
合には、磁気ディスク７からの読み出し速度がボトルネ
ックとなって検索時間の短縮の効果が半減する。

【００７０】そこで、次に説明する本発明の第四の実施
例では、開始タグと終了タグ以外のテキストのみを格納
したテキストファイルと、論理構造を表わすタグや各論
理構造の先頭アドレスおよび論理構造長などの論理構造
の領域を表わすファイル（以後、領域情報ファイルと呼
ぶ）を別々のファイルに格納して検索用データベースを
作成する。

【００７１】始めに、文書登録時の処理は本発明の第一
の実施例における文書登録処理フロー（図４）における
検索用データベース作成ステップ３０において登録文書
から開始タグおよび終了タグを取り除いたテキストファ
イルとは別に、領域情報ファイルを作成する。

【００７２】次に図３に示す構造化文書に対し作成した
テキストファイルと領域情報ファイルの例を図１５に示
す。なお、本図に示すテキストファイルは図３に示す構
造化文書から開始タグおよび終了タグを削除した構成を
とっている。また領域情報ファイルは、第一の実施例に
おける検索用データベース（図５）から各論理構造に対
応するテキスト以外を抜き出すとともに、テキストファ
イルにおいて各論理構造に対応するテキストが格納され
ている領域の先頭アドレス２２０を各論理構造の先頭タ
グの後に付加した構成を取っている。

【００７３】最後に、本発明第四の実施例における検索
時の処理フローを図１６に示し、処理内容について説明
する。なお、本図に示す検索時処理フローは本発明第一
の実施例における処理フロー（図６）に対し文字列照合
ステップ５０の処理内容を変更したものである。

【００７４】以下、図１６に示す検索処理フローの概要
について説明する。

【００７５】始めに、検索条件が入力される前に予め磁
気ディスク７上の検索用データベース格納領域８に格納
された領域情報ファイルをメモリ６上のデータエリア９
０に読み出す。領域情報ファイルは１件当り約100Byte
の容量であり、テキストファイル（１件当り数kByte)に
比べ小さいため、テキストファイル全体をメモリ上に読
み込む場合に比べ必要とするデータエリア９０のメモリ
容量は小さくて済む。

【００７６】次に、図１５に示す領域情報ファイルに対
し図１６に示す検索プログラムを実行する。すなわち、
前方マーカ判定ステップでは本発明第一の実施例におけ
る検索処理フローと同様に領域情報ファイル内のテキス
トから開始タグを検出し、これが検索対象に指定した論
理構造に対応する開始タグであるか否かを判定する。そ
して、検索対象に指定した論理構造であると判定された
場合には文字列照合ステップ５０を実行する。すなわ
ち、開始タグに続いて取り込まれる２個のバイナリデー
タを、テキストファイル内で該当する論理構造が格納さ
れている先頭アドレスと論理構造長として保持する。次
に、先程取り込んだ先頭アドレスと論理構造長をもと
に、該当する論理構造に対応するテキストを磁気ディス
ク７内に格納されたテキストファイルからメモリ６上の
データエリア６０に読み込み文字列照合処理を行う。ま
た、検索対象に指定した論理構造でないと判定された場
合には、照合処理スキップステップを実行する。すなわ
ち、該当する論理構造に対応するテキストを磁気ディス
ク７から読み込むことなく照合処理の対象から外す。

【００７７】以上が、本発明第四の実施例における検索
処理の概要である。

【００７８】次に、図１５に示す検索用データベースに
対し緒言の中に“ワークステーション”という文字列を
含む文書を検索する場合について具体的に例を挙げて説
明する。

【００７９】始めに、図１６に示す領域情報ファイルか
ら開始タグとして“<表題>”から論理構造識別子として
“表題”が検出される。しかし、これは検索対象に指定
した緒言の論理構造識別子“緒言”と異なるため照合処
理スキップステップを実行する。すなわち、該当する論
理構造に対応するテキストをテキストファイルから読み
だすことなく文字列照合処理の対象から外す。次に、作
成日、著者名に対応する論理構造識別子が検出される
が、これも検索対象に指定した緒言の論理構造識別子
“緒言”と異なるため、該当する論理構造に対応するテ
キストをテキストファイルから読みだすことなく文字列
照合処理の対象から外す。次に、緒言に対応する論理構
造識別子である“緒言”が取り込まれ、これは検索対象
に指定した論理構造に対応する論理構造識別子であるた
め文字列照合ステップを実行する。すなわち、緒言の開
始タグに続く２個のバイナリデータを先頭アドレスと論
理構造長として保持する。そして、この先頭アドレスと
論理構造長に対応するテキストを磁気ディスク上のテキ
ストファイルからメモリ上のデータエリアに読み込み文
字列照合処理を行う。

【００８０】以上が、第四の実施例における検索処理の
例である。

【００８１】第四の実施例における構造指定検索方法で
は、各論理構造に対応するテキストを格納するテキスト
ファイルと、各論理構造に対応するテキストがテキスト
ファイル内のどの位置に格納されているかを表わす領域
情報ファイルに分けて検索用データベースを作成する。
そして、検索時には領域情報ファイルを対象に構造指定
検索を実行し、検索対象に指定した論理構造に対応する
テキストだけを磁気ディスク上に格納したテキストファ
イルからメモリ上に読み込むことにより磁気ディスクか
ら読み出すデータ量を削減し検索時間を短縮することが
可能になる。

【００８２】なお、本発明では検索条件が入力される前
に予め領域情報ファイルを磁気ディスク７から読み出し
メモリ６上のデータエリア９０に読み出す方法について
説明した。しかし、先に説明したように領域情報ファイ
ル１件当り約100Byteの容量であり、１件当り数kByteの
テキストファイルに比べ容量が小さいため、検索条件が
入力される度毎に領域情報ファイルを磁気ディスク７か
らメモリ上に読み込んだ場合にでも、高速な構造指定検
索を実現することができる。

【００８３】以上に、各論理構造の先頭や末尾を表すタ
グや、各論理構造の先頭アドレス及び論理構造長など、
論理構造の領域を表す領域情報ファイルの作成されてい
ない構造化文書に対し、データベース登録時に各論理構
造の先頭を表す前方マーカと該当する論理構造の末尾を
表す後方マーカを検出することにより、開始タグと終了
タグ以外のテキストのみを格納したテキストファイル
と、それとは別に各論理構造の領域を表す領域情報ファ
イルを作成する実施例について説明した。しかし、ワー
ドプロセッサ等を用いて文書を作成する際に予めテキス
トファイルとは別に領域情報ファイルの作成され文書
や、メール等のようにネットワーク等を通じて文書を転
送する際に予めテキストファイルとは別に領域情報ファ
イルの作成された文書をそのままデータベースに格納し
た場合についも、本実施例における検索時処理と同様に
領域情報ファイルを対象に構造指定検索を実行し、検索
対象に指定した論理構造に対応するテキストだけを磁気
ディスク上に格納したテキストファイルからメモリ上に
読み込むことにより、磁気ディスクから読みだすデータ
量を削減し、検索時間を短縮することができる。

【００８４】

【発明の効果】本発明によれば、１件の文書が複数の論
理構造から構成される構造化文書に対し目的とする論理
構造を指定した検索(構造指定検索)を実現する際に、目
的とする論理構造以外のテキストを読み飛ばし照合処理
の対象から外すことにより、大規模な構造化文書に対し
ても実用的な時間で構造指定検索を実現することができ
る。

【図面の簡単な説明】

【図１】本発明による構造化文書検索システムの構成を
表わす図である。

【図２】構造指定検索方法の従来方法を表わす図であ
る。

【図３】技術報告書の論理構造の例を表わす図である。

【図４】本発明の第一の実施例における登録処理フロー
を表わす図である。

【図５】本発明の第一の実施例における検索用データベ
ースの一例を表わす図である。

【図６】本発明の第一の実施例における検索処理フロー
を表わす図である。

【図７】本発明第一の実施例における論理構造名と論理
構造識別子の対応表の一例を示す図である。

【図８】本発明の第二の実施例における登録処理フロー
を表わす図である。

【図９】本発明の第二の実施例における検索用データベ
ースの一例を表わす図である。

【図１０】本発明の第二の実施例における検索処理フロ
ーを表わす図である。

【図１１】本発明第三の実施例における技術報告書の論
理構造の例を表わす図である。

【図１２】本発明第三の実施例における論理構造名と論
理構造識別子の対応表の一例を示す図である。

【図１３】本発明の第三の実施例における検索用データ
ベースの一例を表わす図である。

【図１４】本発明の第三の実施例における検索処理フロ
ーを表わす図である。

【図１５】本発明の第四の実施例における検索用データ
ベースの一例を表わす図である。

【図１６】本発明の第四の実施例における検索処理フロ
ーを表わす図である。

【符号の説明】

１…ディスプレイ、２…キーボード、３…中央制御装置
ＣＰＵ、４…フロッピーディスクドライバ、５…フロッ
ピーディスク、６…主メモリ、７…磁気ディスク装置、
８…検索用データベース、１０…格納領域前方マーカ検
出プログラム、２０…論理構造長算出プログラム、３０
…検索用データベース作成プログラム、４０…前方マー
カ検出プログラム、５０…文字列照合プログラム、６０
…照合処理スキッププログラム、７０…登録制御プログ
ラム、８０…検索制御プログラム、９０…データエリ
ア、１００…文書の先頭を表わす制御コードｔｏｔ、１
１０…文書の終了を表わす制御コードｅｏｔ、１２０…
検索用データベースの終了を表わす制御コードｅｏｆ、
２００…文書の識別番号ＩＤ、２１０…論理構造長、２
２０…先頭アドレス、３００…論理構造の区切りを表わ
す制御コードα、３１０…論理構造識別番号。

───────────────────────────────────────────────────── フロントページの続き (72)発明者水谷奈津子神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者加藤寛次神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者浅川悟志神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】各文書が複数の論理構造で構成される構造
化文書群から、指定した検索タームが指定した論理構造
の中に存在する文書を検索する構造化分書検索方法にお
いて、文書の登録時に前記複数の論理構造の各々について論理
構造の始まりを表わす前方マーカを検出するステップ
と、該前方マーカから該前方マーカに対応する論理構造
の終わりを表わす後方マーカまでのテキスト長を算出す
るステップと、該前方マーカに該論理構造長を付加して
検索用データベースを作成するステップを有し、文書の検索時に照合対象とするテキスト中から前方マー
カを検出するとともに検索対象に指定した論理構造に該
当する前方マーカであるか否かを判定するステップと、
前記判定の結果、前方マーカが検索対象に指定された論
理構造に該当する前方マーカであると判定された場合に
は、該当する論理構造に含まれるテキストに対し指定さ
れた検索タームとの文字列照合処理を行うステップと、
前記判定の結果、前方マーカが検索対象に指定された論
理構造に該当する前方マーカでないと判定された場合に
は、該論理構造長を参照して、該論理構造長だけテキス
トをスキップし文字列照合処理の対象から外すステップ
を有することを特徴とする構造化文書検索方法。
【請求項２】前記検索用データベースを作成するステッ
プでは、各論理構造の先頭と末尾を表わす先頭マーカと
後方マーカの代わりに、特定の制御コードと該論理構造
に対応する識別番号を登録した検索用データベースを作
成することを特徴とする請求項１に記載の構造化文書検
索方法。
【請求項３】前記検索用データベースを作成するステッ
プでは、登録文書が複数の階層からなる論理構造で定義
されている場合には、該論理構造の識別番号を階層的に
定義することを特徴とする請求項１に記載の構造化文書
検索方法。
【請求項４】各文書が複数の論理構造で構成され、各論
理構造毎に論理構造識別情報及びテキスト長を示す情報
が付加された複数の文書を含むデータベースから、指定
した検索タームが指定した論理構造の中に存在する文書
を検索する構造化文書検索方法において、前記データベースから前記論理構造別情報及びテキスト
長を示す情報を検出する第１のステップ、検出された論理構造識別情報が指定し論理構造と一致す
るかを判定する第２のステップ、及び判定結果が一致で
あるとき当該論理構造のテキストと前記指定した検索タ
ームとの照合処理を行ない、判定結果が不一致であると
き前記照合処理をスキップして前記第１ステップに戻る
第３のステップ、を有することを特徴とする構造化文書検索方法。
【請求項５】各文書が複数の論理構造で構成される構造
化文書群から、指定した検索タームが指定した論理構造
の中に存在する文書を検索する構造化文書検索方法にお
いて、文書の登録時に前記複数の論理構造の各々について論理
構造の始まりを表す前方マーカを検出するステップと、
該前方マーカから該前方マーカに対応する論理構造の終
わりを表す後方マーカを検出し、テキストファイルとは
別に論理構造識別情報及び各論理構造に対応するテキス
トを格納するテキストファイル内の位置情報を表す論理
構造情報ファイルを作成することにより検索用データベ
ースを作成するステップを有し、文書の検索時に前記論理構造情報ファイルを参照し検査
対象に指定した論理構造に対応するテキストが格納され
ている前記テキストファイル内の位置情報を読みだすス
テップと、該位置情報をもとにテキストファイルから検
索対象に指定した論理構造に対応するテキストを読みだ
すステップと、該テキストに対し指定された検索ターム
との文字列照合処理を行なうステップを有することを特
徴とする構造化文書検索方法。
【請求項６】各文書が複数の論理構造で構成され、テキ
ストファイルとは別に各論理構造の識別譲歩及び各論理
構造に対応するテキストを格納するテキストファイル内
の位置情報を表す論理構造情報ファイルが作成された複
数文書のデータベースから、指定した検索タームが指定
した論理構造の中に存在する文書を検索する構造化文書
検索方法において、前記データベースから前記論理構造別情報及びテキスト
長を示す情報を検出する第１のステップ、検出された論理構造識別情報が指定し論理構造と一致す
るかを判定する第２のステップ、及び判定結果が一致で
あるとき当該論理構造のテキストと前記指定した検索タ
ームとの照合処理を行ない、判定結果が不一致であると
き前記照合処理をスキップして前記第１ステップに戻る
第３のステップ、を有することを特徴とする構造化文書検索方法。