JPH08147311A - 構造化文書検索方法及び装置 - Google Patents

構造化文書検索方法及び装置

Info

Publication number
JPH08147311A
JPH08147311A JP6308201A JP30820194A JPH08147311A JP H08147311 A JPH08147311 A JP H08147311A JP 6308201 A JP6308201 A JP 6308201A JP 30820194 A JP30820194 A JP 30820194A JP H08147311 A JPH08147311 A JP H08147311A
Authority
JP
Japan
Prior art keywords
search
text
logical structure
document
condensed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6308201A
Other languages
English (en)
Inventor
Katsumi Tada
勝己 多田
Atsushi Hatakeyama
敦 畠山
Hisamitsu Kawaguchi
川口  久光
Natsuko Mizutani
奈津子 水谷
Kanji Kato
寛次 加藤
Satoshi Asakawa
悟志 浅川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6308201A priority Critical patent/JPH08147311A/ja
Priority to US08/495,232 priority patent/US5745745A/en
Publication of JPH08147311A publication Critical patent/JPH08147311A/ja
Priority to US08/746,905 priority patent/US5832476A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 実用規模の構造化文書データベースを対象と
して構造を指定した検索が行われた場合でも、実用上許
容しうる十分な検索時間で検索結果を得る。 【構成】 登録時に、登録対象文書本文を検索用データ
ベースに登録し、該登録文書の論理構造を識別しこれを
論理構造毎に分割し、夫々論理構造毎に単語を単位とし
て本文を情報圧縮して論理構造別凝縮本文を作成・登録
し、該登録文書中に現われる全ての文字を重複なく集め
た文字成分表を作成・登録し、検索時に、文字成分表を
参照し、指定された検索条件式中の検索タームを構成す
る全ての文字が含まれる文書だけを抽出する文字成分表
サーチを行ない、抽出文書に対し、検索対象に指定され
た論理構造凝縮本文中に上記検索タームが含まれる文書
を抽出する論理構造別凝縮本文サーチを行ない、抽出文
書に対して、上記検索条件式の条件によっては、本文サ
ーチを行なう。図は検索処理例を示す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、SGML(Stand
ard Generalized Markup La
nguage)形式で記述された文書などのように、文
書が複数の論理構造で構成される構造化文書に対し、目
的とする論理構造を対象とした検索を高速に行う構造化
文書検索方法及び装置に係り、文書情報の検索システム
等に適用されるものである。
【0002】
【従来の技術】近年、情報化社会の本格的な進展に伴い
ワードプロセッサやパーソナルコンピュータなどで作成
される電子化文書情報が急速に増加してきている。この
ような状況下で、文字列データによって構成される文書
(以後、テキストと呼ぶ)データベースの中から、検索
者が指定したある特定の文字列(以後、検索タームと呼
ぶ)を含む文書を探し出す文書検索システムへの要求が
高まってきている。このような文書検索システムを実現
する方式として、登録時にテキストをそのまま計算機シ
ステムに入力してデータベース化し、検索時にはテキス
トデータベース内の全ての文書の内容を読んで、指定さ
れた検索タームが含まれる文書を探し出すフルテキスト
サーチが提案されている。このフルテキストサーチ方式
は、「情報処理学会研究報告 Vol.89、No.6
6 情報学基礎14−7 テキストデータベース管理シ
ステムSIGMAとその応用(1989.7.27)」
(以後、従来例1と呼ぶ)の第2節冒頭で述べられてい
るように、テキストファイル全体を先頭から一文字ずつ
走査することを特徴としている。
【0003】しかし、この方式を電子出願特許明細書の
ような大規模データベースに適用した場合には、以下に
示す二つの問題が発生する。まず第一に、処理時間が非
常に長くなってしまうという問題が生じる。つまり、フ
ルテキストサーチでは従来例1の第2節にみられるよう
に、汎用の大型計算機を用いても2MB/s程度の検索
処理速度しか実現できないため、数年間に出願される特
許明細書テキストに相当する数ギガ〜数十ギガバイトの
容量の文書を検索した場合には十分な検索レスポンスが
得られないことになる。第二に、フルテキストサーチに
よる検索結果には検索ノイズが多く含まれるという問題
が生じる。つまり、“検索システム”に関する特許明細
書を探す目的で、“検索”という文字列を検索タームと
してフルテキストサーチを行うと、“論理アドレスと物
理アドレス間の変換テーブルを検索する”などの言い回
しを実施例中に含む“プロセッサ”に関する特許明細書
がノイズとして検索されてしまう。
【0004】これらの問題のうち、検索時間の長大化に
対しては、特開平3−174652に階層型プリサーチ
方式と呼ぶ高速全文検索方式を提案した(これを従来例
2と呼ぶ)。また検索ノイズの削減に対しては、検索の
対象とする論理構造を指定して検索する方式が提案され
ている。この方式では、先述した“検索システム”に関
する特許明細書を探す場合には、「産業上の利用分野」
の構造を検索対象に指定し、その中に“検索”という文
字列が含まれる明細書だけを抽出する。その結果、「実
施例」中に“検索”という文字列が現われる上の例のよ
うなプロセッサに関する特許などはノイズとして検索結
果から省くことができる。このように、SGML(St
andard Generalized Markup
Language)で記述された文書などのように、
本文が複数の論理構造で構成される文書(以下、構造化
文書と呼ぶ)に対して、目的とする論理構造だけを対象
に指定した検索(以下、構造指定検索と呼ぶ)を行うこ
とにより精度の高い検索を実現する方式の一例が、「S
GMLと全文データベース」(情報の科学と技術、43
巻12号、1993、pp.1097〜1103)中に
提案されている(これを従来例3と呼ぶ)。
【0005】以下、従来例2と従来例3の概略を説明す
る。第一に、フルテキストサーチの検索速度を等価的に
高める従来例2における階層型プリサーチ方式について
説明する。本従来例では、検索対象となる文書をデータ
ベースに登録する際に、自動的に二つの補助ファイルを
作成する。一つは、本文中の付属語を削除したり繰り返
し現われる言葉の重複を排除することにより本文の内容
を単語を単位として情報圧縮した凝縮本文である。二つ
目は、本文中に現われる文字をビット情報で表わすこと
により本文の内容を文字を単位として情報圧縮した文字
成分表である。検索時には、これらの補助ファイルを順
に参照して、指定された検索タームに含まれる文字が全
て現われる文書だけを照合処理の対象として抽出し、そ
れ以外の文書を照合処理の対象から外すとともに、指定
された検索タームが単語として現われる文書だけを抽出
し、それ以外の文書を照合処理の対象から外す。こうし
て、不要な文書を階層的にふるい落し無用の本文サーチ
を省くことにより等価的に検索速度の高速化が実現され
ている。
【0006】はじめに、本従来例の登録時の動作につい
て図2を用いて説明する。まず、登録文書が入力される
と、それをそのまま「本文」として検索用データベース
に格納する。次に、この「本文」の中の文字列を文字種
(漢字、ひらがな、カタカナ、英字等)毎に分割し、
“のための”や“による”などの、それだけでは意味を
なさない付属語と呼ばれる文字列を削除する。次に、繰
り返し現れる言葉の重複を排除して「凝縮本文」を作成
する。すなわち、本図の文書1の場合には、“検索”が
“検索技術”に含まれるため重複語として切り捨てら
れ、“あいまい”と“検索技術”が「凝縮本文」として
残ることになる。また、「本文」から「文字成分表」を
作成する。ここでは、「本文」に現われる文字を1ビッ
トの情報で表す。すなわち、「本文」にその文字が存在
する場合には‘1’を、存在しない場合には‘0’を文
字成分表の該当文字部分に設定する。文書1の例では、
“あ”と“い”は本文中に現われるためそれぞれ‘1’
を、また“う”は現われないため‘0’を設定する。さ
らに、“検”と“索”はいずれも本文中に現われるた
め、それぞれ‘1’を設定する。このようにして、文書
の登録時に「凝縮本文」と「文字成分表」を自動的に作
成し、階層型プリサーチの準備をしておく。以上が本従
来例における登録時の処理である。
【0007】次に、検索時の処理手順を図3に示す。本
図では“検索”という文字列を含む文書を検索する例を
示す。まず、文字成分表サーチでは指定された検索ター
ムを構成する“検”と“索”を同時に含む文書を抽出す
る。すなわち、図2に示す文字成分表において、各文書
毎に“検”の列と“索”の列の論理積をとり、その結果
が‘1’となる文書を抽出する。次に、この文字成分表
サーチの結果として絞り込まれた文書に対して凝縮本文
をサーチし、指定された検索タームが単語として現われ
る文書を抽出する。図2に示す例では、凝縮本文をサー
チした結果、文書1、文書2および文書4が“検索”を
含む文書として出力される。文書3は“検”と“索”が
含まれるものの、単語としては“検索”が含まれないた
め抽出結果には残らない。本従来例に示す階層プリサー
チ方式では、検索ターム間の位置関係を指定しない検索
の場合には、凝縮本文サーチだけで本文をサーチするこ
となく検索結果を得ることができる。単語間の位置関係
を指定した検索条件が与えられた場合には、さらに本文
をサーチする。例えば、“*”を可変長不定文字(ドン
トケア文字)としたときに、「“データ*圧縮”」つま
り“データ”の何文字か後に“圧縮”という文字列が現
われる文書を検索する場合や、「“データ”[10C]
“圧縮”」つまり“データ”と“圧縮”が、相互に10
文字以内に近接して現われる文書を検索する場合には、
上記凝縮本文サーチにより絞り込まれた文書に対し、さ
らに本文サーチを行い、この二つの文字列の出現位置を
比較して、上記近接条件が満たされるかどうかを判定
し、検索条件に合致する文書を検索結果として出力す
る。以上が、階層プリサーチ方式における検索処理の概
要である。このように、本従来例では入力された検索タ
ームに関連しない文書を文字レベルと単語レベルで階層
的に順次ふるい落し、文字列照合処理の対象から外すこ
とにより、フルテキストサーチにおける検索速度を等価
的に高速化している。
【0008】次に、従来例3に示されている構造指定検
索の実現方法について例を挙げて説明する。本方式は、
目的とする論理構造だけを検索対象とすることにより、
これ以外の論理構造に検索タームが現われる文書を検索
結果から除き、フルテキストサーチにおける検索ノイズ
を低減することを目的としたものである。まず、構造化
文書において文章の意味的な集まりを表わす論理構造の
識別方法について簡単に説明する。構造化文書では、文
書の論理構造を識別するために各論理構造の先頭および
末尾に特定の文字列(以下、前方マーカおよび後方マー
カと呼ぶ)が書き込まれる。例えばSGML文書では、
前方マーカおよび後方マーカはそれぞれ開始タグおよび
終了タグと呼ばれ、開始タグは「“<”+識別文字列+
“>”」で、また終了タグは「“</”+識別文字列+
“>”」で表される。以後、この識別文字列を論理構造
識別子と呼ぶ。論理構造識別子は該当する論理構造に何
が記述されているのか識別するためのものであり、通常
は記述内容の名称の省略記号で表わされる。例えば、電
子出願特許明細書テキストにおいて「要約」の論理構造
を示す開始タグは“<SDOABJ>”で、終了タグは
“</SDO>”で表される(SDOはSubDOcu
mentの、ABJはABstract Japanの
省略記号である)。
【0009】次に、本例における構造指定検索の実現方
法について図4に例を挙げて説明する。この例では、S
GML形式で記述された電子出願特許明細書テキストに
おいて、「要約」という論理構造中に“音声認識”とい
う文字列が含まれる特許明細書を検索する場合を想定し
ている。先に述べたように、電子出願特許明細書テキス
トにおいて「要約」の論理構造に対応する開始タグは
“<SDO ABJ>”で、終了タグは“</SDO
>”で表されるため、この場合の検索条件は「文字列
“<SDO ABJ>”と文字列“</SDO>”で囲
まれる範囲に“音声認識”という文字列が含まれる特許
明細書を検索する」という条件と同じになる。すなわち
指定された条件の検索は、電子出願特許明細書テキスト
全文中に検索ターム“<SDO ABJ>*音声認識*
</SDO>”(“*”は可変長不定文字を表わす)が
含まれる特許明細書を検索するという処理を行うことに
より実現される。なお、上記ではSGML形式で記述さ
れた文書を対象とした場合を例に説明したが、ODA
(Office Document Architec
ture)形式で記述された文書であってもかまわな
い。
【0010】
【発明が解決しようとする課題】従来例2に示す階層型
プリサーチ方式を用いて従来例3に示す構造指定検索を
行った場合の処理手順を図5に示す。この例では、「要
約」の論理構造中に“音声認識”という文字列が含まれ
る特許明細書を検索する場合を想定している。まず始め
に、文字成分表サーチでは文字成分表の“音”の列と
“声”の列と“認”の列と“識”の列の論理積の値が
‘1’となる特許明細書を抽出することにより、検索タ
ームである“音声認識”を構成する“音”と“声”と
“認”と“識”を同時に含む特許明細書を抽出する。次
に、凝縮本文サーチでは文字成分表サーチの結果として
得られた特許明細書の凝縮本文に対して“音声認識”で
文字列照合処理を行なうことにより、凝縮本文中に“音
声認識”が単語として現われる特許明細書を抽出する。
そして、最後に本文サーチで凝縮本文サーチの結果とし
て得られた特許明細書の本文に対し、「要約」の論理構
造の先頭マーカである“<SDO ABJ>”と検索タ
ームである“音声認識”と後方マーカである“</SD
O>”がこの順番に現われる特許明細書を探索する。す
なわち、“*”を可変長不定文字(ドントケア文字)と
したとき、“<SDO ABJ>*音声認識*</SD
O>”を検索タームとして文字列照合処理を行うことに
より、「要約」の論理構造中に“音声認識”という文字
列を含む特許明細書を検索する。
【0011】上述した方法で、電子出願特許明細書テキ
スト10万件(約100日分、容量:約1,400M
B)に対し、「要約」中に“音声認識”という文字列が
含まれる電子出願特許明細書を検索する場合の検索時間
を推定すると以下のようになる。例えば、図6に示すよ
うに、文字成分表サーチの絞り込み率を10%、凝縮本
文サーチの絞り込み率を3%、電子出願特許明細書テキ
スト10万件に対応する凝縮本文の容量を約300M
B、フルテキストサーチの照合速度として従来例1に示
されている2MB/秒を仮定すると、検索時間は以下の
ように算出される。 検索時間 = 文字成分表サーチ時間 + 凝縮本文サーチ時間 + 本文サーチ時間 = 文字成分表サーチ時間 + 300MB×0.1÷2MB/秒 + 1,400MB×0.03÷2MB/秒 ≒ 15秒 + 21秒 = 36秒 ここで、文字成分表サーチは1件の特許明細書に対し
“音”と“声”と“認”と“識”に該当する4ビットの
論理積をとる処理であり、さらに通常の計算機(プロセ
ッサ)の場合、32ビット〜64ビット分、すなわち3
2〜64文書分一括して論理積演算を行うことができる
ため、文字成分表サーチ時間は凝縮本文サーチ時間や本
文サーチ時間に比べ無視できる程短い時間である。
【0012】このように本従来例の構造化文書検索方式
では、検索条件を“<SDO ABJ>*音声認識*<
/SDO>”というように単語間の位置関係を指定した
検索条件に置き換えて検索処理を行うため本文を検索す
る必要があり、その結果、検索時間が長くなってしまう
という問題が生じる。また、凝縮本文は「要約」や「実
施例」などの論理構造を意識せずに特許明細書全文を対
象として情報圧縮して作成してあるため、「要約」など
の論理構造を指定されたとしても凝縮本文全体をサーチ
しなければならず、不要な凝縮本文サーチが発生し、検
索時間が長くなってしまうという問題が生じる。
【0013】本発明の目的は、実用規模の構造化文書デ
ータベースを対象として構造を指定した検索が行われた
場合でも、実用上許容しうる十分な検索時間で検索結果
が得られる高速な構造化文書検索方法及び装置を提供す
ることにある。
【0014】
【課題を解決するための手段】上記課題を達成するた
め、本発明は、構造化文書の検索において、登録時に、
登録対象文書本文を検索用データベースに格納し、該登
録文書に対して本文の論理構造を識別しこれを論理構造
毎に分割するとともに、それぞれ論理構造毎に単語を単
位として本文を情報圧縮して論理構造別凝縮本文を作
成、登録し、該登録文書中に現われる全ての文字を重複
なく集めた文字成分表を作成、登録し、検索時に、前記
文字成分表を参照し、指定された検索条件式中の検索タ
ームを構成する全ての文字が含まれる文書だけを抽出す
る文字成分表サーチを行ない、前記文字成分表サーチで
抽出された文書に対し、各論理構造毎に作成した前記凝
縮本文のうち検索対象に指定された論理構造に対応する
凝縮本文中に、上記検索タームが含まれる文書を抽出す
る論理構造別凝縮本文サーチを行ない、上記検索条件式
として複数の検索タームの本文中での位置関係が指定さ
れた場合には、前記論理構造別凝縮本文サーチで抽出さ
れた文書に対し、その本文を参照し、上記複数の検索タ
ームが含まれ、かつ該検索ターム間に付与された位置関
係等の検索条件が満たされるもののみを抽出する本文サ
ーチを行なうようにしている。さらに、上記本文を論理
構造別本文としたり、上記文字成分表を論理構造別文字
成分表としたり、上記論理構造別凝縮本文を文論理構造
別ではない凝縮本文としたり、あるいは凝縮本文や論理
構造別凝縮本文を省略したり、文字成分表や論理構造別
文字成分表を省略したりして、種々の組合せにより、構
造化文書の検索を行なうようにしている。
【0015】
【作用】上記手段により、文書が複数の論理構造から構
成される構造化文書に対する検索において、目的とする
論理構造を指定して検索(構造指定検索)をすると、目的
とする論理構造以外のテキストに対応する凝縮本文のサ
ーチを省くことができ、また、単純な検索条件の場合に
は目的とする論理構造の凝縮本文のサーチをするだけ
で、本文サーチも省くことができる。これにより、大規
模な構造化文書に対しても実用的な時間で構造指定検索
を行なうことができる。
【0016】
【実施例】まず、本発明の概要について説明する。はじ
めに、登録時の処理について説明する。まず、本文登録
において登録文書をそのまま本文として検索用データベ
ースに登録する。次に論理構造別凝縮本文作成登録で
は、登録した本文について各論理構造の先頭を表わす特
定の文字列である前方マーカ、および末尾を表わす特定
の文字列である後方マーカを検出することにより論理構
造の識別処理を行うとともに、本文を論理構造毎に分割
する処理を行う。例えば電子出願特許明細書の場合につ
いて図7により説明する。図7の場合には、論理構造が
例外的な構造になっておりSGML形式とODA形式の
二重定義になっている。図7に示すように「要約」に対
応する前方マーカである“<SDO ABJ>”と後方
マーカである“</SDO>”で囲まれるテキストを
「要約」という論理構造に対応する本文として切り出
す。さらに、ODA形式で定義されている「産業上の利
用分野」については本論理構造に対応する前方マーカで
ある“[産業上の利用分野]”と後方マーカである
“[従来の技術]”で囲まれるテキストを「産業上の利
用分野」に対応する本文として切り出すことにより、本
文を論理構造毎に分割する。なお、“[発明の詳細な説
明]”の項には後続する文章がないので切り出しはしな
い。ここでは、「産業上の利用分野」に続く論理構造の
前方マーカである“[従来の技術]”を「産業上の利用
分野」の後方マーカとして用いる。そして、分割された
各論理構造に関する本文についてそれぞれ凝縮本文の作
成処理を行う。すなわち、「要約」については「要約」
に関する本文に対しテキストを単語単位に部分文字列に
分割し、分割した部分文字列間で相互に包含関係を調
べ、他の部分文字列に含まれる文字列を排除することに
より「要約」に関する凝縮本文を作成する。また、「特
許請求の範囲」や「産業上の利用分野」についても同様
に、それぞれ上述の処理を行うことにより論理構造別の
凝縮本文を作成し、これを凝縮本文ファイルとして検索
用データベースに登録する。さらに文字成分表作成登録
ステップでは、本文中に現われた文字に対応するビット
に‘1’を設定することにより文字成分表を作成し、こ
れを検索用データベースに文字成分表ファイルとして登
録する。以上が、登録処理の概要である。
【0017】次に、検索時の処理の概要について説明す
る。はじめに、文字成分表サーチでは、指定された検索
タームを文字単位に分解し、検索タームを構成する全て
の文字が含まれる文書を文字成分表を参照して抽出す
る。次に、論理構造別凝縮本文サーチでは、前記論理構
造別凝縮本文作成登録において作成された各論理構造に
対応する凝縮本文ファイルのうち、検索対象に指定され
た論理構造に関する凝縮本文ファイルをサーチ対象とし
て選択するとともに、その中で文字成分表サーチで抽出
された文書の凝縮本文をサーチすることにより、指定さ
れた検索タームが含まれる文書を抽出する。そして、指
定された検索条件式に複数の検索ターム間の本文中での
位置関係が指定されている場合を除いて、ここで検索処
理を終了する。指定された検索条件式に複数の検索ター
ム間の本文中での位置関係が指定されている場合には、
さらに本文サーチを実行する。本文サーチでは、凝縮本
文サーチで抽出された文書に対応する本文の内容を読ん
で、指定された検索タームが含まれ、かつ検索ターム間
の位置関係について指定された検索条件が満たされるも
ののみを抽出する。以上が、検索処理の概要である。
【0018】このように、本発明による構造化文書検索
では、例えば「要約」の論理構造中に“音声認識”を含
む文書を検索する場合には、図8に実線で示すように文
字成分表サーチにより絞り込まれた文書に対し、凝縮本
文ファイルの中から「要約」を対象として作成した凝縮
本文を選択し、これを対象として“音声認識”の現れる
文書をサーチする。この凝縮本文サーチの結果得られた
文書には、検索対象である「要約」の論理構造中に“音
声認識”が必ず含まれるため本文サーチを行うことなく
凝縮本文サーチだけで検索を終了することができる。そ
の結果、検索条件を「要約」の論理構造の先頭マーカで
ある“<SDO ABJ>”と検索タームである“音声
認識”と後方マーカである“</SDO>”がこの順番
に現われる文書を検索するというように、検索ターム間
の位置関係を指定した検索に置き換える従来の方式に比
べ、不要な本文サーチを省略することができるため構造
指定検索時の検索時間を大幅に削減することができる。
さらに、凝縮本文サーチにおいて本発明では「要約」を
対象として作成した凝縮本文をサーチするため、全文を
対象として作成した凝縮本文をサーチする従来方式に比
べ不要な凝縮本文のサーチを省略することができるため
に構造指定検索時の検索時間をさらに削減することが可
能となる。また、検索条件式に検索ターム間の位置関係
が指定された場合でも、本発明では検索対象に指定した
論理構造に対応する凝縮本文ファイルだけをサーチする
ため、全文を対象として作成した凝縮本文ファイルをサ
ーチする従来方式に比べ、目的以外の論理構造中に検索
タームが含まれる文書を本文サーチの対象から外すこと
ができるため、目的とする論理構造を指定した検索を高
速に実現することが可能となる。
【0019】本発明に示す構造化文書検索により、電子
出願特許明細書テキスト10万件(約100日分、 約
1、400MB)に対し構造指定検索を行った場合の検
索時間を従来方法と同じ条件の下で推定すると以下のよ
うになる。すなわち図8に示す検索処理において、文字
成分表の絞り込み率を10%、フルテキストサーチの照
合速度を2MB/秒とすると、「要約」に関する凝縮本
文の平均容量が1件当り0.29kBであることから検
索時間は以下のようになる。 検索時間 = 文字成分表サーチ時間 + 凝縮本文サーチ時間 = 文字成分表サーチ時間 + 0.29kB/件×100、000件×0.1 ÷2MB/秒 ≒ 29MB×0.1÷2MB/秒 ≒ 1.5秒 このように、従来方式では36秒の時間を要していた検
索を、本発明による構造化文書検索では約1.5秒で終
えることができ、検索速度を約20倍高速化することが
可能となる。
【0020】次に、本発明の実施例を説明する。本発明
の構造指定検索を用いた第一の実施例の検索システムを
図1に示す。本図に示す検索システムは、検索結果を表
示するディスプレイ1、登録および検索のコマンドを入
力するキーボード2、登録処理および検索処理を実行す
る中央演算装置CPU3、フロッピーディスクからデー
タを読み出すフロッピーディスクドライバFDD4、デ
ータベースへ登録する文書データを格納したフロッピー
ディスク5、登録および検索用のプログラムならびにデ
ータなどを一時格納する主メモリ6、検索用データベー
スを格納する磁気ディスク装置7およびこれらを接続す
るバス8で構成される。また、登録用プログラムは登録
文書の本文を検索用データベースへ格納する本文登録プ
ログラム10、本文から凝縮本文を作成しこれを検索用
データベースへ格納する論理構造別凝縮本文作成登録プ
ログラム20、本文から文字成分表を作成し、これを検
索用データベースに格納する文字成分表作成登録プログ
ラム30およびこれらを登録制御する登録制御プログラ
ム70から成る。検索用プログラムは、文字成分表を参
照して文字探索を行う文字成分表サーチプログラム4
0、凝縮本文を参照して単語探索を行う論理構造別凝縮
本文サーチプログラム50、本文を参照して位置条件を
判定する本文サーチプログラム60およびこれらを制御
する検索制御プログラム80から成る。また主メモリ6
にはこれらの他にデータエリア90も確保されている。
さらに、磁気ディスク装置7に確保された検索用データ
ベース格納領域100は文字成分表格納領域110、論
理構造別凝縮本文格納領域120および本文格納領域1
30で構成される。なお、本実施例では検索用データベ
ース格納領域100を磁気ディスク装置7上に確保した
が、光磁気ディスク装置など他の二次記憶装置であって
もかまわない。以上が本検索システムの構成である。
【0021】次に、検索の対象とする構造化文書の論理
構造について図9を用いて説明する。 本実施例で検索
対象とする技術論文は「表題」、「緒言」、「背景」、
「章題」、「章本文」および「結言」で構成されるもの
とし、各論理構造はそれぞれ開始タグおよび終了タグに
よって分割されているものとする。本図の例では、「表
題」という論理構造は開始タグ“<表題>”および終了
タグ“</表題>”で囲まれている。以下、本実施例に
示す構造指定検索における文書登録時の処理と検索時の
処理について説明する。まず、文書登録時の処理を図1
0に示す処理手順にしたがい、図9に示した構造化文書
を登録する場合を例として図1に基づき詳細に説明す
る。始めに、キーボード2から入力される登録コマンド
により登録制御プログラム70を起動する。そして、フ
ロッピーディスクドライバFDD4に挿入されたフロッ
ピーディスク5から登録文書を読み込み、データエリア
90に格納する。次に、登録制御プログラム70は本文
登録プログラム10を起動する。本文登録プログラム1
0はデータエリア90に格納された登録文書をそのまま
本文として本文格納領域130に格納する。その後、登
録制御プログラム70は論理構造別凝縮本文作成登録プ
ログラム20を起動する。論理構造別凝縮本文作成登録
プログラム20は各登録文書中から論理構造の始まりを
表わす開始タグを検出する。開始タグの検出は、開始タ
グまたは終了タグの先頭を表わす“<”に続く1文字が
“/”であるか否かによって判定する。すなわち、
“<”の直後に“/”が続く場合には終了タグとみな
し、それ以外の場合は開始タグとみなす。そして、開始
タグの先頭を表す“<”から開始タグの末尾を表わす
“>”までの文字列を論理構造識別子としてデータエリ
ア90に格納する。同様にして、上記開始タグに対応す
る該当論理構造の終了タグを検出することにより、本文
を論理構造毎に分割するとともにデータエリア90に格
納する。そして、各論理構造毎に分割された本文を漢
字、ひらがな、カタカナ、英字などの文字種ごとに分割
した後、“の”や“による”などのそれだけでは意味を
なさない付属語を削除する。さらに、本文中に繰り返し
現れる単語の重複を排除することにより各論理構造毎に
凝縮本文を作成し、これを論理構造別凝縮本文格納領域
120に登録する。
【0022】ここで、開始タグにより識別した論理構造
識別子に対応する凝縮本文の識別番号を求める方法とし
て、本実施例では図11に示す対応表を用いる。この方
法では、検索用データベースを作成する際に、SGML
文書におけるDTD(Document Type D
efinition)などの構造化文書の型定義文をも
とに、登録制御プログラム70で論理構造名と各論理構
造に固有の番号(以後、論理構造識別番号と呼ぶ)およ
び論理構造識別子の間の対応表を作成する。登録時に
は、開始タグに基づきこの対応表を参照して、該当論理
構造識別子に対応する凝縮本文ファイルの識別番号およ
び凝縮本文ファイルのファイル名を求める。すなわち、
登録文書から入力した論理構造識別子と図11に示す対
応表中の論理構造識別子とを比較し、これらが一致する
ものについて、その凝縮本文識別番号を求めるとともに
該当するファイル名に対応する凝縮本文ファイルに登録
する。
【0023】以上の処理を図9に示す構造化文書に対し
行った例を図12に示す。すなわち、図9に示す構造化
文書に対し“<”に続く1文字が“/”でないことか
ら、まずはじめに“<表題>”を開始タグと識別する。
そして、論理構造識別子として“表題”をデータエリア
90に格納するととも、“<表題>”に対応する終了タ
グである“</表題>”までのテキストを「表題」の論
理構造に関する本文としてデータエリア90に格納す
る。次に、データエリア90に格納された「表題」に関
する本文である“枠接触文字の認識精度向上方式”に対
して凝縮本文を作成する。すなわち、付属語である
“の”を削除することにより“枠接触文字”および“認
識精度向上方式”を凝縮本文として切り出す。さらに、
図11に示す対応表を参照して、この中の論理構造識別
子の欄から“表題”の文字列を検索することにより「表
題」の凝縮本文識別番号として‘1’を求める。そし
て、論理構造別凝縮本文格納領域120のうち論理構造
識別番号‘1’に対応する凝縮本文ファイル“file
001”に“枠接触文字”および“認識精度向上方式”
を登録する。さらに、「緒言」についても同様の処理を
繰り返し、以下、全文書の登録が終了するまで同様の処
理を繰り返す。
【0024】次に、図10に示すように登録制御プログ
ラム70は文字成分表作成登録プログラム30を起動す
る。文字成分表作成登録プログラム30では本文を対象
として文字成分表を作成するとともにこれを文字成分表
格納領域110に登録する。すなわち、初期状態として
全ビットに‘0’を設定した文字成分表に対し、本文中
に現れた文字に対応して該当するビットに‘1’を設定
していくことにより文字成分表を作成する。例えば、図
12に示す例において、“文”、“字”、“認”および
“識”はいずれも本文中に現れるため、各文字に対応す
るビットに‘1’を設定する。以上が登録時処理の具体
的な処理内容である。
【0025】次に、検索時の処理フローを図13に示
す。以下、図9に示した構造化文書に対し、「結言」の
中に“文字認識”という文字列が含まれる文書を検索す
る場合について図14を用いて具体的に説明する。初め
に、検索条件を入力する前に予めキーボード2から入力
される検索準備コマンドにより検索制御プログラム80
を起動し、磁気ディスク装置7内の検索用データベース
格納領域100に格納された文字成分表、論理構造別凝
縮本文および本文を主メモリ6上のデータエリア90に
読み込む。次に、キーボード2から検索条件式が入力さ
れると、検索制御プログラム80は文字成分表サーチプ
ログラム40を起動する。文字成分表サーチプログラム
40ではデータエリア90に読み込まれた文字成分表に
対して検索タームを構成する全ての文字に対応するビッ
ト列の論理積を取り、この値が‘1’となる文書だけを
選択することにより、本文全文の中に検索タームを構成
する文字全てを含む文書を抽出する。すなわち図14に
示す例では、検索タームを構成する文字である“文”、
“字”、“認”および“識”に該当する文字成分表中の
ビットの論理積の値が‘1’であるものについて、この
文書を本文中に“文”、“字”、“認”および“識”が
全て含まれる文書として抽出する。
【0026】この後、検索制御プログラム80は論理構
造別凝縮本文サーチプログラム50を起動する。論理構
造別凝縮本文サーチプログラム50では図11に示す論
理構造識別子と論理構造識別番号との対応表をもとに、
各論理構造別に作成された凝縮本文のうち検索対象に指
定された論理構造に関する凝縮本文を選択する。すなわ
ち、図14に示した例では図11に示す論理構造識別子
と論理構造識別番号との対応表を参照して、論理構造名
の欄から検索対象に指定された論理構造名である「結
言」を探索することにより、検索対象に指定された論理
構造である「結言」に対応する凝縮本文ファイルのファ
イル名として“file006”を得る。そして、指定
された論理構造に関する凝縮本文の中で文字成分表サー
チプログラム40で抽出された文書について、その凝縮
本文をサーチすることにより、指定された論理構造中に
指定された検索タームが現れる文書を探索し、該当する
文書のタイトルを検索結果としてディスプレイ1に表示
する。すなわち、本例では検索対象に指定された論理構
造である「結言」に該当する凝縮本文ファイル“fil
e006”に対して検索ターム“文字認識”で照合処理
を行うことにより、「結言」の論理構造中に“文字認
識”を含む文書を検索する。
【0027】最後に、検索条件式に検索ターム間の位置
関係が指定されている場合には、検索制御プログラム8
0が本文サーチプログラム60を起動する。すなわち、
“*”を可変長不定文字(ドントケア文字)としたとき
に、例えば「“データ*圧縮”」、つまり“データ”の
後に“圧縮”という文字列が現われる文書を検索する場
合や、「“データ”[10C]“圧縮”」つまり“デー
タ”と“圧縮”が、本文中に10文字以内に近接して現
われる文書を検索する場合には、論理構造別凝縮本文サ
ーチプログラム50で得られた文書集合に対して本文サ
ーチプログラム60を実行する。本文サーチプログラム
60では、まず初めに検索条件式に指定された各検索タ
ームが本文中の何文字目で照合されたかを判定する。次
に、本文サーチで照合された各検索タームの間でそれぞ
れの位置関係を比較し、それぞれの位置関係が指定され
た条件を満たす、すなわち“データ”が照合された本文
中での文字位置と“圧縮”が照合された文字位置の差が
10文字以下となる文書を抽出することにより検索ター
ム間の位置関係を指定した検索を実現する。以上が本実
施例における検索時処理の具体的内容である。
【0028】なお、本実施例ではSGML形式で記述さ
れた文書を対象とした場合を例に説明したが、ODA
(Office Document Architec
ture)形式で記述された文書であってもかまわな
い。各論理構造の先頭および末尾が特定の文字列により
区切られる文書であれば、本発明に示す構造指定検索が
実現可能であることは明らかであろう。また、本実施例
では本文登録プログラム10において登録文書をそのま
ま本文として登録したが、SGMLのタグを削除した形
であってもかまわない。この場合、表示用のSGML形
式の原文書とは別に検索用に本文ファイルを持つ必要が
生じるが、SGMLタグ中に用いられている“表題”や
“緒言”などが検索タームに指定された場合でも必要な
文書のみを検索することが可能になる。さらに、本実施
例では階層構造を持たない構造化文書を検索対象とした
場合を例に文書の登録処理と検索処理について説明した
が、「書誌」の論理構造中に「表題」、「作成日」、
「著者名」などの論理構造を持つ文書、すなわち階層構
造を持った構造化文書に対しても、図11に示した論理
構造識別子と論理構造識別番号との対応表を図15に示
すように階層的に記述することにより対応可能であるこ
とは明らかであろう。
【0029】次に、本発明の構造指定検索方法を用いた
第二の実施例について図16を用いて説明する。本発明
の第一の実施例は文字成分表サーチで文字レベルの検索
を行った後に検索対象に指定された論理構造に関する凝
縮本文をサーチするものであったが、文字レベルの検索
を行うことなく直接凝縮本文をサーチするものが本実施
例である。本実施例においては、登録時に第一の実施例
と同様に登録制御プログラム70は本文登録プログラム
10および論理構造別凝縮本文作成登録プログラム20
を起動する。しかし、文字成分表作成プログラム30は
起動しない。すなわち、図1における本文登録プログラ
ム10ではデータエリア90に格納された登録文書をそ
のまま本文として本文格納領域130に格納する。ま
た、論理構造別凝縮本文作成登録プログラム20では、
各登録文書中から論理構造の始まりを表わす開始タグお
よび終了タグを検出することにより本文を論理構造毎に
分割するとともに、各論理構造単位に分割された本文に
対し付属語を削除し、本文中に繰り返し現われる単語の
重複を排除して各論理構造に関する凝縮本文を作成す
る。そして、図11に示す対応表を参照することにより
凝縮本文ファイル名を求め、該当する凝縮本文ファイル
に格納する。
【0030】検索時には、検索制御プログラム80は第
一の実施例における文字成分表サーチプログラム40を
起動させることなく、論理構造別凝縮本文サーチプログ
ラム50および本サーチプログラム60を起動させる。
すなわち、本実施例では検索の第一段階として図11に
示す対応表をもとに検索対象に指定された論理構造に対
応する論理構造ファイル名を求め、該当する凝縮本文フ
ァイルをサーチすることにより指定された論理構造中に
指定された検索タームが現われる文書を探索する。例え
ば、図16に示す例では、図11に示す論理構造識別子
と論理構造識別番号との対応表を参照して、論理構造名
の欄から検索対象に指定された論理構造名である「結
言」を探索することにより、検索対象に指定された論理
構造である「結言」に対応する凝縮本文識別番号として
‘6’を得るとともに、凝縮本文ファイル名として“f
ile006”を得る。そして、凝縮本文ファイル“f
ile006”に対して検索ターム“文字認識”で照合
処理を行うことにより、「結言」の論理構造中に“文字
認識”が含まれる文書を検索する。最後に、検索条件式
に検索ターム間の位置関係が指定されている場合には、
論理構造別凝縮本文サーチにより絞り込まれた文書集合
に対して、その本文をサーチする。このように本実施例
では、文字成分表サーチによる絞り込みを行わないため
第一の実施例に比べ検索時間が長くなるが、文字成分表
を作成する必要がないため検索用データベースの容量を
削減することができる。
【0031】次に、本発明の第三の実施例として文字成
分表を論理構造毎に作成する実施例について説明する。
本実施例は、本文全文に対して作成した文字成分表をサ
ーチすることにより、絞り込みを行う第一の実施例に対
し、各論理構造毎に分割された本文に対して作成した文
字成分表をサーチすることにより文字成分表サーチの絞
り込み率をさらに向上させ、ひいては凝縮本文サーチに
要する時間を短縮しようとするものである。本発明の第
三の実施例を図17に示す。本実施例の構造化文書検索
システムは、図1に示す本発明の第一の実施例における
構造化文書検索システムにおける文字成分表作成登録プ
ログラム30、文字成分表サーチプログラム40、およ
び文字成分表格納領域110を、それぞれ本図の論理構
造別文字成分表作成プログラム31、論理構造別文字成
分表サーチプログラム41、および論理構造別文字成分
表格納領域111に置き換えたものである。
【0032】本実施例においては、登録時に第一の実施
例と同様に登録制御プログラム70は本文登録プログラ
ム10および論理構造別凝縮本文作成登録プログラム2
0を起動する。次に、登録制御プログラム70は論理構
造別文字成分表作成登録プログラム31を起動する。論
理構造別文字成分表作成登録プログラム31では、論理
構造別凝縮本文作成登録プログラム20において各論理
構造毎に分割された本文に対し、それぞれの論理構造に
関する文字成分表を作成する。そして、論理構造別凝縮
本文作成登録プログラムと同様に論理構造識別子と文字
成分表ファイル名との対応表を参照し、各論理構造に関
する文字成分表を該当する文字成分表ファイルに格納す
る。
【0033】検索時には、検索制御プログラム80は論
理構造別文字成分表サーチプログラム41を起動させ
る。論理構造別文字成分表サーチプログラム41では、
論理構造別凝縮本文サーチプログラム50と同様に論理
構造識別子と文字成分表ファイル名との対応表を参照す
ることにより、検索対象に指定された論理構造に関する
文字成分表ファイルを選択し、これに対し文字成分表サ
ーチを行う。すなわち、図18に示す例において検索条
件として「結言」中に“文字認識”が含まれる文書の検
索が指定された場合には、「結言」に関する文字成分表
ファイルを参照して“文”、“字”、“認”、および
“識”が全て含まれる文書を抽出する。そして、文字成
分表サーチにより絞り込まれた文書集合に対し、第一の
実施例と同様に論理構造別凝縮本文サーチプログラム5
0および本文サーチプログラム60を実行する。このよ
うに、第三の実施例では各論理構造毎に文字成分表をそ
れぞれ作成するため第一の実施例に比べ検索用データベ
ースの容量が増加するという問題があるが、検索対象に
指定した「結言」以外の論理構造に“文”、“字”、
“認”、および“識”が含まれる文書を検索の対象から
外すことができるため、文字成分表サーチの絞り込み率
を向上させることができ、ひいては検索時間を削減する
ことが可能となる。
【0034】さらに、本発明の第四の実施例を図19に
示す。第三の実施例に示す構造化文書検索方法では、論
理構造毎に分割した本文に対して凝縮本文を作成した
が、本実施例では論理構造毎に分割していない本文全文
に対して凝縮本文を作成するものである。すなわち、登
録時には凝縮本文作成登録プログラム21において、論
理構造毎に分割していない本文全文に対して凝縮本文を
作成する。そして検索時には、まず、検索制御プログラ
ム70は論理構造別文字成分表サーチプログラム41を
起動する。すなわち、図20に示す例において検索条件
として「結言」中に“文字認識”が含まれる文書の検索
が指定された場合には、「結言」に関する文字成分表フ
ァイルを参照して“文”、“字”、“認”、および
“識”が全て含まれる文書を抽出する。そして、論理構
造別文字成分表サーチプログラム41により絞り込まれ
た文書集合に対し、本文全文を対象として作成した凝縮
本文を“文字認識”で照合処理を行う。そして、凝縮本
文サーチにより絞り込まれた文書に対し本文サーチを行
い、指定された論理構造中に所定の検索タームが含まれ
る文書を抽出することにより構造指定検索を実現する。
したがって、本実施例の構造化文書検索方法は第三の実
施例に示す構造化文書検索方法に比べ、検索ターム間の
位置関係が指定されない検索の場合でも本文をサーチす
る必要が生じるため全体の検索時間が長くなるが、凝縮
本文容量は本文全文を対象として文字列の重複排除が行
えるためさらに圧縮できるため、検索用データベース全
体の容量を削減することが可能になる。
【0035】さらに、本発明の第五の実施例を図21に
示す。本発明の第三の実施例は論理構造別文字成分表を
サーチすることにより絞り込まれた文書に対し論理構造
毎に作成した凝縮本文をサーチするものであるが、本実
施例は凝縮本文をサーチすることなく本文をサーチする
ものである。すなわち、図21に示す例において検索条
件として「結言」中に“文字認識”が含まれる文書の検
索が指定された場合には、「結言」に関する文字成分表
ファイルを参照して“文”、“字”、“認”、および
“識”が全て含まれる文書を抽出する。そして、文字成
分表サーチにより絞り込まれた文書集合に対し、本文中
に“文字認識”を含む文書をサーチすることにより目的
とする文書を検索する。すなわち、本実施例の構造化文
書検索方法では凝縮本文サーチによる絞り込みを行わな
わず本文をサーチするため、第三の実施例の構造化文書
検索方法に比べ検索時間が長くなるが、凝縮本文を作成
する必要がないため検索用データベースの容量をさらに
削減することが可能になる。
【0036】第一の実施例、第二の実施例、第三の実施
例、第四の実施例、および第五の実施例は文字成分表サ
ーチまたは凝縮本文サーチの少なくとも一つにより絞り
込まれた文書に対し本文全文をサーチすることにより、
目的とする論理構造を指定した検索を高速化する方法に
関するものであったが、次に本文を論理構造毎に分割し
て登録する方法に関する第六の実施例について述べる。
本実施例の構造化文書検索システムの構成を図22に示
す。本構造化文書検索システムは、図17に示す本発明
第三の実施例の構造化文書検索システムにおける本文登
録プログラム10、本文サーチプログラム60、本文格
納領域130を、それぞれ論理構造別本文登録プログラ
ム11、論理構造別本文サーチプログラム61、および
論理構造別本文格納領域131に置き換えたものであ
る。すなわち、第三の実施例では本文全文をそのまま本
文ファイルに登録していたが、本実施例では論理構造毎
に分割した本文に対して、それぞれ論理構造別本文格納
領域131に格納する。そして検索ターム間の位置関係
が指定された検索の場合には、図23に示すように論理
構造別文字成分表サーチおよび論理構造別凝縮本文サー
チによって絞り込まれた文書集合に対し、検索対象に指
定された論理構造に関する本文ファイルをサーチする。
すなわち、図23に示す例において検索条件として「結
言」中に“精度”と“向上”が、本文中に10文字以内
に近接して現われる文書を検索する場合には、「結言」
に関する文字成分表ファイルを対象として“精”、
“度”、“向”、および“上”を全て含む文書を検索す
る。そして、文字成分表のサーチにより絞り込まれた文
書集合に対し、「結言」に関する凝縮本文ファイルを対
象として“精度”と“向上”でサーチする。そして、凝
縮本文サーチにより絞り込まれた文書集合に対し、本文
中に“精度”と“向上”が10文字以内に近接して現わ
れる文書を検索することにより目的とする文書を検索す
る。
【0037】このように、第六の実施例では各論理構造
毎に本文ファイルをそれぞれ作成するため本文サーチの
対象を検索対象に指定された論理構造に対する本文のみ
に限定することができるため、第三の実施例に比べ本文
サーチに要する時間を削減することができる。さらに、
第六の実施例では文字成分表および凝縮本文とも論理構
造毎に作成する場合について説明したが、文字成分表ま
たは凝縮本文を本文全文に対して作成した場合または文
字成分表と凝縮本文のいずれか一方ないしは両方を省略
した場合についても、同様に、本文サーチに要する時間
を削減することができることは明らかであろう。
【0038】
【発明の効果】本発明によれば、文書が複数の論理構造
から構成される構造化文書に対し、目的とする論理構造
を指定した検索(構造指定検索)を実現する際に、目的と
する論理構造以外のテキストに対応する凝縮本文のサー
チを省くとともに、単純な検索条件の場合には本文サー
チも省くことができるため大規模な構造化文書に対して
も実用的な時間で構造指定検索を実現することが可能と
なる。
【図面の簡単な説明】
【図1】本発明を用いた第一の実施例の構成を示した図
である。
【図2】フルテキストサーチの従来方法における文書登
録方法を示した図である。
【図3】フルテキストサーチの従来方法における文書検
索方法を示した図である。
【図4】構造指定検索方法の従来方法を示した図であ
る。
【図5】従来方法における構造指定検索の処理フローを
示した図である。
【図6】従来方法における構造指定検索の処理を示した
図である。
【図7】本発明第一の実施例における凝縮本文作成処理
の例を示した図である。
【図8】本発明第一の実施例における検索処理の例を示
した図である。
【図9】技術報告書の論理構造の例を示した図である。
【図10】本発明第一の実施例における登録処理フロー
を示した図である。
【図11】論理構造識別子と凝縮本文識別番号の対応表
の例を示した図である。
【図12】本発明第一の実施例における登録処理の例を
示した図である。
【図13】本発明第一の実施例における検索処理フロー
の例を示した図である。
【図14】本発明第一の実施例における検索処理の例を
示した図である。
【図15】階層構造を持った構造化文書を対象としたと
きの論理構造識別子と論理構造識別番号の対応表の例を
示した図である。
【図16】本発明第二の実施例における検索処理の例を
示した図である。
【図17】本発明を用いた第三の実施例の構成を示した
図である。
【図18】本発明第三の実施例における検索処理の例を
示した図である。
【図19】本発明を用いた第四の実施例の構成を示した
図である。
【図20】本発明第四の実施例における検索処理の例を
示した図である。
【図21】本発明第五の実施例における検索処理の例を
示した図である。
【図22】本発明を用いた第六の実施例の構成を示した
図である。
【図23】本発明第六の実施例における検索処理の例を
示した図である。
【符号の説明】
1 ディスプレイ 2 キーボード 3 中央演算装置(CPU) 4 フロッピーディスクドライバ(FDD) 5 フロッピーディスク 6 主メモリ 7 磁気ディスク装置 8 バス 10 本文登録プログラム 11 論理構造別本文登録プログラム 20 論理構造別凝縮本文作成登録プログラム 21 凝縮本文作成登録プログラム 30 文字成分表作成登録プログラム 31 論理構造別文字成分表作成登録プログラム 40 文字成分表サーチプログラム 41 論理構造別文字成分表サーチプログラム 50 論理構造別凝縮本文サーチプログラム 51 凝縮本文サーチプログラム 60 本文サーチプログラム 61 論理構造別本文サーチプログラム 70 登録制御プログラム 80 検索制御プログラム 90 データエリア 100 検索用データベース格納領域 110 文字成分表格納領域 111 論理構造別文字成分表格納領域 120 論理構造別凝縮本文格納領域 121 凝縮本文格納領域 130 本文格納領域 131 論理構造別本文格納領域
───────────────────────────────────────────────────── フロントページの続き (72)発明者 水谷 奈津子 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 加藤 寛次 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 浅川 悟志 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録ステップと、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、それぞれ論理構造毎に単語
    を単位として本文を情報圧縮して凝縮本文を作成、登録
    する論理構造別凝縮本文作成・登録ステップと、 該登録文書中に現われる全ての文字を重複なく集めた文
    字成分表を作成、登録する文字成分表作成・登録ステッ
    プと、 検索時に、前記文字成分表を参照し、指定された検索条
    件式中の検索タームを構成する全ての文字が含まれる文
    書だけを抽出する文字成分表サーチステップと、 前記文字成分表サーチステップで抽出された文書に対
    し、各論理構造毎に作成した前記凝縮本文のうち検索対
    象に指定された論理構造に対応する凝縮本文中に、前記
    検索タームが含まれる文書を抽出する論理構造別凝縮本
    文サーチステップと、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記論理構造別凝縮本文
    サーチステップで抽出された文書に対し、その本文を参
    照し、前記複数の検索タームが含まれ、かつ該検索ター
    ム間に付与された位置関係等の検索条件が満たされるも
    ののみを抽出する本文サーチステップを有することを特
    徴とする構造化文書検索方法。
  2. 【請求項2】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録ステップと、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、それぞれ論理構造毎に単語
    を単位として本文を情報圧縮して凝縮本文を作成、登録
    する論理構造別凝縮本文作成・登録ステップと、 検索時に、各論理構造毎に作成した前記凝縮本文のうち
    検索対象に指定された論理構造に対応する凝縮本文中
    に、指定された検索条件式中の検索タームが含まれる文
    書を抽出する論理構造別凝縮本文サーチステップと、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記論理構造別凝縮本文
    サーチステップで抽出された文書に対し、その本文を参
    照し、前記複数の検索タームが含まれ、かつ該検索ター
    ム間に付与された位置関係等の検索条件が満たされるも
    ののみを抽出する本文サーチステップを有することを特
    徴とする構造化文書検索方法。
  3. 【請求項3】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録ステップと、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、それぞれ論理構造毎に単語
    を単位として本文を情報圧縮して凝縮本文を作成、登録
    する論理構造別凝縮本文作成・登録ステップと、 前記各論理構造に分割された文書の本文中に現われる全
    ての文字を重複なく集めた文字成分表をそれぞれ論理構
    造毎に作成、登録する論理構造別文字成分表作成・登録
    ステップと、 検索時に、各論理構造毎に作成した前記文字成分表のう
    ち検索対象に指定された論理構造に対応する文字成分表
    を参照し、指定された検索条件式中の検索タームを構成
    する全ての文字が含まれる文書だけを抽出する論理構造
    別文字成分表サーチステップと、 前記論理構造別文字成分表サーチステップで抽出された
    文書に対し、各論理構造毎に作成した前記凝縮本文のう
    ち検索対象に指定された論理構造に対応する凝縮本文中
    に、前記検索タームが含まれる文書を抽出する論理構造
    別凝縮本文サーチステップと、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記論理構造別凝縮本文
    サーチステップで抽出された文書に対し、その本文を参
    照し、前記複数の検索タームが含まれ、かつ該検索ター
    ム間に付与された位置関係等の検索条件が満たされるも
    ののみを抽出する本文サーチステップを有することを特
    徴とする構造化文書検索方法。
  4. 【請求項4】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録ステップと、 該登録文書の本文を単語を単位として情報圧縮した凝縮
    本文を作成、登録する凝縮本文作成・登録ステップと、 前記各論理構造に分割された文書の本文中に現われる全
    ての文字を重複なく集めた文字成分表をそれぞれ論理構
    造毎に作成、登録する論理構造別文字成分表作成・登録
    ステップと、 検索時に、各論理構造毎に作成した前記文字成分表のう
    ち検索対象に指定された論理構造に対応する文字成分表
    を参照し、指定された検索条件式中の検索タームを構成
    する全ての文字が含まれる文書だけを抽出する論理構造
    別文字成分表サーチステップと、 前記論理構造別文字成分表サーチステップで抽出された
    文書に対し、前記凝縮本文中に前記検索タームが含まれ
    る文書を抽出する凝縮本文サーチステップと、 前記凝縮本文サーチステップで抽出された文書に対し、
    その本文を参照し前記検索タームが前記検索対象に指定
    された論理構造中に含まれる文書を抽出する本文サーチ
    ステップを有することを特徴とする構造化文書検索方
    法。
  5. 【請求項5】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録ステップと、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、各論理構造に分割された文
    書の本文中に現われる全ての文字を重複なく集めた文字
    成分表をそれぞれ論理構造毎に作成、登録する論理構造
    別文字成分表作成・登録ステップと、 検索時に、各論理構造毎に作成した前記文字成分表のう
    ち検索対象に指定された論理構造に対応する文字成分表
    を参照し、指定された検索条件式中の検索タームを構成
    する全ての文字が含まれる文書だけを抽出する論理構造
    別文字成分表サーチステップと、 前記論理構造別文字成分表サーチステップで抽出された
    文書に対し、その本文を参照し前記検索タームが前記検
    索対象に指定された論理構造中に含まれる文書を抽出す
    る本文サーチステップを有することを特徴とする構造化
    文書検索方法。
  6. 【請求項6】 請求項1乃至請求項5のいずれかの請求
    項記載の構造化文書検索方法において、 登録時に、前記本文登録ステップとして、登録文書に対
    して本文の論理構造を識別しこれを論理構造毎に分割す
    るとともに、各論理構造に分割された本文を検索用デー
    タベースに登録する論理構造別本文登録ステップと、 検索時に、前記本文検索ステップとして、各論理構造毎
    に作成した前記本文のうち検索対象に指定された論理構
    造に対応する本文の中から、指定された検索条件が満た
    される文書を抽出する論理構造別本文サーチステップを
    有することを特徴とする構造化文書検索方法。
  7. 【請求項7】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録文書に対して本文の論理構造を識別しこ
    れを論理構造毎に分割するとともに、各論理構造に分割
    された本文を検索用データベースに登録する論理構造別
    本文登録ステップと、 該登録文書の本文を単語を単位として情報圧縮した凝縮
    本文を作成、登録する凝縮本文作成・登録ステップと、 該登録文書中に現われる全ての文字を重複なく集めた文
    字成分表を作成、登録する文字成分表作成・登録ステッ
    プと、 検索時に、前記文字成分表を参照し、指定された検索条
    件式中の検索タームを構成する全ての文字が含まれる文
    書だけを抽出する文字成分表サーチステップと、 前記文字成分表サーチステップで抽出された文書に対
    し、前記凝縮本文中に前記検索タームが含まれる文書を
    抽出する凝縮本文サーチステップと、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記凝縮本文サーチステ
    ップで抽出された文書に対し、各論理構造毎に作成した
    前記本文のうち検索対象に指定された論理構造に対応す
    る本文を参照し、前記複数の検索タームが含まれ、かつ
    該検索ターム間に付与された位置関係等の検索条件が満
    たされるもののみを抽出する本文サーチステップを有す
    ることを特徴とする構造化文書検索方法。
  8. 【請求項8】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録文書に対して本文の論理構造を識別しこ
    れを論理構造毎に分割するとともに、各論理構造に分割
    された本文を検索用データベースに登録する論理構造別
    本文登録ステップと、 該登録文書中に現われる全ての文字を重複なく集めた文
    字成分表を作成、登録する文字成分表作成・登録ステッ
    プと、 検索時に、前記文字成分表を参照し、指定された検索条
    件式中の検索タームを構成する全ての文字が含まれる文
    書だけを抽出する文字成分表サーチステップと、 前記文字成分表サーチステップで抽出された文書に対
    し、各論理構造毎に作成した前記本文のうち検索対象に
    指定された論理構造に対応する本文を参照し、前記複数
    の検索タームが含まれ、かつ該検索ターム間に付与され
    た位置関係等の検索条件が満たされるもののみを抽出す
    る本文サーチステップを有することを特徴とする構造化
    文書検索方法。
  9. 【請求項9】 本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索方法において、 登録時に、登録文書に対して本文の論理構造を識別しこ
    れを論理構造毎に分割するとともに、各論理構造に分割
    された本文を検索用データベースに登録する論理構造別
    本文登録ステップと、 該登録文書の本文を単語を単位として情報圧縮した凝縮
    本文を作成、登録する凝縮本文作成・登録ステップと、 検索時に、前記凝縮本文中に指定された検索条件式中の
    検索タームが含まれる文書を抽出する凝縮本文サーチス
    テップと、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記凝縮本文サーチステ
    ップで抽出された文書に対し、各論理構造毎に作成した
    前記本文のうち検索対象に指定された論理構造に対応す
    る本文を参照し、前記複数の検索タームが含まれ、かつ
    該検索ターム間に付与された位置関係等の検索条件が満
    たされるもののみを抽出する本文サーチステップを有す
    ることを特徴とする構造化文書検索方法。
  10. 【請求項10】 本文が複数の論理構造で構成される構
    造化文書に対して、目的とする論理構造を対象とした検
    索を行う構造化文書の検索装置において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録手段と、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、それぞれ論理構造毎に単語
    を単位として本文を情報圧縮して凝縮本文を作成、登録
    する論理構造別凝縮本文作成・登録手段と、 該登録文書中に現われる全ての文字を重複なく集めた文
    字成分表を作成、登録する文字成分表作成・登録手段
    と、 検索時に、前記文字成分表を参照し、指定された検索条
    件式中の検索タームを構成する全ての文字が含まれる文
    書だけを抽出する文字成分表サーチ手段と、 前記文字成分表サーチ手段で抽出された文書に対し、各
    論理構造毎に作成した前記凝縮本文のうち検索対象に指
    定された論理構造に対応する凝縮本文中に、前記検索タ
    ームが含まれる文書を抽出する論理構造別凝縮本文サー
    チ手段と、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記論理構造別凝縮本文
    サーチ手段で抽出された文書に対し、その本文を参照
    し、前記複数の検索タームが含まれ、かつ該検索ターム
    間に付与された位置関係等の検索条件が満たされるもの
    のみを抽出する本文サーチ手段を備えることを特徴とす
    る構造化文書検索装置。
  11. 【請求項11】 本文が複数の論理構造で構成される構
    造化文書に対して、目的とする論理構造を対象とした検
    索を行う構造化文書の検索装置において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録手段と、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、それぞれ論理構造毎に単語
    を単位として本文を情報圧縮して凝縮本文を作成、登録
    する論理構造別凝縮本文作成・登録手段と、 検索時に、各論理構造毎に作成した前記凝縮本文のうち
    検索対象に指定された論理構造に対応する凝縮本文中
    に、指定された検索条件式中の検索タームが含まれる文
    書を抽出する論理構造別凝縮本文サーチ手段と、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記論理構造別凝縮本文
    サーチ手段で抽出された文書に対し、その本文を参照
    し、前記複数の検索タームが含まれ、かつ該検索ターム
    間に付与された位置関係等の検索条件が満たされるもの
    のみを抽出する本文サーチ手段を備えることを特徴とす
    る構造化文書検索装置。
  12. 【請求項12】 本文が複数の論理構造で構成される構
    造化文書に対して、目的とする論理構造を対象とした検
    索を行う構造化文書の検索装置において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録手段と、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、それぞれ論理構造毎に単語
    を単位として本文を情報圧縮して凝縮本文を作成、登録
    する論理構造別凝縮本文作成・登録手段と、 前記各論理構造に分割された文書の本文中に現われる全
    ての文字を重複なく集めた文字成分表をそれぞれ論理構
    造毎に作成、登録する論理構造別文字成分表作成・登録
    手段と、 検索時に、各論理構造毎に作成した前記文字成分表のう
    ち検索対象に指定された論理構造に対応する文字成分表
    を参照し、指定された検索条件式中の検索タームを構成
    する全ての文字が含まれる文書だけを抽出する論理構造
    別文字成分表サーチ手段と、 前記論理構造別文字成分表サーチ手段で抽出された文書
    に対し、各論理構造毎に作成した前記凝縮本文のうち検
    索対象に指定された論理構造に対応する凝縮本文中に、
    前記検索タームが含まれる文書を抽出する論理構造別凝
    縮本文サーチ手段と、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記論理構造別凝縮本文
    サーチ手段で抽出された文書に対し、その本文を参照
    し、前記複数の検索タームが含まれ、かつ該検索ターム
    間に付与された位置関係等の検索条件が満たされるもの
    のみを抽出する本文サーチ手段を備えることを特徴とす
    る構造化文書検索装置。
  13. 【請求項13】本文が複数の論理構造で構成される構造
    化文書に対して、目的とする論理構造を対象とした検索
    を行う構造化文書の検索装置において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録手段と、 該登録文書の本文を単語を単位として情報圧縮した凝縮
    本文を作成、登録する凝縮本文作成・登録手段と、 前記各論理構造に分割された文書の本文中に現われる全
    ての文字を重複なく集めた文字成分表をそれぞれ論理構
    造毎に作成、登録する論理構造別文字成分表作成・登録
    手段と、 検索時に、各論理構造毎に作成した前記文字成分表のう
    ち検索対象に指定された論理構造に対応する文字成分表
    を参照し、指定された検索条件式中の検索タームを構成
    する全ての文字が含まれる文書だけを抽出する論理構造
    別文字成分表サーチ手段と、 前記論理構造別文字成分表サーチ手段で抽出された文書
    に対し、前記凝縮本文中に前記検索タームが含まれる文
    書を抽出する凝縮本文サーチ手段と、 前記凝縮本文サーチ手段で抽出された文書に対し、その
    本文を参照し前記検索タームが前記検索対象に指定され
    た論理構造中に含まれる文書を抽出する本文サーチ手段
    を備えることを特徴とする構造化文書検索装置。
  14. 【請求項14】 本文が複数の論理構造で構成される構
    造化文書に対して、目的とする論理構造を対象とした検
    索を行う構造化文書の検索装置において、 登録時に、登録対象文書を検索用データベースに格納す
    る本文登録手段と、 該登録文書に対して本文の論理構造を識別しこれを論理
    構造毎に分割するとともに、各論理構造に分割された文
    書の本文中に現われる全ての文字を重複なく集めた文字
    成分表をそれぞれ論理構造毎に作成、登録する論理構造
    別文字成分表作成・登録手段と、 検索時に、各論理構造毎に作成した前記文字成分表のう
    ち検索対象に指定された論理構造に対応する文字成分表
    を参照し、指定された検索条件式中の検索タームを構成
    する全ての文字が含まれる文書だけを抽出する論理構造
    別文字成分表サーチ手段と、 前記論理構造別文字成分表サーチ手段で抽出された文書
    に対し、その本文を参照し前記検索タームが前記検索対
    象に指定された論理構造中に含まれる文書を抽出する本
    文サーチ手段を備えることを特徴とする構造化文書検索
    装置。
  15. 【請求項15】 請求項10乃至請求項14のいずれか
    の請求項記載の構造化文書検索装置において 登録時に、前記本文登録手段として、登録文書に対して
    本文の論理構造を識別しこれを論理構造毎に分割すると
    ともに、各論理構造に分割された本文を検索用データベ
    ースに登録する論理構造別本文登録手段と、 検索時に、前記本文検索手段として、各論理構造毎に作
    成した前記本文のうち検索対象に指定された論理構造に
    対応する本文の中から、指定された検索条件が満たされ
    る文書を抽出する論理構造別本文サーチ手段を備えるこ
    とを特徴とする構造化文書検索装置。
  16. 【請求項16】 本文が複数の論理構造で構成される構
    造化文書に対して、目的とする論理構造を対象とした検
    索を行う構造化文書の検索装置において、 登録時に、登録文書に対して本文の論理構造を識別しこ
    れを論理構造毎に分割するとともに、各論理構造に分割
    された本文を検索用データベースに登録する論理構造別
    本文登録手段と、 該登録文書の本文を単語を単位として情報圧縮した凝縮
    本文を作成、登録する凝縮本文作成・登録手段と、 該登録文書中に現われる全ての文字を重複なく集めた文
    字成分表を作成、登録する文字成分表作成・登録手段
    と、 検索時に、前記文字成分表を参照し、指定された検索条
    件式中の検索タームを構成する全ての文字が含まれる文
    書だけを抽出する文字成分表サーチ手段と、 前記文字成分表サーチ手段で抽出された文書に対し、前
    記凝縮本文中に前記検索タームが含まれる文書を抽出す
    る凝縮本文サーチ手段と、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記凝縮本文サーチ手段
    で抽出された文書に対し、各論理構造毎に作成した前記
    本文のうち検索対象に指定された論理構造に対応する本
    文を参照し、前記複数の検索タームが含まれ、かつ該検
    索ターム間に付与された位置関係等の検索条件が満たさ
    れるもののみを抽出する本文サーチ手段を備えることを
    特徴とする構造化文書検索装置。
  17. 【請求項17】 本文が複数の論理構造で構成される構
    造化文書に対して、目的とする論理構造を対象とした検
    索を行う構造化文書の検索装置において、 登録時に、登録文書に対して本文の論理構造を識別しこ
    れを論理構造毎に分割するとともに、各論理構造に分割
    された本文を検索用データベースに登録する論理構造別
    本文登録手段と、 該登録文書中に現われる全ての文字を重複なく集めた文
    字成分表を作成、登録する文字成分表作成・登録手段
    と、 検索時に、前記文字成分表を参照し、指定された検索条
    件式中の検索タームを構成する全ての文字が含まれる文
    書だけを抽出する文字成分表サーチ手段と、 前記文字成分表サーチ手段で抽出された文書に対し、各
    論理構造毎に作成した前記本文のうち検索対象に指定さ
    れた論理構造に対応する本文を参照し、前記複数の検索
    タームが含まれ、かつ該検索ターム間に付与された位置
    関係等の検索条件が満たされるもののみを抽出する本文
    サーチ手段を備えることを特徴とする構造化文書検索装
    置。
  18. 【請求項18】 本文が複数の論理構造で構成される構
    造化文書に対して、目的とする論理構造を対象とした検
    索を行う構造化文書の検索装置において、 登録時に、登録文書に対して本文の論理構造を識別しこ
    れを論理構造毎に分割するとともに、各論理構造に分割
    された本文を検索用データベースに登録する論理構造別
    本文登録手段と、 該登録文書の本文を単語を単位として情報圧縮した凝縮
    本文を作成、登録する凝縮本文作成・登録手段と、 検索時に、前記凝縮本文中に指定された検索条件式中の
    検索タームが含まれる文書を抽出する凝縮本文サーチ手
    段と、 前記検索条件式として複数の検索タームの本文中での位
    置関係が指定された場合には、前記凝縮本文サーチ手段
    で抽出された文書に対し、各論理構造毎に作成した前記
    本文のうち検索対象に指定された論理構造に対応する本
    文を参照し、前記複数の検索タームが含まれ、かつ該検
    索ターム間に付与された位置関係等の検索条件が満たさ
    れるもののみを抽出する本文サーチ手段を備えることを
    特徴とする構造化文書検索装置。
JP6308201A 1994-06-29 1994-11-17 構造化文書検索方法及び装置 Pending JPH08147311A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP6308201A JPH08147311A (ja) 1994-11-17 1994-11-17 構造化文書検索方法及び装置
US08/495,232 US5745745A (en) 1994-06-29 1995-06-27 Text search method and apparatus for structured documents
US08/746,905 US5832476A (en) 1994-06-29 1996-11-19 Document searching method using forward and backward citation tables

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6308201A JPH08147311A (ja) 1994-11-17 1994-11-17 構造化文書検索方法及び装置

Publications (1)

Publication Number Publication Date
JPH08147311A true JPH08147311A (ja) 1996-06-07

Family

ID=17978141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6308201A Pending JPH08147311A (ja) 1994-06-29 1994-11-17 構造化文書検索方法及び装置

Country Status (1)

Country Link
JP (1) JPH08147311A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
JPH11316764A (ja) * 1998-04-30 1999-11-16 Hitachi Ltd 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6105022A (en) * 1997-02-26 2000-08-15 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
JP2000250930A (ja) * 1999-03-01 2000-09-14 Matsushita Electric Ind Co Ltd 構造化文書検索システム
US6377946B1 (en) * 1998-02-25 2002-04-23 Hitachi Ltd Document search method and apparatus and portable medium used therefor
WO2008142800A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
CN100449541C (zh) * 2004-02-27 2009-01-07 株式会社理光 文档组分析设备、文档组分析方法及文档组分析系统
JP2009266171A (ja) * 2008-04-30 2009-11-12 Xanavi Informatics Corp 情報検索装置およびナビゲーション装置
WO2013179348A1 (ja) * 2012-05-31 2013-12-05 富士通株式会社 インデックス生成プログラム及び検索プログラム
US8712977B2 (en) 2007-05-24 2014-04-29 Fujitsu Limited Computer product, information retrieval method, and information retrieval apparatus
EP3032439A1 (en) 2014-12-10 2016-06-15 Fujitsu Limited Compression computer program and search computer program
US9576008B2 (en) 2013-04-30 2017-02-21 Fujitsu Limited System and method for search indexing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174652A (ja) * 1989-07-24 1991-07-29 Hitachi Ltd データ検索方法および装置
JPH06301721A (ja) * 1993-04-19 1994-10-28 Hitachi Ltd 全文デ−タベ−ス検索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174652A (ja) * 1989-07-24 1991-07-29 Hitachi Ltd データ検索方法および装置
JPH06301721A (ja) * 1993-04-19 1994-10-28 Hitachi Ltd 全文デ−タベ−ス検索方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
US6105022A (en) * 1997-02-26 2000-08-15 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
US6226632B1 (en) 1997-02-26 2001-05-01 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
US6389413B2 (en) 1997-02-26 2002-05-14 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
US6434551B1 (en) 1997-02-26 2002-08-13 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
US6535875B2 (en) 1997-02-26 2003-03-18 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
US6745202B2 (en) 1997-02-26 2004-06-01 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
US6377946B1 (en) * 1998-02-25 2002-04-23 Hitachi Ltd Document search method and apparatus and portable medium used therefor
JPH11316764A (ja) * 1998-04-30 1999-11-16 Hitachi Ltd 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000250930A (ja) * 1999-03-01 2000-09-14 Matsushita Electric Ind Co Ltd 構造化文書検索システム
CN100449541C (zh) * 2004-02-27 2009-01-07 株式会社理光 文档组分析设备、文档组分析方法及文档组分析系统
WO2008142800A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JPWO2008142800A1 (ja) * 2007-05-24 2010-08-05 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
JP5007743B2 (ja) * 2007-05-24 2012-08-22 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US8595196B2 (en) 2007-05-24 2013-11-26 Fujitsu Limited Computer product, information retrieving apparatus, and information retrieval method
US8712977B2 (en) 2007-05-24 2014-04-29 Fujitsu Limited Computer product, information retrieval method, and information retrieval apparatus
JP2009266171A (ja) * 2008-04-30 2009-11-12 Xanavi Informatics Corp 情報検索装置およびナビゲーション装置
WO2013179348A1 (ja) * 2012-05-31 2013-12-05 富士通株式会社 インデックス生成プログラム及び検索プログラム
JPWO2013179348A1 (ja) * 2012-05-31 2016-01-14 富士通株式会社 インデックス生成プログラム及び検索プログラム
US9576008B2 (en) 2013-04-30 2017-02-21 Fujitsu Limited System and method for search indexing
US10303672B2 (en) 2013-04-30 2019-05-28 Fujitsu Limited System and method for search indexing
EP3032439A1 (en) 2014-12-10 2016-06-15 Fujitsu Limited Compression computer program and search computer program
US10311034B2 (en) 2014-12-10 2019-06-04 Fujitsu Limited Computer-readable recording medium

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
JP3696731B2 (ja) 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7516125B2 (en) Processor for fast contextual searching
JP2742115B2 (ja) 類似文書検索装置
US20090193005A1 (en) Processor for Fast Contextual Matching
JPH08241332A (ja) 全文登録語検索装置および方法
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP3022539B1 (ja) 文書検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH0628403A (ja) 文書検索装置
JPH0484271A (ja) 文書内情報検索装置
JP2002132791A (ja) 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP2001109754A (ja) 索引ファイルを使用した検索方法及びそれに用いる装置
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP3489237B2 (ja) 文書検索方法
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JPH06348757A (ja) 文書検索装置および方法
CN113918804A (zh) 商品信息检索系统及方法
JP3555181B2 (ja) 構造化文書検索方法
JPH08190571A (ja) 文書検索方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050823