JPH11110384A - 構造化文書検索表示方法及び装置 - Google Patents

構造化文書検索表示方法及び装置

Info

Publication number
JPH11110384A
JPH11110384A JP10198038A JP19803898A JPH11110384A JP H11110384 A JPH11110384 A JP H11110384A JP 10198038 A JP10198038 A JP 10198038A JP 19803898 A JP19803898 A JP 19803898A JP H11110384 A JPH11110384 A JP H11110384A
Authority
JP
Japan
Prior art keywords
document
search
information
structured document
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10198038A
Other languages
English (en)
Other versions
JP3832693B2 (ja
Inventor
Takuya Okamoto
卓哉 岡本
Hideko Murata
英子 村田
Toru Takahashi
亨 高橋
Noriyuki Yamazaki
山崎  紀之
Yuki Aoyama
ゆき 青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP19803898A priority Critical patent/JP3832693B2/ja
Publication of JPH11110384A publication Critical patent/JPH11110384A/ja
Application granted granted Critical
Publication of JP3832693B2 publication Critical patent/JP3832693B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索の障害になる構造情報を除去した文書に
対して検索し、検索結果の表示の際には元の構造化文書
に対してハイライト情報を付加した表示をする。 【解決手段】 ファイル114の構造化文書102を入力とし
て文書登録の処理を行い、構造解析された構造化文書
と、文書検索のための情報を生成し、夫々DB105、D
B106に格納する。次に入出力装置115から検索条件103
が入力されると、検索条件を解析し、文書検索用情報を
読み出して検索処理108を行う。検索結果としてヒット
した文書番号情報109とヒット範囲情報110を出力する。
表示処理は、まず、文書読み出しの処理107でヒットし
た文書番号の情報109に基づきDB105から対応する構造
解析済構造化文書111を読み出す。文書表示112の処理で
は、ヒット範囲情報110を基に、構造化文書111に対し
て、ヒット情報を埋め込み、ハイライト情報を付加した
表示用の構造化文書113を生成し、これを表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、SGML、HTM
Lなどによって作成された構造化文書に対する検索表示
技術に係り、特に構造化文書に対して検索を行い、検索
結果に対してハイライトして表示する構造化文書検索表
示方法および装置に関する。
【0002】
【従来の技術】ワードプロセッサなどの普及により、作
成される文書情報の電子化が進んでいる。これらの電子
化文書は、作成される機器、ソフトウェアによって個々
のフォーマットを持っており、別の機器あるいはソフト
ウェアでは、利用できない、あるいは、何らかの変換手
段を用意することが必要となっていた。このような文書
交換のための共通フォーマットとして、各種の構造化文
書が提案されている。これらの構造化文書は、文書の基
本構造である、章、節、項などの階層構造を定義できる
だけでなく、レイアウト情報を含む事も可能となってい
る。
【0003】構造化文書の記述言語として、標準化が進
められているのが、SGML(Standard Generalized M
arkup Language)=「標準一般化マークアップ言語」で
ある。SGMLは、構造化文書の構造情報をタグと呼ば
れる特定の文字列をテキスト中に埋め込むことで、文書
の構造を表現する方法を用いている。SGMLでは、タ
グの名称、内容、さらに、タグによって示される文書構
造をDTD(DocumentType Definition)=「文書型定
義」によって規定することができる。上記のSGML、
DTDについては、「実践SGML」(SGML懇談会
実用化WG監訳 1992年4月20日 財団法人 日本規格協
会発行)に詳細に説明されている。これらの構造化文書
を検索システムのDBに登録して、構造名を指定して検
索しようとする場合を想定する。登録しようとする各文
書のDTDが異なる場合、処理方法としては、文書ごと
に文書構造を解析して、指定された構造名がどの部分に
相当するかを解析した上で、検索対象の文字列を取得し
て検索する方法が考えられる。しかし、この方法は、多
くの処理時間を必要とする。また、構造名ごとに各文書
の対応する箇所をテーブルで持つなどの方法を用いる場
合、各文書に出現する構造名を全て一括して管理し、構
造名ごとに各文書の対応する部分を登録する必要があ
り、膨大な管理テーブルが必要となる。さらに、異なる
DTDが混在する文書を登録しても、検索対象の構造を
すべての文書が持っているとは限らず、また、例えば、
「要約」、「要旨」のように、同じ内容であっても異な
る構造名を付けた場合、これらの異なる構造名を全て指
定して、検索を行なわなければならず、現実的な構造化
文書の検索とは考えられない。
【0004】したがって、同じ文書型定義で生成された
文書だけを登録するように運用することが構造化文書の
検索では必要となる。あらかじめ指定された構造名につ
いて、各文書の対応する部分を管理する。検索の際に
は、検索対象の構造名および検索条件を指定すると、各
文書の指定された構造に対応する部分に検索条件に当て
はまる文字列が含まれると、検索条件にヒットしたと判
断される。
【0005】構造化文書の検索結果として、文書の内容
を表示するための機能の従来技術について以下に述べ
る。まず、第1の従来技術として、特開平8-339369「文
書表示装置および文書表示方法」が挙げられる。本従来
技術は、SGML文書の構造解析および構造表示用のレ
イアウトへの変換、さらに指定構造の内容の表示を行う
方法について述べられており、本技術を用いることで構
造化文書を構造単位で表示することが可能である。さら
に、本従来技術においては、指定構造のハイライト表示
(強調した表示のことであり、色、字体、字の大きさ等
を変えたり、アンダーラインを付したりする)の手段を
提供している。しかし、ここで示されているハイライト
表示手段とは、構造毎に表示方法をコントロールする手
段であり、構造単位に、表示の有無、ハイライト表示な
どの指定を行う。したがって、本従来技術において、構
造化文書の検索結果の表示を実現する際に必要となる、
ヒットした検索タームに対するハイライト表示を実現す
る方法が示されているわけではない。
【0006】また、第2の従来技術としては、特開平8-
212230「文書検索方法および文書検索装置」で構造化文
書以外の文書の検索結果に対するハイライト表示方法が
示されている。しかし、本従来技術は、表示するための
テキストに対するヒット範囲の取得およびハイライト情
報の付加を実現するのみであり、構造化文書の検索結果
として得られた文書に対してハイライト情報を付加する
機能を持つわけではない。
【0007】上記2つの従来技術を組み合わせただけで
は、構造化文書に対する検索結果として出力する文書に
対して、ヒットしたタームに対するハイライト情報の付
加を実現する事はできない。つまり、構造化文書におい
て、ハイライト表示を実現するためには、表示対象の文
書の作成時のDTDにハイライト用の構造情報を追加し
たDTDを作成する手段が必要となる。
【0008】構造化文書にハイライト情報を付加した際
の文書型定義の変更方法については、第3の従来技術で
ある、特願平8-159202「構造化文書の版管理方法および
装置」に、元のDTDに対して新たな構造を追加したD
TDを生成する方法が示されている。本従来技術を用い
る事により、ハイライト情報を付加した文書型定義を作
成することができる。
【0009】第1、第2の従来技術により、構造化文書
を構造が分かるように表示すること、さらに構造化され
ていない文書においては、ヒット範囲のハイライト表示
をする事が可能であることがわかる。さらに、第3の従
来技術を用いることにより、構造ごとに取得したハイラ
イト情報を付加した文書型定義が指定できる。これらの
技術を組み合わせることで、構造化文書の特定の構造の
検索結果に対してハイライト情報を付加した構造化文書
を出力し、ハイライト表示を実現する事ができる。
【0010】また、最新の情報を入手する方法として、
近年インターネットが爆発的に広まっている。インター
ネット上に存在する数多くの情報から自分が必要とする
情報をいち早く知る手段として、Web上の情報の検索機
能も充実してきた。HTML(Hyper Text Markup
Language)は、WWW(World Wide Web)上におい
て、文書内容を記述し、他の資源へのリンク情報、文書
のフォーマットを表現するための言語である。HTML
は、特定のDTDにしたがって記述されたSGMLとみ
なすことができる。このHTML文書を作成、加工する
手段として、HTMLエディタがある。また、作成され
たHTML文書を解析し、表示するHTMLブラウザが
存在する。HTMLブラウザには、検索する文字列(以
下、「検索ターム」という。)を入力し、表示中のHT
ML文書に対して検索を行い、ヒットした箇所を反転表
示などの強調表示を行う機能を持つものがある。SGM
Lについても、レイアウト表示し、加工する機能を持つ
SGMLブラウザが存在する。SGMLブラウザには、
ブラウザ上に表示中のSGML文書に対して、全文検索
し、検索条件に適合する箇所をハイライト表示する。こ
れらのブラウザでは、文書表示の際に文書の解析を行な
い、表示用のデータを作成している。検索はこのブラウ
ザ上の表示用のデータに対して検索を行ない、画面上で
ヒット位置をハイライト表示している。
【0011】
【発明が解決しようとする課題】上記の従来技術の組み
合わせにより、与えられた構造化文書に対して、構造毎
に検索した結果を、個々にハイライト表示することが可
能である。しかし、構造情報には、章、節、項のように
文書構造そのものを表わしているものだけでなく、アン
ダーラインの付加などレイアウト用の情報も含まれる場
合がある。これらの構造情報は、必ずしも文の切れ目で
挿入されるとは限らない。文書検索する際には、このよ
うな構造情報を除去しなければ、文書中に含まれている
語であるにもかかわらず、検索できないという問題があ
る。このように、検索時に不要となる構造情報を除去す
る処理を、以下の説明では「正規化処理」と呼ぶ。正規
化処理を行なった構造化文書を検索対象とし、元の構造
化文書に対してハイライト情報を付加した表示を実現す
るためには、正規化処理を行なった構造化文書に対し
て、上記の従来技術を用いた方法を利用するだけでは実
現できない。つまり、この方法では、検索時には、元の
文書の構造情報の一部しか残っていないため、この構造
情報に対してハイライト情報を付加するだけでは、元の
構造化文書に対してヒットした検索タームのハイライト
表示を実現することにならないのである。
【0012】一方、HTML文書は、ブラウザ依存の独
自の拡張により複数のDTDに基づいて作成されたHT
ML文書が存在し、またどのDTDに基づいて記述され
ているかがわからない。さらに、SGMLの文法に基づ
いて正しく記述されていない文書も数多く存在するた
め、SGMLと同様の方法で構造解析することは困難で
ある。また、(1)プレーンなテキスト文書に対して
は、検索処理を行い、検索ヒット位置の前後にハイライ
ト用のタグを挿入したHTML文書を生成することによ
り、HTMLブラウザ上で、検索ヒットした文字列を強
調表示することが可能である。しかし、タグ内の文字列
が検索タームと一致した場合、この検索ヒット位置の前
後に対して、ハイライト用のタグを挿入すると、元々の
HTMLのタグの内容が変更されるため、正しく表示さ
れなくなるといった問題が起こる。さらに、(2)HT
MLブラウザ上で連続して表示されている文字列の途中
に、レイアウトを表現するタグが挿入されている場合が
あり、HTML文書に対して検索する場合は、タグを除
いて検索しなければ正しく検索することができない。例
えば、HTML文書中に「今月の<FONT SIZE
=+1>特集</FONT>記事」と書かれており、検
索タームを「特集記事」とした場合、HTML文書中で
は、「特集」と「記事」の間に文字を拡大して表示する
ための「</FONT>」のタグが記述されているた
め、タグを飛ばして検索しなければ正しく検索すること
ができない。
【0013】本発明の目的は、正規化処理された文書に
対する検索結果から、元の文書に対するハイライト情報
の付加を実現するために、検索用の文書から、元の文書
のハイライト範囲情報への変換を実現することにある。
本発明の他の目的は、正規化後のヒットタームが、元の
文書において複数の構造にまたがっている場合、各構造
ごとに、ヒットした範囲に対してハイライト情報を付加
し、ハイライト表示することにある。本発明のさらに他
の目的は、ヒットしたタームが含まれる構造全体のハイ
ライト表示、あるいは、出現位置の距離条件を満たした
2つの検索タームを含む領域全体をハイライト表示する
などの処理をするため、階層的なハイライト情報を付加
し、異なるハイライト表示形態によりハイライト表示す
ることにある。本発明のさらに他の目的は、構造化文書
の部分構造だけを抽出して表示する場合に、このような
部分構造の内容についても、ハイライト情報を付加し、
ハイライト表示することにある。本発明のさらに他の目
的は、文書構造を示すHTMLタグが存在する文書から
文字列を検索する場合、設定した検索タームと一致した
文字列がHTMLタグ内に存在する場合や、検索ターム
がHTMLタグをまたがって記述されている場合でも検
索を可能にすることにある。本発明のさらに他の目的
は、検索条件にヒットした文字列をハイライト表示可能
にすることにある。
【0014】
【課題を解決する為の手段】上記の課題を解決するた
め、本発明は、処理装置と、記憶装置と、ファイル装置
と、入出力装置を備える情報処理システムにおける構造
化文書検索表示方法であり、前記処理装置は、入力され
た構造化文書を解析して解析済み構造化文書を生成し、
該解析済み構造化文書を前記ファイル装置に格納し、該
解析済み構造化文書から各構造内の内容文字列情報を取
得して文書検索用情報を生成し、前記ファイル装置に格
納し、入力された検索条件により該ファイル装置に格納
された文書検索用情報を検索し、該検索条件を満たす内
容文字列情報があるか否か判定し、該検索条件を満たす
とみなされる内容文字列情報を持つ文書の解析済み構造
化文書を取得し、かつ該文書の検索条件を満たす範囲の
情報を取得し、該文書の検索条件を満たす範囲をハイラ
イト表示するための表示用文書型定義(表示用DTD)
を作成し、前記文書の検索条件を満たす範囲の情報と表
示用文書型定義に基づき構造化文書中にハイライト表示
するための情報を付加した表示用構造化文書を作成する
ようにしている。
【0015】また、処理装置と、記憶装置と、ファイル
装置と、入出力装置を備える情報処理システムにおける
構造化文書検索表示方法であり、前記処理装置は、入力
された構造化文書を解析して解析済み構造化文書を生成
し、該解析済み構造化文書を前記ファイル装置に格納
し、前記入力された構造化文書から予め与えられた検索
対象外の構造情報を除去した文書検索用の正規化処理済
み構造化文書を生成し、かつ該除去された構造情報を復
元するための復元情報を生成し、前記ファイル装置に格
納し、入力された検索条件により該ファイル装置に格納
された正規化処理済み構造化文書を検索し、該検索条件
を満たす正規化処理済み構造化文書があるか否か判定
し、該検索条件を満たすとみなされる文書の正規化処理
済み構造化文書を取得し、かつ該文書の検索条件を満た
す範囲の情報を取得し、該文書の検索条件を満たす範囲
をハイライト表示するための表示用文書型定義を作成
し、前記検索により取得された正規化処理済み構造化文
書を前記復元情報により、除去された構造情報を有する
構造化文書に復元し、前記文書の検索条件を満たす範囲
の情報と表示用文書型定義に基づき該復元された構造化
文書中にハイライト表示するための情報を付加した表示
用構造化文書を作成するようにしている。
【0016】また、処理装置と、記憶装置と、ファイル
装置と、入出力装置を備える情報処理システムにおける
構造化文書検索表示方法であり、前記処理装置は、入力
された構造化文書を解析して解析済み構造化文書を生成
し、該解析済み構造化文書を前記ファイル装置に格納
し、該解析済み構造化文書から各構造内の内容文字列情
報を取得して文書検索用情報を生成し、前記ファイル装
置に格納し、入力された検索条件により該ファイル装置
に格納された文書検索用情報を検索し、該検索条件を満
たす内容文字列情報があるか否か判定し、該検索条件を
満たすとみなされる内容文字列情報を持つ文書の解析済
み構造化文書を取得し、かつ該文書の検索条件を満たす
範囲の情報を取得し、入力された表示対象の部分構造を
取得し、該表示対象の部分構造中の前記検索条件を満た
す範囲をハイライト表示するための部分構造表示用文書
型定義を作成し、該表示対象の部分構造に対して、前記
文書の検索条件を満たす範囲の情報と部分構造表示用文
書型定義に基づき構造化文書中にハイライト表示するた
めの情報を付加した部分構造表示用構造化文書を作成す
るようにしている。
【0017】また、処理装置と、記憶装置と、ファイル
装置と、入出力装置を備える構造化文書検索表示装置で
あり、前記処理装置は、入力された構造化文書を解析し
て解析済み構造化文書を生成し、該解析済み構造化文書
を前記ファイル装置に格納する手段と、前記入力された
構造化文書から予め与えられた検索対象外の構造情報を
除去した文書検索用の正規化処理済み構造化文書を生成
し、前記ファイル装置に格納する手段と、該除去された
構造情報を復元するための復元情報を生成し、前記ファ
イル装置に格納する手段と、入力された検索条件により
該ファイル装置に格納された正規化処理済み構造化文書
を検索し、該検索条件を満たす正規化処理済み構造化文
書があるか否か判定し、該検索条件を満たすとみなされ
る正規化処理済み構造化文書の情報を取得し、かつ該文
書の検索条件を満たす範囲の情報を取得する手段と、該
文書の検索条件を満たす範囲をハイライト表示するため
の表示用文書型定義を作成する手段と、前記検索により
取得された正規化処理済み構造化文書を前記復元情報に
より、除去された構造情報を有する構造化文書に復元す
る手段と、前記文書の検索条件を満たす範囲の情報と表
示用文書型定義に基づき該復元された構造化文書中にハ
イライト表示するための情報を付加した表示用構造化文
書を作成する手段を有するようにしている。
【0018】また、処理装置と、記憶装置と、ファイル
装置と、入出力装置を備える情報処理システムにおける
構造化文書検索表示方法であり、前記処理装置は、入力
された特定の文書型定義に従う構造化文書をタグを残し
たままプレーンテキストとして前記ファイル装置に格納
し、入力された検索条件により該ファイル装置に格納さ
れたプレーンテキストを検索し、該検索条件を満たす範
囲があるか否か判定し、該検索条件を満たす範囲を持つ
文書をプレーンテキストとして取得し、かつ該文書の検
索条件を満たす範囲の情報を取得し、前記特定の文書型
定義を表示用文書型定義とし、前記入力された構造化文
書に対して前記検索条件を満たす範囲に対して該表示用
文書型定義に基づくハイライト表示するための情報を付
加した表示用構造化文書を作成するようにしている。
【0019】また、処理装置と、記憶装置と、ファイル
装置と、入出力装置を備える情報処理システムにおける
構造化文書検索表示方法であり、前記処理装置は、入力
された特定の文書型定義に従う構造化文書をタグを残し
たままプレーンテキストとして前記ファイル装置に格納
し、入力された検索条件により該ファイル装置に格納さ
れたプレーンテキストを検索し、該検索条件を満たす範
囲があるか否か判定し、該検索条件を満たす範囲を持つ
文書をプレーンテキストとして取得し、かつ該文書の検
索条件を満たす範囲の情報を取得し、検索条件を満たす
範囲が構造化文書において文書構造を示すタグの属性情
報中に存在するか否かを判定し、該検索条件を満たす範
囲がタグの属性情報中に存在する場合は、構造化文書の
内容文字列中に該検索条件を満たす範囲の文字列を含む
文字列を追加し、該文字列において該検索条件を満たす
範囲に対して前記特定の文書型定義に基づくハイライト
表示するための情報を付加した表示用構造化文書を作成
するようにしている。
【0020】また、処理装置と、記憶装置と、ファイル
装置と、入出力装置を備える情報処理システムにおける
構造化文書検索表示方法であり、前記処理装置は、入力
された特定の文書型定義に従う構造化文書をタグを残し
たままプレーンテキストとして前記ファイル装置に格納
し、予め指定された特定のタグを構成する文字列を検索
対象から除去し、該特定のタグを構成する文字列の前後
を連結した文字列に対して検索することで得られる検索
条件を満たす範囲に対して、前記特定の文書型定義に基
づくハイライト表示するための情報を付加した表示用構
造化文書を作成するようにしている。
【0021】また、処理装置と、記憶装置と、ファイル
装置と、入出力装置を備える情報処理システムにおける
構造化文書検索表示方法であり、前記処理装置は、入力
された特定の文書型定義に従う構造化文書をタグを残し
たままプレーンテキストとして前記ファイル装置に格納
し、入力された検索条件により該ファイル装置にプレー
ンテキストとして格納された構造化文書を検索する際
に、検索条件を満たす範囲が予め指定された文書構造の
開始を示す特定のタグと文書構造の終わりを示す特定の
タグに挟まれるか否かを判定し、挟まれる場合は、文書
構造の開始を示す特定のタグより前もしくは文書構造の
終わりを示すタグより後ろの内容文字列中に、該検索条
件を満たす範囲の文字列を含む文字列を追加し、該文字
列において該検索条件を満たす範囲に対して前記特定の
文書型定義に基づくハイライト表示するための情報を付
加した表示用構造化文書を作成するようにしている。
【0022】
【発明の実施の形態】第1の実施例の概略の処理ブロッ
ク図を図1に示す。101は、構造化文書検索表示装置
である。登録データファイル(114)に格納された、
構造化文書(102)を入力として文書登録の処理を行
う事で、構造解析された構造化文書(図3により後述す
る)と、文書検索のための文書検索用情報(図5により
後述)が生成される。構造解析された構造化文書は、構
造化文書データベース(以下、データベースをDBと記
述する。)(105)に格納し、検索用情報は、検索用
情報DB(106)に格納される。次に入出力装置(1
15)から、検索条件(103)が入力されると、検索
条件を解析し、文書検索用情報を読み出して、検索処理
(108)を行う。検索結果としては、ヒットした文書
番号の情報(109)とヒット範囲の情報(110)を
出力する。表示処理は、まず、文書読み出しの処理(1
07)で、ヒットした文書番号の情報(109)に基づ
いて、構造化文書DB(105)から、指定された構造
解析済構造化文書(111)を読み出す。文書表示(1
12)の処理では、ヒット範囲情報(110)を基に、
構造解析済構造化文書(111)に対して、ヒット情報
を埋め込んだ表示用の構造化文書(113)を生成す
る。生成された表示用の構造化文書は、入出力装置(1
15)に表示される。
【0023】図2に構造化文書検索表示の処理フローを
示す。まず、構造化文書の登録処理を行なう(20
1)。登録処理の内容については、図4のフローチャー
トを用いて後述する。次に、指定された検索条件を用い
て構造化文書を検索する(202)。検索処理の詳細
は、図6のフローチャートを用いて後述する。検索結果
としては、ヒット文書数とヒット文書を識別する番号と
各文書毎の検索タームのヒット範囲がある。ヒット範囲
の情報は、ヒットした検索タームが含まれる構造を識別
するための構造ID(構造識別子)と構造内でのヒット
開始位置、テキスト長の情報を出力する。構造化文書検
索の処理で、ヒット文書数が1以上であれば(20
3)、順次、ヒットした文書の内容を読み出し(20
4)、読み出した文書のヒット範囲情報を取得し(20
5)、ハイライト表示を実現する(206)。表示処理
の詳細については、図9を用いて後述する。さらにヒッ
トした文書があれば、204から206の処理を繰り返
す。表示処理を終えると、次の検索処理の有無を確認し
(208)、検索条件がなければ、処理を終え、検索条
件があれば、202の処理に戻って構造化文書の検索表
示処理を繰り返す。
【0024】図3は、構造化文書登録処理の概要を示し
た図である。まず、SGML文書(301)の構造を解
析し、木構造(302)を生成する。生成した木構造の
各項目の内容をテーブル形式のデータ(303)として
出力し、これを解析済み構造化文書として登録する。こ
こで、CDATAとは文字列データのことである。
【0025】図4は構造化文書登録処理のフローチャー
トである。まず、構造化文書を解析する(401)。解
析された構造化文書を解析済構造化文書として登録する
(402)。構造化文書の解析には、DTDを利用して
SGML文書を解析するSGMLパーサを用いることで
実現できる。次に、解析された構造化文書に対して、検
索に不要な構造を除去するための正規化処理を行なう
(403)。正規化処理の手順については、図12を用
いて後述する。そして、正規化処理した構造化文書を、
文書データベースに登録する(404)。さらに、デー
タベースに登録された解析済み構造化文書から、構造化
文書の検索に必要な検索用情報として、構造情報、構造
内のテキストの情報を取り出す(405)。ここで得ら
れた検索用情報を検索用情報DB(106)に登録する
(406)。ここで、登録される検索用情報は、SGM
L文書中の構造情報(タグ)を除去し、各構造ごとに構
造情報とその内容を表すテキスト列を格納したものであ
る。図5に上記検索用情報と正規化した構造化文書から
なる検索用のテキストの格納例を示す。上記処理を登録
文書に対して繰り返し実行し、登録文書が無くなったと
き処理を終了する(407)。登録内容は登録文書の全
文検索に用いる。図5は、検索用のテキストとして、出
力される内容の例である。このように文書構造の構造I
Dとテキスト列を対応付けるテーブルと文字列情報から
なる情報を検索用のテキストとして登録する。検索の際
には、構造IDを元に必要な文字列を抽出して検索を行
なう。
【0026】図6は、図2の構造化文書検索表示処理の
202ステップの構造化文書検索の処理フローである。
検索条件は、「検索対象の構造指定:検索条件式」のよ
うに与えられる。検索対象の構造は、例えば、「<文書.
タイトル>」のように、 '<' と '>' で囲まれ、上位構
造(例の場合、「文書」)と下位構造(例の場合、「タ
イトル」)は '.' で区切られ、階層構造中のどの構造
に対して、検索を行なうかが指定される。検索条件式
は、例えば、and("検索"、"文書")では、"検索"と"文書"
が両方出現する条件を示しており、C<=10("検索","文
書")では、"検索"と"文書"が10文字以下の文字を挟ん
で出現する条件を示している。
【0027】構造化文書検索は、まず、ヒット文書数の
カウンタをクリアし(601)、次に、検索条件中の検
索対象の構造指定の部分の解析を行なう(602)。ス
テップ602では、<文書.タイトル>のように構造を指
定する文字列から、解析済み構造化文書の対応する構造
を一意に特定できる構造ID(構造識別子)を取得す
る。構造ID取得の処理内容は、図7のフローチャート
を用いて後述する。次に、検索対象として登録された文
書(検索用のテキスト)を読み出し、ステップ602で
取得した指定構造IDに対応するテキスト部分を取得す
る(603)。検索条件から、検索ターム、さらに複数
の検索タームの出現の論理積、距離条件などの論理条件
からなる検索条件式を解析し(604)、得られた検索
タームによりステップ603で取得されたテキスト部分
の全文検索を行ない、検索条件式の論理条件を満たすか
否かの判定、すなわち、検索条件にヒットしたか否か判
定する(605)。検索条件にヒットすると(60
6)、検索結果として文書の番号、検索タームが含まれ
る構造のIDと、構造中の検索タームがヒットした範囲
の情報を出力する(607)。さらに、ヒットした文書
の数をカウントし(608)、本処理を全文書について
行なった後(609)、ヒット文書数を出力する(61
0)。
【0028】図7は、図6の検索条件の解析における、
構造指定内容の解析処理のフローチャートである。ま
ず、文書の最上位構造を取得する(701)。次に最上
位構造から順に下位構造を取得する。取得した構造が指
定構造の下位構造であれば(703)、その構造を検索
対象の構造として構造IDを出力する(704)。下位
構造があれば(705)、さらにその下位構造に対し
て、同様に指定された構造の下位構造か否かを判定し、
下位構造であれば構造IDを出力する処理(706)を
下位構造がなくなるまで繰り返し(707)、全ての構
造について処理が終われば、検索対象の構造IDの一覧
が得られる。図8に検索対象となる構造ID一覧の出力
形式を示す。検索対象となる構造IDの数(801)
と、検索対象として得られた数のID(802)が出力
される。
【0029】図9は、表示処理の内容を示すフローチャ
ートである。本フローチャートを用いて、表示処理の内
容を以下に述べる。まず、検索対象の構造化文書は、検
索に不要な構造を除去する正規化処理を行なった後の文
書であるため、検索によりヒットした構造およびヒット
範囲情報は、必ずしも登録した正規化していない構造化
文書における構造および範囲と一致するとは限らない
(図3の木構造302と図12の木構造1203を参
照)。表示に用いる文書は、登録した正規化していない
構造化文書に対して、ヒットした範囲にハイライト情報
を付加した文書となる。したがって、まず、登録文書の
DTDから、表示に用いる文書用の表示用DTDの作成
処理を行なう(901)。表示用DTD作成処理の内容
については、図11を用いて後述する。さらに、正規化
後の構造化文書に対して得られたヒット範囲について
は、正規化前の登録した構造化文書における構造および
ハイライト範囲情報に変換する(902)。正規化後の
文書のヒット範囲情報の正規化前の文書のハイライト範
囲情報への変換処理の内容については、図15を用いて
後述する。
【0030】次に表示に用いる解析済み文書の最上位構
造の情報を読み出し、903から911の処理を順に繰
り返すことで、表示用の文書の出力処理を行なう。ま
ず、構造情報を読み出し(903)、最初に構造の開始
タグを出力する(904)。さらに本構造に下位構造が
存在するなら(905)、下位構造に対して、表示処理
(903から911の処理)を再帰的に行なう(90
6)。下位構造がなくなれば、構造の終わりを示すタグ
を出力する処理(911)に移る。
【0031】ここで、下位構造とは、文字列を含む。し
たがって、 <文書> <タイトル> 構造化文書 </タイトル> <本文> <強調>構造化文書</強調>の検索は、・・・ </本文> </文書> などの構造化文書については、<タイトル>の下位構造と
して、文字列(SGMLでは、CDATAと表現される)と
いう構造が存在することになる。CDATAは、下位構造を
持たず、文字列情報として、上記の例の場合、「構造化
文書」という内容を持つのである。<本文>についても同
様に、<強調>という構造と、「の検索は、・・・」とい
う内容を持つ文字列が下位構造として存在することにな
る。
【0032】905のステップで下位構造が存在しない
と判定された場合は、文字列の構造であるため、本構造
の内容に対して、ヒット範囲情報と比較し(908)、
ヒット範囲が含まれる構造であれば、ハイライト処理を
行なう(909)。ハイライト処理については、図16
を用いて後述する。ヒット範囲が含まれない文字列であ
れば、内容をそのままテキストとして出力する(91
0)。出力内容が文字列の場合は、904、911のス
テップで、開始タグ、終了タグは出力しない。上記の処
理で構造ごとのハイライト表示を実現する。さらに処理
すべき構造があれば、903からの処理を繰り返す(9
12)。
【0033】図10は、登録用DTD(1001)と、
登録するSGML文書(文書インスタンス)の例(10
02)、ハイライト表示に用いる表示用DTD(100
3)と、表示用に変換したSGML文書(文書インスタ
ンス)の例(1004)である。なお、DTD(Docume
nt Type Definition)とは、従来の技術の項で述べたよ
うに、タグの名称、内容、さらに、タグによって示され
る文書構造を規定する文書型定義である。DTDにおい
て、構造を表現する場合は、"<!ELEMENT タグ名"に続い
て、"-"または"O"が2つ並べられる。最初の"-"また
は、"O"は、構造開始タグの省略の可否を示しており、"
-"の場合は、省略できない。"O"の場合は省略可能であ
る。2つめの"-"または"O"は、終了タグの省略の可否を
示している。次に、内容モデルとして、下位構造に出現
しうる構造が記述される。図10のDTD1001の
(タイトル,本文)の場合、タイトルは下位構造1、本
文は下位構造2である。"(下位構造1,下位構造2?)"の
ように記述される場合は、下位構造1の後に下位構造2
がそれぞれ1回だけ出現することを示し、"?"は、下位構
造2は、出現しなくても良いことを示している。"(下位
構造1|下位構造2)*"の場合は、下位構造1、2が順序
不同で複数回(0回を含む)出現することを示す。ここ
で、内容モデルに"CDATA"と記述されている場合は、そ
の構造中には、1つだけの文字列が存在することを示し
ている。#PCDATAも文字列を表わしているが、繰り返し
出現が可能である。文字列と、構造が混在する場合は、
#PCDATAを用いる必要がある。
【0034】内容モデルに、"CDATA"の代わりに"RCDAT
A"が指定される場合がある。CDATAとRCDATAの違いは、C
DATAが、構造内にエンティティ参照("&xxxx;"のように
記述される。外字への置き換えなどに利用される。)が
出現した場合に、エンティティ(外字など)への変換を
行なわないで、出現した文字列のまま、文字列として扱
うのである。"RCDATA"が指定された場合は、エンティテ
ィへの変換を行なった文字列を、文字列として扱う。
【0035】ハイライト表示するためには、文字列に対
してハイライト情報を付加できるように、文書構造を変
更する必要がある。1003にアンダーラインで示した
変更点のように、各構造の文字列部分に対しては、全て
ハイライト表示用の構造情報を追加し、さらにハイライ
ト表示用の構造情報(<!ELEMENT ハイライト - -(#P
CDATA)>を付加する必要がある。元のDTDで内容モデ
ルの"CDATA"となっている部分が、"(#PCDATA|ハイライ
ト)*"に変更されているのは、CDATAがその構造中には、
文字列が1つしか存在しないことを示しており、繰り返
しの要素としては出現し得ないためである。ハイライト
用のタグが付加されるため、元の構造がCDATAであって
も、#PCDATAに変更した上で、ハイライトが繰り返し出
現することが可能なように、"(#PCDATA|ハイライト)*"
とするのである。
【0036】図11は、登録用のDTDからハイライト
表示用のDTDを作成するための処理内容を表すフロー
チャートである。まず、登録用DTDを読み出し(11
01)、DTDの内容を解析して、ELEMENT項目を取得
する(1102)。ELEMENT項目の内容モデル中に、CDA
TA、RCDATA、#PCDATAなどが指定されている場合は、全
て、ハイライト用の構造を付加できるように、内容モデ
ルを変更する(1103−1106)。内容モデルの変
更は、まず、"CDATA"、"RCDATA",を"#PCDATA"に変更し
た上で、"#PCDATA"を"(#PCDATA|ハイライト)*"のよう
に、ハイライトタグで囲まれた文字列と、囲まれていな
い文字列が繰り返し出現するように定義する。元の内容
モデルが、"(#PCDATA|アンダーライン)*"のように複数
の構造が、繰り返し出現するように記述されている場合
は、"(#PCDATA|アンダーライン|ハイライト)*"のよう
に、ハイライト構造が出現することを記述するだけで良
い。すべてのELEMENT宣言について変更処理が終わると
(1107)、ハイライト用の構造の定義として、"<!E
LEMENT ハイライト - - CDATA>"を追加する(110
8)。以上の処理で、図10の1003に示したハイラ
イト表示用のDTDが生成される。
【0037】図12は、構造化文書の正規化処理の内容
を示した図である。図10の1001に示した構造化文
書を木構造に表わすと1201のようになる。不要な構
造として"アンダーライン"が指定されている場合、正規
化処理の最初の処理として、1202に示すように、ア
ンダーラインという構造を削除し、アンダーラインの下
位構造に含まれる文字列は、直接上位構造である"本文"
の要素とする。さらに、"本文"の下位構造として、文字
列(CDATA)が2つ並んでいるため、1203のよう
に、文字列を連結して、1つの文字列データとする。
【0038】図13は、正規化処理前の構造化文書(1
301)、正規化処理後の構造化文書(1302)の内
容を解析し、テーブル形式に変換して出力した内容であ
る。1303は、構造情報を格納したテーブルであり、
0から6までの構造IDが付けられた構造は、正規化前
の構造の情報である。0が最上位構造であり、下位構造
の情報をたどっていくことで、文書構造が分かる。7か
ら9までの構造ID(構造識別子)が付けられた構造
は、正規化後に変更、追加された構造である。7が最上
位構造であり、下位構造を辿ると正規化後の文書構造が
分かる。ここで、変更のない構造である"タイトル"以下
の構造である構造ID1,2の構造情報はそのまま残さ
れる。さらに、正規化処理で追加された構造ID7から
9の構造については、1304の正規化対応テーブルに
より、正規化前の構造との対応関係が格納される。
【0039】図14は、正規化後の構造化文書に対し
て、検索した際のヒット範囲の情報を正規化前の構造化
文書における範囲情報へ変換した結果を示している。1
401の正規化後の構造情報に基づいて得られたヒット
範囲の情報を、図13の1304の正規化対応テーブル
の情報を利用して、正規化前の構造化文書における範囲
情報(1402)に変換している。本図の例では、正規
化後の構造ID9のヒット範囲が、正規化前の文書で
は、構造ID5と6に分かれているため、2つの構造中
のハイライト対象の範囲情報に変更している。
【0040】図15に、図9の902ステップの正規化
処理後の構造化文書に対するヒット範囲情報を正規化処
理前の構造化文書に対するヒット範囲情報に変換する処
理内容のフローチャートを示す。まず、正規化後のヒッ
ト範囲情報を順次読み出し(1501)、ヒット範囲情
報の構造IDが、正規化後に追加されたものか、正規化
前から存在するものであるかを判定する(1502)。
正規化前から存在する構造IDであれば変更はないた
め、そのまま、正規化前のヒット範囲情報として出力す
る(1503)。正規化後に作成された構造IDであれ
ば、図14の正規化対応テーブルの正規化後構造IDを
辿り、文字範囲の情報から、対応する正規化前の構造I
Dと、ヒット範囲を得る(1504)。正規化処理前の
構造におけるヒット範囲を得たら、これを正規化前のヒ
ット範囲として出力する(1505)。全てのヒット範
囲情報について処理を終える(1506)と、表示用の
ハイライト範囲情報が得られる。
【0041】図16は、図9の909ステップのハイラ
イト処理のフローチャートである。まず、文書の先頭か
ら、ハイライト開始までの文字列を出力する(160
1)。次に、ハイライト表示に用いる構造の開始タグを
出力する(1602)。さらに、ハイライト範囲の文字
列を出力し(1603)、ハイライト表示に用いる構造
の終了タグを出力する(1604)。すべてのハイライ
ト処理を終えると(1605)、残ったテキストを出力
し、ハイライト処理を終わる(1606)。
【0042】次に第2の実施例として、ヒット条件によ
って、ハイライト表示方法を変更する処理、さらに複数
のハイライト処理を階層的に行なう場合の処理について
説明する。概略処理ブロック図は、図1と同じである。
図17は、本実施例で用いるヒット範囲情報(170
1)である。図14に示したヒット範囲情報に対して追
加された情報は、各ヒットした条件を格納する領域(1
702)が追加されていることである。さらに、図14
では、ヒットした検索タームの範囲だけを出力している
が、検索条件によって、ヒットした検索タームに加え
て、その検索タームが含まれる構造全体に対するハイラ
イトなど、検索タームを含む領域を指定することを可能
としている。これらのヒット条件の情報は、構造化文書
の検索処理時に付加する。ここでは、検索条件に用いら
れた距離条件、各検索タームの出現頻度などの情報を付
加しているが、検索ターム毎にあらかじめ、重み付けを
行なうなどの方法を用いることもできる。
【0043】図18は、ヒット条件とハイライト方法
(ハイライト表示形態)の対応を定義したテーブル(1
801)である。ヒット条件(1802)に対応するハ
イライト方法(1803)が記述されている。各ヒット
条件によって、ヒットした範囲は、本テーブルの内容に
基づいてハイライト表示を行なう。さらに、階層情報
(1804)が与えられており、階層情報の値が大きい
ほど、構造全体のハイライトなど上位のハイライト構造
となっている。
【0044】図19は、上記のハイライト処理を実現す
るための、表示用DTD作成の処理内容を示したもので
ある。登録に用いた元のDTD(1901)に対して、
上位のハイライト構造内には下位のハイライト構造を階
層的に指定でき、さらに省略も可能なように定義を変
更、追加したハイライト表示用のDTD(1902)を
生成している。DTDの作成方法は、図11を用いて前
述した処理に対して、1106ステップのハイライト情
報付加の際に、複数存在するハイライト情報をすべて付
加(1903)し、さらに1108ステップのハイライ
ト用ELEMENT宣言追加の際に、図18の階層情報(18
04)を元に、各ハイライト構造の下位構造として、下
位のハイライト構造および文字列を内容モデルとして持
つようにすれば良い。下位のハイライト構造がなけれ
ば、内容モデルとして、文字列だけが出現する(190
4)。
【0045】図20は、第2の実施例におけるハイライ
ト処理のフローチャートである。まず、ハイライト情報
を開始位置順を第1キー、階層情報の上位から下位の順
を第2キーとしてソートする(2001)。次に、ハイ
ライト開始までのテキストを出力し(2002)、ハイ
ライト開始タグを出力する(2003)。さらに、ハイ
ライト範囲の終わりまでに、次のハイライトが開始して
いれば、下位の構造情報が存在するため(2004)、
その位置までのテキストを出力した上で(2005)、
下位のハイライト構造におけるハイライト処理を行なう
(2006)。下位構造におけるハイライト処理は、2
003から2009の処理と同じである。下位のハイラ
イト構造に対する処理を終えた後、さらに下位のハイラ
イト構造があれば(2007)、2005ステップの処
理に戻って、次のハイライト構造までのテキストを出力
し、下位のハイライト構造の処理を行なう。下位のハイ
ライト構造がなくなれば、構造の終わりまでのテキスト
を出力して(2008)、ハイライト終了タグを出力す
る(2009)。ハイライトの情報が残っていれば、2
002のステップに戻り、処理を繰り返す。ハイライト
の情報が終われば(2010)、残ったテキストを出力
し、処理を終える(2011)。
【0046】図21は、上記処理により生成されるSG
ML文書の例である。図22は、図21のSGML文書
の本文の表示例である。重なったハイライト範囲につい
ては、複数のハイライトのための表示方法を重複して行
なっている。
【0047】第3の実施例として、構造化文書の部分構
造だけを切り出し、ハイライト表示する場合の処理内容
を示す。図23は、本実施例の概略処理ブロック図を示
したものである。図1からの変更点は、表示対象の構造
(2301)を指定するようにしていることと、表示対
象の構造の指定内容を元に、文書表示(112)の処理
の代わりに部分構造表示の処理(2302)を行なって
いることである。
【0048】図24は、部分構造を抽出して、表示する
場合の処理手順を示したフローチャートである。まず、
部分構造表示用のDTDを作成する(2401)。部分
構造表示用のDTDの作成処理については、図26を用
いて後述する。さらに、正規化後の構造化文書に対して
得られたヒット範囲については、正規化前の登録時の文
書における、構造IDおよびヒット範囲情報に変換する
(2402)。正規化後の文書の情報の正規化前の文書
の範囲情報への変換処理の内容については、図16を用
いて前述した方法を用いることができる。次に表示対象
となっている解析済み文書の構造の情報を読み出し、2
403から2411の処理を順に繰り返すことで、表示
用の文書の出力処理を行なう。まず、表示対象となる構
造情報を読み出す(2403)。ここで表示対象の構造
であるか否かの判定は、図7を用いて前述した方法を用
いて実現する。表示対象の構造情報であれば、まず、構
造の開始タグを出力する(2404)。さらに本構造に
下位構造が存在するなら(2405)、下位構造に対し
て、表示処理(2403から2411の処理)を行なう
(2406)。下位構造がなくなれば、構造の終わりを
示すタグを出力する処理(2411)に移る。2405
のステップで下位構造が存在しないと判定された場合
は、文字列の構造であるため、本構造の内容に対して、
ヒット範囲情報と比較し(2408)、ヒット範囲が含
まれる構造であれば、ハイライト処理を行なう(240
9)。ハイライト処理については、図15を用いて前述
した方法を用いる。ハイライト範囲が含まれない文字列
であれば、内容をそのままテキストとして出力する(2
410)。出力内容が文字列の場合は、2404、24
11のステップで、開始タグ、終了タグは出力しない。
上記の処理で構造ごとのハイライト表示を実現する。さ
らに処理すべき構造があれば、2403からの処理を繰
り返す(2412)。
【0049】図25は、部分構造表示用のDTDの作成
内容である。部分構造の出力により、元のDTD(25
01)で必ず出現しなければならないと定義されている
構造が出力されない場合がある。さらに上位構造が必ず
しも出力されるとは限らない。このため、部分構造表示
用のDTDは、上位構造の開始タグ、終了タグの出現を
必須としない。さらに構造そのものについても、必ずし
も出現しなくて良いとするように変更する必要がある。
作成された部分構造表示用のDTDは2502に示した
ようになる。このDTDを用いて作成したSGML文書
は、2503に示したようになる。この例では、タイト
ルだけを抽出している。
【0050】図26は、部分構造表示用のDTD作成手
順を示したフローチャートである。まず、登録用のDT
Dを取得する(2601)。次にDTD中のELEMENT項
目を取り出す(2602)。内容モデルにCDATA、RCDAT
A、#PCDATAが含まれる場合は、ハイライト情報を付加す
る(2603−2606)。ハイライト情報の付加は、
図11の1103から1106ステップの処理と同じで
ある。次に内容モデル中の出現指示子(*、+、?、な
し)をチェックし、"+"ならば(2607)、"*"に変更
し(2608)、出現指示子がなければ(260
9)、"?"を付加する(2610)。全てのELEMENT宣言
に対する処理が終わると(2611)、ハイライト用の
構造のELEMENT宣言を追加し(2612)、さらに、下
位構造が存在する構造のタグが出現することが必須(-)
であれば、不要(O)に変更する。
【0051】次に、本発明を用いた実施例4について、
図面を用いて説明する。図27は、本実施例のシステム
構成図である。WWW(World Wide Web)検索シス
テム(2700)は、ネットワーク(2702)を使用
してクライアント(2701)と接続されている。クラ
イアント(2701)は、PC,WSなどであり、クラ
イアント(2701)上で動作するWebブラウザ(27
03)上の、検索ターム設定画面上で検索タームを入力
する。WWW検索システム(2700)では、この検索
タームを用いて検索を行い、その検索結果をWebブラウ
ザ(2703)に出力する。WWW検索システム(27
00)は、クライアント(2701)からの検索ターム
を受け取るHTTPサーバ(2704)と、検索処理お
よびハイライト用タグを挿入するデータ制御部(270
5)と、ハイライトタグの位置情報などを格納しておく
メモリ(2706)から成り立ち、検索対象となるHT
ML文書を格納しておく磁気ディスク装置(2707)
が接続されている。データ制御部(2705)では、H
TTPサーバ(2704)で受け取った検索タームを磁
気ディスク(2707)中に存在するHTML文書に対
して検索処理を行い、検索タームにヒットしたHTML
文書の検索ヒット位置にハイライトタグを挿入する。メ
モリ(2706)は、各文書ごとの検索ヒット数を格納
するハイライト数格納領域(2708)と、検索結果位
置情報を格納するハイライト位置情報格納領域(270
9)と、挿入するハイライト用タグの内容を格納してお
くハイライト用タグ文字格納領域(2710)と、ハイ
ライト用タグを挿入したHTML文書を格納するHTM
L文書一時格納領域(2711)と、クライアント(2
701)で入力した検索タームをWWW検索システム
(2700)のHTTPサーバ(2704)で取得し、
一時的に格納する検索ターム格納領域(2712)から
なる。WWW検索システム(2700)によってハイラ
イト用タグを挿入したHTML文書は、HTTPサーバ
(2704)からネットワーク(2702)を経由し
て、クライアント(2701)のWebブラウザ(270
3)上に表示される。
【0052】次に、データ制御部(2705)の処理内
容について、図28を用いて説明する。ここでは、クラ
イアント(2701)で設定した検索タームを取得し、
検索処理を行い、検索ヒット位置を検出しハイライト位
置情報(2709)を作成し、検索条件にヒットしたH
TML文書の検索タームにヒットしたHTML文書の検
索ヒット位置にハイライト用のタグを埋め込み、クライ
アント(2701)のWebブラウザ(2703)に表示
する。 ステップ2800:クライアント(2701)で設定し
た検索タームを、WWW検索システム(2700)で
は、HTTPサーバ(2704)を用いて取得する。取
得した検索タームは、メモリ(2706)の検索ターム
格納領域(2712)に格納される。 ステップ2801:ステップ2800で検索ターム格納
領域(2712)に格納した検索タームを用いて、磁気
ディスク装置(2707)に格納されているHTML文
書に対する全文検索を行う。検索ヒットした場合は、H
TML文書中の検索ヒット位置や検索ヒット数などを取
得し、その情報をハイライト位置情報格納領域(270
9)、ハイライト数格納領域(2708)に格納する。
この処理については、図29を用いて詳しく説明する。 ステップ2802:ステップ2801において、作成さ
れたハイライト位置情報格納領域(2709)に格納さ
れている情報を基に、ハイライトタグ文字格納領域(2
710)に格納されているハイライト用タグをHTML
文書の検索ヒットした位置に挿入し、HTML文書一時
格納領域(2711)に格納する。詳細は、図33を用
いて説明する。 ステップ2803:ステップ2802により作成された
HTML文書一時格納領域(2711)に格納されたハ
イライト用HTML文書を、HTTPサーバ(270
4)を用いてクライアント(2701)のWebブラウザ
(2703)に表示する。ステップ2800からステッ
プ2803の処理を繰り返すことにより、クライアント
(2701)で入力された検索条件を用いて、磁気ディ
スク(2707)に格納されているHTML文書を検索
し、検索条件にヒットした文書に対して、複数箇所の検
索ヒット位置のハイライト表示を可能とする。
【0053】次に、図29を用いて、図28のステップ
2801のハイライト位置情報の作成処理について説明
する。 ステップ2900:磁気ディスク(2707)に格納さ
れているHTML文書を読み出す。図34のHTML文
書(3400)は、読み出したHTML文書の例であ
る。このHTML文書をWebブラウザで表示すると、3
401に示すような画面が表示される。 ステップ2901:ハイライト位置情報を格納する領域
であるハイライト位置情報格納領域(2709)をα件
数分確保する。αは、任意の正の整数である。またハイ
ライト数を格納するハイライト数格納領域(2708)
を確保する。なお、ハイライト位置情報格納領域(27
09)と、ハイライト数格納領域(2708)のデータ
形式は、図30および図31に示す。ハイライト位置情
報格納領域(2709)は、図30に示すように、HT
ML文書番号(3000)、先頭からのハイライト位置
番号(3001)、ハイライトバイト数(3002)、
ハイライト挿入タグ番号(3003)から構成される。
HTML文書番号(3000)は、ステップ2900で
読み出したHTML文書の番号である。HTML文書を
格納した際に付けられる通し番号などを格納する。先頭
からのハイライト位置番号(3001)は、ステップ2
900で読み出したHTML文書にステップ2800で
取得した検索タームにヒットした場合、HTML文書中
の検索ヒット位置を文書先頭からバイト数で格納する。
ハイライトバイト数(3002)は、ハイライトする長
さをバイト数で格納する。つまり、検索タームの文字列
長を格納する。ハイライト挿入タグ番号(3003)
は、複数の検索タームでハイライト表示する場合、検索
タームごとにハイライト用タグを区別して表示すること
が可能である。ここに格納されている情報を基にして、
ハイライト用タグを区別する。つまり、ここには、ハイ
ライト表示に利用するタグの種類を判別するデータを格
納する。
【0054】ステップ2902:ハイライト位置情報格
納領域(2709)に格納したカウントを示すi_cntを
0に初期設定する。 ステップ2903:ステップ2800で読み出した検索
タームとステップ2900で読み出したHTML文書が
一致するか否かをチェックをする。検索ヒット箇所が存
在する場合は、ステップ2904に進む。また、存在し
ない場合は、ステップ2908に進む。 ステップ2904:ステップ2901または2905で
確保したハイライト位置情報格納領域(2709)がハ
イライト格納数を示すi_cntより大きいか否かをチェッ
クする。データを格納する領域がまだ存在する場合、ス
テップ2906に進む。また、格納する領域が存在しな
い場合、ステップ2905に進む。 ステップ2905:ハイライト位置情報格納領域(27
09)を一定値拡大して再度確保し直し、ステップ29
06に進む。
【0055】ステップ2906:ステップ2901また
は2905で確保したハイライト位置情報格納領域(2
709)のi_cnt番目の位置に、HTML文書番号(3
000)、HTML文書の先頭からの位置(300
1)、ハイライト文字数(3002)、ハイライトタグ
挿入番号(3003)を格納する。i_cntは0に初期化
されているので、i_cntが0の場合、0番目にデータを
格納する。1つのHTML文書中に複数のハイライト情
報を格納する場合は、i_cntが更新されるので、i_cntが
示す位置に格納する。ステップ2900で読み出したH
TML文書(3400)をHTML文書番号「001」と
する。さらに、ステップ2800で抽出した検索ターム
を「特集」とする。このHTML文書(3400)で、
検索ターム「特集」を検索すると、HTML文書(34
00)の先頭から122バイト目(3403)に「特
集」の文字を見つけることができる。この場合、HTM
L文書番号(3000)にはHTML文書番号である
「001」(3404)を格納し、HTML文書の先頭
からの位置(3001)には「122」(3405)を
格納し、ハイライト文字数(3002)には「特集」の
バイト数「4」(3406)を格納する。最後に、ハイ
ライトタグ挿入番号(3003)には、検索結果を強調
するためのタグを示す番号を格納する。ここでは、
「1」(3407)を格納する。
【0056】ここで、ハイライト挿入タグ番号と実際に
格納するハイライトタグを対応する構成を図32に示
す。図32の(1)では、ハイライトタグ文字格納領域
(2710)に格納されているハイライト挿入タグ用の
構造体3200を示す。ハイライト挿入タグ用の構造体
(3200)は、通し番号を格納するタグ番号1(32
02)と、ハイライト開始タグ名を格納する開始タグ1
(3203)、ハイライト終了タグ名を格納する終了タ
グ1(3204)と、タグの個数を格納するハイライト
タグ数(3201)から成り立つ。ハイライトタグ数に
格納した数分のタグ番号、開始タグ、終了タグが存在す
る。
【0057】ハイライトタグ文字格納領域の使用例を
(2)に説明する。ここでは、3種類のハイライトタグ
を格納する場合を示す。よって、ハイライトタグ数を格
納する箇所には、「3」(3205)を格納する。タグ
番号「0」(3206)の箇所の開始タグには、赤色を
示すタグ「<FONT COLOR=“RED”>」
(3207)を、終了タグには「</FONT>」(3
208)を格納する。同様に、タグ番号「1」(320
9)には、点滅を示すタグ「<BLINK>」を、タグ
番号「2」(3210)には、文字を大きく表示する
「<H1>」を格納する。ハイライトタグ文字格納領域
(2710)は、ハイライト位置情報格納領域(270
9)の作成前に作成する。また、このハイライトタグ文
字格納領域(2710)は、ユーザインターフェースを
使用して、作成することも可能である。複数のハイライ
ト用タグを用意することで、異表記や同義語の検索処理
を行った場合において、異表記で検索された文字にはタ
グ番号「1」、同義語で検索された文字にはタグ番号
「2」のように、検索条件ごとに異なるハイライト表示
が可能となる。ハイライト用タグに「<BLINK>」
を使用する場合は、ハイライト位置情報格納領域(34
02)のハイライトタグ挿入番号(3407)に「1」
を格納する。
【0058】ステップ2907:ステップ2906にお
いて、ハイライト位置情報格納領域(2709)にデー
タを格納したので、i_cntを1を加え、ステップ290
3に戻る。 ステップ2908:ステップ2900で取得したHTM
L文書中のハイライト数を取得し、ハイライト数格納領
域(2708)に格納する。ハイライト数格納領域(2
708)の構造体の内容は図31を用いて説明する。図
31は、ハイライト数格納領域(2708)の構造体の
内容である。3100は、ステップ2900で読み出し
たHTML文書の文書番号である。また、3101は、
取得したハイライト数を格納しておく箇所である。ここ
では、文書番号「001」を文書番号3100に格納
し、i_cntをハイライト数格納領域(3101)に格納
し、処理を終了する。
【0059】次に、図33を用いて、ハイライト用タグ
付のHTML文書作成処理について説明する。 ステップ3300:ステップ2900で読み出したHT
ML文書中に、ハイライトタグを挿入する必要があるか
否かをチェックする。ハイライト位置情報格納領域(2
709)に格納したHTML文書番号(3000)が存
在する場合は、ステップ3301に進む。存在しない場
合は、ステップ3309ですべてのテキストを出力し、
処理を終了する。 ステップ3301:処理カウントを示すi_cntを0に初
期化する。 ステップ3302:ハイライトタグを挿入したHTML
文書を格納するHTML文書一時格納領域(2711)
を確保する。HTML文書一時格納領域(2711)
は、HTML原文書のバイト数は、ハイライト用開始タ
グと終了タグのバイト数の合計値にハイライト挿入数を
乗じたバイト数の領域を確保する。ハイライトの開始タ
グと終了タグは、ハイライト位置情報格納領域(270
9)のハイライト挿入タグ番号(3003)より、ハイ
ライト用タグのタグ文字列長を計算する。ハイライト数
は、ステップ2908でハイライト数格納領域(270
8)に格納したハイライト数(3101)を取得する。 ステップ3303:ハイライト数(3101)がi_cnt
より小さいか否かをチェックする。小さい場合は、未処
理のハイライト箇所が存在するので、ステップ3304
に進む。それ以外は、処理すべき未処理のハイライト箇
所を全て終了したので、ステップ3309に進む。 ステップ3304:ハイライト位置までのHTML文書
をステップ3302で確保したHTML文書一時格納領
域(2711)に格納する。
【0060】ステップ3305:ハイライト開始タグを
HTML文書一時格納領域(2711)に格納する。ハ
イライト開始タグは、ハイライト挿入タグ番号(300
3)から抽出した番号より得られるハイライトタグ文字
格納領域(2710)に格納されているタグ名である。
図34(3)の場合、ハイライト挿入タグ番号(300
3)には「1」が格納されている。図32(2)に示し
たハイライトタグ文字格納領域(2710)のタグ番号
「1」(3209)に格納されている「<BLINK
>」をHTML文書一時格納領域(2711)に格納す
る。 ステップ3306:検索タームをHTML文書一時格納
領域(2711)に格納する。図34の場合、「特集」
をHTML文書一時格納領域(2711)に格納する。 ステップ3307:ハイライト終了タグをHTML文書
一時格納領域(2711)に格納する。ハイライト終了
タグは、ステップ3305で処理したハイライト開始タ
グ同様、ハイライト挿入タグ番号(3003)にて格納
された番号から得られるハイライトタグ文字格納領域
(2710)に格納されているタグ名を格納する。図3
4(3)の場合、「1」が格納されている。したがっ
て、図32(2)のタグ番号「1」に格納されている
「</BLINK>」をHTML文書一時格納領域(2
711)に格納する。 ステップ3308:ステップ3305からステップ33
07において、データをHTML文書一時格納領域(2
711)に格納した後、i_cntに1を加え、ステップ3
303に戻る。 ステップ3309:ハイライト挿入位置からHTML文
書最後までテキストをHTML文書一時格納領域(27
11)に格納し、ハイライトタグ付きHTML文書の作
成処理を終了する。
【0061】以上の処理を用いることで、クライアント
(2701)設定した検索タームから、HTML文書を
検索し、検索タームと一致する文書に対して、ハイライ
ト数を格納するハイライト数格納領域(2708)、ハ
イライト位置を格納するハイライト位置情報格納領域
(2709)の内容を作成することが可能である。上記
の処理結果の例を図35に示す。3500は、ハイライ
ト用タグを挿入したHTML文書である。検索ヒットし
た「特集」の前後(3501,3502)にハイライト
用タグが挿入されている。このHTML文書を画面に表
示すると3503のようになり、検索ヒットした「特
集」(3504)が点滅表示される。以上で、本発明の
第1実施例として、クライアント(2701)が挿入し
た検索タームをHTML文書(2707)中から検索
し、ヒット位置にハイライト用タグを挿入した、ハイラ
イト用タグ付きHTML文書を作成する方法を説明し
た。
【0062】次に、本発明における実施例5について、
図36から図42を用いて説明する。図36は、検索タ
ームがHTML文書のタグで分断されている場合や、検
索タームがタグ内に存在する場合のハイライト表示方法
におけるシステム構成図である。図27と同様に、クラ
イアント(2701)のWebブラウザ(2703)上で
検索タームを設定する。
【0063】WWW検索システム(2700)は、検索
タームを取得するHTTPサーバ(2704)、検索処
理を行うデータの制御(2705)、領域を確保するメ
モリ(2706)から成り立つ。メモリ(2706)
は、図27の説明で述べた以外に、レイアウト表示など
に使用されるタグで、読み飛ばすタグ名を格納した読み
飛ばしタグ名格納領域(3600)と、クライアント
(2701)が入力した検索タームとHTML文書(2
707)が一致した開始位置を一時的に格納しておく開
始位置格納領域(3601)と、検索タームとヒットし
た位置がHTMLタグの開始文字「<」と終了文字
「>」の間に存在した場合、目印となるマークを格納し
ておく再度記述マーク格納領域(3602)と、HTM
Lタグの開始タグと終了タグの間に検索タームがヒット
した場合、検索ヒットした箇所の前後にハイライト用タ
グを入れることができないHTMLタグを記述してお
く、ハイライトタグ挿入不可能タグ名格納領域(360
3)からなる。検索タームがHTML文書のタグをまた
がっている場合や、検索タームがタグ内に存在する場合
の検索タームの取得、ハイライト位置情報の作成、ハイ
ライト用タグ挿入方法は、図28で示した処理手順で行
う。また、各々の処理内容については、図37から図4
2を用いて説明する。
【0064】ステップ2800で取得した検索タームを
用いて、ステップ2801の処理では、検索処理および
ハイライト位置情報作成処理を行う。処理内容は、図3
7のフローチャートに示す。 ステップ3700:処理対象となるHTML文書を磁気
ディスク(2707)から読みだす。 ステップ3701:ハイライト位置情報を格納するハイ
ライト位置情報格納領域(2709)とハイライト数格
納領域(2708)をメモリ(2706)に確保する。 ステップ3702:検索ヒット位置の前後に挿入するハ
イライトタグを読み出す。図32(2)の使用例に具体
例を示したようにハイライトタグ文字格納領域(271
0)からハイライト用タグを読み出す。この場合ハイラ
イト挿入タグ番号の個数は、「3」(3205)から
「3つ」とわかる。1番目の「0」(3206)には、
「<FONT COLOR=“RED”>」(320
7)と「</FONT>」(3208)格納されてい
る。そこで、ハイライト挿入タグ番号0番目の開始タグ
は「<FONT COLOR=“RED”>」、終了タ
グは「</FONT>」となる。同様に、ハイライト挿
入タグ番号1番目の開始タグは「<BLINK>」、終
了タグは、「</BLINK>」となり、ハイライト挿
入タグ番号2番目の開始タグは「<H1>」、終了タグ
は「</H1>」となる。 ステップ3703:HTML文書の処理済み文字数のカ
ウントを示すi_cntと、ハイライト数を格納する領域の
内容を0に初期設定する。
【0065】ステップ3704:検索タームとHTML
文書の文字列が一致するか否かをチェックする。チェッ
ク方法として、HTML文書のi_cntバイト目から、検
索タームの先頭文字と一致する文字を検索する。ステッ
プ3703において、初期設定が0に設定されているた
め、最初は、HTML文書の0バイト目から一致する文
字を検索する。一致した場合は、ステップ3705に進
む。不一致の場合は、処理を終了する。また、ここで
は、検索タームを抽出する方法として、指定したタグを
飛ばして検索する方法を用いる。具体的には、読み飛ば
しタグ名格納領域(3600)に格納してあるタグ名を
HTML文書中に存在した場合は、そのタグを読み飛ば
し、検索処理を行う。読み飛ばしタグ名格納領域(36
00)に「IMG」を格納しておき、図34のHTML
文書(3400)を検索した場合、HTML文書(34
00)中の先頭からデータを走査し、「IMG」(34
13)が抽出された時点で、タグ内の文字を飛ばす。つ
まり、タグの終了文字「>」(3414)までを飛ば
す。この読み飛ばしタグ名格納領域(3600)は、検
索処理前に設定しておくことにより、読み飛ばし処理が
可能となる。
【0066】ステップ3705:ステップ3704でH
TML文書の先頭から検索タームの先頭文字と一致した
文字までの文字数を開始位置格納領域(3601)に一
時的に確保する。 ステップ3706:検索タームの文字列とHTML文書
に書かれている文字が一致するか否かをチェックし、一
致した場合、一致箇所がHTMLタグ内に存在するかあ
るいはHTMLタグ外に存在するか否かをチェックす
る。さらに、検索ヒットした文字列の最後の文字の位置
を、HTML文書の先頭からの文字数で確保する。詳細
は、図38を用いて説明する。 ステップ3707:ステップ3706の結果、検索ヒッ
トしたか否かチェックする。HTML文書中に検索ター
ムが存在した場合は、ステップ3708に進む。検索タ
ームが存在しない場合、ステップ3712に進む。 ステップ3708:ステップ3701で確保したハイラ
イト数格納領域(3708)とハイライト格納数を比較
して、確保した領域が格納したハイライト数より多けれ
ば、ステップ3709に進む。少なければ、ステップ3
710に進む。 ステップ3709:ハイライト位置情報格納領域(27
09)にデータを格納する領域が足りないため、再度領
域設定し直し、ステップ3710に進む。
【0067】ステップ3710:ハイライトする文字数
とハイライトの位置の情報を、ハイライト位置情報格納
領域(3600)に格納する。具体的には、図30で説
明したハイライト位置情報格納領域(3600)のHT
ML文書番号(3000)には、ステップ3700で読
み出したHTML文書の文書番号を格納し、先頭からの
ハイライト位置情報(3001)には、ステップ370
5で取得した開始位置を格納する。また、ハイライトの
バイト数(3002)には、検索タームの文字列長を格
納し、ハイライト挿入タグ番号(3003)には、ステ
ップ3702で読み出したタグの番号を格納する。ハイ
ライト挿入タグ番号(3003)は、デフォルトとし
て、「0」を設定する。 ステップ3711:検索タームにヒットする文字列が複
数存在する場合、検索ヒットした位置の次文字から再度
検索タームとHTML文書中の一致する箇所をチェック
する処理を行う。そこで、ステップ3706で確保した
検索ヒットの最後の文字が記述されている位置の、HT
ML文書の先頭からの文字数に1を加えた値をi_cntに
代入する。処理位置を更新したら、ステップ3704に
戻る。 ステップ3712:ステップ3705で取得した開始位
置格納領域(3600)に格納してある開始位置からの
文字列と、検索タームが一致していない場合、開始位置
の次文字から再度検索タームとHTML文書中の一致す
る箇所をチェックする処理を行う。そこで開始位置格納
領域(3600)に格納してある開始位置に1を加えた
値をi_cntに代入する。処理位置を更新したら、ステッ
プ3704に戻る。以上で、タグ内およびタグ外のチェ
ックを含む検索処理およびハイライト位置情報作成処理
について述べた。
【0068】次に、図38を用いて、ステップ3706
のタグ内の検索およびタグ外の検索処理について説明す
る。ここでは、ステップ3705で取得した検索ヒット
の開始位置が、文書構造を示すタグの属性中に存在する
かあるいはタグの外に存在するかをチェックし、検索ヒ
ットの開始位置からの文字列が検索タームと一致するか
否かのチェックを行う。 ステップ3800:ステップ3705で開始位置格納領
域(3600)に格納した検索ヒットの開始位置におい
て、HTMLタグ内かあるいはタグ外かをチェックす
る。ステップ3706時点におけるHTML文書のi_cn
tバイト目から、検索ヒットの開始位置までのデータを
チェックする。タグの開始文字「<」と対応するタグの
終了文字「>」をチェックし、タグ内に検索ヒットの開
始位置が存在するか否かをチェックする。タグの開始文
字「<」があり、タグの終了文字「>」の前に検索ヒッ
トの開始位置が存在する場合、開始位置はタグ内に存在
するとして、ステップ3801に進む。タグの開始文字
「<」とタグの終了文字「>」に囲まれない範囲に、検
索ヒットの開始位置が存在する場合、検索ヒットの開始
位置は、タグ外に存在するとして、ステップ3804に
進む。
【0069】ステップ3801:検索タームと、検索ヒ
ットの開始位置からの文字列が一致するか否かをチェッ
クする。検索タームの文字列が複数バイトから成り立つ
場合、文字列を1バイト毎にチェックする。検索ターム
の文字列と検索ヒットした位置からの文字列が一致する
場合、ステップ3802に進む。不一致の場合、ステッ
プ3803に進む。 ステップ3802:ステップ3801において、検索タ
ームと一致した場合、「検索ヒット」したとして、処理
を終了する。また、検索ヒットした文字列の終端位置を
求める。終端位置は、検索ヒットした開始文字位置に検
索タームの文字列長を加えたバイト数とする。ここで求
めた終端位置は、ステップ3711にて使用される。 ステップ3803:ステップ3801において、検索タ
ームが不一致の場合、「検索ヒットしない」として、処
理を終了する。 ステップ3804:ステップ3800において、検索ヒ
ットの開始位置がタグの外に存在した場合、タグ外用の
検索処理を行う。タグ外用の検索処理は、図39を用い
て説明する。 ステップ3805:ステップ3804で検索タームがヒ
ットする箇所がHTML文書中に存在するか否かをチェ
ックする。存在する場合は、ステップ3807に進む。
存在しない場合は、ステップ3806に進む。 ステップ3806:ステップ3805において、検索タ
ームがヒットしない場合、処理を終了する。 ステップ3807:ステップ3805において、検索タ
ームと一致した場合、「検索ヒット」したとして、処理
を終了する。また、検索ヒットした文字列の終端位置を
求める。終端位置は、検索ヒットの開始文字位置に、ス
テップ3804で検出した検索ヒットの最後の文字が記
述されている位置を加えた値とする。ここで求めた終端
位置は、ステップ3711にて使用する。以上で、タグ
内検索およびタグ外検索処理について説明した。
【0070】次に、ステップ3804のタグ外用の検索
処理について、図39を用いて説明する。 ステップ3900:HTML文書中に検索タームが存在
するか否かをチェックする。検索タームの文字列がHT
ML文書中に存在する文字列と一致するか否かをチェッ
クするが、検索ヒットした開始位置から、途中に存在す
るタグを飛ばすことにより一致する場合があるので、こ
こでは、検索ヒットした開始位置から1文字ごとに検索
タームと合致しているか否かをチェックする。具体的に
は、図34を用いて説明する。検索タームを「特集記
事」とした場合、(2)の表示画面では、3408に
「特集記事」が表示されている。しかし、HTML文書
(3400)では、「特集」(3403)と「記事」
(3416)の間に「</H1>」(3417)のタグ
がある。このように検索タームの途中にHTMLタグが
存在する場合、このHTMLタグを読み飛ばして、検索
タームと一致する文字列を抽出する。ここでは、検索タ
ームを1文字ごとHTML文書の文字と照合し、チェッ
クを行う。検索タームの1文字目とHTML文書中の文
字が一致した場合は、検索タームの次文字とHTML文
書の次文字について、同処理を繰り返す。検索タームの
文字列のすべての文字が一致した場合、具体的には、
「特」(3403)、「集」、と文字の比較を行い、
「</H1>」(3417)を読み飛ばし、さらに、
「記」(3416)、「事」と文字比較を行う。すべて
の検索タームを抽出し終わった場合、ステップ3901
に進む。検索タームがHTML文書中の文字列と完全に
一致しなかった場合、ステップ3902に進む。
【0071】ステップ3901:HTML文書中に検索
タームが存在するため、「検索ヒット」したとして、処
理を終了する。また、検索ヒットの終端位置を求める。
終端位置は、ステップ3900において、最後に抽出し
た文字の位置である。 ステップ3902:ステップ3900で、検索タームの
文字とHTML文書の文字が一致しなかった場合、HT
ML文書の文字が、タグの開始文字「<」か否かをチェ
ックする。タグの開始文字「<」の場合は、ステップ3
903に進む。それ以外の文字の場合は、ステップ39
04に進む。 ステップ3903:ステップ3902において、HTM
L文書中の文字がタグの開始文字「<」の場合、タグの
内容を飛ばして、ステップ3900に戻る。具体的に
は、タグの終了文字「>」を抽出し、抽出した文字まで
を読み飛ばす。図34のHTML文書(3400)で、
検索タームを「特集記事」とした場合、「特集」(34
03)の次文字にある「<」(3417)からタグの終
了文字「>」(3418)までを読み飛ばす。つまり、
「</H1>」を読み飛ばす。 ステップ3904:ステップ3902において、検索タ
ームが不一致の場合、「検索ヒットしない」として、処
理を終了する。以上で、HTML文書中に検索タームの
文字列が存在した場合、検索ヒット位置を抽出し、ハイ
ライト位置情報格納領域にハイライト位置情報を格納す
る処理について説明した。
【0072】次に、図40を用いて、ハイライト位置情
報格納領域に格納したハイライト位置情報を基にして、
HTML文書の検索ヒットした文字列を強調表示するた
め、ハイライト用タグを挿入する方法について説明す
る。 ステップ4000:ステップ3710においてハイライ
ト情報格納領域(2709)に格納した、ハイライト位
置情報を読み出す。 ステップ4001:ハイライトタグを挿入したHTML
文書を格納するためのHTML文書一時格納領域(27
11)を確保する。確保する領域の大きさは、HTML
文書の原文書のデータ、ハイライトタグ数分のハイライ
ト開始タグと終了タグの長さの和を乗じた値のバイト数
である。ハイライトタグ数は、ハイライトタグ数格納領
域(2708)から読み出す。また、ハイライトの開始
タグと終了タグは、ハイライト位置情報格納領域(27
09)のハイライト挿入タグ番号(3003)とハイラ
イトタグ文字格納領域(2710)からタグを検出し、
検出したタグの文字列長を求める。 ステップ4002:HTML文書中の処理済み位置を示
すi_cntと、ハイライト処理数を0に初期化する。
【0073】ステップ4003:処理済みのハイライト
箇所の数であるハイライト処理数と、処理すべきハイラ
イト数を比較する。ハイライト処理数が少ない場合は、
ハイライト用タグを挿入する処理を行うため、ステップ
4004に進む。それ以外の場合は、ステップ4007
に進む。 ステップ4004:処理済みの位置を示すi_cntから検
索ヒットの開始位置までのデータを、HTML文書一時
格納領域(2711)に格納する。具体的には、図34
のHTML文書(3400)で、検索タームを「特集記
事」とした場合、HTML文書先頭から「特集記事」
(3403)前の文字「今月の」までのデータをHTM
L文書一時格納領域(2711)に格納する。 ステップ4005:ハイライト用タグを検索ヒット位置
に格納する。ハイライト用タグの挿入処理については、
図41で説明する。 ステップ4006:HTML文書の処理済み位置を示す
i_cntにハイライト終了タグを挿入した位置の先頭から
のバイト数を代入し、ステップ4003に戻る。 ステップ4007:HTML文書の処理済み位置を示す
i_cntから、HTML文書の最後までのデータをHTM
L文書一時格納領域(2711)に格納し、処理を終了
する。
【0074】次にステップ4005で処理するハイライ
トタグの挿入処理について、図41を用いて説明する。
ここでは、検索ヒットした位置が、タグの内あるいはタ
グ外かをチェックし、検索ヒット位置の前後にハイライ
ト用タグを挿入する処理を行う。 ステップ4100:HTML文書でヒットした位置がH
TMLタグ内か、タグ外かをチェックする。チェック方
法は、検索ヒットの開始位置までのHTML文書におい
て、HTMLタグの開始文字「<」とタグの終了文字
「>」の対応をとり、タグ内かタグ外かを判断する。検
索ヒットの開始位置がタグの開始文字「<」からタグの
終了文字「>」の間にある場合は、タグ内に存在すると
して、ステップ4101に進む。それ以外の場合は、タ
グ外に検索ヒット位置の開始位置が存在するとし、ステ
ップ4110に進む。 ステップ4101:タグの開始文字「<」の次文字から
文字を抽出し、タグの種類を取得する。例えば、図34
のHTML文書(3400)の場合、検索タームを「hi
tachi」とした場合、HTML文書(3400)中の3
409に「hitachi」を取得することができる。このH
TMLタグの種類を取得すると、タグの開始文字「<」
の次に書かれている「A」(3410)とわかる。 ステップ4102:ステップ4101で取得したタグ
が、開始用のタグが終了用のタグかをチェックする。終
了用のタグの場合、タグの開始文字「<」の次文字が
「/(スラッシュ)」である。そこで、タグの開始文字
「<」の次文字をチェックし、判別する。このタグ開始
文字「<」の次文字が「/」の場合、終了用のタグと判
定して、ステップ4105に進む。それ以外の場合は、
開始タグと判定し、ステップ4103に進む。
【0075】ステップ4103:開始用タグと終了用タ
グの間にハイライト用のタグを挿入することが可能か否
かをチェックする。挿入することが可能な場合は、ステ
ップ4105に進む。また、不可能な場合は、ステップ
4106に進む。具体的には、図34のHTML文書
(3400)で、検索タームが「hitachi」の場合、H
TMLタグの種類は、「hitachi」(3409)の前に
存在する「A」(3410)である。開始用のタグと
は、HTMLタグの種類を囲む「<」と「>」に挟まれ
た部分の「<A〜>」(3410)であり、終了用のタ
グとは、「</A>」(3412)である。このHTM
Lタグは、開始用タグと終了用タグに書かれた文字列が
画面に表示され、この文字列を選択すると、開始用タグ
内で指定したURLにリンクするタグである。この「<
A〜>」(3410)と「</A>」(3412)の間
にハイライト用のタグを挿入すると、強調表示が正しく
行われない現象が生じる。そこで「<A〜>」タグと
「</A>」タグの間にはハイライト用のタグを挿入す
ることができないとして、ステップ4104に進む。ハ
イライトタグの挿入の可能あるいは不可能の判定は、H
TMLタグの種類がハイライトタグ挿入不可能タグ名格
納領域(3603)に格納されているタグのいずれかと
一致すれば、不可能と判定し、いずれとも不一致の場合
は、挿入可能と判定する。なお、ハイライトタグ挿入不
可能タグ名格納領域(3603)に格納するタグは、ユ
ーザインタフェースを使用して、データ制御(270
5)の処理を行う前に、作成しておく。
【0076】ステップ4104:開始用タグと終了用タ
グの間に検索ヒットした文字列を挿入することが出来な
い場合、挿入可能な箇所まで読み飛ばす。ここでは、終
了用タグの終わりの文字「>」まで読み飛ばし、読み飛
ばしたデータを取得する。具体的には、図34のHTM
L文書(3400)、検索タームを「hitachi」とした
場合、HTMLタグは、「A」(3410)である。そ
の終了タグは「</A>」(3412)である。よって
「</A>」(3412)までデータを取得する。 ステップ4105:開始用タグと終了用タグの間に文字
挿入することができる場合、タグの終わりの文字「>」
までデータを取得する。具体的には、図34のHTML
文書(3400)検索タームが「imagefile.gif」(34
11)とした場合、HTMLタグの種類は、「IMG」
(3413)で、その終わりのタグ文字は、「>」(3
414)となる。よって、「>」(3414)まで読み
飛ばし、読み飛ばしたデータを取得する。 ステップ4106:ステップ4104、ステップ410
5で取得したデータをHTML文書一時格納領域(27
11)に挿入する。また、検索ヒットした文字の終端位
置を求める。終端位置は、ステップ4104あるいはス
テップ4105で読み飛ばした位置のバイト数である。
【0077】ステップ4107:ハイライト用の開始タ
グをHTML文書一時格納領域(2711)に挿入す
る。図32の開始タグ1(3203)に書かれているタ
グ名をHTML文書一時格納領域(2711)に挿入す
る。ハイライト位置情報格納領域に格納されているデー
タを3402とし、ハイライトタグ文字格納領域を図3
2の(2)とした場合、ハイライト位置情報格納領域の
ハイライト挿入タグ番号(3407)に「1」が記述し
てあるので、図32の(2)から、「<BLINK>」
を取得することができる。よって、ここでは、「<BL
INK>」をHTML文書一時格納領域(2711)に
挿入する。 ステップ4108:検索ヒット文字をHTML文書一時
格納領域(2711)に挿入する。但し、再度検索ヒッ
ト文字を記述するため、再度記述したマークを格納す
る。ここでは、再度記述マークの格納領域(3602)
に格納されているデータを挿入する。再度記述マークの
格納領域(3602)は、データ制御を行う前に、デー
タを格納しておく。例えば、「@」マークを格納してお
く。 ステップ4109:ハイライト用の終了タグをHTML
文書一時格納領域(2711)に挿入する。図32の終
了タグ1(3204)に書かれているタグ名をHTML
文書一時格納領域(2711)に挿入する。ここでは、
「</BLINK>」を挿入する。 ステップ4110:検索ヒットした位置がタグの外に存
在する場合、タグ外用ハイライトタグ挿入処理を行う。
この処理については、図42を用いて説明する。次にス
テップ4110で処理をするタグ外用ハイライト挿入処
理について、図42を用いて説明する。 ステップ4200:「<A〜>」タグの場合、開始用の
タグ「<A〜>」と終了用のタグ「</A>」に挟まれ
ている箇所にハイライト用のタグを挿入すると、強調表
示が反映されない。ここでは、開始タグと終了タグに囲
まれているか否かをチェックし、ステップ4201でハ
イライトタグを挿入することが可能なタグか否かを判断
する。但し、HTML文書には、「<HTML>」と
「<BODY>」のタグが存在するが、これらのタグ
は、文書全体を囲むタグとして使用されているため、こ
こでは、チェックの対象としない。図30の先頭からの
ハイライト位置情報(3001)に格納されている位置
が、HTML文書の開始用タグと終了用タグに囲まれて
いるか否かをチェックする。囲まれている場合は、ステ
ップ4201に進む。囲まれていない場合は、ステップ
4209に進む。具体的には、図34のHTML文書
(3400)で、検索タームが「日立」とした場合、H
TML文書(3400)の「日立」(3415)が抽出
される。これは、HTMLタグ「<A〜>」(341
0)と「</A>」(3412)に囲まれているので、
ここでは、ステップ4201に進む。 ステップ4201:検索ヒットした文字列の前後にハイ
ライト用タグを挿入することが可能か否かをチェックす
る。チェック方法は、検索ヒットした検索文字列に囲ま
れているHTMLタグを抽出する。抽出したタグの種類
とハイライトタグ挿入不可能タグ名格納領域(360
3)に格納されているタグと比較する。一致すれば、ス
テップ4202に進み、不一致の場合、ステップ420
9に進む。ハイライトタグ挿入不可能タグ名格納領域
(3603)中に記述されたタグ名は、開始用タグと終
了用タグの間に、ハイライト用タグを挿入することがで
きない。よって、ハイライトタグ挿入不可能タグ名格納
領域(3603)に格納されているHTMLタグと比較
し、一致すれば、ステップ4202に進む、不一致の場
合は、ステップ4209に進む。このハイライトタグ挿
入不可能タグ名格納領域(3603)は、ユーザインタ
フェースを使用して、データ制御(2705)の前に作
成しておく。 ステップ4202:ハイライト用タグを挿入することが
出来ない場合、終了用タグの終わりの文字「>」までの
HTML文書を読み飛ばす。図34において、検索ター
ム「日立」とした場合、「</A>」(3412)まで
のHTML文書を読み飛ばす。
【0078】ステップ4203:ステップ4202で飛
ばしたHTML文書をHTML文書一時格納領域(27
11)に格納する。図34において、検索ターム「日
立」とした場合、ステップ4002で設定したi_cnt番
目あるいはステップ4006で更新したi_cnt番目にあ
るHTML文書の文字から「</A>」(3412)の
データをHTML文書一時格納領域(2711)に格納
する。 ステップ4204:ハイライト用タグの開始タグをHT
ML文書一時格納領域(2711)に挿入する。ハイラ
イト位置情報格納領域を3402として、ハイライトタ
グ文字格納領域を図32の(2)とした場合、「<BL
INK>」が抽出される。よって、ここでは、「<BL
INK>」を挿入する。 ステップ4205:再表示用マークを格納する。ステッ
プ4108同様に、再度記述マークの格納領域(360
2)に格納されているHTML文書を読み出し、HTM
L文書一時格納領域(2711)に格納する。 ステップ4206:検索ヒットした文字列をもう一度H
TML文書一時格納領域(2711)に挿入する。但
し、検索ヒットした文字列の途中にタグが存在する場合
は、タグが存在する箇所までの文字列を挿入する。 ステップ4207:ハイライト用の終了タグをHTML
文書一時格納領域(2711)に挿入する。ここでは、
「</BLINK>」を挿入する。 ステップ4208:ステップ4206において、検索タ
ームの文字列をすべて格納したか否かをチェックする。
検索ヒットした文字列中にタグが存在し、検索ヒットし
た文字をすべて格納していない場合、ステップ4200
に戻る。また、すべての文字を格納した場合は、処理を
終了する。
【0079】ステップ4209:検索ヒットした開始位
置までデータを飛ばし、飛ばしたHTML文書をHTM
L文書一時格納領域(2711)に格納する。具体的に
は、図34のHTML文書(3400)で、検索ターム
が「特集記事」とした場合、検索ヒットした「特集」
(3403)の前に存在する「今月の」までのHTML
文書をHTML文書一時格納領域(2711)に挿入す
る。 ステップ4210:ステップ4205同様に、ハイライ
ト用タグの開始タグをHTML文書一時格納領域(27
11)に格納する。ここでは、「<BLINK>」を挿
入する。 ステップ4211:検索ヒットした文字列を、HTML
文書一時格納領域(2711)に挿入する。但し、検索
ヒットした文字列の途中にタグが存在する場合は、タグ
が存在する箇所までの文字列を挿入する。例えば、HT
ML文書(3400)で、検索タームが「特集記事」と
した場合、「特集」(3403)と「記事」(341
6)の間に「</H1>」(3417)が存在する。よ
って、ここでは、「特集」を格納する。 ステップ4212:ハイライト用タグの終了タグをHT
ML文書一時格納領域(2711)に挿入する。ここで
は、「</BLINK>」を挿入する。
【0080】ステップ4213:ステップ4211にお
いて、検索タームの文字列すべてをHTML文書一時格
納領域(2711)に挿入したか否かをチェックする。
HTMLのタグを除くことにより、検索タームとHTM
L文書の文字列がヒットし、検索ヒットした先頭位置か
ら検索ターム長の文字列の間に、HTMLのタグが存在
する場合、ステップ4211では、HTMLタグまでの
HTML文書をHTML文書一時格納領域(2711)
に挿入する。この場合、HTMLタグから残りの検索ヒ
ットの文字を処理する必要がある。すべての検索ターム
をHTML文書一時格納領域に挿入した場合は、処理を
終了する。また、HTMLタグから残りの検索ヒットの
文字を処理する場合は、ステップ4200に戻る。図3
4のHTML文書(3400)で、検索タームが「特集
記事」とした場合、「特集」(3403)と「記事」
(3416)の間に「</H1>」(3417)が存在
する。ステップ4206では、「特集」のみ挿入した状
態で、「記事」を挿入していないため、ステップ420
0に戻る。
【0081】このような処理を行うことで、クライアン
ト(2701)が設定した検索タームを用いて、検索タ
ームと合致するHTML文書にハイライトタグを挿入
し、Webブラウザ(2703)にハイライトヒット箇所
を表示することが可能である。ここでは、検索ターム1
つに対して、HTML文書をチェックし、検索タームの
文字列がHTML文書中に存在すれば、クライアント
(2701)のWebブラウザに検索の結果を表示する処
理方法を示したが、1つの検索タームに対して、複数の
HTML文書から検索し、検索ヒットしたHTML文書
数分のハイライト位置情報を格納し、ハイライト用タグ
を格納した複数HTML文書を一括して作成する事も可
能である。また、複数の検索タームに対して、複数のH
TML文書から検索し、検索ヒットしたHTML文書数
分のハイライト位置情報を格納し、ハイライト用タグを
格納した複数HTML文書を一括して作成することも可
能である。
【0082】次に本発明を用いた実施例6について説明
する。本実施例の実施例2からの変更点は、検索条件中
に検索タームなどと共に、検索条件にヒットした場合の
ハイライト方法を定義することができる点である。これ
により、任意の検索条件に対して、検索条件毎にハイラ
イト方法を指定することができる。本実施例のシステム
構成は図1と同じである。ただし、検索条件103の記
載方法が異なる。本実施例における検索条件103の記
述方法の例を図43を用いて説明する。
【0083】図43に本実施例における検索条件の例を
示す。本図に示すように、各検索タームや構造条件など
の後ろに、「{アンダーライン}」のようにハイライト方
法を指定する。実施例2における検索条件は、「検索対
象の構造指定:検索条件式」であったが、「検索対象の
構造条件{ハイライト方法}:ハイライト方法付き検索条
件式」となる。ハイライト方法の指定は省略可能であ
る。省略時は、実施例2で示した方法でハイライト表示
を行なう。すなわち、ハイライト方法が検索条件中に記
載されていない箇所については、図18に示したハイラ
イト方法定義1801を読み出し、本定義情報に記載さ
れているハイライト方法を用いてハイライト表示する。
【0084】図44に本実施例におけるヒット範囲情報
4401の格納内容を示す。実施例2の図17に示した
ヒット範囲情報からの変更点は、各ヒット範囲ごとにヒ
ット条件4402だけではなく、ハイライト方法440
3を格納する点である。本情報は、図43を用いて前述
した検索条件を解析し、検索条件中に記載されたハイラ
イト方法の情報を読み出すことで取得可能である。
【0085】図45に本実施例におけるハイライト表示
用DTDの生成方法を示す。本例では、検索の度に新規
にハイライト方法が変更される可能性があることから、
ハイライト表示の度に、必要な構造だけを追加したハイ
ライト表示用DTDを生成することとする。この場合、
DTD中に検索条件ではなく、直接ハイライト方法に関
する記述を行なうことになる。本図に示すように、登録
に用いた元のDTD(1901)に対して、上位のハイ
ライト構造内には下位のハイライト構造を階層的に指定
でき、さらに省略も可能なように定義を変更、追加した
ハイライト表示用のDTD(4501)を生成してい
る。
【0086】DTDの作成方法は、まず図44のヒット
範囲情報にハイライト方法4403が記載されていない
場合に、図18に示したハイライト方法定義からヒット
条件に対応するハイライト方法を取得する。まず、元の
DTDの各構造に対して、下位構造に出現するハイライ
ト方法を内容モデルに持つことができるように、構造情
報を変更する(4502)。さらに、ヒット範囲情報4
401におけるヒット範囲の階層関係から、出現するハ
イライト用構造の階層関係を得る。ここで得られたハイ
ライト表示用の階層関係を元に、各ハイライト構造の下
位構造として、下位のハイライト構造および文字列を内
容モデルとして持つようにする。下位のハイライト構造
がなければ、内容モデルとして、文字列だけが出現する
ようにする(4503)。
【0087】本実施例におけるハイライト処理により、
検索条件をハイライト構造とするのではなく、記載され
たハイライト方法を記述したハイライト表示用構造化文
書と、ハイライト表示用のDTDを生成することにな
る。このように、本実施例による処理により、ハイライ
ト表示用の構造化文書が生成される。生成されたハイラ
イト表示用の構造化文書の例を図46に示す。図46に
示すハイライト表示用の構造化文書をハイライト表示す
ると、図47に示すようになる。
【0088】
【発明の効果】本発明により、構造化文書の検索結果と
して、ヒットした文書の内容を表示する際に、各構造ご
とに検索タームがヒットした範囲に、ハイライト情報を
付加した構造化文書を出力することが可能となる。ブラ
ウザ依存のハイライト情報ではなく、構造化文書中にハ
イライト情報を埋め込むことで、どのようなブラウザに
おいてもハイライト表示が可能となる。検索時の条件、
または、各検索タームの重要度、出現頻度などの条件に
よって異なるハイライト処理が行え、重要な検索ターム
については、高い重み付けであることを明示したハイラ
イト処理を行なうことが可能となる。さらに、検索条件
中にハイライト方法を記述することで、ユーザ毎に任意
のハイライト表示を行なうことが可能となる。さらに、
部分構造だけを抽出して、ハイライト情報を付加した構
造化文書を出力することが可能になる。また、文書構造
を示すHTMLタグが存在する文書から文字列を検索す
る場合、設定した検索タームと一致した文字列がHTM
Lタグ内に存在する場合や、検索タームがHTMLタグ
をまたがって記述されている場合でも容易に検索ヒット
することが可能となる。また、検索ヒットした文字列を
ハイライト表示することが可能となる。
【図面の簡単な説明】
【図1】実施例1、2の構造化文書検索表示装置の処理
ブロック図である。
【図2】構造化文書検索表示処理のフローチャートを示
す図である。
【図3】構造化文書登録の内容を示す図である。
【図4】構造化文書登録処理のフローチャートを示す図
である。
【図5】検索用のテキストを示す図である。
【図6】更新処理のフローチャートを示す図である。
【図7】指定構造の抽出処理のフローチャートを示す図
である。
【図8】構造指定の解析結果として出力される情報を示
す図である。
【図9】文書表示処理のフローチャートを示す図であ
る。
【図10】構造化文書およびハイライト処理結果の例を
示す図である。
【図11】文書表示用DTD作成処理のフローチャート
を示す図である。
【図12】構造化文書検索用の正規化処理の内容を示す
図である。
【図13】正規化処理を行なった結果の格納内容を示す
図である。
【図14】正規化処理を行なった場合のヒット範囲情報
の変換処理内容を示す図である。
【図15】正規化処理を行なった場合のヒット範囲情報
の変換処理のフローチャートを示す図である。
【図16】ハイライト情報を付加する処理のフローチャ
ートを示す図である。
【図17】実施例2におけるヒット範囲情報を示す図で
ある。
【図18】実施例2におけるヒット情報ごとのハイライ
ト方法の定義を示す図である。
【図19】実施例2のハイライト表示用DTDへの変換
内容を示す図である。
【図20】実施例2におけるハイライト処理のフローチ
ャートを示す図である。
【図21】実施例2によりハイライト情報を付加したS
GML文書の例を示す図である。
【図22】ハイライト表示の例を示す図である。
【図23】実施例3の構造化文書検索表示装置の概略処
理ブロック図である。
【図24】実施例3の処理内容のフローチャートを示す
図である。
【図25】部分構造表示用のDTDへの変換処理を示す
図である。
【図26】部分構造表示用のDTD作成処理のフローチ
ャートを示す図である。
【図27】実施例4におけるシステム構成図である。
【図28】データ制御部のフローチャートを示す図であ
る。
【図29】実施例4における文字検索処理およびハイラ
イト位置情報の作成処理のフローチャートを示す図であ
る。
【図30】ハイライト位置情報格納領域の構成である。
【図31】ハイライト数格納領域の構成である。
【図32】ハイライトタグ文字格納領域の構成である。
【図33】実施例4におけるハイライトタグ付きHTM
L文書の作成処理のフローチャートを示す図である。
【図34】ハイライト挿入例である。
【図35】ハイライト挿入後の例である。
【図36】実施例5におけるシステム構成図である。
【図37】実施例5における検索処理およびハイライト
位置情報作成処理2のフローチャートを示す図である。
【図38】実施例5におけるタグ内検索およびタグ外検
索処理のフローチャートを示す図である。
【図39】実施例5におけるタグ外用検索処理のフロー
チャートを示す図である。
【図40】実施例5におけるハイライト用タグの挿入H
TML文書の作成処理のフローチャートを示す図であ
る。
【図41】実施例5におけるハイライトタグ挿入処理の
フローチャートを示す図である。
【図42】実施例5におけるタグ外ハイライトタグ挿入
処理のフローチャートを示す図である。
【図43】実施例6における検索条件の例である。
【図44】実施例6におけるヒット範囲情報の例であ
る。
【図45】実施例6におけるハイライト表示用DTDへ
の変換処理を示す図である。
【図46】実施例6におけるハイライト表示用のSGM
L文書の例を示す図である。
【図47】実施例6におけるハイライト表示の例を示す
図である。
【符号の説明】
101 構造化文書検索表示装置 102 登録用構造化文書 103 検索条件 104 文書登録処理モジュール 105 構造化文書DB 106 検索用情報DB 107 構造化文書読み出し処理モジュール 108 検索処理モジュール 109 ヒット文書番号情報 110 ヒット範囲情報 111 ヒット文書の文書内容 112 文書表示処理モジュール 113 表示用文書 114 登録用文書格納ファイル 115 入出力装置 2301 表示構造情報 2302 部分構造表示モジュール 2700 WWW検索システム 2701 クライアント 2703 Webブラウザ 2704 HTTPサーバ 2705 データ制御 2706 メモリ 2707 HTML文書 3200 ハイライトタグ文字格納領域の構造 3400 HTML文書例 3401 HTML文書の表示画面例 3500 ハイライトタグ挿入後HTML文書例 3501 ハイライトタグ挿入後表示画面例
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/403 380Z (72)発明者 山崎 紀之 神奈川県戸塚区戸塚町5030番地 株式会社 日立製作所ソフトウェア開発本部内 (72)発明者 青山 ゆき 神奈川県横浜市都筑区加賀原二丁目2番 株式会社日立製作所システム開発本部内

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 処理装置と、記憶装置と、ファイル装置
    と、入出力装置を備える情報処理システムにおける構造
    化文書検索表示方法であって、 前記処理装置は、 入力された構造化文書を解析して解析済み構造化文書を
    生成し、該解析済み構造化文書を前記ファイル装置に格
    納し、 該解析済み構造化文書から各構造内の内容文字列情報を
    取得して文書検索用情報を生成し、前記ファイル装置に
    格納し、 入力された検索条件により該ファイル装置に格納された
    文書検索用情報を検索し、該検索条件を満たす内容文字
    列情報があるか否か判定し、該検索条件を満たすとみな
    される内容文字列情報を持つ文書の解析済み構造化文書
    を取得し、かつ該文書の検索条件を満たす範囲の情報を
    取得し、 該文書の検索条件を満たす範囲をハイライト表示するた
    めの表示用文書型定義(表示用DTD)を作成し、 前記文書の検索条件を満たす範囲の情報と表示用文書型
    定義に基づき構造化文書中にハイライト表示するための
    情報を付加した表示用構造化文書を作成することを特徴
    とする構造化文書検索表示方法。
  2. 【請求項2】 処理装置と、記憶装置と、ファイル装置
    と、入出力装置を備える情報処理システムにおける構造
    化文書検索表示方法であって、 前記処理装置は、 入力された構造化文書を解析して解析済み構造化文書を
    生成し、該解析済み構造化文書を前記ファイル装置に格
    納し、 前記入力された構造化文書から予め与えられた検索対象
    外の構造情報を除去した文書検索用の正規化処理済み構
    造化文書を生成し、かつ該除去された構造情報を復元す
    るための復元情報を生成し、前記ファイル装置に格納
    し、 入力された検索条件により該ファイル装置に格納された
    正規化処理済み構造化文書を検索し、該検索条件を満た
    す正規化処理済み構造化文書があるか否か判定し、該検
    索条件を満たすとみなされる文書の正規化処理済み構造
    化文書を取得し、かつ該文書の検索条件を満たす範囲の
    情報を取得し、 該文書の検索条件を満たす範囲をハイライト表示するた
    めの表示用文書型定義を作成し、 前記検索により取得された正規化処理済み構造化文書を
    前記復元情報により、除去された構造情報を有する構造
    化文書に復元し、前記文書の検索条件を満たす範囲の情
    報と表示用文書型定義に基づき該復元された構造化文書
    中にハイライト表示するための情報を付加した表示用構
    造化文書を作成することを特徴とする構造化文書検索表
    示方法。
  3. 【請求項3】 処理装置と、記憶装置と、ファイル装置
    と、入出力装置を備える情報処理システムにおける構造
    化文書検索表示方法であって、 前記処理装置は、 入力された構造化文書を解析して解析済み構造化文書を
    生成し、該解析済み構造化文書を前記ファイル装置に格
    納し、 該解析済み構造化文書から各構造内の内容文字列情報を
    取得して文書検索用情報を生成し、前記ファイル装置に
    格納し、 入力された検索条件により該ファイル装置に格納された
    文書検索用情報を検索し、該検索条件を満たす内容文字
    列情報があるか否か判定し、該検索条件を満たすとみな
    される内容文字列情報を持つ文書の解析済み構造化文書
    を取得し、かつ該文書の検索条件を満たす範囲の情報を
    取得し、 入力された表示対象の部分構造を取得し、 該表示対象の部分構造中の前記検索条件を満たす範囲を
    ハイライト表示するための部分構造表示用文書型定義を
    作成し、 該表示対象の部分構造に対して、前記文書の検索条件を
    満たす範囲の情報と部分構造表示用文書型定義に基づき
    構造化文書中にハイライト表示するための情報を付加し
    た部分構造表示用構造化文書を作成することを特徴とす
    る構造化文書検索表示方法。
  4. 【請求項4】 請求項1または請求項2または請求項3
    記載の構造化文書検索表示方法において、 検索結果のハイライト表示は、検索ターム毎に複数のハ
    イライト表示形態のいずれかを用いてハイライト表示す
    ることを特徴とする構造化文書検索表示方法。
  5. 【請求項5】 請求項1または請求項2または請求項3
    記載の構造化文書検索表示方法において、 検索条件中の2つの検索タームについて、各検索ターム
    の相対的な出現位置に関する条件を満たしている場合
    は、検索条件を構成する各検索タームに対するハイライ
    ト表示とその2つの検索タームを含む最小の文字列範囲
    に対するハイライト表示をそれぞれ異なったハイライト
    表示形態を用いてハイライト表示することを特徴とする
    構造化文書検索表示方法。
  6. 【請求項6】 請求項1または請求項2または請求項3
    記載の構造化文書検索表示方法において、 検索条件に複数の検索タームについて、検索条件を構成
    する各検索タームに対するハイライト表示と該検索ター
    ムを含む構造全体に対するハイライト表示をそれぞれ異
    なつた表示形態を用いてハイライト表示することを特徴
    とする構造化文書検索表示方法。
  7. 【請求項7】 請求項4記載の構造化文書検索表示方法
    において、 各検索ターム毎のハイライト表示のハイライト表示形態
    は、各検索タームの出現頻度の情報に基づき決定するこ
    とを特徴とする構造化文書検索表示方法。
  8. 【請求項8】 請求項4記載の構造化文書検索表示方法
    において、 各検索ターム毎のハイライト表示のハイライト表示形態
    は、各検索タームごとに予め与えられた重み付けの情報
    に基づき決定することを特徴とする構造化文書検索表示
    方法。
  9. 【請求項9】 処理装置と、記憶装置と、ファイル装置
    と、入出力装置を備える構造化文書検索表示装置であっ
    て、 前記処理装置は、 入力された構造化文書を解析して解析済み構造化文書を
    生成し、該解析済み構造化文書を前記ファイル装置に格
    納する手段と、 前記入力された構造化文書から予め与えられた検索対象
    外の構造情報を除去した文書検索用の正規化処理済み構
    造化文書を生成し、前記ファイル装置に格納する手段
    と、 該除去された構造情報を復元するための復元情報を生成
    し、前記ファイル装置に格納する手段と、 入力された検索条件により該ファイル装置に格納された
    正規化処理済み構造化文書を検索し、該検索条件を満た
    す正規化処理済み構造化文書があるか否か判定し、該検
    索条件を満たすとみなされる文書の正規化処理済み構造
    化文書を取得し、かつ該文書の検索条件を満たす範囲の
    情報を取得する手段と、 該文書の検索条件を満たす範囲をハイライト表示するた
    めの表示用文書型定義を作成する手段と、 前記検索により取得された正規化処理済み構造化文書を
    前記復元情報により、除去された構造情報を有する構造
    化文書に復元する手段と、前記文書の検索条件を満たす
    範囲の情報と表示用文書型定義に基づき該復元された構
    造化文書中にハイライト表示するための情報を付加した
    表示用構造化文書を作成する手段を有することを特徴と
    する構造化文書検索表示装置。
  10. 【請求項10】 処理装置と、記憶装置と、ファイル装
    置と、入出力装置を備える情報処理システムにおける構
    造化文書検索表示方法であって、 前記処理装置は、 入力された特定の文書型定義に従う構造化文書をタグを
    残したままプレーンテキストとして前記ファイル装置に
    格納し、 入力された検索条件により該ファイル装置に格納された
    プレーンテキストを検索し、該検索条件を満たす範囲が
    あるか否か判定し、該検索条件を満たす範囲を持つ文書
    をプレーンテキストとして取得し、かつ該文書の検索条
    件を満たす範囲の情報を取得し、 前記特定の文書型定義を表示用文書型定義とし、前記入
    力された構造化文書に対して前記検索条件を満たす範囲
    に対して該表示用文書型定義に基づくハイライト表示す
    るための情報を付加した表示用構造化文書を作成するこ
    とを特徴とする構造化文書検索表示方法。
  11. 【請求項11】 請求項10記載の構造化文書検索表示
    方法において、 検索条件を満たす範囲が構造化文書において文書構造を
    示すタグの属性情報中に存在するか否かを判定し、 該検索条件を満たす範囲がタグの属性情報中に存在する
    場合は、構造化文書の内容文字列中に該検索条件を満た
    す範囲の文字列を含む文字列を追加し、該文字列におい
    て該検索条件を満たす範囲に対して前記特定の文書型定
    義に基づくハイライト表示するための情報を付加した表
    示用構造化文書を作成することを特徴とする構造化文書
    検索表示方法。
  12. 【請求項12】 請求項10記載の構造化文書検索表示
    方法において、 入力された検索条件により該ファイル装置にタグを残し
    たままプレーンテキストとして格納された構造化文書を
    検索する際に、予め指定された特定のタグを構成する文
    字列を検索対象から除去し、該特定のタグを構成する文
    字列の前後を連結した文字列に対して検索することで得
    られる検索条件を満たす範囲に対して、前記特定の文書
    型定義に基づくハイライト表示するための情報を付加し
    た表示用構造化文書を作成することを特徴とする構造化
    文書検索表示方法。
  13. 【請求項13】 請求項10記載の構造化文書検索表示
    方法において、 入力された検索条件により該ファイル装置にプレーンテ
    キストとして格納された構造化文書を検索する際に、検
    索条件を満たす範囲が予め指定された文書構造の開始を
    示す特定のタグと文書構造の終わりを示す特定のタグに
    挟まれるか否かを判定し、 挟まれる場合は、文書構造の開始を示す特定のタグより
    前もしくは文書構造の終わりを示すタグより後ろの内容
    文字列中に、該検索条件を満たす範囲の文字列を含む文
    字列を追加し、該文字列において該検索条件を満たす範
    囲に対して前記特定の文書型定義に基づくハイライト表
    示するための情報を付加した表示用構造化文書を作成す
    ることを特徴とする構造化文書検索表示方法。
  14. 【請求項14】 請求項1または請求項2または請求項
    3または請求項10記載の構造化文書検索表示方法にお
    いて、 前記表示用文書型定義に基づくハイライト表示するため
    の情報を付加した表示用構造化文書を作成する際に、ハ
    イライト表示するための情報は、検索条件中に指定され
    た方法を用いて付加することを特徴とする構造化文書検
    索表示方法。
JP19803898A 1997-07-01 1998-06-29 構造化文書検索表示方法及び装置 Expired - Fee Related JP3832693B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19803898A JP3832693B2 (ja) 1997-07-01 1998-06-29 構造化文書検索表示方法及び装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP19071697 1997-07-01
JP19540897 1997-07-22
JP9-190716 1997-07-22
JP9-195408 1997-07-22
JP19803898A JP3832693B2 (ja) 1997-07-01 1998-06-29 構造化文書検索表示方法及び装置

Publications (2)

Publication Number Publication Date
JPH11110384A true JPH11110384A (ja) 1999-04-23
JP3832693B2 JP3832693B2 (ja) 2006-10-11

Family

ID=27326376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19803898A Expired - Fee Related JP3832693B2 (ja) 1997-07-01 1998-06-29 構造化文書検索表示方法及び装置

Country Status (1)

Country Link
JP (1) JP3832693B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109612A (ja) * 1999-10-06 2001-04-20 Internatl Business Mach Corp <Ibm> 音声読み上げ範囲の指定方法および装置
JP2001125916A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報処理装置
JP2002014983A (ja) * 2000-06-28 2002-01-18 Dainippon Printing Co Ltd 文書サーバ、文書加工システム及び記録媒体
JP2002366576A (ja) * 2001-04-05 2002-12-20 Internatl Business Mach Corp <Ibm> データ検索の方法、システム、およびプログラム製品
JP2003157249A (ja) * 2001-11-21 2003-05-30 Degital Works Kk 文書の圧縮格納方法
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体
WO2006054506A1 (ja) * 2004-11-17 2006-05-26 Turbo Data Laboratories Inc. ツリーデータの検索・集計・ソート方法及びプログラム
JP2006209230A (ja) * 2005-01-25 2006-08-10 Canon Inc 情報処理装置、情報処理方法、システム、システムの制御方法
WO2006137412A1 (ja) * 2005-06-20 2006-12-28 National Institute Of Information And Communications Technology, Incorporated Administrative Agency データ表示装置及び方法
JP2007241482A (ja) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology デ−タ表示装置及び方法
JP2008073956A (ja) * 2006-09-21 2008-04-03 Oki Data Corp 画像処理装置
JP2014081958A (ja) * 2014-01-20 2014-05-08 Fujitsu Ltd アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置
JP2019537785A (ja) * 2016-11-21 2019-12-26 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 端末スクリーン上で情報がスクロールされる間に表示される情報

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109612A (ja) * 1999-10-06 2001-04-20 Internatl Business Mach Corp <Ibm> 音声読み上げ範囲の指定方法および装置
JP2001125916A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報処理装置
JP4573402B2 (ja) * 2000-06-28 2010-11-04 大日本印刷株式会社 文書サーバ、文書加工システム及び記録媒体
JP2002014983A (ja) * 2000-06-28 2002-01-18 Dainippon Printing Co Ltd 文書サーバ、文書加工システム及び記録媒体
JP2002366576A (ja) * 2001-04-05 2002-12-20 Internatl Business Mach Corp <Ibm> データ検索の方法、システム、およびプログラム製品
JP2003157249A (ja) * 2001-11-21 2003-05-30 Degital Works Kk 文書の圧縮格納方法
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体
WO2006054506A1 (ja) * 2004-11-17 2006-05-26 Turbo Data Laboratories Inc. ツリーデータの検索・集計・ソート方法及びプログラム
JP4796970B2 (ja) * 2004-11-17 2011-10-19 株式会社ターボデータラボラトリー ツリーデータの検索・集計・ソート方法及びプログラム
JP2006209230A (ja) * 2005-01-25 2006-08-10 Canon Inc 情報処理装置、情報処理方法、システム、システムの制御方法
WO2006137412A1 (ja) * 2005-06-20 2006-12-28 National Institute Of Information And Communications Technology, Incorporated Administrative Agency データ表示装置及び方法
JP2007241482A (ja) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology デ−タ表示装置及び方法
JP2008073956A (ja) * 2006-09-21 2008-04-03 Oki Data Corp 画像処理装置
JP4498333B2 (ja) * 2006-09-21 2010-07-07 株式会社沖データ 画像処理装置
JP2014081958A (ja) * 2014-01-20 2014-05-08 Fujitsu Ltd アノテーション付与方法、アノテーション復元方法、アノテーション付与装置及びアノテーション復元装置
JP2019537785A (ja) * 2016-11-21 2019-12-26 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 端末スクリーン上で情報がスクロールされる間に表示される情報

Also Published As

Publication number Publication date
JP3832693B2 (ja) 2006-10-11

Similar Documents

Publication Publication Date Title
US7707139B2 (en) Method and apparatus for searching and displaying structured document
US10042828B2 (en) Rich text handling for a web application
JP3879350B2 (ja) 構造化文書処理システム及び構造化文書処理方法
US6021416A (en) Dynamic source code capture for a selected region of a display
US7065707B2 (en) Segmenting and indexing web pages using function-based object models
US7464078B2 (en) Method for automatically extracting by-line information
Han et al. Wrapping web data into XML
US20090019015A1 (en) Mathematical expression structured language object search system and search method
US20050060306A1 (en) Apparatus, method, and program for retrieving structured documents
US20030088643A1 (en) Method and computer system for isolating and interrelating components of an application
JPH08241332A (ja) 全文登録語検索装置および方法
JPH11110384A (ja) 構造化文書検索表示方法及び装置
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
Myllymaki et al. Robust web data extraction with xml path expressions
Liu et al. An XML-enabled data extraction toolkit for web sources
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
JP2003281149A (ja) アクセス権限設定方法および構造化文書管理システム
JP4439497B2 (ja) 検索処理装置及びプログラム
JP2002297662A (ja) 構造化文書編集方法および構造化文書編集装置および端末装置およびプログラム
CN110457435A (zh) 一种专利新颖性分析系统及其分析方法
Lakshmi et al. Web structure analysis for information mining
CN117874319B (zh) 基于搜索引擎的信息挖掘方法、装置及计算机设备
JP2003288365A (ja) 付加情報管理方法及び付加情報管理システム
JP2004303097A (ja) 構造化文書の部分文書抽出プログラムおよび部分文書抽出方法
Suzuki et al. Path Set Operations for Clipping of Parts of Web Pages and Information Extraction from Web pages.

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060217

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060713

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090728

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100728

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100728

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130728

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees