JP3160265B2

JP3160265B2 - 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体

Info

Publication number: JP3160265B2
Application number: JP16299099A
Authority: JP
Inventors: 裕一飯塚; 光明綱川; 壽宏永末; 隆星野; 宏毅町原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-06-10
Filing date: 1999-06-09
Publication date: 2001-04-25
Anticipated expiration: 2019-06-09
Also published as: JP2000348061A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、半構造化文書情報
統合検索装置および半構造化文書情報抽出装置、その方
法、ならびにそのプログラムを格納する記録媒体に関す
る。特に、オープンなネットワーク上に散在する複数の
半構造化文書や複数のサーチエンジンが存在する環境に
おいて、これら半構造化文書の文書構造・表現形式・構
成要素や、これらサーチエンジンの入力フォーム等の相
違に拘わらず、各半構造化文書の所在情報・文書構造情
報・項目情報・表現形式情報等を管理することによっ
て、各半構造化文書に跨って内在する情報への、統一イ
ンターフェースによる一括したアイテムベースの統合的
検索方式を実現する半構造化文書情報統合検索技術に関
する。

【０００２】

【従来の技術】近年、パソコンの高機能化および低価格
化、ネットワーク技術の向上、ネットワーク・プロバイ
ダの普及と低価格化等により、インターネットに代表さ
れるオープンネットワークが普及している。このオープ
ンネットワークの普及に伴い、多くの情報プロバイダが
コンテンツ作成を容易に実現するハイパーテキストの記
述言語であるＨＴＭＬ（Hyper Text Markup Language）
を用い、オープンネットワーク上で多種多様な情報発信
を行うようになってきた。これら情報プロバイダは、情
報コンシューマが爆発的に増加したのに伴い、急激に増
加してきた。情報プロバイダが増加することにより、様
々な種類の情報がネットワーク中に蓄積されてきたた
め、これらの情報の中から、いかに情報コンシューマが
要求する情報を効率よく探索するかが大きな課題となっ
ている。

【０００３】情報コンシューマは、これらの複数の情報
源に対して興味対象の情報を一括して横断的に検索した
いという要請を持つ。しかし、各ＨＴＭＬ文書の構造、
表現形式、各ＨＴＭＬ文書の検索方式などは互いに異な
るため、異なる情報源を横断的に検索することは困難で
ある。

【０００４】ネットワーク上に散在するＨＴＭＬ文書の
検索に関し、一般にサーチエンジンと呼ばれる情報検索
装置が普及している。ここで、サーチエンジンとは、フ
ォーム入力によりある情報を検索するシステムの総称で
ある。図５１は、従来技術におけるＵＲＬサーチエンジ
ンによる情報検索方式を説明する図である。ここで、Ｕ
ＲＬサーチエンジンとは、キーワードや条件入力による
問い合わせに対して、ＵＲＬを検索結果として返す情報
検索装置をいう。例えば「予算１０万円以下のＰＣが欲
しい」という要求を満たすため、ユーザーはまずＵＲＬ
サーチエンジンに対してキーワード検索を行う。図５２
は従来技術における各ＵＲＬサーチエンジンの構成を示
す図である。ネットワークに散在するＨＴＭＬ文書検索
用のキーワードと文書の所在を示すＵＲＬが予めＵＲＬ
サーチエンジン９００にキーワードインデックス９１０
として登録されている。検索処理部９３０は、指定され
たキーワードによりキーワードインデックス９１０を探
索し、指定されたキーワードやその類義語を含むＨＴＭ
Ｌ文書の所在を示すＵＲＬのリストや概要を検索結果と
してユーザーに返す。図５１に戻り、ユーザーは得られ
たＵＲＬのＨＴＭＬ文書に個別にアクセスして所望する
情報を人手で探索していた。即ち、ＨＴＭＬ文書に内在
する情報を検索する場合、所在が既知でないＨＴＭＬ文
書から所望する情報を得るためには、ユーザーはまず全
文検索によりＨＴＭＬ文書の所在を探索し、得られた所
在リストの複数のＨＴＭＬ文書の内容閲覧を繰り返すた
め、所望する情報を取得するまでに多くの時間と労力を
要していた。さらに、この所望する情報が複数のＨＴＭ
Ｌ文書に散在する場合、これらを横断的に検索すること
は困難であった。

【０００５】この従来の方式では、指定されたキーワー
ドやその類義語を含むＨＴＭＬ文書の所在情報の検索は
できるが、各ＨＴＭＬ文書に内在する情報に対するアイ
テムベースの一括した検索が不可能であった。また検索
結果に対する条件指定（日付によるフィルタリング等）
も不可能であった。さらに、各ＨＴＭＬ文書への検索イ
ンターフェースを入力フォームとして提供しているＵＲ
Ｌサーチエンジンを利用する場合、ユーザーがＵＲＬサ
ーチエンジンごとに個別のフォーム入力インターフェー
スを意識する必要があり、かつＵＲＬサーチエンジンご
とに個別にアクセスする必要があった。

【０００６】具体的には、例えば、オープンネットワー
ク上で、オンライン商取引を行うオンラインショップの
ＨＴＭＬ文書は、取り扱い商品に関する情報（例えば、
商品名や価格など）を１つの意味のあるデータ群とし
て、表形式や箇条書きの形式でリスト記述する場合が非
常に多い。これらオンラインショップのＨＴＭＬ文書に
内在する情報を横断的に検索することに対する需要が高
まっている。この横断的検索として、例えば”指定の商
品を最安値で販売しているショップの検索”等がある。
従来これらオンラインショップのＨＴＭＬ文書から横断
的検索を行うためには、ユーザは欲しい商品の名前、メ
ーカ名、商品種別等をキーワードとして、図５１の検索
方式によりＨＴＭＬ文書の所在情報を取得し、得られた
所在のＨＴＭＬ文書に１つずつアクセスし、所望の商品
の有無を確認する必要があった。しかし図５１の検索方
式は、文書の構成要素を考慮しない全文検索であるた
め、全く関係のないＨＴＭＬ文書の所在まで大量に検索
してしまい、これら大量のＨＴＭＬ文書の中から人手で
所望の商品情報を探索するのに多くの時間と労力を要し
ていた。

【０００７】このように従来の検索方式では、ＨＴＭＬ
文書中の情報を項目別に収集することができなかった。
即ち”商品情報を記載した表を内包するＨＴＭＬ文書”
に対しては”商品価格””商品イメージ””メーカ名”
等、”店舗情報が箇条書きで記載されているＨＴＭＬ文
書”に対しては”店舗名””電話番号””住所”等の項
目別に情報を抽出することが困難であった。また、ＨＴ
ＭＬ文書からの検索結果に対して日付によるフィルタリ
ング処理などの条件指定を行うこともできなかった。

【０００８】これら項目別に管理されている情報を抽出
するために、文書内部の構造や文書間の関連を独自のモ
デルにマッピングすることにより、仮想的なデータベー
スを作成する従来技術がある。この従来技術の１つの例
は、N.Ashish, C.A.Knoblock, "Semi-automatic wrappe
r generation for internet information sources" ,Pr
oceedings of cooperative information systems,1997.
に開示されている。この技術は、ＨＴＭＬ文書中で特定
のタグ（ＴＩＴＬＥタグ、Ｈ１タグ等）や、特定のフォ
ントタグの内容（大きさ、色、太字・イタリック等の書
体等）を持つ箇所を意味のある情報ととらえ、これらの
情報を自動的に抽出するための技術である。この技術
は、１つの情報の最小のまとまりが１つのＨＴＭＬ文書
に記述され、これらＨＴＭＬ文書が同じ形式で記述され
た複数のＨＴＭＬ文書を対象としている。この技術は、
例えば、地域ごとの気象情報が異なるＨＴＭＬ文書に記
述されている場合に有効である。

【０００９】しかし、この技術は、１つのＨＴＭＬ文書
に表形式や箇条書きの形式でデータ群をリスト記述する
ことは考慮されていないため、上記のケースには適用で
きない。

【００１０】従来技術の他の例は、J.Hammer, H.Garcia
-Molina, J.Cho, R.Araha, A.Crespo, "Extracting sem
istructured information from the web", Workshop on
management of semistructured data,1997.に開示され
ている。この技術は、ＯＥＭという独自のデータモデル
を用いて下層のデータベースを構築し、このデータベー
スと様々な情報源の対応を管理することにより、複数の
異種情報源の統合的な検索を実現する技術である。この
対応管理のため、この技術はＨＴＭＬ文書に対してはＨ
ＴＭＬタグ記述に依存したテンプレートファイルを用い
る方式を採用している。

【００１１】しかし、この技術は、ＨＴＭＬ文書に変更
が生じると仮想のデータベースに影響が及び、仮想のデ
ータベースに変更が生じるとアプリケーションに影響が
及ぶため、システムの運用、保守に多大な労力が必要で
あった。

【００１２】さらに、オンラインショップの取扱商品情
報等のためのＨＴＭＬ記述には、標準化された形式がな
いため、各ＨＴＭＬ文書に以下の差異が生じている。

【００１３】第１に、ショップにより各ＨＴＭＬ文書の
文書構造が異なる。例えば、ショップＡの取扱商品はＴ
ＡＢＬＥタグで記述される表形式で提示されたり、ショ
ップＢの取扱商品はＵＬタグで記述される箇条書きで提
示されたりしている。

【００１４】第２に、ＨＴＭＬ文書上の同一の取扱商品
に関する情報の表現形式が異なる。例えば、価格を表す
表現形式では、円、千円、万円、＄等の単位の違いや、
全角、半角等の表記の違いがある。

【００１５】第３に、ＨＴＭＬ文書の同じ情報を表すデ
ータの構成要素が異なる。例えば、商品名を示すデータ
の構成要素は、商品名のみの記述、商品名と型番を併せ
て記述、メーカ名と商品名と型番を併せて記述、等の違
いがある。従来の検索方式で取得したＨＴＭＬ文書から
所望の情報を得るため、ユーザは、これらの相違する情
報を並べて比較する必要がある。これらの情報の中から
所望の商品情報を探索するのにも、多くの時間と労力を
要していた。

【００１６】さらに、複数のサーチエンジンを用いてオ
ープンネットワーク上の情報を検索する場合、これらの
サーチエンジンにはそれぞれ取り扱う情報の種類等の差
異があるため、状況に応じてユーザが使い分ける必要が
ある。換言するとユーザーは各サーチエンジンに検索要
求を発行する際に、サーチエンジン固有の所在情報、検
索インタフェースを意識する必要があった。

【００１７】このため、第１に、ユーザによるサーチエ
ンジンの所在情報の管理が困難であった。ユーザはサー
チエンジンの所在情報を、ブックマーク等を用い個人で
管理する必要があるため、特にモバイル環境下など自端
末以外の環境での検索が困難であった。

【００１８】第２に、各種サーチエンジンの普及に伴う
入力フォームの提供する検索インタフェースの不統一性
が生じた。各サーチエンジンの普及に伴い、入力フォー
ムが乱立している。しかし、入力フォームの構造は統一
されていないため、ユーザーはサーチエンジン毎に固有
の操作体系、操作手順を把握する必要がある。またユー
ザーは、ある検索項目の処理にどのサーチエンジンが有
効であるかを把握することができない。かつ得られたＨ
ＴＭＬ文書中の情報を条件処理することができない。

【００１９】第３に、サーチエンジンへの検索効率の悪
化が生じた。上述したようにユーザーは、所望の情報を
得るまで人手でサーチエンジン毎に検索を行うため、検
索回数が増加し、効率が非常に悪い。

【００２０】第４に、各サーチエンジンからの検索結果
の項目、表現形式、文字コードなどのフォーマットが不
統一であるため、ユーザーが検索結果を比較するのが困
難である。

【００２１】上記の各サーチエンジンの異種性を解消す
るため、サーチエンジンの一種であるＵＲＬサーチエン
ジンの共通な検索インタフェースを作成し、当該検索イ
ンタフェースと個々のＵＲＬサーチエンジンの検索イン
タフェースの対応を管理し、共通検索インタフェースに
対する検索要求を個々の検索エンジンの検索要求に変換
／実行する従来技術が、Jumon World Seek,"http://mem
ber.nifty.ne.jp/jumon "に開示されている。この技術
は、共通検索インタフェースがテキストボックス１つか
ら構成されるＵＲＬサーチエンジンを提供する。しか
し、一般にＵＲＬサーチエンジンだけではなく多種多様
なサーチエンジンが存在し、これらの横断的な検索を実
現するためには、以下の問題点があった。

【００２２】（１）複数の入力項目の考慮が必要。

【００２３】最もシンプルな入力フォーム構成では、入
力項目は検索する用語を入力するテキストボックス（キ
ーワード入力部）のみであるが、キーワードとともに他
の検索条件（エリア、業種等）について同時に入力し、
絞り込み検索を行うことについて配慮されている場合も
ある。この場合、ＨＴＭＬは項目を有さない半構造化文
書であるため、従来技術はシステムとして複数の入力項
目をサポートできず、絞り込み検索はできなかった。

【００２４】（２）使用される入力フォームの多様性へ
の対応が必要。

【００２５】サーチエンジンで通常用いられるテキスト
入力用の入力フォームのオブジェクトには、テキストボ
ックス、複数項目中１項目を選択するラジオボタン、複
数項目中で任意の複数項目を選択するセレクトボックス
またはチェックボックスなど要求条件を適切に入力する
ためのオブジェクトが複数存在する場合がある。この場
合、従来技術ではシステムとしてテキストボックス以外
のオブジェクトをサポートしていないため、対応するこ
とができなかった。

【００２６】（３）さらに、複数のサーチエンジンにわ
たる共通検索インタフェースを用いる場合、この共通検
索インターフェースの修正時にアプリケーションを再構
築する必要がある。

【００２７】共通検索インターフェースに対してサーチ
エンジンの追加／修正／削除を行う際に、共通検索イン
タフェースの修正が必要になり、対応するアプリケーシ
ョンを再構築しなければならない。

【００２８】すなわち、従来技術においては、多種多様
なサーチエンジンを取り込むことができず、システム構
築／維持管理に多くの時間と労力が必要であった。

【００２９】

【発明が解決しようとする課題】本発明は、上記の問題
点を解決するためになされたものである。

【００３０】そして、その目的とするところは、オープ
ンなネットワークに散在する複数のＨＴＭＬ文書に内在
する情報の文書構造、表現形式、構成要素などが互いに
異なっていても、これら文書を跨った情報検索を実現
し、このＨＴＭＬ記述上の差異をユーザーごとの統一形
式に変換した検索結果を返却することのできる、半構造
化文書情報統合検索体系を提供することにある。

【００３１】本発明の他の目的は、オープンなネットワ
ークに複数のサーチエンジンが存在する環境において各
サーチエンジン固有の入力フォームのオブジェクトを個
別に管理することにより複数のサーチエンジンの異種性
を解消し、ユーザーの検索要求に対して各サーチエンジ
ン固有の検索要求を生成して検索を実行することのでき
る、半構造化文書情報統合検索体系を提供することにあ
る。

【００３２】本発明の他の目的は、ＨＴＭＬ文書の所在
情報、ＨＴＭＬ文書に内在する文書の構造情報、各構成
要素の属性情報をＨＴＭＬ文書ごとに管理することによ
り、所在、文書構造、属性が互いに異なる任意のＨＴＭ
Ｌ文書から情報を項目別に抽出することのできる半構造
化文書情報統合検索体系を提供することにある。

【００３３】

【課題を解決するための手段】本発明の特徴は、オープ
ンネットワーク上の複数の半構造化文書に内在する情報
を検索する半構造化文書情報統合検索装置であって、半
構造化文書ごとに該半構造化文書中から抽出すべき項目
および該項目を条件検索するための項目情報を定義する
メタ情報を記憶する記憶部と、入力された問い合わせか
ら、前記メタ情報に基づいて、複数の半構造化文書に散
在する情報を検索して一括した検索結果を得る検索部
と、ユーザーごとに所定の単一フォーマットで前記検索
結果を出力する出力部とを具備することを特徴とする半
構造化文書情報統合検索装置を提供する点にある。

【００３４】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する半構造化文書情報統合検索装置であって、オープン
ネットワーク上での半構造化文書の所在を示す所在情報
と、前記半構造化文書の構造を、抽出すべき項目ごとに
区切るための文書構造情報と、前記項目ごとに前記項目
を条件検索するための属性を規定する属性情報と、ユー
ザーの項目の表現形式と各半構造化文書の項目の表現形
式との間の変換情報を定義する表現形式変換情報とを記
憶する記憶部と、検索項目および検索条件からなる入力
された問い合わせに基づいて、すべての検索項目に対応
する項目を有する半構造化文書の所在を前記所在情報か
ら得る文書所在探索部と、入力された前記問い合わせ
を、必要に応じ、前記表現形式変換情報に基づいて、前
記得られた所在の半構造化文書中の前記検索項目に対応
する項目の表現形式に変換する問い合わせ変換部と、前
記変換された問い合わせを前記得られた所在に送信し
て、半構造化文書を取得する文書検索部と、取得された
各半構造化文書から、前記文書構造情報に基づいて、項
目データを抽出し、必要に応じて前記検索条件を用い、
前記属性情報に基づいて前記抽出された項目データを選
択して検索結果とする文書処理部と、前記検索結果を、
必要に応じ、前記表現形式変換情報に基づいて、前記検
索結果中の項目に対応する各ユーザーごとに定義された
項目の表現形式に変換する検索結果変換部とを具備する
ことを特徴とする半構造化文書情報統合検索装置が提供
される。

【００３５】また、本発明の他の特徴によれば、上記半
構造化文書情報統合検索装置は、さらに、半構造化文書
ごとに、前記文書構造情報に基づき、少なくとも抽出す
べき項目名と、半構造化文書から抽出すべき項目群の所
定の抽出テキスト形式情報を記述するテンプレートを記
憶するテンプレート記憶部を具備し、前記文書処理部
は、前記取得された半構造化文書をスキャンして、該半
構造化文書と、該半構造化文書に対応する前記テンプレ
ートとを比較して、前記抽出テキスト形式情報に合致し
た項目の項目データを抽出して、検索結果とする点にあ
る。

【００３６】また、本発明の他の特徴は、前記文書処理
部は、前記検索結果を、表形式に整形する点にある。

【００３７】また、本発明の他の特徴は、前記文書処理
部は、前記テンプレート中の前記抽出テキスト形式情報
が、他の半構造化文書へのリンク情報を含む場合には、
リンク先の半構造化文書をスキャンして、前記リンク先
の半構造化文書と前記テンプレートとを比較する点にあ
る。

【００３８】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記文書処理部は、抽出された項目データを、各部
分構造ごとの検索結果とする点にある。

【００３９】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記文書
処理部は、前記取得された半構造化文書をスキャンし
て、該半構造化文書の前記部分構造と、該半構造化文書
に対応する前記テンプレート中の前記複数の抽出テキス
ト形式情報のいずれかが合致した場合に、合致した項目
の項目データを抽出する点にある。

【００４０】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が互いに異なる要素からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記文書処理部は、抽出された
項目データを、各部分構造ごとの検索結果とする点にあ
る。

【００４１】また、本発明の他の特徴は、オープンネッ
トワーク上の複数のサーチエンジンを介して情報を検索
する半構造化文書情報統合検索装置であって、オープン
ネットワーク上でのサーチエンジンの所在を示す所在情
報と、各サーチエンジンへの入力フォームに対する入力
必須項目を定義する入力必須項目情報と、ＨＴＭＬ文書
の構造を、抽出すべき項目ごとに区切るための文書構造
情報と、前記項目ごとに前記項目を条件検索するための
属性を規定する属性情報と、ユーザーの項目の表現形式
と各ＨＴＭＬ文書の項目の表現形式との間の変換情報を
定義する表現形式変換情報とを記憶する記憶部と、検索
項目および検索条件からなる入力された問い合わせに基
づいて、すべての検索項目に対応する項目を有するサー
チエンジンの所在を前記所在情報から得る文書所在探索
部と、前記得られた所在のサーチエンジンの中から、前
記入力必須項目を満たす検索条件を満たす検索条件が指
定されたサーチエンジンを、前記入力必須項目情報から
得て、検索対象サーチエンジンとして選択するサーチエ
ンジン選択部と、前記検索項目および前記検索条件と、
各サーチエンジンの有する項目および前記入力必須項目
との組み合わせを規定するマトリックステーブルに基づ
き、各サーチエンジンごとに最適な検索処理パターンを
得て、前記問い合わせを各サーチエンジンごとに前記検
索処理パターンに適合する問い合わせ群に変換する検索
パターン判定部と、前記変換された問い合わせ群のそれ
ぞれを、必要に応じ、前記表現形式変換情報に基づい
て、前記検索対象サーチエンジンの前記検索項目に対応
する項目の表現形式に変換する問い合わせ変換部と、前
記変換された問い合わせを前記得られた所在に送信し
て、ＨＴＭＬ文書を取得する文書検索部と、各サーチエ
ンジンから取得されたＨＴＭＬ文書からなる第１の検索
結果から、前記文書構造情報に基づいて、項目データを
抽出し、必要に応じて対応する前記検索処理パターンに
従い、前記検索条件を用い、前記属性情報に基づいて、
前記抽出された項目データを選択して、第２の検索結果
とする検索結果処理部と、前記第２の検索結果を、必要
に応じ、前記表現形式変換情報に基づいて、前記検索結
果中の項目に対応する各ユーザーごとに定義された項目
の表現形式に変換する検索結果変換部とを具備すること
を特徴とする半構造化文書情報統合検索装置を提供する
点にある。

【００４２】また、本発明の他の特徴は、上記半構造化
文書情報統合検索装置は、さらに、ＨＴＭＬ文書ごと
に、前記文書構造情報に基づき、少なくとも抽出すべき
項目名と、ＨＴＭＬ文書から抽出すべき項目群の抽出テ
キスト形式情報を記述するテンプレートを記憶するテン
プレート記憶部を具備し、前記文書処理部は、前記取得
された第１の検索結果であるＨＴＭＬ文書をスキャンし
て、該ＨＴＭＬ文書と、該ＨＴＭＬ文書に対応する前記
テンプレートとを比較して、前記抽出テキスト形式情報
に合致した項目の項目データを抽出して、第２の検索結
果とする点にある。

【００４３】また、本発明の他の特徴は、前記文書処理
部は、前記検索結果を、表形式に整形する点にある。

【００４４】また、本発明の他の特徴は、前記文書処理
部は、前記テンプレート中の前記抽出テキスト形式情報
が、他のＨＴＭＬ文書へのリンク情報を含む場合には、
リンク先のＨＴＭＬ文書をスキャンして、前記リンク先
のＨＴＭＬ文書と前記テンプレートとを比較する点にあ
る。

【００４５】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記文書処理部は、抽出された項目データを、各部
分構造ごとの検索結果とする点にある。

【００４６】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記文書
処理部は、前記取得された第１の検索結果であるＨＴＭ
Ｌ文書をスキャンして、該ＨＴＭＬ文書と、該ＨＴＭＬ
文書に対応する前記テンプレート中の前記複数の抽出テ
キスト形式情報のいずれかが合致した場合に、合致した
項目の項目データを抽出する点にある。

【００４７】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が互いに異なる項目からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記文書処理部は、抽出された
項目データを、各部分構造ごとの検索結果とする点にあ
る。

【００４８】また、本発明の他の特徴は、オープンネッ
トワーク上の任意のＨＴＭＬ文書に内在する情報から項
目ごとに情報を抽出する半構造化文書情報抽出装置であ
って、ＨＴＭＬ文書ごとに、ＨＴＭＬ文書の構造を抽出
すべき項目ごとに区切るための文書構造情報に基づき、
少なくとも抽出すべき項目名と、ＨＴＭＬ文書から抽出
すべき項目群の抽出テキスト形式情報を記述するテンプ
レートを記憶するテンプレート記憶部と、取得されたＨ
ＴＭＬ文書に対応するテンプレートを解析するテンプレ
ート解析部と、前記取得されたＨＴＭＬ文書をスキャン
して、該ＨＴＭＬ文書と、前記テンプレートとを比較し
て、前記抽出テキスト形式情報に合致した項目の項目デ
ータを抽出するテンプレート処理部とを具備することを
特徴とする半構造化文書情報抽出装置を提供する点にあ
る。

【００４９】また、本発明の他の特徴は、前記テンプレ
ート処理部は、前記抽出された項目データを、表形式に
整形する点にある。

【００５０】また、本発明の他の特徴は、前記テンプレ
ート処理部は、前記テンプレート中の前記抽出テキスト
形式情報が、他のＨＴＭＬ文書へのリンク情報を含む場
合には、リンク先のＨＴＭＬ文書をスキャンして、前記
リンク先のＨＴＭＬ文書と前記テンプレートとを比較す
る点にある。

【００５１】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記テンプレート処理部は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。

【００５２】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記テン
プレート処理部は、前記取得された第１の検索結果であ
るＨＴＭＬ文書をスキャンして、該ＨＴＭＬ文書と、該
ＨＴＭＬ文書に対応する前記テンプレート中の前記複数
の抽出テキスト形式情報のいずれかが合致した場合に、
合致した項目の項目データを抽出する点にある。

【００５３】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が互いに異なる項目からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記テンプレート処理部は、抽
出された項目データを、各部分構造ごとの検索結果とす
る点にある。

【００５４】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する半構造化文書情報統合検索方法であって、入力され
た問い合わせから、半構造化文書ごとに該半構造化文書
から抽出すべき項目および該項目を条件検索するための
項目情報を定義するメタ情報に基づいて、複数の半構造
化文書に散在する情報を検索して一括した検索結果を得
るステップと、ユーザーごとに所定の単一フォーマット
で前記検索結果を出力するステップとを含むことを特徴
とする半構造化文書情報統合検索方法を提供する点にあ
る。

【００５５】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する半構造化文書情報統合検索方法であって、検索項目
および検索条件からなる入力された問い合わせに基づい
て、すべての検索項目に対応する項目を有する半構造化
文書の所在を、オープンネットワーク上での半構造化文
書の所在を示す所在情報から得るステップと、入力され
た前記問い合わせを、必要に応じ、ユーザーの項目の表
現形式と各半構造化文書の項目の表現形式との間の変換
情報を定義する表現形式変換情報に基づいて、前記得ら
れた所在の半構造化文書中の前記検索項目に対応する項
目の表現形式に変換するステップと、前記変換された検
索要求を前記得られた所在に送信して、半構造化文書を
取得するステップと、取得された各半構造化文書から、
半構造化文書の構造を抽出すべき項目ごとに区切るため
の文書構造情報に基づいて項目データを抽出し、必要に
応じて前記検索条件を用い、前記項目ごとに前記項目を
条件検索するための属性を規定する属性情報に基づい
て、前記抽出された項目データを選択して検索結果とす
るステップと、前記検索結果を、必要に応じ、前記表現
形式変換情報に基づいて、前記検索結果中の項目に対応
する各ユーザーごとに定義された項目の表現形式に変換
するステップとを含むことを特徴とする半構造化文書情
報統合検索方法を提供する点にある。

【００５６】また、本発明の他の特徴は、オープンネッ
トワーク上の複数のサーチエンジンを介して情報を検索
する半構造化文書情報統合検索方法であって、検索項目
および検索条件からなる入力された問い合わせに基づい
て、すべての検索項目に対応する項目を有するサーチエ
ンジンの所在を、オープンネットワーク上でのサーチエ
ンジンの所在を示す所在情報から得るステップと、前記
得られた所在のサーチエンジンの中から、前記入力必須
項目を満たす検索条件が指定されたサーチエンジンを、
各サーチエンジンへの入力フォームに対する入力必須項
目を定義する入力必須項目情報から得て、検索対象サー
チエンジンとして選択するステップと、前記検索項目お
よび前記検索条件と、各サーチエンジンの有する項目お
よび前記入力必須項目との組み合わせを規定するマトリ
ックステーブルに基づき、各サーチエンジンごとに最適
な検索処理パターンを得て、前記問い合わせを各サーチ
エンジンごとに前記検索処理パターンに適合する問い合
わせ群に変換するステップと、前記変換された問い合わ
せ群のそれぞれを、必要に応じ、ユーザーの項目の表現
形式と各ＨＴＭＬ文書の項目の表現形式との間の変換情
報を定義する表現形式変換情報に基づいて、前記検索対
象サーチエンジンの前記検索項目に対応する項目の表現
形式に変換するステップと、前記変換された問い合わせ
を前記得られた所在に送信して、ＨＴＭＬ文書を取得す
るステップと、各サーチエンジンから取得されたＨＴＭ
Ｌ文書からなる第１の検索結果から、ＨＴＭＬ文書の構
造を抽出すべき項目ごとに区切るための文書構造情報に
基づいて項目データを抽出し、必要に応じて対応する前
記検索処理パターンに従い、前記検索条件を用いて項目
を条件検索するための属性を規定する属性情報に基づい
て前記抽出された項目データを選択して、第２の検索結
果とするステップと、前記第２の検索結果を、必要に応
じ、前記表現形式変換情報に基づいて、前記検索結果中
の項目に対応する各ユーザーごとに定義された項目の表
現形式に変換するステップとを含むことを特徴とする半
構造化情報統合検索方法を提供する点にある。

【００５７】また、本発明の他の特徴は、オープンネッ
トワーク上の任意のＨＴＭＬ文書に内在する情報から項
目ごとに情報を抽出する半構造化文書情報抽出方法であ
って、取得されたＨＴＭＬ文書に対応し、ＨＴＭＬ文書
ごとに、ＨＴＭＬ文書の構造を抽出すべき項目ごとに区
切るための文書構造情報に基づき、少なくとも抽出すべ
き項目名と、ＨＴＭＬ文書から抽出すべき項目群の抽出
テキスト形式情報を記述するテンプレートを解析するス
テップと、前記取得されたＨＴＭＬ文書をスキャンし
て、該ＨＴＭＬ文書と、前記テンプレートとを比較し
て、前記抽出テキスト形式情報に合致した項目の項目デ
ータを抽出するステップとを含むことを特徴とする半構
造化文書情報抽出方法を提供する点にある。

【００５８】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する処理をコンピュータに実行させるプログラムを記録
するコンピュータ読み取り可能な記録媒体であって、入
力された問い合わせから、半構造化文書ごとに該半構造
化文書から抽出すべき項目および該項目を条件検索する
ための項目情報を定義するメタ情報に基づいて、複数の
半構造化文書に散在する情報を検索して一括した検索結
果を得る処理と、ユーザーごとに所定の単一フォーマッ
トで前記検索結果を出力する処理とを含むことを特徴と
するコンピュータ読み取り可能な記録媒体を提供する点
にある。

【００５９】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する処理をコンピュータに実行させるプログラムを記録
するコンピュータ読み取り可能な記録媒体であって、検
索項目および検索条件からなる入力された問い合わせに
基づいて、すべての検索項目に対応する項目を有する半
構造化文書の所在を、オープンネットワーク上での半構
造化文書の所在を示す所在情報から得る文書所在探索処
理と、入力された前記問い合わせを、必要に応じ、ユー
ザーの項目の表現形式と各半構造化文書の項目の表現形
式との間の変換情報を定義する表現形式変換情報に基づ
いて、前記得られた所在の半構造化文書中の前記検索項
目に対応する項目の表現形式に変換する問い合わせ変換
処理と、前記変換された問い合わせを前記得られた所在
に送信して、半構造化文書を取得する文書検索処理と、
取得された各半構造化文書から、半構造化文書の構造を
抽出すべき項目ごとに区切るための文書構造情報に基づ
いて項目データを抽出し、必要に応じて前記検索条件を
用い、前記項目ごとに前記項目を条件検索するための属
性を規定する属性情報に基づいて、前記抽出された項目
データを選択して検索結果とする検索結果生成処理と、
前記検索結果を、必要に応じ、前記表現形式変換情報に
基づいて、前記検索結果中の項目に対応する各ユーザー
ごとに定義された項目の表現形式に変換する検索結果変
換処理とを含むことを特徴とするコンピュータ読み取り
可能な記録媒体を提供する点にある。

【００６０】また、本発明の他の特徴は、前記検索結果
生成処理は、前記取得された半構造化文書をスキャンし
て、該半構造化文書と、該半構造化文書に対応し、半構
造化文書ごとに、前記文書構造情報に基づき、少なくと
も抽出すべき項目名と、半構造化文書から抽出すべき項
目群の抽出テキスト形式情報を記述するテンプレートと
を比較して、前記抽出テキスト形式情報に合致した項目
の項目データを抽出して、検索結果とする点にある。

【００６１】また、本発明の他の特徴は、前記検索結果
生成処理は、前記検索結果を、表形式に整形する点にあ
る。

【００６２】また、本発明の他の特徴は、前記検索結果
生成処理は、前記テンプレート中の前記抽出テキスト形
式情報が、他の半構造化文書へのリンク情報を含む場合
には、リンク先の半構造化文書をスキャンして、前記リ
ンク先の半構造化文書と前記テンプレートとを比較する
点にある。

【００６３】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記検索結果生成処理は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。

【００６４】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記検索
結果生成処理は、前記取得された半構造化文書をスキャ
ンして、該半構造化文書と、該半構造化文書に対応する
前記テンプレート中の前記複数の抽出テキスト形式情報
のいずれかが合致した場合に、合致した項目の項目デー
タを抽出する点にある。

【００６５】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が互いに異なる要素からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記検索結果生成処理は、抽出
された項目データを、各部分構造ごとの検索結果とする
点にある。

【００６６】また、本発明の他の特徴は、オープンネッ
トワーク上の複数のサーチエンジンを介して情報を検索
する処理をコンピュータに実行させるプログラムを記録
するコンピュータ読み取り可能な記録媒体であって、検
索項目および検索条件からなる入力された問い合わせに
基づいて、すべての検索項目に対応する項目を有するサ
ーチエンジンの所在を、オープンネットワーク上でのサ
ーチエンジンの所在を示す所在情報から得る文書所在探
索処理と、前記得られた所在のサーチエンジンの中か
ら、前記入力必須項目を満たす検索条件が指定されたサ
ーチエンジンを、各サーチエンジンへの入力フォームに
対する入力必須項目を定義する入力必須項目情報から得
て、検索対象サーチエンジンとして選択するサーチエン
ジン選択処理と、前記検索項目および前記検索条件と、
各サーチエンジンの有する項目および前記入力必須項目
との組み合わせを規定するマトリックステーブルに基づ
き、各サーチエンジンごとに最適な検索処理パターンを
得て、前記問い合わせを各サーチエンジンごとに前記検
索処理パターンに適合する問い合わせ群に変換する検索
パターン判定処理と、前記変換された問い合わせ群のそ
れぞれを、必要に応じ、ユーザーの項目の表現形式と各
ＨＴＭＬ文書の項目の表現形式との間の変換情報を定義
する表現形式変換情報に基づいて、前記検索対象サーチ
エンジンの前記検索項目に対応する項目の表現形式に変
換する問い合わせ変換処理と、前記変換された問い合わ
せを前記得られた所在に送信して、ＨＴＭＬ文書を取得
する文書検索処理と、各サーチエンジンから取得された
ＨＴＭＬ文書からなる第１の検索結果から、ＨＴＭＬ文
書の構造を抽出すべき項目ごとに区切るための文書構造
情報に基づいて項目データを抽出し、必要に応じて対応
する前記検索処理パターンに従い、前記検索条件を用い
て項目を条件検索するための属性を規定する属性情報に
基づいて前記抽出された項目データを選択して、第２の
検索結果とする検索結果生成処理と、前記第２の検索結
果を、必要に応じ、前記表現形式変換情報に基づいて、
前記検索結果中の項目に対応する各ユーザーごとに定義
された項目の表現形式に変換する検索結果変換処理とを
含むことを特徴とするコンピュータ読み取り可能な記録
媒体を提供する点にある。

【００６７】また、本発明の他の特徴は、前記検索結果
生成処理は、前記取得されたＨＴＭＬ文書をスキャンし
て、該ＨＴＭＬ文書と、該ＨＴＭＬ文書に対応し、ＨＴ
ＭＬ文書ごとに、前記文書構造情報に基づき、少なくと
も抽出すべき項目名と、ＨＴＭＬ文書から抽出すべき項
目群の抽出テキスト形式情報を記述するテンプレートと
を比較して、前記抽出テキスト形式情報に合致した項目
の項目データを抽出して、検索結果とする点にある。

【００６８】また、本発明の他の特徴は、前記検索結果
生成処理は、前記検索結果を、表形式に整形する点にあ
る。

【００６９】また、本発明の他の特徴は、前記検索結果
生成処理は、前記テンプレート中の前記抽出テキスト形
式情報が、他のＨＴＭＬ文書へのリンク情報を含む場合
には、リンク先のＨＴＭＬ文書をスキャンして、前記リ
ンク先のＨＴＭＬ文書と前記テンプレートとを比較する
点にある。

【００７０】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記検索結果生成処理は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。

【００７１】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記検索
結果生成処理は、前記取得された第１の検索結果である
ＨＴＭＬ文書をスキャンして、該ＨＴＭＬ文書と、該Ｈ
ＴＭＬ文書に対応する前記テンプレート中の前記複数の
抽出テキスト形式情報のいずれかが合致した場合に、合
致した項目の項目データを抽出する点にある。

【００７２】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が互いに異なる項目からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記検索結果生成処理は、抽出
された項目データを、各部分構造ごとの検索結果とする
点にある。

【００７３】また、本発明の他の特徴は、オープンネッ
トワーク上の任意のＨＴＭＬ文書に内在する情報から項
目ごとに情報を抽出する処理をコンピュータに実行させ
るプログラムを記録するコンピュータ読み取り可能な記
録媒体であって、取得されたＨＴＭＬ文書に対応し、Ｈ
ＴＭＬ文書ごとに、ＨＴＭＬ文書の構造を抽出すべき項
目ごとに区切るための文書構造情報に基づき、少なくと
も抽出すべき項目名と、ＨＴＭＬ文書から抽出すべき項
目群の抽出テキスト形式情報を記述するテンプレートを
解析するテンプレート解析処理と、前記取得されたＨＴ
ＭＬ文書をスキャンして、該ＨＴＭＬ文書と、前記テン
プレートとを比較して、前記抽出テキスト形式情報に合
致する項目の項目データを抽出する項目データ抽出処理
とを含むことを特徴とするコンピュータ読み取り可能な
記録媒体を提供する点にある。

【００７４】また、本発明の他の特徴は、前記項目デー
タ抽出処理は、前記抽出された項目データを、表形式に
整形する点にある。

【００７５】また、本発明の他の特徴は、前記項目デー
タ抽出処理は、前記テンプレート中の前記抽出テキスト
形式情報が、他のＨＴＭＬ文書へのリンク情報を含む場
合には、リンク先のＨＴＭＬ文書をスキャンして、前記
リンク先のＨＴＭＬ文書と前記テンプレートとを比較す
る点にある。

【００７６】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記項目データ抽出処理は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。

【００７７】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記項目
データ抽出処理は、前記取得された第１の検索結果であ
るＨＴＭＬ文書をスキャンして、該ＨＴＭＬ文書と、該
ＨＴＭＬ文書に対応する前記テンプレート中の前記複数
の抽出テキスト形式情報のいずれかが合致した場合に、
合致した項目の項目データを抽出する点にある。

【００７８】また、本発明の他の特徴は、前記テンプレ
ートは、ＨＴＭＬ文書が異なる項目を有する複数の部分
構造を有する場合、各部分構造ごとに抽出テキスト形式
情報が記述され、前記項目データ抽出処理は、抽出され
た項目データを、各部分構造ごとの検索結果とする点に
ある。

【００７９】

【発明の実施の形態】以下において、図面を用いて本発
明に係る半構造化文書情報統合検索装置および半構造化
文書情報抽出装置、その方法、ならびにそのプログラム
を格納する記録媒体の実施形態が詳細に説明される。
尚、以下の実施形態において、半構造化文書とは、ＨＴ
ＭＬ（Hyper Text Markup Language）文書、ＳＧＭＬ
（StandardGeneralized Markup Language）文書、ＸＭ
Ｌ（eXtensive Markup Language）文書を含む。以下、
特に記載しない限り、半構造化文書をＨＴＭＬ文書で代
表させて説明する。尚、以下の実施形態は、ＳＧＭＬ文
書およびＸＭＬ文書に対しても、適宜修正して適用する
ことができる。例えば情報検索用のサーチエンジンが具
備する入力フォームなどもこのＨＴＭＬ文書により構成
されており、以下、ＨＴＭＬ文書にはこれら入力フォー
ムを含むものとする。また、以下の実施形態は、例えば
エレクトロニック・コマース、電子図書館や電子カタロ
グからの情報検索など、オープンネットワーク上の複数
の互いに種々の相違を有する複数のＨＴＭＬ文書を利用
するアプリケーションに広範に適用しうる。

【００８０】まず、図１および図２を参照して、本発明
に係る半構造化文書情報統合検索体系の原理を説明す
る。

【００８１】図１は、本発明に係る半構造化文書情報統
合検索体系を用いる場合のユーザーの処理手順のイメー
ジを示す。本発明に係る装置は、ユーザーから入力され
る検索要求（例えば、「１０万円以下のＰＣが欲し
い」）に基づいて、複数のＨＴＭＬ文書をユーザーに替
わって柔軟に検索し、検索処理結果を一括してユーザー
に送信する。この検索要求は、従来の検索用キーワード
ではなく、検索項目とその条件からなる簡易な構文の問
い合わせ文を用いることができる。即ち、「１０万円以
下」などの条件を含む検索を処理することができる。

【００８２】ＨＴＭＬ文書は、ＲＤＢのような項目単位
で構造化されたデータと異なり、基本的にはプレーンテ
キストであるが、タグなどによりある程度データが構造
化されている、いわゆる半構造化データであることを特
徴とする。例えばＨＴＭＬ文書に内在する表、リスト、
箇条書きなどの意味のある１つのデータ群が、複数のＨ
ＴＭＬ文書を跨って保有されていたり、逆に複数のデー
タ群が１つのＨＴＭＬ文書に内在される場合がある。同
時にこれらのデータ群のうち、ある項目に対応するデー
タを条件処理することができない。また、ＨＴＭＬによ
り記述された検索用の入力フォームを有するサーチエン
ジンでは、検索条件として指定可能なデータ項目が固定
であったり、検索条件として必須のデータ項目があった
りする。こうした構造を有するＨＴＭＬ文書に対して、
本発明に係る装置は柔軟な検索要求に対応する検索結果
を一括して出力する。

【００８３】図２は、本発明に係る装置の原理を示す。
本発明に係る装置は、事前に登録された、各ＨＴＭＬ文
書ごとの、ＨＴＭＬ文書の所在情報、文書構造情報、表
現形式などを、ＨＴＭＬ文書メタデータとしてＨＴＭＬ
文書メタデータ記憶部１５中に管理する。この所在情報
は、例えばＵＲＬである。この文書構造情報は、ＨＴＭ
Ｌ文書中の表、リスト、箇条書きなどの部分構造に関す
る情報であり、これらのデータを抽出すべき各項目にマ
ッピングするための情報である。具体的にはこの文書構
造情報は、抽出すべき項目に対応するデータがタグやス
ラッシュなどのデリミタで区切られているという情報で
あり、タグやスラッシュなどのデリミタにより識別され
るＨＴＭＬ文書データの区切られた領域を、項目に対応
付けて表形式で管理される。この表現形式は、同じ意味
を表すデータが異なる表現でＨＴＭＬ文書内に存在する
場合の、それぞれの表現形式である。

【００８４】ユーザーは、本装置の問い合わせ処理部１
３に、問い合わせを入力する。問い合わせ処理部１３
は、ＨＴＭＬ文書メタデータ記憶部１５に事前に登録さ
れている情報を参照して、ＨＴＭＬ文書の所在、構造、
表現形式を特定する。問い合わせ処理部１３は、各ＨＴ
ＭＬ文書を取得し、特定されたこれらの情報を用いて、
各ＨＴＭＬ文書に内在する情報を抽出し、必要に応じて
条件処理を行う。このため、本発明に係る装置は、各Ｈ
ＴＭＬ文書に内在する情報の条件検索結果を、一括して
かつユーザーの表現形式に適合させてユーザーに出力す
ることができる。従って、ユーザーは、１回の検索要求
で所望する情報をネットワーク上に散在するＨＴＭＬ文
書から一括して得ることができる。このため、検索効率
が向上すると同時にネットワーク上のトラフィックが低
減される。

【００８５】すなわち、本発明に係る装置は、第１に、
オープンネットワークに接続されているＨＴＭＬ等の半
構造化文書の文書構造情報を管理することにより、複数
のＨＴＭＬ文書からの項目ベースでの検索を実現する。
第２に、各サーチエンジンなどのＨＴＭＬ文書に散在す
る情報を、個々のＷｅｂ情報源に対する検索方式をユー
ザーに意識させずに統合的な検索を実現する。

【００８６】第１の実施形態図３から図１４を参照し
て、本発明に係る半構造化文書情報統合検索装置および
半構造化文書情報抽出装置、その方法、ならびに半構造
化文書情報統合検索プログラムおよび半構造化文書情報
抽出プログラムを格納した記録媒体の第１の実施形態で
あるＨＴＭＬ文書情報統合検索装置を詳細に説明する。

【００８７】第１の実施形態は、オープンなネットワー
クに散在する複数ＨＴＭＬ文書に対し、各ＨＴＭＬ文書
が内在する情報の文書構造、表現形式、表などの部分構
造の構成要素が互いに異なっていても、各ＨＴＭＬ文書
を跨った情報検索を実現し、またそのＨＴＭＬ記述上の
差異をユーザ毎の統一形式に変換して検索結果を一括し
て返却するものである。

【００８８】第１の実施形態の構成の詳細な説明を行う
前に、第１の実施形態で用いられる表現形式の概念およ
び関連する用語について説明する。ＨＴＭＬ文書が異な
ると、同じ意味を表す情報でも、異なった表現形式を用
いていることがある。例えば、製品価格に対して、「￥
１，０００」、「一千円」、「１０００円」と、ＨＴＭ
Ｌ文書の記述者によって、様々な表現形式が存在する。
そこで、以下の通り、用語を定義する。

【００８９】・ドメインとは、１つの表現形式である。

【００９０】例）価格で、 1,000円は、「円」つき表現
形式で１つのドメイン。

【００９１】価格で、￥1,000 は、「￥」つき表現形式
で１つのドメイン。

【００９２】・ドメイングループとは、同じ意味を表す
ドメインの集まりである。

【００９３】例）価格、年月日、等。

【００９４】・ユーザ入力ドメインとは、ユーザ毎の検
索要求の入力に用いるドメインである。

【００９５】例）価格は、「円」つき表現形式、年月日
は西暦かつ「／」区切り表現形式。

【００９６】・ユーザ出力ドメインとは、ユーザ毎に指
定する検索結果に用いるドメインである。

【００９７】例）価格は、「￥」つき表現形式、年月日
は年号略号かつ「．」区切り表現形式。

【００９８】・ユーザドメインとは、ユーザ入力ドメイ
ンとユーザ出力ドメインの総称である。

【００９９】・ローカルドメインとは、各ＨＴＭＬ文書
上のドメインである。

【０１００】例）価格は、「円」つき表現形式。

【０１０１】・ドメイン変換関数とは、ユーザ入力ドメ
インからローカルドメイン、ローカルドメインからユー
ザ出力ドメインへの変換を行う関数である。

【０１０２】なお、ユーザ入力ドメイン、ユーザ出力ド
メイン、ローカルドメインが相互に異なる場合、これら
の差異はドメイン変換関数を用いて解消される。

【０１０３】図３は、第１の実施形態に係るＨＴＭＬ文
書情報統合検索装置の構成を示すブロック図である。Ｈ
ＴＭＬ文書情報統合検索装置１は、ユーザーインターフ
ェース部１１と、構文解析部１２と、問い合わせ処理部
１３と、ＨＴＭＬ文書アクセス部１４と、ＨＴＭＬ文書
メタデータ記憶部１５と、ＨＴＭＬ文書メタデータ管理
部１６とにより構成される。問い合わせ処理部１３は、
問い合わせ項目探索部１３１と、問い合わせ変換部１３
２と、変換関数ライブラリ１３３と、ＨＴＭＬ文書処理
部１３４と、検索結果変換部１３５とを有する。

【０１０４】ユーザインタフェース部１１は、ユーザの
アプリケーションプログラム３から入力される検索項目
と検索条件からなる問い合わせ文を受け付ける。構文解
析部１２は、ユーザインタフェース部１１で受け付けた
問い合わせ文の構文を解析する。問い合わせ処理部１３
は、各ＨＴＭＬ文書に内在する情報から所望する項目情
報を一括して検索する。問い合わせ処理部１３中で、問
い合わせ項目探索部１３１は、問い合わせ文中で指定さ
れた項目の所在を探索する。問い合わせ変換部１３２
は、問い合わせ文のユーザ入力ドメインをローカルドメ
インに変換し、ＨＴＭＬ文書アクセス部１４が送出する
問い合わせ文を生成する。ＨＴＭＬ文書処理部１３４
は、ＨＴＭＬ文書アクセス部１４が受信したＨＴＭＬ文
書から取得した情報に対し、問い合わせ文に応じた処理
（検索項目の選択、検索条件によるフィルタリング等）
を行う。検索結果変換部１３５は、検索されたデータの
表現形式をローカルドメインからユーザ出力ドメインに
変換する。ＨＴＭＬ文書アクセス部１４は、オープンな
ネットワークに散在するＨＴＭＬ文書を取得し、その内
在する情報を例えば表形式などの統一フォーマットに変
換する。このＨＴＭＬ文書アクセス部１４には、ＨＴＭ
Ｌ文書２１およびこのＨＴＭＬ文書２１を管理するＷＥ
Ｂサーバ２２からなる複数のＨＴＭＬ文書サーバ２−
１，２−２・・・が接続されている。ＨＴＭＬ文書メタ
データ記憶部１５は、各ＨＴＭＬ文書の文書構造、ＨＴ
ＭＬ文書に内在する情報の表現形式や項目情報などの検
索対象となるＨＴＭＬ文書に関する情報を記憶し管理す
る。この項目情報として、表などの部分構造中の構成要
素と抽出すべき項目が１対１対応でない場合には、抽出
すべき項目に対応させて部分構造中の構成要素は複数の
構成要素として管理される。ＨＴＭＬ文書メタデータ管
理部１６は、ＨＴＭＬ文書メタデータ記憶部１５に対す
る各種情報の入力／削除／変更を行う。システム管理者
は、例えばエディタなどに実装されるＨＴＭＬ文書メタ
データ管理部１６を介して、ＨＴＭＬ文書メタデータを
登録・管理する。

【０１０５】図４は、ＨＴＭＬ文書メタデータ記憶部１
５が保有するテーブルの詳細を示す。ＨＴＭＬ文書メタ
データは、各ＨＴＭＬ文書の所在情報を管理するＨＴＭ
Ｌ文書テーブル１５１と、各ＨＴＭＬ文書に内在する構
成要素の表形式に変換するための情報を管理するＨＴＭ
Ｌ文書−表マッピングテーブル１５２と、各ＨＴＭＬ文
書の項目ごとにこの項目の属性を管理するＨＴＭＬ文書
項目テーブル１５３と、各ドメインの表現形式を管理す
るドメインテーブル１５４と、ユーザーごとに入力ドメ
インおよび出力ドメインを管理するユーザドメインテー
ブル１５５と、ドメイン変換関数を管理するドメイン変
換関数テーブル１５６とにより構成される。

【０１０６】次に、第１の実施形態に係るＨＴＭＬ文書
情報統合検索装置１の処理手順の概略を説明する。第１
の実施形態の処理手順は、図５に示す検索を実行する前
にＨＴＭＬ文書メタデータ管理部１６を介して管理者が
メタデータの準備を行う準備フェーズと、図６に示す検
索を実行する検索フェーズの２段階のフェーズがある。

【０１０７】図５に示す準備フェーズでは、ＨＴＭＬ文
書の所在情報をＨＴＭＬ文書テーブル１５１に定義し
（ステップＳ１００）、ＨＴＭＬ文書に内在する情報の
表形式への対応情報をＨＴＭＬ文書−表マッピングテー
ブル１５２に定義し（ステップＳ１１０）、ＨＴＭＬ文
書に内在する情報の項目の属性をＨＴＭＬ文書項目テー
ブル１５３に定義し（ステップＳ１２０）、ＨＴＭＬ文
書に内在する情報の項目のローカルドメインをドメイン
テーブル１５４に定義し（ステップＳ１３０）、ユーザ
入力ドメイン、ユーザ出力ドメインをユーザードメイン
テーブル１５５に定義し（ステップＳ１４０）、必要な
ドメイン間の変換関数が既存か否かについてを判定し
（ステップＳ１４５）、必要なドメイン変換関数が存在
しない場合、新たなドメイン変換関数を作成してドメイ
ン変換関数テーブル１５６に定義する（ステップＳ１５
０）。

【０１０８】図６に示す検索フェーズでは、まず構文解
析部１２はユーザからの問い合わせ文を解析し、問い合
わせ項目探索部１３１は指定された項目の所在をＨＴＭ
Ｌ文書テーブル１５１から探索し（ステップＳ２０
０）、すべての検索項目に対応する項目を保持するＨＴ
ＭＬ文書をＨＴＭＬ文書属性テーブル１５３から探索し
（ステップＳ２１０）、問い合わせ変換部１３２はステ
ップＳ２１０で探索された項目に対応するユーザ入力ド
メインとユーザ出力ドメインとローカルドメインをドメ
インテーブル１５４，ユーザードメインテーブル１５５
から取得し（ステップＳ２２０）、全項目のユーザ入力
ドメインとローカルドメインが同一か否かを判定し（ス
テップＳ２２５）、ユーザ入力ドメインとローカルドメ
インとが異なる項目に対応するドメイン変換関数を取得
し、当該項目をローカルドメインの表現形式に変換する
（ステップＳ２３０）。ＨＴＭＬ文書処理部１３４は、
ＨＴＭＬ文書アクセス部１４を介して各ＨＴＭＬ文書を
取得して検索項目に対応する項目を抽出して検索結果を
得（ステップＳ２４０）、全項目のユーザ出力ドメイン
とローカルドメインが同一か否かを判定し（ステップＳ
２４５）、検索結果変換部１３５はユーザ出力ドメイン
とローカルドメインが異なる項目に対し、ドメイン変換
関数テーブル１５６からドメイン変換関数を取得して当
該項目をユーザ出力ドメインに変換し（ステップＳ２５
０）、ユーザーインターフェース部１１を介して変換後
の検索結果を出力する（ステップＳ２６０）。

【０１０９】以下、第１の実施形態の処理手順の詳細
を、図７から図１４を用いて具体的に説明する。

【０１１０】図７（Ａ）はショップＡの商品情報を示す
ＨＴＭＬ文書のＷＥＢブラウザでの表示例であり、図８
（Ａ）はショップＢの商品情報を示すＨＴＭＬ文書の表
示例であるとする。図７（Ｂ）は図７（Ａ）の情報を表
示するためのＨＴＭＬ記述例であり、図１０（Ｂ）は図
１０（Ａ）の情報を表示するためのＨＴＭＬ記述例であ
る。

【０１１１】ＨＴＭＬ文書の構造を示す文書構造として
は、ショップＡの商品情報は内在情報の表示に表形式を
用いるため、ＴＡＢＬＥタグを使用している。ショップ
Ｂの商品情報は内在情報の表示に箇条書きを用いるた
め、ＯＬタグを使用している。

【０１１２】表現形式としては、ショップＡの商品情報
は価格情報として "￥" つき表現形式を使用している。
ショップＢの商品情報は価格情報として"円" つき表現
形式を使用している。

【０１１３】各ＨＴＭＬ文書の有する構成要素として
は、ショップＡの商品情報は商品名を、メーカ名と商品
名の構成要素から構成している。ショップＢの商品情報
はメーカ名と商品名が分離されて構成されている。

【０１１４】所在情報としては、ショップＡの商品情報
のＵＲＬは、"http://www.shop−a.co.jp/products.htm
l"である。ショップＢの商品情報のＵＲＬは、"http://
www.shop−b.co.jp/shouhin.html" である。

【０１１５】上記の通り、図７（Ａ）の商品情報と図７
（Ｂ）の商品情報とは、文書構造、表現形式、構成要素
のすべての面で異なっている。

【０１１６】（１）準備フェーズまず、各ＨＴＭＬ文書の所在情報として、図９に示すよ
うに以下のページ名とＵＲＬをＨＴＭＬ文書テーブル１
５１に設定する（図５のステップＳ１００）。

【０１１７】(a) ショップＡの商品情報・ページ名：Shop−Ａ・ＵＲＬ： http://www.shop−a.co.jp/products.html (b) ショップＢの商品情報・ページ名：Shop−Ｂ・ＵＲＬ： http://www.shop−b.co.jp/shouhin.html 各ＨＴＭＬ文書に内在する構成要素の表形式への対応情
報として、図１０に示すように以下のページ名、レコー
ド開始点、列１〜列４の取り出し方をＨＴＭＬ文書−表
マッピングテーブル１５２に設定する（ステップＳ１１
０）。尚、ショップＢの価格情報は、数字と”，”の箇
所のみが取得されるよう設定している。

【０１１８】(a) ショップＡの商品情報・ページ名：Shop−Ａ・レコード開始：” <TR><TD>”で始まる行・列１：”ショップＡ”固定値・列２：レコード開始行中の１つ目の "<TD>" と１つ目
の"/" の間・列３：レコード開始行中の１つ目の"/" と１つ目の"<
/TD>" の間・列４：レコード開始行中の２つ目の "<TD>" と２つ目
の"</TD>" の間 (b) ショップＢの商品情報・ページ名：Shop−Ｂ・レコード開始：” <Ll>”で始まる行・列１：”ショップＢ”固定値・列２：レコード開始行中の１つ目の "<Ll>" と１つ目
の"/" の間・列３：レコード開始行中の１つ目の"/" と２つ目の"
/" の間・列４：レコード開始行中の２つ目の"/" と１つ目の "
円" の間次に、ＨＴＭＬ文書に内在する項目の属性情報として、
図１１に示すように、以下のページ名、対応列、列名、
データ型をＨＴＭＬ文書項目テーブル１５３に設定する
（ステップ１２０）。ここでは、価格情報のみが数値の
データ型として定義されている。このデータ型は、検索
条件の処理時に数値として比較を行うために設定されて
いる。

【０１１９】(a-1) ページ名Ａの列１・ページ名：Shop−Ａ・対応列：列１・列名：ショップ名・データ型：文字列 (a-2) ページ名Ａの列２・ページ名：Shop−Ａ・対応列：列２・列名：メーカ名・データ型：文字列 (a-3) ページ名Ａの列３・ページ名：Shop−Ａ・対応列：列３・列名：商品名・データ型：文字列 (a-4) ページ名Ａの列４・ページ名：Shop−Ａ・対応列：列４・列名：価格・データ型：数値 (b-1) ページ名Ｂの列１・ページ名：Shop−Ｂ・対応列：列１・列名：ショップ名・データ型：文字列 (b-2) ページ名Ｂの列２・ページ名：Shop−Ｂ・対応列：列２・列名：メーカ名・データ型：文字列 (b-3) ページ名Ｂの列３・ページ名：Shop−Ｂ・対応列：列３・列名：商品名・データ型：文字列 (b-4) ページ名Ｂの列４・ページ名：Shop−Ｂ・対応列：列４・列名：価格・データ型：数値次に、ＨＴＭＬ文書に内在する情報の構成要素のローカ
ルドメインを、図１２に示すようにドメインテーブル１
５４に定義する（ステップＳ１３０）。ショップＡとシ
ョップＢのショップ名、メーカ名、商品名については、
各々任意の文字列であるため、特にローカルドメインを
設定しない。一方価格については、図１１の数値のデー
タ型の設定値を鑑み、ショップＡ、ショップＢのローカ
ルドメインを以下のように定義する。同時にこのローカ
ルドメインをＨＴＭＬ文書項目テーブル１５３に登録す
る。

【０１２０】・ドメイングループ：価格・ショップＡのローカルドメイン：「￥」記号つき表現
形式・ショップＢのローカルドメイン：数値と "，" からな
る表現形式次に、ユーザ毎にユーザ入力ドメインとユーザ出力ドメ
インを、図１３に示すようにユーザードメインテーブル
１５５に以下のように定義する（ステップＳ１４０）。
ユーザＡは、ショップ名、メーカ名、商品名をＨＴＭＬ
文書の表現形式で入力してそのままの表現形式での出力
を要求するため、ユーザ入力ドメインとユーザ出力ドメ
インは設定しない。また、ユーザＡは、価格ドメイング
ループについて、・入力：「円」記号つき表現形式・出力：「円」記号つき表現形式を用いるものとする。このドメインの登録をドメインテ
ーブル１５４にし、ユーザドメインの登録をユーザドメ
インテーブル１５５にする。尚、ユーザドメインは、ユ
ーザ入力ドメインとユーザ出力ドメインで異なっていて
もよい。

【０１２１】次に、ドメイン間の変換関数を、図１４に
示すようにドメイン変換関数テーブル１５６に定義する
（ステップＳ１５０）。ドメインとして、数値と "，"
からなる表現形式、「円」記号つき表現形式、「￥」記
号つき表現形式の３種類が存在するため、ユーザ入力ド
メイン−ローカルドメイン、ユーザ出力ドメイン−ロー
カルドメインの相互変換用に以下の関数を以下のように
作成し、ドメイン変換関数テーブル１５６に設定する。
各変換関数は変換関数ライブラリ１３３に格納される。

【０１２２】(a) 数値と "，" からなる表現形式から
「円」記号つき表現形式への変換・変換関数名：Num2Yen( ) ・変換元ドメイン：数値と "，" からなる表現形式・変換先ドメイン：「円」記号つき表現形式 (b) 「円」記号つき表現形式から数値と "，" からなる
表現形式への変換・変換関数名：Yen2Num( ) ・変換元ドメイン：「円」記号つき表現形式・変換先ドメイン：数値と "，" からなる表現形式 (c) 数値と "，" からなる表現形式から「￥」記号つき
表現形式への変換・変換関数名：Num2￥( ) ・変換元ドメイン：数値と "，" からなる表現形式・変換先ドメイン：「￥」記号つき表現形式 (d) 「￥」記号つき表現形式から数値と "，" からなる
表現形式への変換・変換関数名：￥2Num( ) ・変換元ドメイン：「￥」記号つき表現形式・変換先ドメイン：数値と "，" からなる表現形式 (e) 「円」記号つき表現形式から「￥」記号つき表現形
式への変換・変換関数名：Yen2￥（）・変換元ドメイン：「円」記号つき表現形式・変換先ドメイン：「￥」記号つき表現形式 (f) 「￥」記号つき表現形式から「円」記号つき表現形
式への変換・変換関数名：￥2Yen（）・変換元ドメイン：「￥」記号つき表現形式・変換先ドメイン：「円」記号つき表現形式（２）検索フェーズユーザ「ユーザＡ」から以下の検索項目とその条件から
なる簡易な構文の問い合わせ文が発行された場合の処理
を例に説明する。

【０１２３】検索項目：ショップ名、メーカ名、商品
名、価格検索条件：価格 < 200,000円まず、構文解析部１２はユーザからの問い合わせを解析
し、問い合わせ項目探索部１３１は指定された項目を検
索（図６のステップＳ２００）。指定された項目は「シ
ョップ名」、「メーカ名」、「商品名」、「価格」であ
る。各項目と一致する列名を、ＨＴＭＬ文書項目テーブ
ル１５３から探索すると、以下のレコードが得られる。

【０１２４】(a) ショップ名・ページ名「Shop−Ａ」の対応列「列１」でデータ型
「文字列」・ページ名「Shop−Ｂ」の対応列「列１」でデータ型
「文字列」 (b) メーカ名・ページ名「Shop−Ａ」の対応列「列２」でデータ型
「文字列」・ページ名「Shop−Ｂ」の対応列「列２」でデータ型
「文字列」 (c) 商品名・ページ名「Shop−Ａ」の対応列「列３」でデータ型
「文字列」・ページ名「Shop−Ｂ」の対応列「列３」でデータ型
「文字列」 (d) 価格・ページ名「Shop−Ａ」の対応列「列４」でデータ型
「数値」・ページ名「Shop−Ｂ」の対応列「列４」でデータ型
「数値」次に、問い合わせ項目探索部１３１はすべての検索項目
に対応する項目を保持するＨＴＭＬ文書名を探索する
（ステップＳ２１０）。上記で得られた結果に対し、す
べての検索項目に対応する項目を保持するＨＴＭＬ文書
を探索すると、以下の２組が生成される。また、各組み
合わせのＵＲＬをＨＴＭＬ文書テーブル１５１から取得
する。

【０１２５】(A) 組み合わせ１ (a) 対象ページ名：Shop−Ａ (b) 構成要素・ショップ名：対応列「列１」でデータ型「文字列」・メーカ名：対応列「列２」でデータ型「文字列」・商品名：対応列「列３」でデータ型「文字列」・価格：対応列「列４」でデータ型「数値」 (c) ＵＲＬ http://www.shop−a.co.jp/products.html (B) 組み合わせ２ (a) 対象ページ名：Shop−Ｂ (b) 構成要素・ショップ名：対応列「列１」でデータ型「文字列」・メーカ名：対応列「列２」でデータ型「文字列」・商品名：対応列「列３」でデータ型「文字列」・価格：対応列「列４」でデータ型「数値」 (c) ＵＲＬ http://www.shop−b.co.jp/shouhin.html 次に、問い合わせ変換部１３２は探索した項目に対応す
るユーザドメインとローカルドメインを取得する（ステ
ップＳ２２０）。この探索した項目に対応するローカル
ドメインはＨＴＭＬ文書項目テーブル１５３を探索して
得られる。ローカルドメインがある項目については、当
該ローカルドメインのドメイングループをドメインテー
ブル１５４から探索し、当該ドメイングループに対する
ユーザドメインをユーザドメインテーブル１５５から取
得する。結果として、以下の組み合わせを得る。

【０１２６】(A) 組み合わせ１ (a) 対象ページ名：Shop−Ａ (b) 構成要素・ショップ名：ローカルドメインなし・メーカ名：ローカルドメインなし・商品名：ローカルドメインなし・価格：ローカルドメインは「￥」記号つき表現形式ユーザ入力ドメインは「円」記号つき表現形式ユーザ出力ドメインは「円」記号つき表現形式 (B) 組み合わせ２ (a) 対象ページ名：Shop−Ｂ (b) 構成要素・ショップ名：ローカルドメインなし・メーカ名：ローカルドメインなし・商品名：ローカルドメインなし・価格：ローカルドメインは数値と "，" からなる表現
形式ユーザ入力ドメインは「円」記号つき表現形式ユーザ出力ドメインは「円」記号つき表現形式次に、問い合わせ変換部１３２はユーザ入力ドメインと
ローカルドメインが異なる項目に対し、ドメイン変換関
数テーブル１５６から、変換元ドメインと変換先ドメイ
ンの一致する変換関数名を取得し、各ＨＴＭＬ文書のロ
ーカルドメインに変換する（ステップ２３０）。双方の
組み合わせにおいて、価格の表現形式が、ローカルドメ
インとユーザ入力ドメインとで異なるので、変換元ドメ
インと変換先ドメインをキーに変換関数名をドメイン変
換関数テーブル１５６から探索する。

【０１２７】(A) 組み合わせ１変換元ドメイン：「円」記号つき表現形式変換先ドメイン：「￥」記号つき表現形式変換関数名：Yen2￥( ) (B) 組み合わせ２変換元ドメイン：「円」記号つき表現形式変換先ドメイン：数値と "，" からなる表現形式変換関数名：Yen2Num( ) 各々の組み合わせに対して変換関数を実行し、以下を得
る。

【０１２８】(A) 組み合わせ１ Yen2￥(200,000円）＝￥200,000 (B) 組み合わせ２ Yen2Num(200,000 円）＝200,000 次に、問い合わせ変換部１３２は各ＨＴＭＬ文書アクセ
ス部１４に対する以下の検索文を生成する。

【０１２９】(A) 組み合わせ１ (a) 対象ページ名：Shop−Ａ (b) 検索要求検索項目：ショップ名、メーカ名、商品名、価格検索条件：価格 <￥200,000 (B) 組み合わせ２ (a) 対象ページ名：Shop−Ｂ (b) 検索要求検索項目：ショップ名、メーカ名、商品名、価格検索条件：価格 < 200,000 ＨＴＭＬ文書アクセス部１４はこれらの問い合わせ文に
より各ＨＴＭＬ文書毎に内在する情報の検索を実行し、
ＨＴＭＬ文書を取得して検索結果を生成する（ステップ
Ｓ２４０）。ＨＴＭＬ文書処理部１３４はＵＲＬのリン
ク先から、各ＨＴＭＬ文書に内在する情報を、ＨＴＭＬ
文書−表マッピングテーブル１５２に設定された情報に
基づいて取り出し、検索条件が指定されていればフィル
タリングを行い、以下の検索結果を得る。

【０１３０】(A) 組み合わせ１ (a) 対象ページ名：Shop−Ａ (b) 検索結果・ショップ名：ショップＡ、メーカ名：Maker Ａ、商品
名：ＰＣ１、価格：￥170,000 ・ショップ名：ショップＡ、メーカ名：Maker Ｂ、商品
名：ＰＣ１０１、価格：￥198,000 (B) 組み合わせ２ (a) 対象ページ名：Shop−Ｂ (b) 検索結果・ショップ名：ショップＢ、メーカ名：Maker Ａ、商品
名：ＰＣ１、価格：168,000 検索結果変換部１３５は、ユーザ出力ドメインとローカ
ルドメインとが異なる項目がある場合、ドメイン変換関
数を取得し、当該項目をユーザ出力ドメインに変換する
（ステップＳ２５０）。上記の双方の組み合わせでは、
価格が、ローカルドメインとユーザ出力ドメインとで異
なるので、変換元ドメインと変換先ドメインをキーに変
換関数名をドメイン変換関数テーブル１５６から探索す
る。

【０１３１】(A) 組み合わせ１変換元ドメイン：「￥」記号つき表現形式変換先ドメイン：「円」記号つき表現形式変換関数名：￥2Yen( ) (B) 組み合わせ２変換元ドメイン：数値と "，" からなる表現形式変換先ドメイン：「円」記号つき表現形式変換関数名：Num2Yen( ) 各々の組み合わせに対して変換関数を実行し、以下の結
果を得る。

【０１３２】(A) 組み合わせ１￥2Yen（￥170,000)＝ 170,000円￥2Yen（￥198,000)＝ 198,000円 (B) 組み合わせ２ Num2Yen(168,000)＝ 168,000円最後に、ユーザーインターフェース部１１は以下の検索
結果をユーザーに出力する（ステップＳ２６０）。

【０１３３】・ショップ名：ショップＡ、メーカ名：Ma
ker Ａ、商品名：ＰＣ１、価格：170,000円・ショップ名：ショップＡ、メーカ名：Maker Ｂ、商品
名：ＰＣ１０１、価格： 198,000円・ショップ名：ショップＢ、メーカ名：Maker Ａ、商品
名：ＰＣ１、価格：168,000円以上説明したように、第１の実施形態は、オープンなネ
ットワーク上の複数ＨＴＭＬ文書に対し、各ＨＴＭＬ文
書に内在する情報に関する各種の情報をメタデータとし
て管理する。このため、複数のＨＴＭＬ文書に内在する
情報に対する一括の検索が実現でき、ＨＴＭＬ文書間の
異種性による相違を解消した検索結果を生成することが
できる。同時に、各ＨＴＭＬ文書に内在する情報に関す
る情報をＨＴＭＬ文書ごと個別に管理するので、ＨＴＭ
Ｌ文書情報統合検索装置が検索対象とするＨＴＭＬ文書
の追加、修正、削除の作業は当該ＨＴＭＬ文書だけに関
して行えば足りる。このため、等比級数的に増加するＨ
ＴＭＬ文書の本装置への検索対象としての取り込みが容
易となる。

【０１３４】また、各ＨＴＭＬ文書からの検索結果は、
項目ごとに条件処理可能な項目データとして得られるの
で、ＨＴＭＬ文書処理部１３４は、各ＨＴＭＬ文書の複
数の検索結果を適宜マージして１つの検索結果とし、こ
の１つの検索結果を必要に応じて条件処理することがで
きる。

【０１３５】このように、第１の実施形態によれば、オ
ープンなネットワークに散在する複数のＨＴＭＬ文書に
対して該複数のＨＴＭＬ文書に内在する情報の文書構
造、構成要素、表現形式等が互いに異なってもこれら複
数の文書を跨った情報検索を実現し、ＨＴＭＬ記述上の
差異をユーザ毎の統一形式に変換して一括して検索結果
を返却することができる。従って従来に比較して、人手
による多くの時間や労力が不要となり、検索効率が画期
的に向上する。第１の実施形態は、例えば「ある製品を
最安値で販売している店の名前と価格を求める」という
ようなエレクトロニック・コマースにおける柔軟な商品
情報検索に利用可能であり、公正なエレクトロニック・
コマースの市場の活性化に貢献し得る。

【０１３６】第２の実施形態図１５から図３６を参照し
て、本発明に係る半構造化文書情報統合検索装置および
半構造化文書情報抽出装置、その方法、ならびにそのプ
ログラムを格納する記録媒体の第２の実施形態であるイ
ンターネット情報統合検索装置を詳細に説明する。

【０１３７】第２の実施形態は、オープンなネットワー
クに複数の情報検索装置（サーチエンジン）が散在する
環境で、固有の入力フォームを持つ複数のサーチエンジ
ンに対して各サーチエンジンの文書構造、入力フォーム
の必須入力項目、表現形式が互いに異なっていても、サ
ーチエンジンを跨って条件指定を含む情報検索を行い、
これら入力フォームの差異を解消して全サーチエンジン
から検索結果を一括して取得することを実現するもので
ある。

【０１３８】尚、第２の実施形態で用いられる表現形式
の概念およびこれに関連する用語は、第１の実施形態と
同様である。例えば、エリア名に対しても、「神奈川
県」、「神奈川」と、ＨＴＭＬ文書の記述者や検索を実
行するユーザによって、様々な表現形式が存在する。

【０１３９】例えば、エリアについて、神奈川県は
「県」つき表現形式で１つのドメインであり、ジャンル
について、中華料理は「料理」つき表現形式で１つのド
メインである。ドメイングループとしては、エリア、ジ
ャンル、等がある。あるユーザが「神奈川県」、「中華
料理」と入力する場合、ユーザ入力ドメインは「県」つ
き表現形式であり、ジャンルは「料理」つき表現形式で
ある。あるユーザの出力が「神奈川県」、「中華料理」
である場合、ユーザ出力ドメインは「県」つき表現形式
であり、ジャンルは「料理」つき表現形式である。ＨＴ
ＭＬ文書から抽出した検索結果が「神奈川県」である場
合、ローカルドメインは「県」つき表現形式である。

【０１４０】尚、同一ドメイングループ内でユーザ入力
ドメイン、ユーザ出力ドメイン、ローカルドメインが相
互に異なる場合、第２の実施形態でも第１の実施形態同
様、ドメイン変換関数を用いて、ドメイン間の差異を解
消する。

【０１４１】図１５は、第２の実施形態に係るインター
ネット情報統合検索装置の構成を示すブロック図であ
る。第２の実施形態は、図３の問い合わせ処理部１３
を、さらに、入力必須項目探索部１３６と、検索パター
ン判定部１３７と、検索結果処理部１３８を具備する統
合検索処理部１３０に置き換えた点において第１の実施
形態の修正である。第２の実施形態に係るインターネッ
ト情報情報統合検索装置１０は、ユーザーインターフェ
ース部１１と、構文解析部１２と、統合検索処理部１３
０と、ＨＴＭＬ文書メタデータ記憶部１５と、ＨＴＭＬ
文書メタデータ管理部１６と、ＨＴＭＬ文書アクセス部
１４とから構成される。第２の実施形態に係る統合検索
処理部１３０は、問い合わせ項目探索部１３１と、問い
合わせ変換部１３２と、変換関数ライブラリ１３３と、
入力必須項目探索部１３６と、検索パターン判定部１３
７と、検索結果処理部１３８と、検索結果変換部１３５
とを具備する。

【０１４２】尚、図３と同一の符号を付した箇所は、特
に断らない限り第１の実施形態と同様であり、これらの
説明は省略する。図１５において、ユーザーインターフ
ェース部１１は、ユーザのアプリケーションプログラム
３から入力される検索項目と検索条件からなる問い合わ
せ文を受け付ける。構文解析部１２は、ユーザインタフ
ェース部１１で受け付けた問い合わせ文の構文を解析す
る。統合検索処理部１３０は、各サーチエンジンにより
管理されるＨＴＭＬ文書に内在する項目を一括して検索
する。統合検索処理部１３０中で、問い合わせ項目探索
部１３１は、問い合わせ文中で指定された項目の所在を
探索する。入力必須項目探索部１３６は、各サーチエン
ジンの入力フォーム上のデータ項目の不足をチェックし
て問い合わせ先のサーチエンジンを決定する。検索パタ
ーン判定部１３７は、問い合わせ文に応じた最適な検索
パターンを判定して、この判定結果に従い問い合わせ文
を最適化する。問い合わせ変換部１３２は、問い合わせ
文のユーザ入力ドメインをローカルドメインに変換し、
ＨＴＭＬ文書アクセス部１４が送出する問い合わせ文を
生成する。検索結果処理部１３８は、ＨＴＭＬ文書アク
セス部１４が受信したＨＴＭＬ文書から取得した情報に
対し、問い合わせ文に応じた処理（検索項目の選択、検
索条件によるフィルタリング等）を行う。検索結果処理
部１３８はまた、抽出された情報に対して検索条件によ
るフィルタリング処理を行うとともに、上記で決定され
た検索パターンに応じてサーチエンジン側で行われた条
件処理を抑止する。検索結果変換部１３５は、検索され
たデータの表現形式をローカルドメインからユーザ出力
ドメインに変換する。ＨＴＭＬ文書アクセス部１４は、
生成された検索文を各サーチエンジンに送信し、オープ
ンなネットワークに散在するＨＴＭＬ文書をサーチエン
ジンを介して取得する。このＨＴＭＬ文書に内在する情
報が第２の実施形態により例えば表形式などの統一フォ
ーマットに変換される。このＨＴＭＬ文書アクセス部１
４には、通信網１９０を介してエンジン２３およびデー
タベース２４からなる複数のサーチエンジン２０−１，
２０−２・・・が接続されている。ＨＴＭＬ文書メタデ
ータ記憶部１５０は、各サーチエンジンの所在、各サー
チエンジンの有するＨＴＭＬ文書の文書構造、ＨＴＭＬ
文書に内在する情報の表現形式や構成要素などの各サー
チエンジンに関する情報を記憶し管理する。ＨＴＭＬ文
書メタデータ管理部１６は、ＨＴＭＬ文書メタデータ記
憶部１５０に対する各種情報の入力／削除／変更を行
う。システム管理者は、例えばエディタなどに実装され
るＨＴＭＬ文書メタデータ管理部１６を介して、ＨＴＭ
Ｌ文書メタデータを登録・管理する。

【０１４３】図１６は、第２の実施形態に係るＨＴＭＬ
文書メタデータ記憶部１５０が保有するテーブルの詳細
を示す。図４に示す第１の実施形態のＨＴＭＬ文書メタ
データ記憶部１５が有する各ＨＴＭＬ文書の所在情報を
管理するＨＴＭＬ文書テーブル１５１と、各ＨＴＭＬ文
書に内在する構成要素を表形式に変換するための情報を
管理するＨＴＭＬ文書−表マッピングテーブル１５２
と、各項目ごとにこの項目の属性を管理するＨＴＭＬ文
書項目テーブル１５３と、各ドメインの表現形式を管理
するドメインテーブル１５４と、ユーザーごとに入力ド
メインおよび出力ドメインを管理するユーザドメインテ
ーブル１５５と、ドメイン変換関数を管理するドメイン
変換関数テーブル１５６に加え、さらに各サーチエンジ
ンの入力フォーム中の入力必須項目を管理する入力必須
項目テーブル１５７とにより第２の実施形態のＨＴＭＬ
文書メタデータ記憶部１５０は構成される。また検索パ
ターン判定部１３７は、図２８に示すような内部に各サ
ーチエンジンへの検索パターンを決定して検索文を各サ
ーチエンジンごとに最適な問い合わせ文に変換するため
の検索パターンマトリックステーブルを具備する。ある
いはこの検索パターンマトリックステーブルは、ＨＴＭ
Ｌ文書メタデータ１５０に含まれて構成されてもよい。

【０１４４】次に、第２の実施形態に係るインターネッ
ト情報統合検索装置１０の処理手順の詳細および各テー
ブルへの設定例を説明する。第２の実施形態の処理手順
は、図１９に示す検索を実行する前に表現形式等の準備
を行う準備フェーズと、図２９に示す検索を実行する検
索フェーズの２段階のフェーズがある。

【０１４５】図１７（Ａ）、図１７（Ｂ）、図１７
（Ｃ）に示すサーチエンジンの入力フォームが存在する
場合の例で各フェーズを説明する。図１８には、図１７
（Ｂ）のＰｅｇｅ−Ｂの入力フォームに対応するＨＴＭ
Ｌ記述を示す。

【０１４６】（１）準備フェーズ図１９に示す準備フェーズではまず、ＨＴＭＬ文書項目
テーブル１５３を例えば図２０に示すように設定する
（ステップＳ３００）。ＨＴＭＬ文書項目テーブル１５
３は、各サーチエンジン入力フォームの項目について、
以下の項目を管理する。図２０で、ページ名は各サーチ
エンジンの入力フォーム名を示す。対応列は、ＨＴＭＬ
文書−表マッピングテーブル１５２との対応付けを行
う。データ項目名は、サーチエンジン入力フォームに内
在する項目を示す。「項目指定可能」とは、当該項目が
このサーチエンジンの検索結果から取得できるか否かを
示す。「条件指定可能」とは、当該項目がこのサーチエ
ンジンによる検索の際に条件指定可能か否かを示す。デ
ータ型は、数値型、文字列型等のデータの処理タイプを
示す。このデータ型はフィルタリング処理時のデータの
評価方法として使用する。Nameタグは、選択形式となっ
ている項目が有するNameタグを示す。ローカルドメイン
は、当該列が属するドメインを示す。

【０１４７】次に、ＨＴＭＬ文書テーブル１５１を、例
えば図２１に示すように設定する（ステップＳ３１
０）。ＨＴＭＬ文書テーブル１５１は、各サーチエンジ
ン入力フォームの所在情報として、以下の項目を管理す
る。図２１で、ページ名は各サーチエンジンの入力フォ
ーム名を示す。サーチエンジンＵＲＬは、各サーチエン
ジンの所在情報となるＵＲＬを示す。

【０１４８】次に、ＨＴＭＬ文書−表マッピングテーブ
ル１５２を、例えば図２２に示すように設定する（ステ
ップＳ３２０）。ＨＴＭＬ文書−表マッピングテーブル
１５２は、各サーチエンジンから返却されるＨＴＭＬ文
書に内在する情報の表形式への対応情報として、以下の
項目を管理する。図２２で、ページ名は、各サーチエン
ジンの入力フォーム名を示す。「レコード開始」とは、
取得されたＨＴＭＬ文書中での結果内容が開始される行
をタグ情報を用いて示す。列１から列５は、取得された
ＨＴＭＬ文書中の、検索結果とすべきデータ項目に対応
する箇所をタグ情報を用いて定義する。列１から列５の
それぞれは、図２０のＨＴＭＬ文書項目テーブル１５３
のページ名Ｐａｇｅ＿Ａの対応列「列１」から「列５」
と対応する。次に、ドメインテーブル１５４を、例えば
図２３に示すように設定する（ステップＳ３３０）。ド
メインテーブル１５４は、ＨＴＭＬ文書項目テーブル１
５３でローカルドメインを設定した列について、このロ
ーカルドメイン情報として、同じ意味を表すドメインの
集まりであるドメイングループと、１つの表現の集まり
であるドメインを管理する。

【０１４９】次に、ドメイン変換関数テーブル１５６
を、例えば図２４に示すように設定する（ステップＳ３
４０）。ドメイン変換関数テーブル１５６は、ドメイン
変換関数情報として、以下の項目を管理する。図２４で
変換関数名は、特定のドメインから特定のドメインへ変
換するための関数の名前を示す。ドメイングループは同
じ意味を表すドメインの集まりを示す。変換元ドメイン
はドメイン関数に対し、入力するドメインを示す。変換
先ドメインはドメイン関数から出力されるドメインを示
す。ライブラリ名はドメイン変換を実現する変換関数ラ
イブラリ１３３のファイル名を示す。

【０１５０】次に、ユーザドメインテーブル１５５を、
例えば図２５に示すように設定する（ステップＳ３５
０）。ユーザードメインテーブル１５５は、ユーザがド
メイングループ毎に、どのような入力ドメイン、出力ド
メインを指定するかを以下の項目により管理する。図２
５でユーザ名は、検索要求を行うユーザの名前を示す。
ユーザ入力ドメインは、ユーザがあるドメイングループ
に対しどのようなドメインで入力するのかを示す。ユー
ザ出力ドメインは、ユーザがあるドメイングループか
ら、どのようなドメインで出力されるかを示す。

【０１５１】次に、入力必須項目テーブル１５７を、例
えば図２６に示すように設定する（ステップＳ３６
０）。サーチエンジンによっては、入力フォーム中で入
力を必須とされている項目がある。入力必須項目テーブ
ル１５７は、この入力必須項目を、以下の項目により管
理する。図２６でページ名は、各サーチエンジンの入力
フォーム名を示す。入力必須項目は、サーチエンジンに
対し、必ず入力する必要のある項目名を示す。

【０１５２】（２）検索フェーズ図２９は、第２の実施形態の検索検索実行時のフローチ
ャートを示す。

【０１５３】ユーザが例えば「神奈川県にある和食料理
の店」の「店名」と「電話番号」について調べたい場合
の第２の実施形態の検索処理を、以下のＳＱＬのSELECT
文とWHERE 文のみからなる簡易な構文の問い合わせ文が
入力された場合の例で説明する。

【０１５４】まず、ユーザーインターフェース部１１は
問い合わせ入力を受付ける（ステップＳ４００）。「ユ
ーザ１」が検索項目として、「店名」と「電話番号」を
指定するとし、検索条件としては「エリア＝横浜市」an
d 「ジャンル＝和食料理」を指定するとすると、以下の
構文の問い合わせ文が入力される。

【０１５５】 SELECT 店名、電話番号 WHERE エリア＝”横浜市”and ジャンル＝”和食料理” （１−１）問い合わせ項目探索部１３１は、図２０のＨＴＭＬ文書
項目テーブルを参照し、検索項目および検索条件項目を
データ項目名に含むサーチエンジンを探索することによ
り、データ項目の所在を探索する（ステップＳ４１
０）。図３０にこのサーチエンジン探索結果を示す。

【０１５６】次に、問い合わせ項目探索部１３１は、ス
テップＳ４１０の結果からＨＴＭＬ文書テーブル１５１
を参照し、「店名」、「電話番号」、「エリア」、「ジ
ャンル」のすべての項目を満たすページを特定する（ス
テップＳ４２０）。この時点ではPage−Ａ，Page−Ｂ，
Page−Ｃが検索候補サーチエンジンとなる。

【０１５７】入力必須項目探索部１３６は、入力必須項
目テーブル１５７を参照し、各サーチエンジンの必須項
目をチェックして検索候補サーチエンジンを絞り込む
（ステップＳ４３０）。サーチエンジンによっては、入
力が必須である条件項目が存在する。このため、ステッ
プＳ４２０で得られた所在のサーチエンジンの中で、検
索条件に指定された項目以外の入力必須項目を持つサー
チエンジンを除く。問い合わせ文（１−１）の条件項目
が「エリア」、「ジャンル」であるのに対し、図２６に
示すようにPage−Ａは、条件項目「ジャンル」と一致す
る入力必須項目「ジャンル」を含むため検索可能なエン
ジンであることが分かる。同様に、Page−Ｂも条件項目
「エリア」と一致する入力必須項目「エリア」を含むた
め検索可能なエンジンとなる。Page−Ｃも条件項目と一
致する入力必須項目「エリア」、「ジャンル」を含むた
め検索可能なエンジンとなる。

【０１５８】一方、例えば、 SELECT 店名、電話番号 WHERE エリア＝”横浜市” （１−２）の問い合わせ文が入力された場合には、問い合わせ項目
探索部１３１においては、ＨＴＭＬ文書項目テーブル１
５３を参照することにより、Page−Ａ、Page−Ｂ、Page
−Ｃはいずれも項目「店名」、「電話番号」、「エリ
ア」を含むため、検索候補サーチエンジンとされる。

【０１５９】次に、入力必須項目探索部１３６では、以
下のように検索候補サーチエンジンが絞り込まれる。Pa
ge−Ａは「ジャンル」を入力必須項目とする。これは、
Page−Ａに対する検索では「ジャンル」という項目の指
定が必須であって、指定されない場合には検索できない
ことを意味する。問い合わせ条件（where句）には、
「ジャンル」が指定されていないため、Page−Ａは入力
必須項目探索部１３６において検索対象から除外され
る。

【０１６０】Page−Ｃに対する検索では、「エリア」と
「ジャンル」の両方の指定が必須であるため、検索対象
から除外される。

【０１６１】一方、Page−Ｂの入力必須項目である「エ
リア」は問い合わせ条件（where句）で指定されている
ため、Page−Ｂは検索対象として選択される。

【０１６２】他方、入力必須項目を持たないサーチエン
ジンに対して上記（１−２）の問い合わせを行う場合に
は、このサーチエンジン（ページ）は入力必須条件がな
いため、問い合わせ条件（where句）が指定されていて
も検索できる。従って、入力必須項目探索部１３６で検
索対象サーチエンジンとして選択される。

【０１６３】この時点での問い合わせ文（１−１）に基
づく各サーチエンジンへのＳＱＬ文はそれぞれ以下の通
りである。

【０１６４】 Page−Ａ： SELECT 店名、電話番号 WHERE エリア＝”横浜市”and ジャンル＝”和食料理” （２−１） Page−Ｂ： SELECT 店名、電話番号 WHERE エリア＝”横浜市”and ジャンル＝”和食料理” （２−２） Page−Ｃ： SELECT 店名、電話番号 WHERE エリア＝”横浜市”and ジャンル＝”和食料理” （２−３）次に、検索パターン判定部１３７は、図２８の検索パタ
ーンマトリックスを参照して検索の処理方法を決定する
（ステップＳ４４０）。ここで、この検索パターンマト
リックスを説明する。図２７は第２の実施形態に係るイ
ンターネット情報統合検索装置と各サーチエンジンとの
簡略化した関係を示す。ユーザーから入力される問い合
わせ文の処理手順には、図２７中の（ａ），（ｂ），
（ｃ）の３つの検索パターンがある。(a) パターンは検
索要求を未処理で返却する。(b) パターンは各サーチエ
ンジンで条件処理を行う。(c) パターンは各サーチエン
ジンで条件処理を行ったのち、その結果を第２の実施形
態に係る装置１０でフィルタリング処理する。検索パタ
ーンマトリックスは、各検索文中の検索項目がそれぞれ
上記３パターンのいずれに属するかを判定するために用
いられる。検索パターン判定部１３７は、この図２８に
示す検索パターンマトリックスを用いて検索を実現する
ための戦略を決定する。図２８で、検索要求の「項目」
は検索すべき項目として例えばＳＱＬのｓｅｌｅｃｔ句
で指定された項目である。検索要求の「条件」は検索要
求の検索条件として例えばＳＱＬのｗｈｅｒｅ句で指定
された項目である。エンジン（サーチエンジン）の「項
目」は各サーチエンジンが検索結果として返す項目であ
る。エンジンの「条件」は例えば各サーチエンジンの入
力フォームにより規定される、各エンジンが検索要求と
して受け付ける条件である項目である。尚、エンジンの
「項目」はＨＴＭＬ文書項目テーブル１５３の「項目指
定可能」の欄の値を、エンジンの「条件」はＨＴＭＬ文
書項目テーブル１５３の「条件指定可能」の欄の値を示
す。処理パターン中の「検索条件値をそのまま返却」と
は、指定された検索項目を処理することなく条件値を戻
すことを示す。「情報源から返却されたものを返却」と
は、指定された検索項目に対応してサーチエンジンから
戻された結果を戻すことを示す。「サーチエンジンで処
理」とは、指定された検索条件をサーチエンジンで処理
することを示す。「装置でフィルタリング」とは、指定
された検索条件に対してサーチエンジンから戻された検
索結果を、検索結果処理部１３８で条件処理することを
示す。

【０１６５】例えば、問い合わせ文（１−１）の場合、
「店名」はselect句で指定されており、 where句では指
定されていない。この項目”店名”は図２８の”検索要
求”の「項目」欄が○で「条件」欄が×の行に相当す
る。一方、例えば図１７（Ａ）のサーチエンジンの入力
フォームｐａｇｅ＿Ａは、図２０のＨＴＭＬ文書項目テ
ーブル１５３を参照すると、「店名」を条件として受け
取り、かつ検索結果として返すことができる。このため
図２８のエンジンの「項目」、「条件」欄はともに○と
定まる。従って、項目「店名」は図２８の上から４行目
のレコードに対応する。従って「店名」のＰａｇｅ＿Ａ
に対する処理パターンは、エンジンから返されたデータ
を項目として返し、ＳＱＬで条件を指定していないため
条件は処理しないことがわかる。

【０１６６】一方、「エリア」はselect句で指定されて
おらず、 where句で指定されている。この項目「エリ
ア」は図２８の「検索要求」の「項目」欄が×で「条
件」欄が○の行に相当する。一方、例えば図１７（Ａ）
のＰａｇｅ＿Ａは、図２０のＨＴＭＬ文書項目テーブル
１５３を参照すると、「エリア」を条件として受け取る
ことはできないが、「エリア」を検索結果として返すこ
とができる。このため図２８のエンジンの「項目」欄は
○、「条件」欄は×と定まる。従って、項目「エリア」
は図２８の上から８行目の行にレコードに対応する。従
って「エリア」のＰａｇｅ＿Ａに対する処理パターン
は、ＳＱＬでselect句に指定がないため項目としては返
さず、エンジンでは条件として処理できないため検索結
果処理部１３８でフィルタリング処理して返すことがわ
かる。（１−１）の問い合わせ文で指定されている他の
項目「電話番号」、「ジャンル」についてもＰａｇｅ＿
Ａを対象として上記の当てはめ処理を行うことで、図２
８から図３１のマトリックスが導出される。

【０１６７】図３１は、検索要求とPage−Ａに指定可能
な項目および条件項目を各データ項目毎に判定された処
理内容を示す。図３１から、「サーチエンジンで処理」
の欄に基づき、「ジャンル」を検索条件としてPage−Ａ
に送信すべきことがわかる。また「装置でフィルタリン
グ」の欄に基づき、Page−Ａからの検索結果を「エリ
ア」の条件でフィルタリング処理すべきことがわかる。
また「情報源から返却されたものを返却」の欄に基づ
き、「店名」、「電話番号」はPage−Ａからの送信結果
をそのまま返却すべきことがわかる。

【０１６８】Ｐａｇｅ＿Ａに対して、問い合わせ文（１
−１）により検索する場合、Ｐａｇｅ＿Ａでは「店名」
と「ジャンル」が条件として指定可能だが、問い合わせ
文（１−１）では「ジャンル」のみ条件指定されてい
る。このため、「ジャンル」を”和食料理”としてＰａ
ｇｅ＿Ａのサーチエンジンには問い合わせ、かつ検索結
果処理部１３８でのフィルタリング処理により、「エリ
ア」が”横浜市”である「店名」、「電話番号」のデー
タを選択して検索結果とする。従って、Page−Ａへの検
索は上記のパターンＣであり、問い合わせ文（２−１）
は以下のように変換される。

【０１６９】フィルタリング条件：「エリア」＝”横浜市” SELECT 店名、電話番号 WHERE ジャンル＝”和食料理” （３−１）同様の手順で、Page−Ｂ，Page−Ｃに対する各問い合わ
せ文が生成される。図３２は、Page−Ｂについて判定さ
れた処理内容を示す。図３２から、「情報検索装置で処
理」の欄に基づき、「エリア」を検索条件としてPage−
Ｂに送信すべきことがわかる。「装置でフィルタリン
グ」の欄に基づき、Page−Ｂからの検索結果を「ジャン
ル」の条件でフィルタリング処理すべきことがわかる。
「情報源から返却されたものを返却」の欄に基づき、
「店名」、「電話番号」はPage−Ｂからの送信結果をそ
のまま返却すべきことがわかる。従って、Page−Ｂへの
検索は上記のパターンＣであり、問い合わせ文（２−
２）は以下のように変換される。

【０１７０】フィルタリング条件：「ジャンル」＝”和食料理” SELECT 店名、電話番号 WHERE エリア＝”横浜市” （３−２）図３３は、Page−Ｃについて判定された処理内容を示
す。図３３から、「情報検索装置で処理」の欄に基づ
き、「エリア」、「ジャンル」を検索条件としてPage−
Ｃに送信すべきことがわかる。「装置でフィルタリン
グ」の欄に基づき、Page−Ｃからの検索結果にフィルタ
リング処理は行わないことがわかる。「情報源から返却
されたものを返却」の欄に基づき、「店名」、「電話番
号」はPage−Ｂからの送信結果をそのまま返却すべきこ
とがわかる。従って、Page−Ｃへの検索は上記のパター
ンＢであり、問い合わせ文（２−３）は以下のように変
換される。

【０１７１】フィルタリング条件：なし SELECT 店名、電話番号 WHERE エリア＝”横浜市”and ジャンル＝”和食料理” （３−３）次に、問い合わせ変換部１３２は、検索パターン判定部
１３７が出力する各サーチエンジンへの問い合わせ文
を、各サーチエンジンのローカルドメインに適合する検
索文に変換する（ステップＳ４５０）。問い合わせ変換
部１３２は、検索条件で指定された項目に対応するサー
チエンジンの項目のうち、ローカルドメインが設定され
ている項目のユーザ入力ドメインとローカルドメイン
を、ＨＴＭＬ文書項目テーブル１５３およびユーザドメ
インテーブル１５５から図３４に示すように取得する。
ユーザ入力ドメインとローカルドメインが異なる項目に
ついて、ドメイン変換関数テーブル１５６から変換関数
ライブラリ１３３中の関数情報を取得しこれらの項目を
ローカルドメインの表現形式に変換する。例えば、Page
−Ｂのデータ項目名「エリア」の場合、ローカルドメイ
ンは”Page−Ｂ−City”である。このドメイングループ
に対するユーザー入力ドメインは、ユーザードメインテ
ーブル１５５およびドメインテーブル１５４より、ドメ
インSHITSUKIである。このため、問い合わせ変換部１３
２は、ドメイン変換関数テーブル１５６を参照し”Shi2
ValueB () ”を用いて”横浜市”を入力フォーム中の選
択リスト中の７番目の項目であることを示す”07”に変
換する。

【０１７２】同様に、Page−Ｃのデータ項目名「ジャン
ル」の場合、ローカルドメインは”Page−Ｃ−Dishes”
である。このドメイングループに対するユーザー入力ド
メインは、ユーザードメインテーブル１５５およびドメ
インテーブル１５４より、ドメイン”RYOURITSUKI ”で
ある。このため、問い合わせ文変換部１３２は、ドメイ
ン変換関数テーブル１５６を参照し”Ryouri2ValueC
()”を用いて”和食料理”を選択リスト中の１番目の
項目であることを示す”１”に変換する。

【０１７３】この時点で生成されている各サーチエンジ
ンへの問い合わせ文および検索結果処理部１３８でのフ
ィルタリング条件は、以下の通りである。

【０１７４】 Page−Ａ：フィルタリング条件：「エリア」＝”横浜市” SELECT 店名、電話番号 WHERE ジャンル＝”和食料理”（４−１＝３−１） Page−Ｂ：フィルタリング条件：「ジャンル」＝”和食料理” SELECT 店名、電話番号 WHERE エリア＝”07” （４−２）検索文（４−２）では、エリア＝”横浜”はエリア＝”
07”に変換されている。

【０１７５】 Page−Ｃ： SELECT 店名、電話番号 FROM Page−Ｃ WHERE エリア＝”横浜市”and ジャンル＝”１” （４−３）検索文（４−３）では、ジャンル＝”和食料理”はジャ
ンル＝”１”に変換されている。

【０１７６】次に、ＨＴＭＬ文書アクセス部１４は、ス
テップＳ４６０で得られた問い合わせ文に基づいて各サ
ーチエンジン固有の以下の検索要求をそれぞれ発行す
る。各サーチエンジンではそれぞれ検索処理が実行され
る（ステップＳ４７０）。

【０１７７】 Page−Ａ：フィルタリング条件：「エリア」＝”横浜市” ”GET http://www. Page−a.co.jp/search-shop.cgi?category＝和食料理 htt p/1.0 ” （５−１） Page−Ｂ：フィルタリング条件：「ジャンル」＝”和食料理” ”GET http://www. Page−b.co.jp/search-shop.cgi?area＝07 http/1.0 ” （５−２） Page−Ｃ： ”GET http://www. Page−c.co.jp/search-shop.cgi?area＝横浜市 & categor y ＝1 http/1.0” （５−３）次に、検索結果処理部１３８は、各サーチエンジンから
返却された各ＨＴＭＬ文書に内在する情報を、ＨＴＭＬ
文書−表マッピングテーブル１５２に設定された情報に
基づいて抽出する（ステップＳ４７５）。図３５（Ａ）
はPage−Ｂの検索結果のＨＴＭＬ文書のブラウザでの表
示例を示す。図３５（Ｂ）は図３５（Ａ）の表示に対応
するＨＴＭＬ記述を示す。以下に各サーチエンジンから
得られた検索結果を示す。

【０１７８】 (a) 対象ページ名：Page−Ａフィルタリング条件：「エリア」＝”横浜市” 検索結果：・店名：A1 エリア：横浜市電話番号：(045) ＊＊＊−＊＊＊＊・店名：A2 エリア：横須賀市電話番号：(0468)＊＊−＊＊＊＊（６−１） (b) 対象ページ名：Page−Ｂフィルタリング条件：「ジャンル」＝”和食料理” 検索結果・店名：B1 ジャンル：和食料理電話番号： 045−＊＊＊−＊＊＊＊・店名：B2 ジャンル：中華料理電話番号： 045−＊＊＊−＊＊＊＊・店名：B3 ジャンル：中華料理（６−２）電話番号： 045−＊＊＊−＊＊＊＊ (c) 対象ページ名：Page−Ｃフィルタリング条件：なし検索結果・店名：C1 電話番号： 045−＊＊＊−＊＊＊＊・店名：C2 電話番号： 045−＊＊＊−＊＊＊＊（６−３）次に、検索結果処理部１３８は、図２８の検索パターン
マトリックスでフィルタリング処理を行うと規定されて
いる項目について（ステップＳ４８０Ｙ）、各サーチエ
ンジンからの検索結果をフィルタリング処理する（ステ
ップＳ４９０）。ここで、Page−Ａは「エリア」を評価
せず、Page−Ｂは「ジャンル」を評価しない。従って、
これらの結果から、「エリア」＝”横浜市”、「ジャン
ル」＝”和食料理”の条件を満たす結果を以下のように
抽出する。

【０１７９】 (a) 対象ページ名：Page−Ａフィルタリング結果・店名：A1 電話番号： (045)＊＊＊−＊＊＊＊（７−１） (b) 対象ページ名：Page−Ｂフィルタリング結果・店名：B1 電話番号： 045−＊＊＊−＊＊＊＊（７−２） (c) 対象ページ名：Page−Ｃフィルタリング結果・店名：C1 電話番号： 045−＊＊＊−＊＊＊＊・店名：C2 電話番号： 045−＊＊＊−＊＊＊＊（７−３＝６−３）次に、検索結果変換部１３５は、検索項目で指定された
項目で、ローカルドメインが指定されている項目のユー
ザ出力ドメインとローカルドメインをＨＴＭＬ文書項目
テーブル１５３、ドメインテーブル１５４およびユーザ
ドメインテーブル１５５から図３６に示すように取得す
る。検索結果変換部１３５は、ユーザ出力ドメインとロ
ーカルドメインが異なる項目に対し、ドメイン変換関数
テーブル１５６から関数情報を取得しユーザー出力ドメ
インに変換する（Ｓ５００）。Page−Ａのデータ項目名
「電話番号」の場合、ローカルドメインとユーザ出力ド
メインが一致しているため、変換は行わない。一方、Pa
ge−Ｂ，Page−Ｃのデータ項目名「電話番号」の場合、
ローカルドメインは Tel−Bar であるのに対し、出力ド
メインは Tel−Paren である。このため、検索結果変換
部１３５は、ドメイン変換関数テーブル１５６を参照し
てBar2Paren() を用い「 045−＊＊＊−＊＊＊＊」を
「(045) ＊＊＊−＊＊＊＊」に変換する。Page−Ｂ，Pa
ge−Ｃのローカルドメインは、以下のようにユーザー出
力ドメインに変換される。

【０１８０】入力：「 045−＊＊＊−＊＊＊＊」（ド
メイン： Tel−Bar ）ドメイン変換関数：Bar2Paren() 出力：「(045) ＊＊＊−＊＊＊＊」（ドメイン： Tel
−Paren ）以上の処理により、ユーザーインターフェース部１１
は、統一検索結果を以下のように返却する。ユーザー側
のアプリケーションプログラムでは、これらの統一検索
結果を表形式などの統一フォームで表示する（ステップ
Ｓ５１０）。

【０１８１】・店名：A1 電話番号：(045) ＊＊＊−＊＊＊＊・店名：B1 電話番号：(045) ＊＊＊−＊＊＊＊・店名：C1 電話番号：(045) ＊＊＊−＊＊＊＊・店名：C2 電話番号：(045) ＊＊＊−＊＊＊＊以上説明したように、第２の実施形態によれば、オープ
ンなネットワークに散在する複数のサーチエンジンに対
して検索を要求する場合、各サーチエンジン固有の入力
フォームのオブジェクトを個別に管理することにより、
異種の各サーチエンジンへのインターフェースの相違を
解消して、複数の任意の入力項目に対応した柔軟な検索
が可能となる。このため、サーチエンジンの異種性に起
因する複数のサーチエンジンから返却されたＨＴＭＬ文
書に内在する情報の文書構造、表現形式、入力フォーム
の差異を解消し、統一フォーマットによる検索結果の閲
覧が可能となる。従って、検索効率が向上するととも
に、ネットワークへの無効なトラフィックを軽減する。
また、各サーチエンジンの入力フォームを個別に登録、
管理するのでＨＴＭＬ文書メタデータの維持管理が容易
に行える。

【０１８２】第３の実施形態図３７から図５０を参照し
て、本発明に係る半構造化文書情報統合検索装置および
半構造化文書情報抽出装置、その方法、ならびにそのプ
ログラムを格納する記録媒体の第３の実施形態であるＨ
ＴＭＬ文書情報抽出装置を詳細に説明する。

【０１８３】第３の実施形態は、オープンなネットワー
クに散在するＨＴＭＬ文書に対し、各ＨＴＭＬ文書に内
在する情報を、項目別に抽出する情報検索を実現する。
第３の実施形態は、図３のＨＴＭＬ文書処理部１３４
を、テンプレート解析部１３４１と、ＵＲＬ−テンプレ
ート対応表１３４２と、テンプレート処理部１３４３と
により構成した点において、第１の実施形態の修正であ
る。尚、第３の実施形態は、図３および図１５の構文解
析部１２，問い合わせ項目探索部１３１，問い合わせ変
換部１３２，ＨＴＭＬ文書メタデータ記憶部１５、１５
０、ＨＴＭＬ文書メタデータ管理部１６等を備えること
により上記の第１または第２の実施形態と適宜組み合わ
せて実施されてもよく、また図３７に示す構成により単
独で実施されてもよい。

【０１８４】第３の実施形態は、ＨＴＭＬ文書から情報
を項目別に抽出するために必要となるＨＴＭＬ文書の所
在情報と、ＨＴＭＬ文書に内在するデータの文書構造情
報とを、各ＨＴＭＬ文書ごとに設定し、これらの情報を
用いてＨＴＭＬに内在する情報を項目別に抽出する。具
体的には所在情報は、各ＨＴＭＬ文書のＵＲＬとして個
別に管理される。ＰＲＯＸＹの情報は、ＰＲＯＸＹ設定
ファイル中のＰＲＯＸＹサーバ名、ＰＲＯＸＹポート番
号として管理されてもよい。文書構造情報は、ＨＴＭＬ
文書中の表、リスト、箇条書きなどの部分構造に関する
情報であり、例えば抽出すべき項目がタグやスラッシュ
などのデリミタで区切られているという情報である。こ
の文書構造情報には、各項目の列、データ型などの各項
目の各種属性情報を含む。この文書構造情報は、テンプ
レートファイル中の項目名、抽出テキスト規定部、項目
名のデータ型等として管理される。このデータ型は例え
ば文字型、数値型などの値を持ち、各項目を処理するた
めの付加情報として定義される。各テンプレートファイ
ルと検索すべきＨＴＭＬ文書のＵＲＬまたはファイル名
は、ＵＲＬまたはファイル名と、テンプレートファイル
名とを有するＵＲＬ−テンプレート対応表により対応付
けられる。また、各ＨＴＭＬ文書は、テンプレートファ
イル中の抽出テキスト規定部分が規定する表形式への対
応情報を参照することにより、表形式などの統一フォー
マットに変換される。尚、テンプレートファイルは、図
４および図１６のＨＴＭＬ文書−表マッピングテーブル
１５２およびＨＴＭＬ文書項目テーブル１５３に対応す
る。

【０１８５】第３の実施形態は、これらのＰＲＯＸＹ設
定ファイル、ＵＲＬ−テンプレート対応表、テンプレー
トファイルを参照し、ユーザがＵＲＬまたはファイル名
を指定すると、例えばＵＲＬ指定時にはＰＲＯＸＹ設定
ファイルを参照してＨＴＭＬ文書を取得した後、ＵＲＬ
−テンプレート対応表を参照して該当するテンプレート
ファイル名を取得し、取得されたＨＴＭＬ文書を先頭か
ら順番に１行または複数行単位でスキャンして、テンプ
レートファイルに記述される抽出テキスト規定部分と比
較した結果に基づいて項目を抽出する。この項目抽出の
際には、テンプレートファイル中で次ページへのリンク
の有無を検証し、次ページへのリンクが存在する場合、
このリングがなくなるまで次ページのＵＲＬもしくはフ
ァイル名を抽出してこのページの項目を抽出する処理を
繰り返し行う。テンプレートファイルを参照して項目の
マッチング判定を行うことにより、ＨＴＭＬ文書に内在
する情報が表形式にマッピングされて項目単位に抽出さ
れる。第３の実施形態は、この抽出された各項目のデー
タをテンプレートファイルで規定されるデータ型に整形
し、ユーザーに項目名と整形済み項目情報を返却する。
従来の技術と比較して、ＨＴＭＬ文書中では本来文字型
である文書の構成要素のデータ型を任意に規定すること
により検索条件を用いて抽出された情報を条件処理でき
る。さらに、第１および第２の実施形態と同様、項目デ
ータの表現形式をユーザが所望する形式に加工できる。

【０１８６】図３７は、第３の実施形態に係るＨＴＭＬ
文書情報抽出装置の構成を示すブロック図である。第３
の実施形態に係るＨＴＭＬ文書情報抽出装置１００は、
ユーザーアクセス部１１と、ＨＴＭＬ文書アクセス部１
４と、ＰＲＯＸＹ設定ファイル１４１と、ＨＴＭＬ文書
処理部１３４と、テンプレートファイル１３４５と、検
索結果変換部１３５とで構成される。ＨＴＭＬ文書処理
部１３４は、テンプレート解析部１３４１と、ＵＲＬ−
テンプレート対応表１３４２と、テンプレート処理部１
３４３とを有する。ＨＴＭＬ文書情報抽出装置１００
は、ユーザーのアプリケーションプログラム３からの問
い合わせ文３０１に基づき、ＰＲＯＸＹサーバー２を介
してＨＴＭＬ文書にアクセスして、あるいは直接ローカ
ルのＨＴＭＬ文書にアクセスして、これらＨＴＭＬ文書
から得られた情報をテンプレート処理して検索結果３０
２としてユーザーに返却する。

【０１８７】ＨＴＭＬ文書情報抽出装置１００は、複数
のＨＴＭＬ文書がネットワーク上に散在する環境で、Ｈ
ＴＭＬ文書の所在、使用されるタグの種類、内包される
構成要素の種類が異なっていても、ＨＴＭＬ文書から項
目毎に情報を抽出するのに必要となる上記の各ＨＴＭＬ
文書の所在情報、文書構造情報を各ＨＴＭＬ文書個別に
設定することにより、ＨＴＭＬ文書からの所望する検索
結果の表形式などの統一フォーマットでの抽出を実現す
るものである。

【０１８８】ＨＴＭＬ文書情報抽出装置１００のユーザ
アクセス部１１は、ユーザからの問い合わせ文をアプリ
ケーションプログラム３から受信し、ＨＴＭＬ文書アク
セス部１４に送信する。ＨＴＭＬ文書アクセス部１４
は、ユーザアクセス部１１から受信したＵＲＬまたはフ
ァイル名に基づいて必要に応じＰＲＯＸＹ設定ファイル
１４１を参照して、ＨＴＭＬ文書４−１、４−２を取得
する。この取得されたＨＴＭＬ文書４−１、４−２をテ
ンプレート解析部１３４１に送信する。ＨＴＭＬ文書ア
クセス部１４はまた、取得されたＨＴＭＬ文書がリンク
情報を含む場合には、テンプレート解析部１３４１が抽
出したリンク先ＵＲＬに基づいて、必要に応じＰＲＯＸ
Ｙ設定ファイル１４１を参照して、ＨＴＭＬ文書４−
１、４−２を取得する。ＰＲＯＸＹ設定ファイル１４１
は、図３９に示すように、ＨＴＭＬ文書４−１、４−２
を取得するために必要なＰＲＯＸＹサーバの所在情報で
あるＰＲＯＸＹサーバ名、ＰＲＯＸＹポート番号を規定
したファイルであり、ＨＴＭＬ文書アクセス部１４によ
り参照される。テンプレートファイル１３４５は、図４
０に示すように、ＨＴＭＬ文書４−１、４−２から項目
として抽出可能な部位および抽出項目を抽出テキスト規
定部分に規定し、各抽出項目のデータ型を規定するファ
イルであり、テンプレート解析部１３４１により参照さ
れる。ＵＲＬ−テンプレート対応表１３４２は、受信し
たＵＲＬ情報を元に、当該ＵＲＬまたはファイル名がど
のテンプレートと対応しているかを管理するファイルで
あって、テンプレート解析部１３４１によって参照され
る。テンプレート解析部１３４１は、ＵＲＬ−テンプレ
ート対応表１３４２を参照して、問い合わせ文に対応す
るテンプレートファイル１３４５の名称を取得する。同
時に、このテンプレートファイル名を有するテンプレー
トファイル１３４５を参照し、取得されたＨＴＭＬ文書
の抽出可能な部位、抽出すべき項目、抽出すべき項目の
データ型等を解析、取得し、テンプレート処理部１３４
３へ送信する。この際テンプレートファイル１３４５上
でリンク先ＵＲＬの有無も判断され、テンプレート解析
部１３４１はリンク先が存在する場合にはＨＴＭＬ文書
アクセス部１４にリンク先ＵＲＬを送信してリンク先Ｈ
ＴＭＬ文書を取得する。テンプレート処理部１３４３
は、テンプレート解析部１３４１から受信した抽出可能
な部位、抽出すべき項目、抽出すべき項目のデータ型に
基づいてＨＴＭＬ文書４−１，４−２から各項目を抽出
する。検索結果変換部１３５は、テンプレート処理部１
３４３から抽出されたデータおよびそのデータ型を受信
し、データ型に沿った抽出データの変換処理を行う。こ
の変換後の抽出データを検索結果３０２としてユーザイ
ンターフェース部１１に送出する。

【０１８９】なお、このＨＴＭＬ文書情報抽出装置１０
０は、第１および第２の実施形態と同様、ＣＰＵ、メモ
リ、入出力装置、外部記憶装置等からなるコンピュータ
と、該コンピュータに読み取られた際、このコンピュー
タを前記各手段として機能させるためのプログラムを記
憶した媒体とによって実現することもできる。

【０１９０】ＰＲＯＸＹサーバ２は、ＨＴＭＬ文書情報
抽出装置１００から指定されることが可能なＨＴＭＬ文
書取得の仲介を行うサーバであり、ＵＲＬによって指定
されたＨＴＭＬ文書４−１をＨＴＭＬ文書情報抽出装置
１００に返却する。ＨＴＭＬ文書４−１，４−２は、オ
ープンなネットワーク上に散在するホームページを記述
したタグ付きテキストファイルである。アプリケーショ
ンプログラム３は、ユーザからのＵＲＬまたはファイル
名と、少なくとも検索項目を含む問い合わせ文を受け付
け、ＨＴＭＬ文書情報抽出装置１００からの受信結果を
ユーザに出力する。

【０１９１】次に、第３の実施形態に係るＨＴＭＬ文書
情報抽出装置１００の処理手順を説明する。第３の実施
形態の処理手順は、図３８に示す検索を実行する前に表
現形式等の準備を行う準備フェーズと、図４１に示す検
索を実行する検索フェーズの２段階のフェーズがある。
尚、図３８の準備フェーズの手順は管理者が適当なエデ
ィタ等を用いて作成・設定するものであり、ＨＴＭＬ文
書情報抽出装置１００自体を動作させて行うものではな
い。

【０１９２】（１）準備フェーズ図３８に示す準備フェーズでは、まず図３９に示すよう
にＰＲＯＸＹサーバが必要な場合（ステップＳ６００
Ｙ）、ＰＲＯＸＹサーバ名、ＰＲＯＸＹポート番号を定
義してＰＲＯＸＹ設定ファイル１７１が作成される（ス
テップＳ６０５）。次に、テンプレートファイルが作成
される（ステップＳ６１０）。このテンプレートファイ
ルには、複数のテンプレートファイル間で一意となるフ
ァイル名が与えられ、図４０に例として示すように以下
の情報が記述される。

【０１９３】(a)抽出項目この抽出項目は、図４０の「Word」キーワードに対応す
る。

【０１９４】ＨＴＭＬ文書から抽出したい情報として、
抽出すべき項目名、抽出すべき項目のデータ型、抽出す
べき項目に付け加える固定値を記述する。図４０でこの
データ型は、”１”が文字型を示す。尚、このデータ型
には、”３”が数値型、”４”が文字列を追加する型等
と所望する条件処理に応じて設定することができる。図
４０のテンプレートファイルには、リンク先アドレス
（ＵＲＬの相対パス）等が「NextURL」で始まる部分に
記述されている。これらの抽出項目のデータ型及び抽出
項目に付け加える固定値は、ユーザーに検索結果を返却
する際に必要な情報を追加もしくは削除するために必要
となる。

【０１９５】(b)抽出テキスト規定部分この抽出テキスト規定部分は、図４０の「HtmlTemplat
e」部分に対応する。

【０１９６】抽出対象となるＷｅｂページより、抽出し
たい情報を含むＨＴＭＬ文書の一レコード分をコピーす
る。そのうち、取得したい情報部分を「＄抽出項目名
＄」に置き換え、残った記述のうちレコードに依存して
いる省略可能な記述を、省略記号「..」に置き換える。

【０１９７】また、同一ＨＴＭＬ文書内に異なるテーブ
ルとして取り扱うべき情報が混在する場合、同一テーブ
ルの最後を特定する文字列を記入する。図４０では、第
１、第２および第３の表の項目がそれぞれ定義されてい
る。

【０１９８】さらにリンク先のＵＲＬが存在する場合、
リンク先ＵＲＬを特定する文字列を記入する。

【０１９９】次に、ＵＲＬ−テンプレート対応表を作成
する（ステップＳ６２０）。各ＵＲＬまたはファイルに
対し、図４１に示すように対応するテンプレートファイ
ル名を記述したファイルを作成する。

【０２００】（２）実行フェーズ図４２は、第３の実施形態が取得したＨＴＭＬ文書から
所望する項目を抽出する実行フェーズの処理手順を示す
フローチャートである。

【０２０１】まず、ユーザーインターフェース部１１
は、ユーザーがアプリケーションプログラム３に入力し
たＵＲＬまたはファイル名と、検索項目を含む検索文を
受け付ける（ステップＳ７００）。ＨＴＭＬ文書アクセ
ス部１４は入力がＵＲＬの場合、ＰＲＯＸＹ設定ファイ
ル１４１があればそれを参照してＨＴＭＬ文書４−１を
取得する。入力がファイル名の場合、ローカルのＨＴＭ
Ｌ文書が指定される。ユーザアクセス部１１０により受
信されたＵＲＬまたはファイル名とＰＲＯＸＹ設定ファ
イル１４１の記述内容に従って、ＨＴＭＬ文書アクセス
部１４はＰＲＯＸＹサーバ２を介するか、直接ＨＴＭＬ
文書を取得する。また、ＨＴＭＬ文書アクセス部１４は
返却結果であるＨＴＭＬ文書４−１を受信する（ステッ
プＳ７１０）。

【０２０２】テンプレート解析部１３４１は、ＵＲＬと
対応するテンプレートファイルの有無を判定する。ユー
ザインターフェース部１１を介し受信したＵＲＬまたは
ファイル名を参照し、このＵＲＬまたはファイル名に対
応するテンプレートファイル名を図４１のＵＲＬ−テン
プレート対応表１３４２から探索する（ステップＳ７２
０）。対応するテンプレートファイルが存在しない場合
（Ｓ７２０Ｎ）、ユーザインターフェース部１１に対し
エラーメッセージを送信する。一方存在すれば（Ｓ７２
０Ｙ）、テンプレート解析部１３４１は、取得されたＨ
ＴＭＬ文書に対応するテンプレート名のテンプレートフ
ァイル１３４５に記述されている抽出ルールを解析し
（ステップＳ７３０）、抽出に必要な情報をテンプレー
ト処理部１３４３に送信する。

【０２０３】テンプレート処理部１３４３は、テンプレ
ートファイル１３４５の抽出ルールを用いて、ＨＴＭＬ
文書４−１から実際に項目を抽出して表形式のデータを
得る（ステップＳ７４０）。テンプレート処理部１３４
３は、ステップＳ７３０の抽出ルール解析によりリンク
先ＵＲＬの有無を判定する（ステップＳ７５０）。リン
ク先のＵＲＬが取得された場合（ステップＳ７５０
Ｙ）、リンク先ＵＲＬをＨＴＭＬ文書アクセス部１４に
送信する。ＨＴＭＬ文書アクセス部１４により取得され
たリンク先ＨＴＭＬ文書に対してステップＳ７３０〜Ｓ
７５０の処理を行う。

【０２０４】検索結果変換部１３５は、抽出された項目
の項目データを、図４０のテンプレートファイル１３４
５を参照することで、以下のデータ変換処理を行って加
工する。

【０２０５】ａ）．抽出した情報をそのまま表示すべき
データ型の項目データに、変換は実施しない。

【０２０６】ｂ）．固定値を代入すべきデータ型の項目
データには、ＨＴＭＬ文書中に存在しないが、項目とし
て返却したい項目について検索結果変換処理部１３５が
有する固定値を返却する。

【０２０７】ｃ）．取得情報からカンマを削除すべきデ
ータ型の項目データには、数値情報中からカンマを削除
する。

【０２０８】ｄ）．取得情報に追加すべきデータ型の項
目データには、ＵＲＬの相対パス等、抽出項目に対し付
加すべき固定値が存在する場合、当該固定値を付加す
る。

【０２０９】上記の処理で得られるすべての検索結果
は、ユーザインターフェース部１１を介してアプリケー
ションプログラム３に送信され、表示される。

【０２１０】図４３〜図４６は第３の実施形態による項
目情報抽出の具体例を示すもので、図４３はＨＴＭＬ文
書のWebブラウザでの表示例、図４４は図４３の表示に
対応するＨＴＭＬ記述例（但し、その一部分）である。
図４５は、図４３、図４４のＨＴＭＬ文書からの項目抽
出を行うためのテンプレートファイル１７１を示すもの
で、各抽出項目、ここではレース名（ｒａｃｅｎａｍ
ｅ）、格（ｇｒａｄｅ）、競馬場（ｃｅｒｃｌｅ）、月
日（ｍｍｄｄ）、距離（ｄｉｓｔａｎｃｅ）、天候・馬
場（ｃｏｎｄｉｔｉｏｎ）、タイム（ｔｉｍｅ）、勝ち
馬（ｗｉｎｈｏｕｒｓｅ）、性齢（ｓｅｘ＿ａｇｅ）、
騎手（ｊｏｃｋｅｙ）、調教師（ｔｅｋｉ）、リンク先
（ｕｒｌ）の各項目と、これら各項目を抽出するための
抽出テキスト規定部分とが記述されている。図４６は、
図４３，図４４のＨＴＭＬ文書から図４５のテンプレー
トファイル１７１を用いて項目抽出（検索）を行った結
果の一表示例を示す。この表示例はアプリケーションプ
ログラム３側で３つの項目（「騎手」「勝ち馬」「レー
ス名」）を検索項目として指定または選択した場合を示
す。

【０２１１】次に、図４０、図４７〜図５０を参照し
て、第３の実施形態の変形例を説明する。第３の実施形
態では、図４０に示すように同一ＨＴＭＬ文書内の第１
および第２の表は、同一の構成要素からなる２つの部分
構造に対応してテンプレートが定義されている。尚、こ
こで部分構造とは、例えば表、リスト、箇条書きなどで
表現される意味のある１つのデータ群をいう。一方この
変形例は、第１に同一ＨＴＭＬ文書内の任意の項目が他
の項目と異なる属性情報を含む場合にも対応できるテン
プレートを用いて上記の項目抽出を行う点、第２に同一
ＨＴＭＬ文書内の異なる項目からなる複数の部分構造に
対応できるテンプレートを用いて上記の項目抽出を行う
点、第３にＨＴＭＬ文書がリンクを含む場合にも対応で
きるテンプレートを用いて上記の項目抽出を行う点にお
いて、第３の実施形態の変形である。

【０２１２】図４７、図４８は、店名情報を示すＨＴＭ
Ｌ文書のWebブラウザによる表示例を示す。図４７と図
４８とは、それぞれ３つの表からなり、同様の文書構造
を有するＨＴＭＬ文書である。図４９は、図４７の表示
に対応するＨＴＭＬ記述を、図５０は、図４８の表示に
対応するＨＴＭＬ記述を示す。図４０は、図４７および
図４８（図４９および図５０）から項目を抽出するため
のテンプレートを示す。図４０のテンプレートは、表ま
たは箇条書きなどのＨＴＭＬ文書中の部分構造の終端
（TableEndDelimiter）、抽出項目名（Word）、抽出項
目のデータ型（Word）、抽出テキスト規定部（HtmlTemp
late）に関する記述からなる。例えば、ＨＴＭＬ文書中
の＜／ＴＡＢＬＥ＞の出現を部分構造の終端とすること
を、TableEndDelimiter=＜／ＴＡＢＬＥ＞と記述する。

【０２１３】図４９が示す<A HREF="./html_2.html">
は、図５０のＨＴＭＬ文書へのリンクを示す。テンプレ
ート解析部１３４１は、このリンク情報を解析する。テ
ンプレート処理部１３４３は、このリンク情報に従い図
４０のテンプレートの記述（NextURL）に基づいて、図
４７のＨＴＭＬ文書のみでなく図４８のＨＴＭＬ文書か
らテンプレートを参照して項目抽出を行う。

【０２１４】図４７の表示に対応する図４９のＨＴＭＬ
記述中第１の表と第２の表とは、同一構成要素の文書構
造、同一表示形式の情報を備えた２つの部分構造であ
る。テンプレート処理部１３４３は、図４０のテンプレ
ートの第１および第２の部分構造（図５３では表）に関
する記述に基づき、同一ＨＴＭＬ文書内の同一文書構造
の複数の部分構造の項目情報を抽出する。図４８の表示
に対応する図５０のＨＴＭＬ記述は図４９のＨＴＭＬ記
述と同様の文書構造を有し、図４０のテンプレートによ
り図４９のＨＴＭＬソース記述と同様に項目情報が抽出
される。

【０２１５】尚、図４９のＨＴＭＬソース記述中第１の
表と第２の表とは、異なる属性（図４９では表示属性）
を含む２つの部分構造である。図４９のＨＴＭＬ記述中
構成要素「ジャンル」に対応するデータは、＜Ｉ＞と＜
／Ｉ＞で囲まれた構造のものと、そうでない構造のもの
がある。この「Ｉ」タグは、対応するデータをイタリッ
ク書体で表示することを示す。同様に「Ｂ」タグは、対
応するデータを太字で表示することを示す。これらの異
なる属性に関する情報は、図４０のテンプレート上で
は、同一行について２つの記述として定義されている。
取得されたＨＴＭＬ文書がいずれかの行の記述に合致す
れば、対応する項目が抽出される。図４０では、上記属
性に対応する記述として、省略を示すタグ「．．」が用
いられているので、任意の属性を有するデータを抽出す
ることができる。

【０２１６】一方、図４７の表示に対応する図４９のＨ
ＴＭＬソース記述中第１および第２の表に対し第３の表
は、異なる抽出項目に対応する構成要素「評価」に対応
するデータを含む部分構造である。テンプレート処理部
１３４３は、図４０の第３の表に対応する記述に基づい
て、同一ＨＴＭＬ文書内の異なる構成要素の文書構造の
複数部分構造を抽出する。

【０２１７】以上説明したように、第３の実施形態によ
れば、複数の任意のＨＴＭＬ文書に対し、当該ＨＴＭＬ
文書が内包する情報に関する各種の情報を管理し、当該
情報を用いてユーザに対し適切な情報を項目別に抽出
し、表形式などの統一フォーマットにて提供することが
可能となる。また、ユーザが要求する抽出対象のみを抽
出テキスト規定部分に規定することにより、システム構
築／維持管理が容易となる。即ち、各ＨＴＭＬ文書が有
する多種多様なインタフェースの相違に拘わらず、オー
プンなネットワーク上に散在する複数のＨＴＭＬ文書か
ら、情報を項目別に抽出することが可能となり、抽出し
た情報をユーザが所望する形式により提供することが可
能となる。

【０２１８】このように、第３の実施形態は、ＨＴＭＬ
の構文規則に依存しないテンプレートを用いて、ＨＴＭ
Ｌ文書から所望する項目を抽出する。即ち、タグまたは
これに準ずるデリミタ付きテキストであれば項目の抽出
が可能である。また、抽出のための情報を定義するテン
プレートファイルを作成するだけで、この項目の抽出を
行う。テンプレートファイルは、対象となるＨＴＭＬ文
書に基づき容易に作成可能であり、かつ視覚的にわかり
やすいため、容易かつ柔軟にＨＴＭＬ文書に内在する情
報の項目別の抽出を実現することができる。

【０２１９】尚、本発明は、上述した実施の形態に限定
されるものではなく、その要旨を逸脱しない範囲におい
て、種々変更することが可能である。

【０２２０】

【発明の効果】以上説明したように、本発明によれば、
オープンなネットワークに散在する複数のＨＴＭＬ文書
に対して該複数のＨＴＭＬ文書に内在する情報の文書構
造、構成要素、表現形式等が互いに異なってもこれら複
数の文書を跨った情報検索を実現し、ＨＴＭＬ記述上の
差異をユーザ毎の統一形式に変換して一括して検索結果
を返却することができる。

【０２２１】さらに、各ＨＴＭＬ文書が有する多種多様
なインタフェースの相違に拘わらず、オープンなネット
ワーク上に散在する複数のＨＴＭＬ文書から、情報を項
目別に抽出することが可能となり、抽出した情報をユー
ザが所望する形式により提供することが可能となる。

【０２２２】また、オープンなネットワークに散在する
複数のサーチエンジンに対して検索を要求する場合、各
サーチエンジン固有の入力フォームのオブジェクトを個
別に管理することにより、異種の各サーチエンジンへの
インターフェースの相違を解消して、複数の任意の入力
項目に対応した柔軟な検索が可能となる。

【０２２３】従って従来に比較して、人手による多くの
時間や労力が不要となり、検索効率が画期的に向上す
る。

【図面の簡単な説明】

【図１】本発明に係るＨＴＭＬ文書情報統合検索のユー
ザーの処理手順を説明する図である。

【図２】本発明に係るＨＴＭＬ文書情報統合検索装置の
原理を説明する図である。

【図３】本発明の第１の実施形態に係るＨＴＭＬ文書情
報統合検索装置の構成を示すブロック図である。

【図４】第１の実施形態に係るＨＴＭＬ文書メタデータ
記憶部が有するテーブルの構成を説明する図である。

【図５】第１の実施形態における準備フェーズの処理手
順を示すフローチャートである。

【図６】第１の実施形態における検索フェーズの処理手
順を示すフローチャートである。

【図７】あるＨＴＭＬ文書における表示およびＨＴＭＬ
記述の一例を示す図である。

【図８】他のＨＴＭＬ文書における表示およびＨＴＭＬ
記述の一例を示す図である。

【図９】ＨＴＭＬ文書テーブルの内容を示す図である。

【図１０】図７（Ｂ）および図８（Ｂ）に対応するＨＴ
ＭＬ文書−表マッピングテーブルの内容を示す図であ
る。

【図１１】図７および図８に対応するＨＴＭＬ文書項目
テーブルの内容を示す図である。

【図１２】ドメインテーブルの内容を示す図である。

【図１３】ユーザードメインテーブルの内容を示す図で
ある。

【図１４】ドメイン変換関数テーブルの内容を示す図で
ある。

【図１５】本発明の第２の実施形態に係るインターネッ
ト情報統合検索装置の構成を示すブロック図である。

【図１６】第２の実施形態に係るＨＴＭＬ文書メタデー
タ記憶部が有するテーブルの構成を説明する図である。

【図１７】第２の実施形態で使用される各サーチエンジ
ンの入力フォームの例を説明する図である。

【図１８】図１７（Ｂ）の入力フォームのＨＴＭＬ記述
を示す図である。

【図１９】第２の実施形態における準備フェーズの処理
手順を示すフローチャートである。

【図２０】第２の実施形態におけるＨＴＭＬ文書項目テ
ーブルの内容の一例を説明する図である。

【図２１】第２の実施形態におけるＨＴＭＬ文書テーブ
ルの内容の一例を説明する図である。

【図２２】第２の実施形態におけるＨＴＭＬ文書−表マ
ッピングテーブルの内容の一例を説明する図である。

【図２３】第２の実施形態におけるドメインテーブルの
内容の一例を示す図である。

【図２４】第２の実施形態におけるドメイン変換関数テ
ーブルの内容の一例を示す図である。

【図２５】第２の実施形態におけるユーザードメインテ
ーブルの内容の一例を示す図である。

【図２６】第２の実施形態の入力必須項目テーブルの内
容の一例を示す図である。

【図２７】検索要求処理における図１５の第２の実施形
態に係るインターネット情報統合検索装置と各サーチエ
ンジンとの関係を説明する図である。

【図２８】第２の実施形態の検索パターンマトリックス
テーブルの内容を示す図である。

【図２９】第２の実施形態における検索フェーズの処理
手順を示すフローチャートである。

【図３０】図２９のステップＳ４１０で探索されたデー
タ項目の所在を示す図である。

【図３１】図２９のステップＳ４４０で得られたページ
Ａに対する検索要求の処理パターンを示す図である。

【図３２】図２９のステップＳ４４０で得られたページ
Ｂに対する検索要求の処理パターンを示す図である。

【図３３】図２９のステップＳ４４０で得られたページ
Ｃに対する検索要求の処理パターンを示す図である。

【図３４】図２９のステップＳ４５０で得られたユーザ
ー入力ドメインとローカルドメインとの対応情報を示す
図である。

【図３５】ページＢに対する検索要求の処理結果の表示
例およびＨＴＭＬ記述を示す図である。

【図３６】図２９のステップＳ５００で得られたユーザ
ー出力ドメインとローカルドメインとの対応情報を示す
図である。

【図３７】本発明の第３の実施形態に係るＨＴＭＬ文書
情報抽出装置の構成を示すブロック図である。

【図３８】第３の実施形態における準備フェーズの処理
手順を示すフローチャートである。

【図３９】ＰＲＯＸＹ設定ファイルの内容の一例を示す
図である。

【図４０】第３の実施形態におけるテンプレートファイ
ルの内容の一例を示す図である。

【図４１】ＵＲＬ−テンプレート対応表の内容の一例を
示す図である。

【図４２】第３の実施形態における実行フェーズの処理
手順を示すフローチャートである。

【図４３】ＨＴＭＬ文書のWebブラウザによる表示の一
例を示す図である。

【図４４】図４３の表示に対応するＨＴＭＬ記述の一部
を示す図である。

【図４５】図４３、図４４に対応するテンプレートファ
イルの内容を示す図である。

【図４６】第３の実施形態が図４３のＨＴＭＬ文書から
抽出した検索結果の表示の一例を示す図である。

【図４７】第３の実施形態の変形例におけるＨＴＭＬ文
書のWebブラウザによる表示の一例を示す図である。

【図４８】図４７のＨＴＭＬ文書からリンクされる図４
７の文書と同一の文書構造を有するＨＴＭＬ文書のWeb
ブラウザによる表示の一例を示す図である。

【図４９】図４７の表示に対応するＨＴＭＬ記述を示す
図である。

【図５０】図４８の表示に対応するＨＴＭＬ記述を示す
図である。

【図５１】従来のＨＴＭＬ文書情報検索のユーザーの処
理手順を説明する図である。

【図５２】従来のＨＴＭＬ文書情報検索の原理を説明す
る図である。

【符号の説明】

１ＨＴＭＬ文書情報統合検索装置２ＰＲＯＸＹサーバ３アプリケーションプログラム１０インターネット情報統合検索装置１１ユーザーインターフェース部１２構文解析部１３問い合わせ処理部１４ＨＴＭＬ文書アクセス部１５、１５０ＨＴＭＬ文書メタデータ記憶部１６ＨＴＭＬ文書メタデータ管理部４、２１、２０２ＨＴＭＬ文書２２Ｗｅｂサーバー２３サーチエンジン２４データベース１００ＨＴＭＬ文書情報抽出装置１３１問い合わせ項目探索部１３２問い合わせ項目変換部１３３変換関数ライブラリ１３４ＨＴＭＬ文書処理部１３５検索結果変換部１３６入力必須項目探索部１３７検索パターン判定部１３８検索結果処理部１３９マトリックステーブル１５１ＨＴＭＬ文書テーブル１５２ＨＴＭＬ文書−表マッピングテーブル１５３ＨＴＭＬ文書項目テーブル１５４ドメインテーブル１５５ユーザードメインテーブル１５６ドメイン変換関数テーブル１５７入力必須項目テーブル１９０、２９０通信網２０１ＨＴＭＬ文書要求２０３検索要求２０４検索結果３０１問い合わせ文３０２検索結果１３４１テンプレート解析部１３４２ＵＲＬ／テンプレート対応表１３４３テンプレート処理部１３４５テンプレートファイル

───────────────────────────────────────────────────── フロントページの続き (72)発明者星野隆東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (72)発明者町原宏毅東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (56)参考文献特開平９−319757（ＪＰ，Ａ) 特開平９−311869（ＪＰ，Ａ) 特開平２−87274（ＪＰ，Ａ) 特開平10−143523（ＪＰ，Ａ) 特開平11−73428（ＪＰ，Ａ) 特開平４−222056（ＪＰ，Ａ) 特開平10−187753（ＪＰ，Ａ) 欧州特許出願公開964341（ＥＰ，Ａ２) 手塚祐一，冨田一郎，山本修一郎, 「インターネット仮想商店検索システム：ＲＢＩＭＤ」，ＮＴＴ技術ジャーナルＶｏｌ．10，Ｎｏ．５，ｐｐ．50−52 （平成10年５月１日) 冨田一郎，手塚祐一，山本修一郎，長岡満夫，「ＨＴＭＬ文書からの商品情報抽出方式の提案」，電子情報通信学会技術研究報告Ｖｏｌ．97，Ｎｏ．502（ＫＢＳＥ97−25〜29），ｐｐ．15−22（平成10年１月22日) 冨田一郎，手塚祐一，山本修一郎，長岡満夫，「ＨＴＭＬ文書からの商品情報抽出方式の提案」，情報処理学会第56回（平成10年前期）全国大会講演論文集（３），ｐｐ．３−79〜３−80（平成10 年３月17日) 町原宏毅，綱川光明，星野隆，鈴木源吾，「ネットワーク上にある複数データベースをまたがる一括検索を可能にマルチデータベース情報源管理／検索システム−ＤＢＳＥＮＡ−を開発」，ＮＴＴ技術ジャーナルＶｏｌ10，Ｎｏ．１（平成10年１月１日) 冨田一郎，手塚祐一，山本修一郎，綱川光明，「ＷＷＷによるマルチデータベース検索システム：ＷｅｂＳＥＮＡ」, ＮＴＴ技術ジャーナルＶｏｌ10，Ｎｏ. ５，ｐｐ．55−58（平成10年５月１日) 星野隆，綱川光明，町原宏毅，「ＤＢＳＥＮＡ：マルチデータベース環境における情報資源管理と検索方式」，情報処理学会研究報告Ｖｏｌ．98，Ｎｏ．２, ｐｐ．113−120（平成10年１月20日) 永末寿宏，綱川光明，町原宏毅，「Ｄ −４−５ＷＷＷ環境における情報資源管理と検索方式に関する検討」，電子情報通信学会1998年情報・システムソサイエティ大会講演論文集ｐ21（平成10年９月29日) 星野隆，綱川光明，町原宏毅，「マルチデータベース環境における関連情報推定と検索方式」，情報処理学会研究報告Ｖｏｌ．98，Ｎｏ．58（98−ＤＢＳ− 116（２）），ｐｐ．389−396（平成10 年７月10日) 綱川光明，星野隆，町原宏毅，「マルチデータベース環境におけるジャンル検索方式」，情報処理学会研究報告Ｖｏｌ．98，Ｎｏ．60，ｐｐ．17−24（平成 10年７月17日) ＷＷＷの情報検索に新技術−商品探す「エージェント」登場，日経マルチメディアＪＵＬＹ，1997，Ｎｏ．25，ｐｐ. 24−25（平成９年７月15日) 坂田毅，多田浩之，大竹智久，「ＷＷＷ上におけるＭｅｔａｄａｔａの記述とオンラインショッピングへの応用」，情報処理学会第54回（平成９年前期）全国大会講演論文集（３），ｐｐ．３−151 〜３−152（平成９年３月12日) 遠山元道，「関係データベースに基づく半構造データの実現と管理」，情報処理学会研究報告Ｖｏｌ．98，Ｎｏ．２, ｐｐ．105−112（平成10年１月20日) 古館丈裕，岡安光彦，石川佳治，植村俊亮，「構造化文書データベースに対するラッピング手法の提案」，情報処理学会研究報告Ｖｏｌ．96，Ｎｏ．68（96− ＤＢＳ−109），ｐｐ．305−310 ＮａｖｅｅｎＡｓｈｉｓｈａｎｄＣｒａｉｇＡ．Ｋｎｏｂｌｏｃｋ，”ＷｒａｐｐｅｒＧｅｎｅｒａｔｉｏｎｆｏｒＳｅｍｉ−ｓｔｒｕｃｔｕｒｅｄＩｎｔｅｒｎｅｔＳｏｕｒｃｅｓ”，ＳＩＧＭＯＤＲｅｃｏｒｄ，Ｖｏｌ．26，Ｎｏ．４，ｐｐ．８− 15（平成９年12月) 小西修ほか，「アクティブ・メディエーション・システムのためのメディエータ言語とエージェント・モデルについて」，情報処理学会研究報告Ｖｏ．98, Ｎｏ．２（98−ＤＢＳ−114），ｐｐ. 81−88（平成10年１月19日) ＲｏｂｅｒｔＡ．Ｎａｄｏ，ＳｃｏｔｔＢ．Ｈｕｆｆｍａｎ，”ＥｘｔｒａｃｔｉｎｇＥｎｔｉｔｙＰｒｏｆｉｌｅｓｆｒｏｍＳｅｍｉｓｔｒｕｃｔｕｒｅｄＩｎｆｏｒｍａｔｉｏｎＳｐａｃｅｓ”，ＳＩＧＭＯＤＲｅｃｏｒｄ，Ｖｏｌ．26，Ｎｏ．４，ｐｐ．32−38（平成９年12月) 斎藤孝文，山本修一郎，「インターネット・コマースの発展を目指して」，ＮＴＴ技術ジャーナルＶｏｌ．10，Ｎｏ. ５，ｐｐ．42−46（平成10年５月１日) 上林弥彦，「マルチデータベースの研究開発動向」，情報処理Ｖｏｌ．35，Ｎｏ．２，ｐｐ．105−119（平成６年２月 15日) ＲｏｂｅｒｔＢ．Ｄｏｏｒｅｎｂｏｓ，ＯｒｅｎＥｔｚｉｏｎｉ，ａｎｄＤａｎｉｅｌＳ．Ｗｅｌｄ．”ＡＳｃａｌａｂｌｅＣｏｍｐａｒｉｓｏｎ−ＳｈｏｐｐｉｎｇＡｇｅｎｔｆｏｒｔｈｅＷｏｒｌｄ−ＷｉｄＷｅｂ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｉｒｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｎｏｍｏｕｓＡｇｅｎｔｓ，ｐｐ．39−48（平成９年２月５日) ＳｔｅｖｅＤ．Ｇｒｉｓｗｏｌｄ, 「解き放たれるエージェント」，ＩｎｔｅｒｎｅｔｗｏｒｋｉｎｇＶｏｌ２, Ｎｏ．８，ｐｐ．32−37，株式会社アスキー（平成８年８月１日) Ｆｅｈ−ＣｈｕｎＣｈｅｏｎｇ，" ＩｎｔｅｒｎｅｔＡｇｅｎｔｓ：Ｓｐｉｄｅｒｓ，Ｗａｎｄｅｒｅｒｓ，Ｂｒｏｋｅｒｓ，ａｎｄ’Ｂｏｔｓ”，ｐｐ．337−353，ＮｅｗＲｉｄｅｒｓＰｕｂｌｉｓｈｉｎｇ，1996 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 310 G06F 17/30 419 G06F 12/00 546 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】オープンネットワーク上の複数の半構造
化文書に内在する情報を検索する半構造化文書情報統合
検索装置であって、オープンネットワーク上での半構造化文書の所在を示す
所在情報と、前記半構造化文書の構造を、抽出すべき項
目ごとに区切るための文書構造情報と、前記項目ごとに
前記項目を条件検索するために用いるデータ属性を規定
するデータ属性情報と、ユーザーの表示における項目の
表現形式、各半構造化文書の項目の表現形式およびこれ
らの間の表現形式を変換するために用いる関数を定義す
る表現形式変換情報とを、各半構造化文書の項目情報を
記述するために参照されるメタデータとして記憶する記
憶部と、検索項目および検索条件からなる入力された問い合わせ
に基づいて、すべての検索項目に対応する項目を有する
半構造化文書の所在を前記所在情報から得る文書所在探
索部と、入力された前記問い合わせを、前記表現形式変換情報に
基づいて、前記得られた所在にある半構造化文書中の前
記検索項目に対応する項目の表現形式に必要に応じ前記
関数を参照して変換する問い合わせ変換部と、前記変換された問い合わせを前記得られた所在に送信し
て、半構造化文書を取得する文書検索部と、取得された各半構造化文書から、前記文書構造情報に基
づいて、項目データを抽出し、前記検索条件を用い、前
記データ属性情報に基づいて前記抽出された項目データ
を選択して検索結果とする文書処理部と、前記検索結果を、前記表現形式変換情報に基づいて、前
記検索結果中の項目に対応する各ユーザーごとに定義さ
れた項目の表現形式に必要に応じ前記関数を参照して変
換する検索結果変換部とを具備することを特徴とする半
構造化文書情報統合検索装置。
【請求項２】上記半構造化文書情報統合検索装置は、
さらに、半構造化文書ごとに、半構造化文書の構造を抽出すべき
項目ごとに区切るための文書構造情報に基づき、少なく
とも抽出すべき項目名と、半構造化文書から抽出すべき
項目群の抽出テキスト形式情報を記述するテンプレート
を記憶するテンプレート記憶部と、取得された半構造化文書に対応するテンプレートを解析
するテンプレート解析部と、前記取得された半構造化文書をスキャンして、該半構造
化文書と、前記テンプレートとを比較して、前記抽出テ
キスト形式情報に合致した項目の項目データを抽出する
テンプレート処理部とを具備し、前記テンプレートには、各項目データに対応する変数名
が記述されるとともに、半構造化文書が複数の部分構造
を有する場合、各部分構造ごとに抽出テキスト形式情報
が記述され、前記テンプレート処理部は、抽出された項目データを、
各部分構造ごとの検索結果とすることを特徴とする請求
項１に記載の半構造化文書情報統合検索装置。
【請求項３】前記文書処理部は、前記検索結果を、表
形式に整形することを特徴とする請求項１に記載の半構
造化文書情報統合検索装置。
【請求項４】前記文書処理部は、前記テンプレート中
の前記抽出テキスト形式情報が、他の半構造化文書への
リンク情報を含む場合には、リンク先の半構造化文書を
スキャンして、前記リンク先の半構造化文書と前記テン
プレートとを比較することを特徴とする請求項２に記載
の半構造化文書情報統合検索装置。
【請求項５】前記テンプレートは、半構造化文書の各
部分構造に対して、前記部分構造の一部に存在する、前
記文書構造情報が他の部分と異なる部分をそれぞれ抽出
するための、異なるタグにそれぞれ対応する複数の抽出
テキスト形式情報が記述され、前記テンプレート処理部は、前記取得された第１の検索
結果である半構造化文書をスキャンして、該半構造化文
書と、該半構造化文書に対応する前記テンプレート中の
前記複数の抽出テキスト形式情報のいずれかが合致した
場合に、合致した項目の項目データを抽出することを特
徴とする請求項２に記載の半構造化文書情報統合検索装
置。
【請求項６】前記テンプレートは、半構造化文書が互
いに異なる要素からなる複数の部分構造を有する場合、
各部分構造ごとに抽出テキスト形式情報が記述され、前記テンプレート処理部は、抽出された項目データを、
各部分構造ごとの検索結果とすることを特徴とする請求
項２に記載の半構造化文書情報統合検索装置。
【請求項７】オープンネットワーク上の複数のサーチ
エンジンを介して情報を検索する半構造化文書情報統合
検索装置であって、オープンネットワーク上でのサーチエンジンの所在を示
す所在情報と、各サーチエンジンへの入力フォームにお
いて入力が必要とされる入力必須項目を定義する入力必
須項目情報と、ＨＴＭＬ文書の構造を、抽出すべき項目
ごとに区切るための文書構造情報と、項目ごとに各サー
チエンジン内において該項目が取得可能か否かおよび条
件指定可能か否かを示す項目属性情報と、前記項目ごと
に前記項目を条件検索するためのデータ属性を規定する
データ属性情報と、ユーザーの項目の表現形式と各ＨＴ
ＭＬ文書の項目の表現形式との間の変換情報を定義する
表現形式変換情報とを記憶する記憶部と、検索項目および検索条件からなるユーザーから入力され
た問い合わせに基づいて、すべての検索項目に対応する
項目を有するサーチエンジンの所在を前記所在情報から
得る文書所在探索部と、前記入力必須項目情報に基づいて、各サーチエンジンに
おける入力必須項目と前記入力された問い合わせで指定
された項目とを比較することにより、前記得られた所在
のサーチエンジンの中から、前記入力必須項目を満たす
検索項目が指定されたサーチエンジンを、検索対象サー
チエンジンとして選択するサーチエンジン選択部と、前記入力された検索項目および検索条件と、前記項目属
性情報との組み合わせを規定するマトリックステーブル
に基づき各サーチエンジンごとに最適な検索処理パター
ンを得て、前記問い合わせを各サーチエンジンごとに前
記検索処理パターンに適合する問い合わせ群に変換する
検索パターン判定部と、前記変換された問い合わせ群のそれぞれを、前記表現形
式変換情報に基づいて、前記検索対象サーチエンジンの
前記検索項目に対応する項目の表現形式に変換する問い
合わせ変換部と、前記変換された問い合わせを前記得られた所在に送信し
て、ＨＴＭＬ文書を取得する文書検索部と、各サーチエンジンから取得されたＨＴＭＬ文書からなる
第１の検索結果から、前記文書構造情報に基づいて、項
目データを抽出するとともに、少なくともサーチエンジ
ンにおいて条件検索が実行されなかった項目に関し、対
応する前記検索処理パターンに従い、前記検索条件およ
び前記データ属性情報に基づいて、抽出された項目デー
タから前記検索条件に合致する項目データを選択して、
第２の検索結果とする検索結果処理部と、前記第２の検索結果を、前記表現形式変換情報に基づい
て、前記検索結果中の項目に対応する各ユーザーごとに
定義された項目の表現形式に変換する検索結果変換部と
を具備することを特徴とする半構造化文書情報統合検索
装置。
【請求項８】上記半構造化文書情報統合検索装置は、
さらに、ＨＴＭＬ文書ごとに、ＨＴＭＬ文書の構造を抽出すべき
項目ごとに区切るための文書構造情報に基づき、少なく
とも抽出すべき項目名と、ＨＴＭＬ文書から抽出すべき
項目群の抽出テキスト形式情報を記述するテンプレート
を記憶するテンプレート記憶部と、取得されたＨＴＭＬ文書に対応するテンプレートを解析
するテンプレート解析部と、前記取得されたＨＴＭＬ文書をスキャンして、該ＨＴＭ
Ｌ文書と、前記テンプレートとを比較して、前記抽出テ
キスト形式情報に合致した項目の項目データを抽出する
テンプレート処理部とを具備し、前記テンプレートには、各項目データに対応する変数名
が記述されるとともに、ＨＴＭＬ文書が複数の同一部分
構造を有する場合、各部分構造ごとに抽出テキスト形式
情報が記述され、前記テンプレート処理部は、抽出された項目データを、
各部分構造ごとの検索結果とすることを特徴とする請求
項７に記載の半構造化文書情報統合検索装置。
【請求項９】前記文書処理部は、前記検索結果を、表
形式に整形することを特徴とする請求項７に記載の半構
造化文書情報統合検索装置。
【請求項１０】前記文書処理部は、前記テンプレート
中の前記抽出テキスト形式情報が、他のＨＴＭＬ文書へ
のリンク情報を含む場合には、リンク先のＨＴＭＬ文書
をスキャンして、前記リンク先のＨＴＭＬ文書と前記テ
ンプレートとを比較することを特徴とする請求項８に記
載の半構造化文書情報統合検索装置。
【請求項１１】前記テンプレートは、ＨＴＭＬ文書の
各部分構造に対して、前記部分構造の一部に存在する、
前記文書構造情報が他の部分と異なる部分をそれぞれ抽
出するための、異なるタグにそれぞれ対応する複数の抽
出テキスト形式情報が記述され、前記テンプレート処理部は、前記取得された第１の検索
結果であるＨＴＭＬ文書をスキャンして、該ＨＴＭＬ文
書と、該ＨＴＭＬ文書に対応する前記テンプレート中の
前記複数の抽出テキスト形式情報のいずれかが合致した
場合に、合致した項目の項目データを抽出することを特
徴とする請求項８に記載の半構造化文書情報統合検索装
置。
【請求項１２】前記テンプレートは、ＨＴＭＬ文書が
互いに異なる項目からなる複数の部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記文書処理部は、抽出された項目データを、各部分構
造ごとの検索結果とすることを特徴とする請求項８に記
載の半構造化文書情報統合検索装置。
【請求項１３】オープンネットワーク上の任意のＨＴ
ＭＬ文書に内在する情報から項目ごとに情報を抽出する
半構造化文書情報抽出装置であって、ＨＴＭＬ文書ごとに、ＨＴＭＬ文書の構造を抽出すべき
項目ごとに区切るための文書構造情報に基づき、少なく
とも抽出すべき項目名と、ＨＴＭＬ文書から抽出すべき
項目群の抽出テキスト形式情報を記述するテンプレート
を記憶するテンプレート記憶部と、取得されたＨＴＭＬ文書に対応するテンプレートを解析
するテンプレート解析部と、前記取得されたＨＴＭＬ文書をスキャンして、該ＨＴＭ
Ｌ文書と、前記テンプレートとを比較して、前記抽出テ
キスト形式情報に合致した項目の項目データを抽出する
テンプレート処理部とを具備し、前記テンプレートには、各項目データに対応する変数名
が記述されるとともに、ＨＴＭＬ文書が複数の部分構造
を有する場合、各部分構造ごとに抽出テキスト形式情報
が記述され、前記テンプレート処理部は、抽出された項目データを、
各部分構造ごとの検索結果とすることを特徴とする半構
造化文書情報抽出装置。
【請求項１４】前記テンプレート処理部は、前記抽出
された項目データを、表形式に整形することを特徴とす
る請求項１３に記載の半構造化文書情報抽出装置。
【請求項１５】前記テンプレート処理部は、前記テン
プレート中の前記抽出テキスト形式情報が、他のＨＴＭ
Ｌ文書へのリンク情報を含む場合には、リンク先のＨＴ
ＭＬ文書をスキャンして、前記リンク先のＨＴＭＬ文書
と前記テンプレートとを比較することを特徴とする請求
項１３に記載の半構造化文書情報抽出装置。
【請求項１６】前記テンプレートは、ＨＴＭＬ文書の
各部分構造に対して、前記部分構造の一部に存在する、
前記文書構造情報が他の部分と異なる部分をそれぞれ抽
出するための、異なるタグにそれぞれ対応する複数の抽
出テキスト形式情報が記述され、前記テンプレート処理部は、前記取得された第１の検索
結果であるＨＴＭＬ文書をスキャンして、該ＨＴＭＬ文
書と、該ＨＴＭＬ文書に対応する前記テンプレート中の
前記複数の抽出テキスト形式情報のいずれかが合致した
場合に、合致した項目の項目データを抽出することを特
徴とする請求項１３に記載の半構造化文書情報抽出装
置。
【請求項１７】前記テンプレートは、ＨＴＭＬ文書が
互いに異なる項目からなる複数の部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記テンプレート処理部は、抽出された項目データを、
各部分構造ごとの検索結果とすることを特徴とする請求
項１３に記載の半構造化文書情報抽出装置。
【請求項１８】オープンネットワーク上の複数の半構
造化文書に内在する情報を検索する半構造化文書情報統
合検索方法であって、オープンネットワーク上での半構造化文書の所在を示す
所在情報と、前記半構造化文書の構造を、抽出すべき項
目ごとに区切るための文書構造情報と、前記項目ごとに
前記項目を条件検索するために用いるデータ属性を規定
するデータ属性情報と、ユーザーの表示における項目の
表現形式、各半構造化文書の項目の表現形式およびこれ
らの間の表現形式を変換するために用いる関数を定義す
る表現形式変換情報とを、各半構造化文書の項目情報を
記述するために参照されるメタデータとして記憶するス
テップと、検索項目および検索条件からなる入力された問い合わせ
に基づいて、すべての検索項目に対応する項目を有する
半構造化文書の所在を前記所在情報から得るステップ
と、入力された前記問い合わせを、前記表現形式変換情報に
基づいて、前記得られた所在にある半構造化文書中の前
記検索項目に対応する項目の表現形式に必要に応じ前記
関数を参照して変換するステップと、前記変換された問い合わせを前記得られた所在に送信し
て、半構造化文書を取得するステップと、取得された各半構造化文書から、前記文書構造情報に基
づいて、項目データを抽出し、前記検索条件を用い、前
記データ属性情報に基づいて前記抽出された項目データ
を選択して検索結果とするステップと、前記検索結果を、前記表現形式変換情報に基づいて、前
記検索結果中の項目に対応する各ユーザーごとに定義さ
れた項目の表現形式に必要に応じ前記関数を参照して変
換するステップとを含むことを特徴とする半構造化文書
情報統合検索方法。
【請求項１９】オープンネットワーク上の複数のサー
チエンジンを介して情報を検索する半構造化文書情報統
合検索方法であって、オープンネットワーク上でのサーチエンジンの所在を示
す所在情報と、各サーチエンジンへの入力フォームにお
いて入力が必要とされる入力必須項目を定義する入力必
須項目情報と、ＨＴＭＬ文書の構造を、抽出すべき項目
ごとに区切るための文書構造情報と、項目ごとに各サー
チエンジン内において該項目が取得可能か否かおよび条
件指定可能か否かを示す項目属性情報と、前記項目ごと
に前記項目を条件検索するためのデータ属性を規定する
データ属性情報と、ユーザーの項目の表現形式と各ＨＴ
ＭＬ文書の項目の表現形式との間の変換情報を定義する
表現形式変換情報とを記憶するステップと、検索項目および検索条件からなるユーザーから入力され
た問い合わせに基づいて、すべての検索項目に対応する
項目を有するサーチエンジンの所在を前記所在情報から
得るステップと、前記入力必須項目情報に基づいて、各サーチエンジンに
おける入力必須項目と前記入力された問い合わせで指定
された項目とを比較することにより、前記得られた所在
のサーチエンジンの中から、前記入力必須項目を満たす
検索項目が指定されたサーチエンジンを、検索対象サー
チエンジンとして選択するステップと、前記入力された検索項目および検索条件と、前記項目属
性情報との組み合わせを規定するマトリックステーブル
に基づき各サーチエンジンごとに最適な検索処理パター
ンを得て、前記問い合わせを各サーチエンジンごとに前
記検索処理パターンに適合する問い合わせ群に変換する
ステップと、前記変換された問い合わせ群のそれぞれを、前記表現形
式変換情報に基づいて、前記検索対象サーチエンジンの
前記検索項目に対応する項目の表現形式に変換するステ
ップと、前記変換された問い合わせを前記得られた所在に送信し
て、ＨＴＭＬ文書を取得するステップと、各サーチエンジンから取得されたＨＴＭＬ文書からなる
第１の検索結果から、前記文書構造情報に基づいて、項
目データを抽出するとともに、少なくともサーチエンジ
ンにおいて条件検索が実行されなかった項目に関し、対
応する前記検索処理パターンに従い、前記検索条件およ
び前記データ属性情報に基づいて、抽出された項目デー
タから前記検索条件に合致する項目データを選択して、
第２の検索結果とするステップと、前記第２の検索結果を、前記表現形式変換情報に基づい
て、前記検索結果中の項目に対応する各ユーザーごとに
定義された項目の表現形式に変換するステップとを含む
ことを特徴とする半構造化文書情報統合検索方法。
【請求項２０】オープンネットワーク上の任意のＨＴ
ＭＬ文書に内在する情報から項目ごとに情報を抽出する
半構造化文書情報抽出方法であって、ＨＴＭＬ文書ごとに、ＨＴＭＬ文書の構造を抽出すべき
項目ごとに区切るための文書構造情報に基づき、少なく
とも抽出すべき項目名と、ＨＴＭＬ文書から抽出すべき
項目群の抽出テキスト形式情報を記述するテンプレート
を記憶するステップと、取得されたＨＴＭＬ文書に対応するテンプレートを解析
するステップと、前記取得されたＨＴＭＬ文書をスキャンして、該ＨＴＭ
Ｌ文書と、前記テンプレートとを比較して、前記抽出テ
キスト形式情報に合致した項目の項目データを抽出する
ステップとを含み、前記テンプレートには、各項目データに対応する変数名
が記述されるとともに、ＨＴＭＬ文書が複数の部分構造
を有する場合、各部分構造ごとに抽出テキスト形式情報
が記述され、前記項目データを抽出するステップは、抽出された項目
データを、各部分構造ごとの検索結果とすることを特徴
とする半構造化文書情報抽出方法。
【請求項２１】オープンネットワーク上の複数の半構
造化文書に内在する情報を検索する処理をコンピュータ
に実行させるプログラムを記録するコンピュータ読み取
り可能な記録媒体であって、オープンネットワーク上での半構造化文書の所在を示す
所在情報と、前記半構造化文書の構造を、抽出すべき項
目ごとに区切るための文書構造情報と、前記項目ごとに
前記項目を条件検索するために用いるデータ属性を規定
するデータ属性情報と、ユーザーの表示における項目の
表現形式、各半構造化文書の項目の表現形式およびこれ
らの間の表現形式を変換するために用いる関数を定義す
る表現形式変換情報とを、各半構造化文書の項目情報を
記述するために参照されるメタデータとして記憶する記
憶処理と、検索項目および検索条件からなる入力された問い合わせ
に基づいて、すべての検索項目に対応する項目を有する
半構造化文書の所在を前記所在情報から得る文書所在探
索処理と、入力された前記問い合わせを、前記表現形式変換情報に
基づいて、前記得られた所在にある半構造化文書中の前
記検索項目に対応する項目の表現形式に必要に応じ前記
関数を参照して変換する問い合わせ変換処理と、前記変換された問い合わせを前記得られた所在に送信し
て、半構造化文書を取得する文書検索処理と、取得された各半構造化文書から、前記文書構造情報に基
づいて、項目データを抽出し、前記検索条件を用い、前
記データ属性情報に基づいて前記抽出された項目データ
を選択して検索結果とする文書処理と、前記検索結果を、前記表現形式変換情報に基づいて、前
記検索結果中の項目に対応する各ユーザーごとに定義さ
れた項目の表現形式に必要に応じ前記関数を参照して変
換する検索結果変換処理とを含むことを特徴とするコン
ピュータ読み取り可能な記録媒体。
【請求項２２】上記コンピュータ読み取り可能な記録
媒体は、さらに、半構造化文書ごとに、半構造化文書の構造を抽出すべき
項目ごとに区切るための文書構造情報に基づき、少なく
とも抽出すべき項目名と、半構造化文書から抽出すべき
項目群の抽出テキスト形式情報を記述するテンプレート
を記憶するテンプレート記憶処理と、取得された半構造化文書に対応するテンプレートを解析
するテンプレート解析処理と、前記取得された半構造化文書をスキャンして、該半構造
化文書と、前記テンプレートとを比較して、前記抽出テ
キスト形式情報に合致した項目の項目データを抽出する
テンプレート処理とを含み、前記テンプレートには、各項目データに対応する変数名
が記述されるとともに、半構造化文書が複数の部分構造
を有する場合、各部分構造ごとに抽出テキスト形式情報
が記述され、前記テンプレート処理は、抽出された項目データを、各
部分構造ごとの検索結果とすることを特徴とする請求項
２１に記載のコンピュータ読み取り可能な記録媒体。
【請求項２３】前記文書処理は、前記検索結果を、表
形式に整形することを特徴とする請求項２１に記載のコ
ンピュータ読み取り可能な記録媒体。
【請求項２４】前記文書処理は、前記テンプレート中
の前記抽出テキスト形式情報が、他の半構造化文書への
リンク情報を含む場合には、リンク先の半構造化文書を
スキャンして、前記リンク先の半構造化文書と前記テン
プレートとを比較することを特徴とする請求項２２に記
載のコンピュータ読み取り可能な記録媒体。
【請求項２５】前記テンプレートは、半構造化文書の
各部分構造に対して、前記部分構造の一部に存在する、
前記文書構造情報が他の部分と異なる部分をそれぞれ抽
出するための、異なるタグにそれぞれ対応する複数の抽
出テキスト形式情報が記述され、前記テンプレート処理は、前記取得された第１の検索結
果である半構造化文書をスキャンして、該半構造化文書
と、該半構造化文書に対応する前記テンプレート中の前
記複数の抽出テキスト形式情報のいずれかが合致した場
合に、合致した項目の項目データを抽出することを特徴
とする請求項２２に記載のコンピュータ読み取り可能な
記録媒体。
【請求項２６】前記テンプレートは、半構造化文書が
互いに異なる要素からなる複数の部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記テンプレート処理は、抽出された項目データを、各
部分構造ごとの検索結果とすることを特徴とする請求項
２２に記載のコンピュータ読み取り可能な記録媒体。
【請求項２７】オープンネットワーク上の複数のサー
チエンジンを介して情報を検索する処理をコンピュータ
に実行させるプログラムを記録するコンピュータ読み取
り可能な記録媒体であって、オープンネットワーク上でのサーチエンジンの所在を示
す所在情報と、各サーチエンジンへの入力フォームにお
いて入力が必要とされる入力必須項目を定義する入力必
須項目情報と、ＨＴＭＬ文書の構造を、抽出すべき項目
ごとに区切るための文書構造情報と、項目ごとに各サー
チエンジン内において該項目が取得可能か否かおよび条
件指定可能か否かを示す項目属性情報と、前記項目ごと
に前記項目を条件検索するためのデータ属性を規定する
データ属性情報と、ユーザーの項目の表現形式と各ＨＴ
ＭＬ文書の項目の表現形式との間の変換情報を定義する
表現形式変換情報とを記憶する記憶処理と、検索項目および検索条件からなるユーザーから入力され
た問い合わせに基づいて、すべての検索項目に対応する
項目を有するサーチエンジンの所在を前記所在情報から
得る文書所在探索処理と、前記入力必須項目情報に基づいて、各サーチエンジンに
おける入力必須項目と前記入力された問い合わせで指定
された項目とを比較することにより、前記得られた所在
のサーチエンジンの中から、前記入力必須項目を満たす
検索項目が指定されたサーチエンジンを、検索対象サー
チエンジンとして選択するサーチエンジン選択処理と、前記入力された検索項目および検索条件と、前記項目属
性情報との組み合わせを規定するマトリックステーブル
に基づき各サーチエンジンごとに最適な検索処理パター
ンを得て、前記問い合わせを各サーチエンジンごとに前
記検索処理パターンに適合する問い合わせ群に変換する
検索パターン判定処理と、前記変換された問い合わせ群のそれぞれを、前記表現形
式変換情報に基づいて、前記検索対象サーチエンジンの
前記検索項目に対応する項目の表現形式に変換する問い
合わせ変換処理と、前記変換された問い合わせを前記得られた所在に送信し
て、ＨＴＭＬ文書を取得する文書検索処理と、各サーチエンジンから取得されたＨＴＭＬ文書からなる
第１の検索結果から、前記文書構造情報に基づいて、項
目データを抽出するとともに、少なくともサーチエンジ
ン内において条件検索が実行されなかった項目に関し、
対応する前記検索処理パターンに従い、前記検索条件お
よび前記属性情報に基づいて、抽出された項目データか
ら前記検索条件に合致する項目データを選択して、第２
の検索結果とする検索結果生成処理と、前記第２の検索結果を、前記表現形式変換情報に基づい
て、前記検索結果中の項目に対応する各ユーザーごとに
定義された項目の表現形式に変換する検索結果変換処理
とを具備することを特徴とするコンピュータ読み取り可
能な記録媒体。
【請求項２８】上記コンピュータ読み取り可能な記録
媒体は、さらに、ＨＴＭＬ文書ごとに、ＨＴＭＬ文書の構造を抽出すべき
項目ごとに区切るための文書構造情報に基づき、少なく
とも抽出すべき項目名と、ＨＴＭＬ文書から抽出すべき
項目群の抽出テキスト形式情報を記述するテンプレート
を記憶するテンプレート記憶処理と、取得されたＨＴＭＬ文書に対応するテンプレートを解析
するテンプレート解析処理と、前記取得されたＨＴＭＬ文書をスキャンして、該ＨＴＭ
Ｌ文書と、前記テンプレートとを比較して、前記抽出テ
キスト形式情報に合致した項目の項目データを抽出する
テンプレート処理とを含み、前記テンプレートには、各項目データに対応する変数名
が記述されるとともに、ＨＴＭＬ文書が複数の部分構造
を有する場合、各部分構造ごとに抽出テキスト形式情報
が記述され、前記テンプレート処理は、抽出された項目データを、各
部分構造ごとの検索結果とすることを特徴とする請求項
２７に記載のコンピュータ読み取り可能な記録媒体。
【請求項２９】前記文書処理は、前記検索結果を、表
形式に整形することを特徴とする請求項２７に記載のコ
ンピュータ読み取り可能な記録媒体。
【請求項３０】前記文書処理は、前記テンプレート中
の前記抽出テキスト形式情報が、他のＨＴＭＬ文書への
リンク情報を含む場合には、リンク先のＨＴＭＬ文書を
スキャンして、前記リンク先のＨＴＭＬ文書と前記テン
プレートとを比較することを特徴とする請求項２８に記
載のコンピュータ読み取り可能な記録媒体。
【請求項３１】前記テンプレートは、ＨＴＭＬ文書の
各部分構造に対して、前記部分構造の一部に存在する、
前記部分構造情報が異なる部分をそれぞれ抽出するため
の異なるタグにそれぞれ対応する複数の抽出テキスト形
式情報が記述され、前記テンプレート処理は、前記取得された第１の検索結
果であるＨＴＭＬ文書をスキャンして、該ＨＴＭＬ文書
と、該ＨＴＭＬ文書に対応する前記テンプレート中の前
記複数の抽出テキスト形式情報のいずれかが合致した場
合に、合致した項目の項目データを抽出することを特徴
とする請求項２８に記載のコンピュータ読み取り可能な
記録媒体。
【請求項３２】前記テンプレートは、ＨＴＭＬ文書が
互いに異なる項目からなる複数の部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記テンプレート処理は、抽出された項目データを、各
部分構造ごとの検索結果とすることを特徴とする請求項
２８に記載のコンピュータ読み取り可能な記録媒体。
【請求項３３】オープンネットワーク上の任意のＨＴ
ＭＬ文書に内在する情報から項目ごとに情報を抽出する
処理をコンピュータに実行させるプログラムを記録する
コンピュータ読み取り可能な記録媒体であって、ＨＴＭＬ文書ごとに、ＨＴＭＬ文書の構造を抽出すべき
項目ごとに区切るための文書構造情報に基づき、少なく
とも抽出すべき項目名と、ＨＴＭＬ文書から抽出すべき
項目群の抽出テキスト形式情報を記述するテンプレート
を記憶するテンプレート記憶処理と、取得されたＨＴＭＬ文書に対応するテンプレートを解析
するテンプレート解析処理と、前記取得されたＨＴＭＬ文書をスキャンして、該ＨＴＭ
Ｌ文書と、前記テンプレートとを比較して、前記抽出テ
キスト形式情報に合致した項目の項目データを抽出する
テンプレート処理とを含み、前記テンプレートには、各項目データに対応する変数名
が記述されるとともに、ＨＴＭＬ文書が複数の部分構造
を有する場合、各部分構造ごとに抽出テキスト形式情報
が記述され、前記テンプレート処理は、抽出された項目データを、各
部分構造ごとの検索結果とすることを特徴とするコンピ
ュータ読み取り可能な記録媒体。
【請求項３４】前記テンプレート処理は、前記抽出さ
れた項目データを、表形式に整形することを特徴とする
請求項３３に記載のコンピュータ読み取り可能な記録媒
体。
【請求項３５】前記テンプレート処理は、前記テンプ
レート中の前記抽出テキスト形式情報が、他のＨＴＭＬ
文書へのリンク情報を含む場合には、リンク先のＨＴＭ
Ｌ文書をスキャンして、前記リンク先のＨＴＭＬ文書と
前記テンプレートとを比較することを特徴とする請求項
３３に記載のコンピュータ読み取り可能な記録媒体。
【請求項３６】前記テンプレートは、ＨＴＭＬ文書の
各部分構造に対して、前記部分構造の一部に存在する、
前記文書構造情報が他の部分と異なる部分をそれぞれ抽
出するための、異なるタグにそれぞれ対応する複数の抽
出テキスト形式情報が記述され、前記テンプレート処理は、前記取得された第１の検索結
果であるＨＴＭＬ文書をスキャンして、該ＨＴＭＬ文書
と、該ＨＴＭＬ文書に対応する前記テンプレート中の前
記複数の抽出テキスト形式情報のいずれかが合致した場
合に、合致した項目の項目データを抽出することを特徴
とする請求項３３に記載のコンピュータ読み取り可能な
記録媒体。
【請求項３７】前記テンプレートは、ＨＴＭＬ文書が
互いに異なる項目からなる複数の部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記テンプレート処理は、抽出された項目データを、各
部分構造ごとの検索結果とすることを特徴とする請求項
３３に記載のコンピュータ読み取り可能な記録媒体。