JP3160265B2 - 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体 - Google Patents

半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体

Info

Publication number
JP3160265B2
JP3160265B2 JP16299099A JP16299099A JP3160265B2 JP 3160265 B2 JP3160265 B2 JP 3160265B2 JP 16299099 A JP16299099 A JP 16299099A JP 16299099 A JP16299099 A JP 16299099A JP 3160265 B2 JP3160265 B2 JP 3160265B2
Authority
JP
Japan
Prior art keywords
information
search
item
document
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP16299099A
Other languages
English (en)
Other versions
JP2000348061A (ja
Inventor
裕一 飯塚
光明 綱川
壽宏 永末
隆 星野
宏毅 町原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP16299099A priority Critical patent/JP3160265B2/ja
Publication of JP2000348061A publication Critical patent/JP2000348061A/ja
Application granted granted Critical
Publication of JP3160265B2 publication Critical patent/JP3160265B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、半構造化文書情報
統合検索装置および半構造化文書情報抽出装置、その方
法、ならびにそのプログラムを格納する記録媒体に関す
る。特に、オープンなネットワーク上に散在する複数の
半構造化文書や複数のサーチエンジンが存在する環境に
おいて、これら半構造化文書の文書構造・表現形式・構
成要素や、これらサーチエンジンの入力フォーム等の相
違に拘わらず、各半構造化文書の所在情報・文書構造情
報・項目情報・表現形式情報等を管理することによっ
て、各半構造化文書に跨って内在する情報への、統一イ
ンターフェースによる一括したアイテムベースの統合的
検索方式を実現する半構造化文書情報統合検索技術に関
する。
【0002】
【従来の技術】近年、パソコンの高機能化および低価格
化、ネットワーク技術の向上、ネットワーク・プロバイ
ダの普及と低価格化等により、インターネットに代表さ
れるオープンネットワークが普及している。このオープ
ンネットワークの普及に伴い、多くの情報プロバイダが
コンテンツ作成を容易に実現するハイパーテキストの記
述言語であるHTML(Hyper Text Markup Language)
を用い、オープンネットワーク上で多種多様な情報発信
を行うようになってきた。これら情報プロバイダは、情
報コンシューマが爆発的に増加したのに伴い、急激に増
加してきた。情報プロバイダが増加することにより、様
々な種類の情報がネットワーク中に蓄積されてきたた
め、これらの情報の中から、いかに情報コンシューマが
要求する情報を効率よく探索するかが大きな課題となっ
ている。
【0003】情報コンシューマは、これらの複数の情報
源に対して興味対象の情報を一括して横断的に検索した
いという要請を持つ。しかし、各HTML文書の構造、
表現形式、各HTML文書の検索方式などは互いに異な
るため、異なる情報源を横断的に検索することは困難で
ある。
【0004】ネットワーク上に散在するHTML文書の
検索に関し、一般にサーチエンジンと呼ばれる情報検索
装置が普及している。ここで、サーチエンジンとは、フ
ォーム入力によりある情報を検索するシステムの総称で
ある。図51は、従来技術におけるURLサーチエンジ
ンによる情報検索方式を説明する図である。ここで、U
RLサーチエンジンとは、キーワードや条件入力による
問い合わせに対して、URLを検索結果として返す情報
検索装置をいう。例えば「予算10万円以下のPCが欲
しい」という要求を満たすため、ユーザーはまずURL
サーチエンジンに対してキーワード検索を行う。図52
は従来技術における各URLサーチエンジンの構成を示
す図である。ネットワークに散在するHTML文書検索
用のキーワードと文書の所在を示すURLが予めURL
サーチエンジン900にキーワードインデックス910
として登録されている。検索処理部930は、指定され
たキーワードによりキーワードインデックス910を探
索し、指定されたキーワードやその類義語を含むHTM
L文書の所在を示すURLのリストや概要を検索結果と
してユーザーに返す。図51に戻り、ユーザーは得られ
たURLのHTML文書に個別にアクセスして所望する
情報を人手で探索していた。即ち、HTML文書に内在
する情報を検索する場合、所在が既知でないHTML文
書から所望する情報を得るためには、ユーザーはまず全
文検索によりHTML文書の所在を探索し、得られた所
在リストの複数のHTML文書の内容閲覧を繰り返すた
め、所望する情報を取得するまでに多くの時間と労力を
要していた。さらに、この所望する情報が複数のHTM
L文書に散在する場合、これらを横断的に検索すること
は困難であった。
【0005】この従来の方式では、指定されたキーワー
ドやその類義語を含むHTML文書の所在情報の検索は
できるが、各HTML文書に内在する情報に対するアイ
テムベースの一括した検索が不可能であった。また検索
結果に対する条件指定(日付によるフィルタリング等)
も不可能であった。さらに、各HTML文書への検索イ
ンターフェースを入力フォームとして提供しているUR
Lサーチエンジンを利用する場合、ユーザーがURLサ
ーチエンジンごとに個別のフォーム入力インターフェー
スを意識する必要があり、かつURLサーチエンジンご
とに個別にアクセスする必要があった。
【0006】具体的には、例えば、オープンネットワー
ク上で、オンライン商取引を行うオンラインショップの
HTML文書は、取り扱い商品に関する情報(例えば、
商品名や価格など)を1つの意味のあるデータ群とし
て、表形式や箇条書きの形式でリスト記述する場合が非
常に多い。これらオンラインショップのHTML文書に
内在する情報を横断的に検索することに対する需要が高
まっている。この横断的検索として、例えば”指定の商
品を最安値で販売しているショップの検索”等がある。
従来これらオンラインショップのHTML文書から横断
的検索を行うためには、ユーザは欲しい商品の名前、メ
ーカ名、商品種別等をキーワードとして、図51の検索
方式によりHTML文書の所在情報を取得し、得られた
所在のHTML文書に1つずつアクセスし、所望の商品
の有無を確認する必要があった。しかし図51の検索方
式は、文書の構成要素を考慮しない全文検索であるた
め、全く関係のないHTML文書の所在まで大量に検索
してしまい、これら大量のHTML文書の中から人手で
所望の商品情報を探索するのに多くの時間と労力を要し
ていた。
【0007】このように従来の検索方式では、HTML
文書中の情報を項目別に収集することができなかった。
即ち”商品情報を記載した表を内包するHTML文書”
に対しては”商品価格””商品イメージ””メーカ名”
等、”店舗情報が箇条書きで記載されているHTML文
書”に対しては”店舗名””電話番号””住所”等の項
目別に情報を抽出することが困難であった。また、HT
ML文書からの検索結果に対して日付によるフィルタリ
ング処理などの条件指定を行うこともできなかった。
【0008】これら項目別に管理されている情報を抽出
するために、文書内部の構造や文書間の関連を独自のモ
デルにマッピングすることにより、仮想的なデータベー
スを作成する従来技術がある。この従来技術の1つの例
は、N.Ashish, C.A.Knoblock, "Semi-automatic wrappe
r generation for internet information sources" ,Pr
oceedings of cooperative information systems,1997.
に開示されている。この技術は、HTML文書中で特定
のタグ(TITLEタグ、H1タグ等)や、特定のフォ
ントタグの内容(大きさ、色、太字・イタリック等の書
体等)を持つ箇所を意味のある情報ととらえ、これらの
情報を自動的に抽出するための技術である。この技術
は、1つの情報の最小のまとまりが1つのHTML文書
に記述され、これらHTML文書が同じ形式で記述され
た複数のHTML文書を対象としている。この技術は、
例えば、地域ごとの気象情報が異なるHTML文書に記
述されている場合に有効である。
【0009】しかし、この技術は、1つのHTML文書
に表形式や箇条書きの形式でデータ群をリスト記述する
ことは考慮されていないため、上記のケースには適用で
きない。
【0010】従来技術の他の例は、J.Hammer, H.Garcia
-Molina, J.Cho, R.Araha, A.Crespo, "Extracting sem
istructured information from the web", Workshop on
management of semistructured data,1997.に開示され
ている。この技術は、OEMという独自のデータモデル
を用いて下層のデータベースを構築し、このデータベー
スと様々な情報源の対応を管理することにより、複数の
異種情報源の統合的な検索を実現する技術である。この
対応管理のため、この技術はHTML文書に対してはH
TMLタグ記述に依存したテンプレートファイルを用い
る方式を採用している。
【0011】しかし、この技術は、HTML文書に変更
が生じると仮想のデータベースに影響が及び、仮想のデ
ータベースに変更が生じるとアプリケーションに影響が
及ぶため、システムの運用、保守に多大な労力が必要で
あった。
【0012】さらに、オンラインショップの取扱商品情
報等のためのHTML記述には、標準化された形式がな
いため、各HTML文書に以下の差異が生じている。
【0013】第1に、ショップにより各HTML文書の
文書構造が異なる。例えば、ショップAの取扱商品はT
ABLEタグで記述される表形式で提示されたり、ショ
ップBの取扱商品はULタグで記述される箇条書きで提
示されたりしている。
【0014】第2に、HTML文書上の同一の取扱商品
に関する情報の表現形式が異なる。例えば、価格を表す
表現形式では、円、千円、万円、$等の単位の違いや、
全角、半角等の表記の違いがある。
【0015】第3に、HTML文書の同じ情報を表すデ
ータの構成要素が異なる。例えば、商品名を示すデータ
の構成要素は、商品名のみの記述、商品名と型番を併せ
て記述、メーカ名と商品名と型番を併せて記述、等の違
いがある。従来の検索方式で取得したHTML文書から
所望の情報を得るため、ユーザは、これらの相違する情
報を並べて比較する必要がある。これらの情報の中から
所望の商品情報を探索するのにも、多くの時間と労力を
要していた。
【0016】さらに、複数のサーチエンジンを用いてオ
ープンネットワーク上の情報を検索する場合、これらの
サーチエンジンにはそれぞれ取り扱う情報の種類等の差
異があるため、状況に応じてユーザが使い分ける必要が
ある。換言するとユーザーは各サーチエンジンに検索要
求を発行する際に、サーチエンジン固有の所在情報、検
索インタフェースを意識する必要があった。
【0017】このため、第1に、ユーザによるサーチエ
ンジンの所在情報の管理が困難であった。ユーザはサー
チエンジンの所在情報を、ブックマーク等を用い個人で
管理する必要があるため、特にモバイル環境下など自端
末以外の環境での検索が困難であった。
【0018】第2に、各種サーチエンジンの普及に伴う
入力フォームの提供する検索インタフェースの不統一性
が生じた。各サーチエンジンの普及に伴い、入力フォー
ムが乱立している。しかし、入力フォームの構造は統一
されていないため、ユーザーはサーチエンジン毎に固有
の操作体系、操作手順を把握する必要がある。またユー
ザーは、ある検索項目の処理にどのサーチエンジンが有
効であるかを把握することができない。かつ得られたH
TML文書中の情報を条件処理することができない。
【0019】第3に、サーチエンジンへの検索効率の悪
化が生じた。上述したようにユーザーは、所望の情報を
得るまで人手でサーチエンジン毎に検索を行うため、検
索回数が増加し、効率が非常に悪い。
【0020】第4に、各サーチエンジンからの検索結果
の項目、表現形式、文字コードなどのフォーマットが不
統一であるため、ユーザーが検索結果を比較するのが困
難である。
【0021】上記の各サーチエンジンの異種性を解消す
るため、サーチエンジンの一種であるURLサーチエン
ジンの共通な検索インタフェースを作成し、当該検索イ
ンタフェースと個々のURLサーチエンジンの検索イン
タフェースの対応を管理し、共通検索インタフェースに
対する検索要求を個々の検索エンジンの検索要求に変換
/実行する従来技術が、Jumon World Seek,"http://mem
ber.nifty.ne.jp/jumon "に開示されている。この技術
は、共通検索インタフェースがテキストボックス1つか
ら構成されるURLサーチエンジンを提供する。しか
し、一般にURLサーチエンジンだけではなく多種多様
なサーチエンジンが存在し、これらの横断的な検索を実
現するためには、以下の問題点があった。
【0022】(1)複数の入力項目の考慮が必要。
【0023】最もシンプルな入力フォーム構成では、入
力項目は検索する用語を入力するテキストボックス(キ
ーワード入力部)のみであるが、キーワードとともに他
の検索条件(エリア、業種等)について同時に入力し、
絞り込み検索を行うことについて配慮されている場合も
ある。この場合、HTMLは項目を有さない半構造化文
書であるため、従来技術はシステムとして複数の入力項
目をサポートできず、絞り込み検索はできなかった。
【0024】(2)使用される入力フォームの多様性へ
の対応が必要。
【0025】サーチエンジンで通常用いられるテキスト
入力用の入力フォームのオブジェクトには、テキストボ
ックス、複数項目中1項目を選択するラジオボタン、複
数項目中で任意の複数項目を選択するセレクトボックス
またはチェックボックスなど要求条件を適切に入力する
ためのオブジェクトが複数存在する場合がある。この場
合、従来技術ではシステムとしてテキストボックス以外
のオブジェクトをサポートしていないため、対応するこ
とができなかった。
【0026】(3)さらに、複数のサーチエンジンにわ
たる共通検索インタフェースを用いる場合、この共通検
索インターフェースの修正時にアプリケーションを再構
築する必要がある。
【0027】共通検索インターフェースに対してサーチ
エンジンの追加/修正/削除を行う際に、共通検索イン
タフェースの修正が必要になり、対応するアプリケーシ
ョンを再構築しなければならない。
【0028】すなわち、従来技術においては、多種多様
なサーチエンジンを取り込むことができず、システム構
築/維持管理に多くの時間と労力が必要であった。
【0029】
【発明が解決しようとする課題】本発明は、上記の問題
点を解決するためになされたものである。
【0030】そして、その目的とするところは、オープ
ンなネットワークに散在する複数のHTML文書に内在
する情報の文書構造、表現形式、構成要素などが互いに
異なっていても、これら文書を跨った情報検索を実現
し、このHTML記述上の差異をユーザーごとの統一形
式に変換した検索結果を返却することのできる、半構造
化文書情報統合検索体系を提供することにある。
【0031】本発明の他の目的は、オープンなネットワ
ークに複数のサーチエンジンが存在する環境において各
サーチエンジン固有の入力フォームのオブジェクトを個
別に管理することにより複数のサーチエンジンの異種性
を解消し、ユーザーの検索要求に対して各サーチエンジ
ン固有の検索要求を生成して検索を実行することのでき
る、半構造化文書情報統合検索体系を提供することにあ
る。
【0032】本発明の他の目的は、HTML文書の所在
情報、HTML文書に内在する文書の構造情報、各構成
要素の属性情報をHTML文書ごとに管理することによ
り、所在、文書構造、属性が互いに異なる任意のHTM
L文書から情報を項目別に抽出することのできる半構造
化文書情報統合検索体系を提供することにある。
【0033】
【課題を解決するための手段】本発明の特徴は、オープ
ンネットワーク上の複数の半構造化文書に内在する情報
を検索する半構造化文書情報統合検索装置であって、半
構造化文書ごとに該半構造化文書中から抽出すべき項目
および該項目を条件検索するための項目情報を定義する
メタ情報を記憶する記憶部と、入力された問い合わせか
ら、前記メタ情報に基づいて、複数の半構造化文書に散
在する情報を検索して一括した検索結果を得る検索部
と、ユーザーごとに所定の単一フォーマットで前記検索
結果を出力する出力部とを具備することを特徴とする半
構造化文書情報統合検索装置を提供する点にある。
【0034】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する半構造化文書情報統合検索装置であって、オープン
ネットワーク上での半構造化文書の所在を示す所在情報
と、前記半構造化文書の構造を、抽出すべき項目ごとに
区切るための文書構造情報と、前記項目ごとに前記項目
を条件検索するための属性を規定する属性情報と、ユー
ザーの項目の表現形式と各半構造化文書の項目の表現形
式との間の変換情報を定義する表現形式変換情報とを記
憶する記憶部と、検索項目および検索条件からなる入力
された問い合わせに基づいて、すべての検索項目に対応
する項目を有する半構造化文書の所在を前記所在情報か
ら得る文書所在探索部と、入力された前記問い合わせ
を、必要に応じ、前記表現形式変換情報に基づいて、前
記得られた所在の半構造化文書中の前記検索項目に対応
する項目の表現形式に変換する問い合わせ変換部と、前
記変換された問い合わせを前記得られた所在に送信し
て、半構造化文書を取得する文書検索部と、取得された
各半構造化文書から、前記文書構造情報に基づいて、項
目データを抽出し、必要に応じて前記検索条件を用い、
前記属性情報に基づいて前記抽出された項目データを選
択して検索結果とする文書処理部と、前記検索結果を、
必要に応じ、前記表現形式変換情報に基づいて、前記検
索結果中の項目に対応する各ユーザーごとに定義された
項目の表現形式に変換する検索結果変換部とを具備する
ことを特徴とする半構造化文書情報統合検索装置が提供
される。
【0035】また、本発明の他の特徴によれば、上記半
構造化文書情報統合検索装置は、さらに、半構造化文書
ごとに、前記文書構造情報に基づき、少なくとも抽出す
べき項目名と、半構造化文書から抽出すべき項目群の所
定の抽出テキスト形式情報を記述するテンプレートを記
憶するテンプレート記憶部を具備し、前記文書処理部
は、前記取得された半構造化文書をスキャンして、該半
構造化文書と、該半構造化文書に対応する前記テンプレ
ートとを比較して、前記抽出テキスト形式情報に合致し
た項目の項目データを抽出して、検索結果とする点にあ
る。
【0036】また、本発明の他の特徴は、前記文書処理
部は、前記検索結果を、表形式に整形する点にある。
【0037】また、本発明の他の特徴は、前記文書処理
部は、前記テンプレート中の前記抽出テキスト形式情報
が、他の半構造化文書へのリンク情報を含む場合には、
リンク先の半構造化文書をスキャンして、前記リンク先
の半構造化文書と前記テンプレートとを比較する点にあ
る。
【0038】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記文書処理部は、抽出された項目データを、各部
分構造ごとの検索結果とする点にある。
【0039】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記文書
処理部は、前記取得された半構造化文書をスキャンし
て、該半構造化文書の前記部分構造と、該半構造化文書
に対応する前記テンプレート中の前記複数の抽出テキス
ト形式情報のいずれかが合致した場合に、合致した項目
の項目データを抽出する点にある。
【0040】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が互いに異なる要素からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記文書処理部は、抽出された
項目データを、各部分構造ごとの検索結果とする点にあ
る。
【0041】また、本発明の他の特徴は、オープンネッ
トワーク上の複数のサーチエンジンを介して情報を検索
する半構造化文書情報統合検索装置であって、オープン
ネットワーク上でのサーチエンジンの所在を示す所在情
報と、各サーチエンジンへの入力フォームに対する入力
必須項目を定義する入力必須項目情報と、HTML文書
の構造を、抽出すべき項目ごとに区切るための文書構造
情報と、前記項目ごとに前記項目を条件検索するための
属性を規定する属性情報と、ユーザーの項目の表現形式
と各HTML文書の項目の表現形式との間の変換情報を
定義する表現形式変換情報とを記憶する記憶部と、検索
項目および検索条件からなる入力された問い合わせに基
づいて、すべての検索項目に対応する項目を有するサー
チエンジンの所在を前記所在情報から得る文書所在探索
部と、前記得られた所在のサーチエンジンの中から、前
記入力必須項目を満たす検索条件を満たす検索条件が指
定されたサーチエンジンを、前記入力必須項目情報から
得て、検索対象サーチエンジンとして選択するサーチエ
ンジン選択部と、前記検索項目および前記検索条件と、
各サーチエンジンの有する項目および前記入力必須項目
との組み合わせを規定するマトリックステーブルに基づ
き、各サーチエンジンごとに最適な検索処理パターンを
得て、前記問い合わせを各サーチエンジンごとに前記検
索処理パターンに適合する問い合わせ群に変換する検索
パターン判定部と、前記変換された問い合わせ群のそれ
ぞれを、必要に応じ、前記表現形式変換情報に基づい
て、前記検索対象サーチエンジンの前記検索項目に対応
する項目の表現形式に変換する問い合わせ変換部と、前
記変換された問い合わせを前記得られた所在に送信し
て、HTML文書を取得する文書検索部と、各サーチエ
ンジンから取得されたHTML文書からなる第1の検索
結果から、前記文書構造情報に基づいて、項目データを
抽出し、必要に応じて対応する前記検索処理パターンに
従い、前記検索条件を用い、前記属性情報に基づいて、
前記抽出された項目データを選択して、第2の検索結果
とする検索結果処理部と、前記第2の検索結果を、必要
に応じ、前記表現形式変換情報に基づいて、前記検索結
果中の項目に対応する各ユーザーごとに定義された項目
の表現形式に変換する検索結果変換部とを具備すること
を特徴とする半構造化文書情報統合検索装置を提供する
点にある。
【0042】また、本発明の他の特徴は、上記半構造化
文書情報統合検索装置は、さらに、HTML文書ごと
に、前記文書構造情報に基づき、少なくとも抽出すべき
項目名と、HTML文書から抽出すべき項目群の抽出テ
キスト形式情報を記述するテンプレートを記憶するテン
プレート記憶部を具備し、前記文書処理部は、前記取得
された第1の検索結果であるHTML文書をスキャンし
て、該HTML文書と、該HTML文書に対応する前記
テンプレートとを比較して、前記抽出テキスト形式情報
に合致した項目の項目データを抽出して、第2の検索結
果とする点にある。
【0043】また、本発明の他の特徴は、前記文書処理
部は、前記検索結果を、表形式に整形する点にある。
【0044】また、本発明の他の特徴は、前記文書処理
部は、前記テンプレート中の前記抽出テキスト形式情報
が、他のHTML文書へのリンク情報を含む場合には、
リンク先のHTML文書をスキャンして、前記リンク先
のHTML文書と前記テンプレートとを比較する点にあ
る。
【0045】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記文書処理部は、抽出された項目データを、各部
分構造ごとの検索結果とする点にある。
【0046】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記文書
処理部は、前記取得された第1の検索結果であるHTM
L文書をスキャンして、該HTML文書と、該HTML
文書に対応する前記テンプレート中の前記複数の抽出テ
キスト形式情報のいずれかが合致した場合に、合致した
項目の項目データを抽出する点にある。
【0047】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が互いに異なる項目からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記文書処理部は、抽出された
項目データを、各部分構造ごとの検索結果とする点にあ
る。
【0048】また、本発明の他の特徴は、オープンネッ
トワーク上の任意のHTML文書に内在する情報から項
目ごとに情報を抽出する半構造化文書情報抽出装置であ
って、HTML文書ごとに、HTML文書の構造を抽出
すべき項目ごとに区切るための文書構造情報に基づき、
少なくとも抽出すべき項目名と、HTML文書から抽出
すべき項目群の抽出テキスト形式情報を記述するテンプ
レートを記憶するテンプレート記憶部と、取得されたH
TML文書に対応するテンプレートを解析するテンプレ
ート解析部と、前記取得されたHTML文書をスキャン
して、該HTML文書と、前記テンプレートとを比較し
て、前記抽出テキスト形式情報に合致した項目の項目デ
ータを抽出するテンプレート処理部とを具備することを
特徴とする半構造化文書情報抽出装置を提供する点にあ
る。
【0049】また、本発明の他の特徴は、前記テンプレ
ート処理部は、前記抽出された項目データを、表形式に
整形する点にある。
【0050】また、本発明の他の特徴は、前記テンプレ
ート処理部は、前記テンプレート中の前記抽出テキスト
形式情報が、他のHTML文書へのリンク情報を含む場
合には、リンク先のHTML文書をスキャンして、前記
リンク先のHTML文書と前記テンプレートとを比較す
る点にある。
【0051】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記テンプレート処理部は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。
【0052】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記テン
プレート処理部は、前記取得された第1の検索結果であ
るHTML文書をスキャンして、該HTML文書と、該
HTML文書に対応する前記テンプレート中の前記複数
の抽出テキスト形式情報のいずれかが合致した場合に、
合致した項目の項目データを抽出する点にある。
【0053】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が互いに異なる項目からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記テンプレート処理部は、抽
出された項目データを、各部分構造ごとの検索結果とす
る点にある。
【0054】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する半構造化文書情報統合検索方法であって、入力され
た問い合わせから、半構造化文書ごとに該半構造化文書
から抽出すべき項目および該項目を条件検索するための
項目情報を定義するメタ情報に基づいて、複数の半構造
化文書に散在する情報を検索して一括した検索結果を得
るステップと、ユーザーごとに所定の単一フォーマット
で前記検索結果を出力するステップとを含むことを特徴
とする半構造化文書情報統合検索方法を提供する点にあ
る。
【0055】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する半構造化文書情報統合検索方法であって、検索項目
および検索条件からなる入力された問い合わせに基づい
て、すべての検索項目に対応する項目を有する半構造化
文書の所在を、オープンネットワーク上での半構造化文
書の所在を示す所在情報から得るステップと、入力され
た前記問い合わせを、必要に応じ、ユーザーの項目の表
現形式と各半構造化文書の項目の表現形式との間の変換
情報を定義する表現形式変換情報に基づいて、前記得ら
れた所在の半構造化文書中の前記検索項目に対応する項
目の表現形式に変換するステップと、前記変換された検
索要求を前記得られた所在に送信して、半構造化文書を
取得するステップと、取得された各半構造化文書から、
半構造化文書の構造を抽出すべき項目ごとに区切るため
の文書構造情報に基づいて項目データを抽出し、必要に
応じて前記検索条件を用い、前記項目ごとに前記項目を
条件検索するための属性を規定する属性情報に基づい
て、前記抽出された項目データを選択して検索結果とす
るステップと、前記検索結果を、必要に応じ、前記表現
形式変換情報に基づいて、前記検索結果中の項目に対応
する各ユーザーごとに定義された項目の表現形式に変換
するステップとを含むことを特徴とする半構造化文書情
報統合検索方法を提供する点にある。
【0056】また、本発明の他の特徴は、オープンネッ
トワーク上の複数のサーチエンジンを介して情報を検索
する半構造化文書情報統合検索方法であって、検索項目
および検索条件からなる入力された問い合わせに基づい
て、すべての検索項目に対応する項目を有するサーチエ
ンジンの所在を、オープンネットワーク上でのサーチエ
ンジンの所在を示す所在情報から得るステップと、前記
得られた所在のサーチエンジンの中から、前記入力必須
項目を満たす検索条件が指定されたサーチエンジンを、
各サーチエンジンへの入力フォームに対する入力必須項
目を定義する入力必須項目情報から得て、検索対象サー
チエンジンとして選択するステップと、前記検索項目お
よび前記検索条件と、各サーチエンジンの有する項目お
よび前記入力必須項目との組み合わせを規定するマトリ
ックステーブルに基づき、各サーチエンジンごとに最適
な検索処理パターンを得て、前記問い合わせを各サーチ
エンジンごとに前記検索処理パターンに適合する問い合
わせ群に変換するステップと、前記変換された問い合わ
せ群のそれぞれを、必要に応じ、ユーザーの項目の表現
形式と各HTML文書の項目の表現形式との間の変換情
報を定義する表現形式変換情報に基づいて、前記検索対
象サーチエンジンの前記検索項目に対応する項目の表現
形式に変換するステップと、前記変換された問い合わせ
を前記得られた所在に送信して、HTML文書を取得す
るステップと、各サーチエンジンから取得されたHTM
L文書からなる第1の検索結果から、HTML文書の構
造を抽出すべき項目ごとに区切るための文書構造情報に
基づいて項目データを抽出し、必要に応じて対応する前
記検索処理パターンに従い、前記検索条件を用いて項目
を条件検索するための属性を規定する属性情報に基づい
て前記抽出された項目データを選択して、第2の検索結
果とするステップと、前記第2の検索結果を、必要に応
じ、前記表現形式変換情報に基づいて、前記検索結果中
の項目に対応する各ユーザーごとに定義された項目の表
現形式に変換するステップとを含むことを特徴とする半
構造化情報統合検索方法を提供する点にある。
【0057】また、本発明の他の特徴は、オープンネッ
トワーク上の任意のHTML文書に内在する情報から項
目ごとに情報を抽出する半構造化文書情報抽出方法であ
って、取得されたHTML文書に対応し、HTML文書
ごとに、HTML文書の構造を抽出すべき項目ごとに区
切るための文書構造情報に基づき、少なくとも抽出すべ
き項目名と、HTML文書から抽出すべき項目群の抽出
テキスト形式情報を記述するテンプレートを解析するス
テップと、前記取得されたHTML文書をスキャンし
て、該HTML文書と、前記テンプレートとを比較し
て、前記抽出テキスト形式情報に合致した項目の項目デ
ータを抽出するステップとを含むことを特徴とする半構
造化文書情報抽出方法を提供する点にある。
【0058】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する処理をコンピュータに実行させるプログラムを記録
するコンピュータ読み取り可能な記録媒体であって、入
力された問い合わせから、半構造化文書ごとに該半構造
化文書から抽出すべき項目および該項目を条件検索する
ための項目情報を定義するメタ情報に基づいて、複数の
半構造化文書に散在する情報を検索して一括した検索結
果を得る処理と、ユーザーごとに所定の単一フォーマッ
トで前記検索結果を出力する処理とを含むことを特徴と
するコンピュータ読み取り可能な記録媒体を提供する点
にある。
【0059】また、本発明の他の特徴は、オープンネッ
トワーク上の複数の半構造化文書に内在する情報を検索
する処理をコンピュータに実行させるプログラムを記録
するコンピュータ読み取り可能な記録媒体であって、検
索項目および検索条件からなる入力された問い合わせに
基づいて、すべての検索項目に対応する項目を有する半
構造化文書の所在を、オープンネットワーク上での半構
造化文書の所在を示す所在情報から得る文書所在探索処
理と、入力された前記問い合わせを、必要に応じ、ユー
ザーの項目の表現形式と各半構造化文書の項目の表現形
式との間の変換情報を定義する表現形式変換情報に基づ
いて、前記得られた所在の半構造化文書中の前記検索項
目に対応する項目の表現形式に変換する問い合わせ変換
処理と、前記変換された問い合わせを前記得られた所在
に送信して、半構造化文書を取得する文書検索処理と、
取得された各半構造化文書から、半構造化文書の構造を
抽出すべき項目ごとに区切るための文書構造情報に基づ
いて項目データを抽出し、必要に応じて前記検索条件を
用い、前記項目ごとに前記項目を条件検索するための属
性を規定する属性情報に基づいて、前記抽出された項目
データを選択して検索結果とする検索結果生成処理と、
前記検索結果を、必要に応じ、前記表現形式変換情報に
基づいて、前記検索結果中の項目に対応する各ユーザー
ごとに定義された項目の表現形式に変換する検索結果変
換処理とを含むことを特徴とするコンピュータ読み取り
可能な記録媒体を提供する点にある。
【0060】また、本発明の他の特徴は、前記検索結果
生成処理は、前記取得された半構造化文書をスキャンし
て、該半構造化文書と、該半構造化文書に対応し、半構
造化文書ごとに、前記文書構造情報に基づき、少なくと
も抽出すべき項目名と、半構造化文書から抽出すべき項
目群の抽出テキスト形式情報を記述するテンプレートと
を比較して、前記抽出テキスト形式情報に合致した項目
の項目データを抽出して、検索結果とする点にある。
【0061】また、本発明の他の特徴は、前記検索結果
生成処理は、前記検索結果を、表形式に整形する点にあ
る。
【0062】また、本発明の他の特徴は、前記検索結果
生成処理は、前記テンプレート中の前記抽出テキスト形
式情報が、他の半構造化文書へのリンク情報を含む場合
には、リンク先の半構造化文書をスキャンして、前記リ
ンク先の半構造化文書と前記テンプレートとを比較する
点にある。
【0063】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記検索結果生成処理は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。
【0064】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記検索
結果生成処理は、前記取得された半構造化文書をスキャ
ンして、該半構造化文書と、該半構造化文書に対応する
前記テンプレート中の前記複数の抽出テキスト形式情報
のいずれかが合致した場合に、合致した項目の項目デー
タを抽出する点にある。
【0065】また、本発明の他の特徴は、前記テンプレ
ートは、半構造化文書が互いに異なる要素からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記検索結果生成処理は、抽出
された項目データを、各部分構造ごとの検索結果とする
点にある。
【0066】また、本発明の他の特徴は、オープンネッ
トワーク上の複数のサーチエンジンを介して情報を検索
する処理をコンピュータに実行させるプログラムを記録
するコンピュータ読み取り可能な記録媒体であって、検
索項目および検索条件からなる入力された問い合わせに
基づいて、すべての検索項目に対応する項目を有するサ
ーチエンジンの所在を、オープンネットワーク上でのサ
ーチエンジンの所在を示す所在情報から得る文書所在探
索処理と、前記得られた所在のサーチエンジンの中か
ら、前記入力必須項目を満たす検索条件が指定されたサ
ーチエンジンを、各サーチエンジンへの入力フォームに
対する入力必須項目を定義する入力必須項目情報から得
て、検索対象サーチエンジンとして選択するサーチエン
ジン選択処理と、前記検索項目および前記検索条件と、
各サーチエンジンの有する項目および前記入力必須項目
との組み合わせを規定するマトリックステーブルに基づ
き、各サーチエンジンごとに最適な検索処理パターンを
得て、前記問い合わせを各サーチエンジンごとに前記検
索処理パターンに適合する問い合わせ群に変換する検索
パターン判定処理と、前記変換された問い合わせ群のそ
れぞれを、必要に応じ、ユーザーの項目の表現形式と各
HTML文書の項目の表現形式との間の変換情報を定義
する表現形式変換情報に基づいて、前記検索対象サーチ
エンジンの前記検索項目に対応する項目の表現形式に変
換する問い合わせ変換処理と、前記変換された問い合わ
せを前記得られた所在に送信して、HTML文書を取得
する文書検索処理と、各サーチエンジンから取得された
HTML文書からなる第1の検索結果から、HTML文
書の構造を抽出すべき項目ごとに区切るための文書構造
情報に基づいて項目データを抽出し、必要に応じて対応
する前記検索処理パターンに従い、前記検索条件を用い
て項目を条件検索するための属性を規定する属性情報に
基づいて前記抽出された項目データを選択して、第2の
検索結果とする検索結果生成処理と、前記第2の検索結
果を、必要に応じ、前記表現形式変換情報に基づいて、
前記検索結果中の項目に対応する各ユーザーごとに定義
された項目の表現形式に変換する検索結果変換処理とを
含むことを特徴とするコンピュータ読み取り可能な記録
媒体を提供する点にある。
【0067】また、本発明の他の特徴は、前記検索結果
生成処理は、前記取得されたHTML文書をスキャンし
て、該HTML文書と、該HTML文書に対応し、HT
ML文書ごとに、前記文書構造情報に基づき、少なくと
も抽出すべき項目名と、HTML文書から抽出すべき項
目群の抽出テキスト形式情報を記述するテンプレートと
を比較して、前記抽出テキスト形式情報に合致した項目
の項目データを抽出して、検索結果とする点にある。
【0068】また、本発明の他の特徴は、前記検索結果
生成処理は、前記検索結果を、表形式に整形する点にあ
る。
【0069】また、本発明の他の特徴は、前記検索結果
生成処理は、前記テンプレート中の前記抽出テキスト形
式情報が、他のHTML文書へのリンク情報を含む場合
には、リンク先のHTML文書をスキャンして、前記リ
ンク先のHTML文書と前記テンプレートとを比較する
点にある。
【0070】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記検索結果生成処理は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。
【0071】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記検索
結果生成処理は、前記取得された第1の検索結果である
HTML文書をスキャンして、該HTML文書と、該H
TML文書に対応する前記テンプレート中の前記複数の
抽出テキスト形式情報のいずれかが合致した場合に、合
致した項目の項目データを抽出する点にある。
【0072】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が互いに異なる項目からなる複数
の部分構造を有する場合、各部分構造ごとに抽出テキス
ト形式情報が記述され、前記検索結果生成処理は、抽出
された項目データを、各部分構造ごとの検索結果とする
点にある。
【0073】また、本発明の他の特徴は、オープンネッ
トワーク上の任意のHTML文書に内在する情報から項
目ごとに情報を抽出する処理をコンピュータに実行させ
るプログラムを記録するコンピュータ読み取り可能な記
録媒体であって、取得されたHTML文書に対応し、H
TML文書ごとに、HTML文書の構造を抽出すべき項
目ごとに区切るための文書構造情報に基づき、少なくと
も抽出すべき項目名と、HTML文書から抽出すべき項
目群の抽出テキスト形式情報を記述するテンプレートを
解析するテンプレート解析処理と、前記取得されたHT
ML文書をスキャンして、該HTML文書と、前記テン
プレートとを比較して、前記抽出テキスト形式情報に合
致する項目の項目データを抽出する項目データ抽出処理
とを含むことを特徴とするコンピュータ読み取り可能な
記録媒体を提供する点にある。
【0074】また、本発明の他の特徴は、前記項目デー
タ抽出処理は、前記抽出された項目データを、表形式に
整形する点にある。
【0075】また、本発明の他の特徴は、前記項目デー
タ抽出処理は、前記テンプレート中の前記抽出テキスト
形式情報が、他のHTML文書へのリンク情報を含む場
合には、リンク先のHTML文書をスキャンして、前記
リンク先のHTML文書と前記テンプレートとを比較す
る点にある。
【0076】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が複数の同一部分構造を有する場
合、各部分構造ごとに抽出テキスト形式情報が記述さ
れ、前記項目データ抽出処理は、抽出された項目データ
を、各部分構造ごとの検索結果とする点にある。
【0077】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書の各部分構造に対して、前記部分
構造の一部に存在する不均一な部分を透過に取得するた
めの複数の抽出テキスト形式情報が記述され、前記項目
データ抽出処理は、前記取得された第1の検索結果であ
るHTML文書をスキャンして、該HTML文書と、該
HTML文書に対応する前記テンプレート中の前記複数
の抽出テキスト形式情報のいずれかが合致した場合に、
合致した項目の項目データを抽出する点にある。
【0078】また、本発明の他の特徴は、前記テンプレ
ートは、HTML文書が異なる項目を有する複数の部分
構造を有する場合、各部分構造ごとに抽出テキスト形式
情報が記述され、前記項目データ抽出処理は、抽出され
た項目データを、各部分構造ごとの検索結果とする点に
ある。
【0079】
【発明の実施の形態】以下において、図面を用いて本発
明に係る半構造化文書情報統合検索装置および半構造化
文書情報抽出装置、その方法、ならびにそのプログラム
を格納する記録媒体の実施形態が詳細に説明される。
尚、以下の実施形態において、半構造化文書とは、HT
ML(Hyper Text Markup Language)文書、SGML
(StandardGeneralized Markup Language)文書、XM
L(eXtensive Markup Language)文書を含む。以下、
特に記載しない限り、半構造化文書をHTML文書で代
表させて説明する。尚、以下の実施形態は、SGML文
書およびXML文書に対しても、適宜修正して適用する
ことができる。例えば情報検索用のサーチエンジンが具
備する入力フォームなどもこのHTML文書により構成
されており、以下、HTML文書にはこれら入力フォー
ムを含むものとする。また、以下の実施形態は、例えば
エレクトロニック・コマース、電子図書館や電子カタロ
グからの情報検索など、オープンネットワーク上の複数
の互いに種々の相違を有する複数のHTML文書を利用
するアプリケーションに広範に適用しうる。
【0080】まず、図1および図2を参照して、本発明
に係る半構造化文書情報統合検索体系の原理を説明す
る。
【0081】図1は、本発明に係る半構造化文書情報統
合検索体系を用いる場合のユーザーの処理手順のイメー
ジを示す。本発明に係る装置は、ユーザーから入力され
る検索要求(例えば、「10万円以下のPCが欲し
い」)に基づいて、複数のHTML文書をユーザーに替
わって柔軟に検索し、検索処理結果を一括してユーザー
に送信する。この検索要求は、従来の検索用キーワード
ではなく、検索項目とその条件からなる簡易な構文の問
い合わせ文を用いることができる。即ち、「10万円以
下」などの条件を含む検索を処理することができる。
【0082】HTML文書は、RDBのような項目単位
で構造化されたデータと異なり、基本的にはプレーンテ
キストであるが、タグなどによりある程度データが構造
化されている、いわゆる半構造化データであることを特
徴とする。例えばHTML文書に内在する表、リスト、
箇条書きなどの意味のある1つのデータ群が、複数のH
TML文書を跨って保有されていたり、逆に複数のデー
タ群が1つのHTML文書に内在される場合がある。同
時にこれらのデータ群のうち、ある項目に対応するデー
タを条件処理することができない。また、HTMLによ
り記述された検索用の入力フォームを有するサーチエン
ジンでは、検索条件として指定可能なデータ項目が固定
であったり、検索条件として必須のデータ項目があった
りする。こうした構造を有するHTML文書に対して、
本発明に係る装置は柔軟な検索要求に対応する検索結果
を一括して出力する。
【0083】図2は、本発明に係る装置の原理を示す。
本発明に係る装置は、事前に登録された、各HTML文
書ごとの、HTML文書の所在情報、文書構造情報、表
現形式などを、HTML文書メタデータとしてHTML
文書メタデータ記憶部15中に管理する。この所在情報
は、例えばURLである。この文書構造情報は、HTM
L文書中の表、リスト、箇条書きなどの部分構造に関す
る情報であり、これらのデータを抽出すべき各項目にマ
ッピングするための情報である。具体的にはこの文書構
造情報は、抽出すべき項目に対応するデータがタグやス
ラッシュなどのデリミタで区切られているという情報で
あり、タグやスラッシュなどのデリミタにより識別され
るHTML文書データの区切られた領域を、項目に対応
付けて表形式で管理される。この表現形式は、同じ意味
を表すデータが異なる表現でHTML文書内に存在する
場合の、それぞれの表現形式である。
【0084】ユーザーは、本装置の問い合わせ処理部1
3に、問い合わせを入力する。問い合わせ処理部13
は、HTML文書メタデータ記憶部15に事前に登録さ
れている情報を参照して、HTML文書の所在、構造、
表現形式を特定する。問い合わせ処理部13は、各HT
ML文書を取得し、特定されたこれらの情報を用いて、
各HTML文書に内在する情報を抽出し、必要に応じて
条件処理を行う。このため、本発明に係る装置は、各H
TML文書に内在する情報の条件検索結果を、一括して
かつユーザーの表現形式に適合させてユーザーに出力す
ることができる。従って、ユーザーは、1回の検索要求
で所望する情報をネットワーク上に散在するHTML文
書から一括して得ることができる。このため、検索効率
が向上すると同時にネットワーク上のトラフィックが低
減される。
【0085】すなわち、本発明に係る装置は、第1に、
オープンネットワークに接続されているHTML等の半
構造化文書の文書構造情報を管理することにより、複数
のHTML文書からの項目ベースでの検索を実現する。
第2に、各サーチエンジンなどのHTML文書に散在す
る情報を、個々のWeb情報源に対する検索方式をユー
ザーに意識させずに統合的な検索を実現する。
【0086】第1の実施形態図3から図14を参照し
て、本発明に係る半構造化文書情報統合検索装置および
半構造化文書情報抽出装置、その方法、ならびに半構造
化文書情報統合検索プログラムおよび半構造化文書情報
抽出プログラムを格納した記録媒体の第1の実施形態で
あるHTML文書情報統合検索装置を詳細に説明する。
【0087】第1の実施形態は、オープンなネットワー
クに散在する複数HTML文書に対し、各HTML文書
が内在する情報の文書構造、表現形式、表などの部分構
造の構成要素が互いに異なっていても、各HTML文書
を跨った情報検索を実現し、またそのHTML記述上の
差異をユーザ毎の統一形式に変換して検索結果を一括し
て返却するものである。
【0088】第1の実施形態の構成の詳細な説明を行う
前に、第1の実施形態で用いられる表現形式の概念およ
び関連する用語について説明する。HTML文書が異な
ると、同じ意味を表す情報でも、異なった表現形式を用
いていることがある。例えば、製品価格に対して、「¥
1,000」、「一千円」、「1000円」と、HTM
L文書の記述者によって、様々な表現形式が存在する。
そこで、以下の通り、用語を定義する。
【0089】・ドメインとは、1つの表現形式である。
【0090】例)価格で、 1,000円は、「円」つき表現
形式で1つのドメイン。
【0091】価格で、¥1,000 は、「¥」つき表現形式
で1つのドメイン。
【0092】・ドメイングループとは、同じ意味を表す
ドメインの集まりである。
【0093】例)価格、年月日、等。
【0094】・ユーザ入力ドメインとは、ユーザ毎の検
索要求の入力に用いるドメインである。
【0095】例)価格は、「円」つき表現形式、年月日
は西暦かつ「/」区切り表現形式。
【0096】・ユーザ出力ドメインとは、ユーザ毎に指
定する検索結果に用いるドメインである。
【0097】例)価格は、「¥」つき表現形式、年月日
は年号略号かつ「.」区切り表現形式。
【0098】・ユーザドメインとは、ユーザ入力ドメイ
ンとユーザ出力ドメインの総称である。
【0099】・ローカルドメインとは、各HTML文書
上のドメインである。
【0100】例)価格は、「円」つき表現形式。
【0101】・ドメイン変換関数とは、ユーザ入力ドメ
インからローカルドメイン、ローカルドメインからユー
ザ出力ドメインへの変換を行う関数である。
【0102】なお、ユーザ入力ドメイン、ユーザ出力ド
メイン、ローカルドメインが相互に異なる場合、これら
の差異はドメイン変換関数を用いて解消される。
【0103】図3は、第1の実施形態に係るHTML文
書情報統合検索装置の構成を示すブロック図である。H
TML文書情報統合検索装置1は、ユーザーインターフ
ェース部11と、構文解析部12と、問い合わせ処理部
13と、HTML文書アクセス部14と、HTML文書
メタデータ記憶部15と、HTML文書メタデータ管理
部16とにより構成される。問い合わせ処理部13は、
問い合わせ項目探索部131と、問い合わせ変換部13
2と、変換関数ライブラリ133と、HTML文書処理
部134と、検索結果変換部135とを有する。
【0104】ユーザインタフェース部11は、ユーザの
アプリケーションプログラム3から入力される検索項目
と検索条件からなる問い合わせ文を受け付ける。構文解
析部12は、ユーザインタフェース部11で受け付けた
問い合わせ文の構文を解析する。問い合わせ処理部13
は、各HTML文書に内在する情報から所望する項目情
報を一括して検索する。問い合わせ処理部13中で、問
い合わせ項目探索部131は、問い合わせ文中で指定さ
れた項目の所在を探索する。問い合わせ変換部132
は、問い合わせ文のユーザ入力ドメインをローカルドメ
インに変換し、HTML文書アクセス部14が送出する
問い合わせ文を生成する。HTML文書処理部134
は、HTML文書アクセス部14が受信したHTML文
書から取得した情報に対し、問い合わせ文に応じた処理
(検索項目の選択、検索条件によるフィルタリング等)
を行う。検索結果変換部135は、検索されたデータの
表現形式をローカルドメインからユーザ出力ドメインに
変換する。HTML文書アクセス部14は、オープンな
ネットワークに散在するHTML文書を取得し、その内
在する情報を例えば表形式などの統一フォーマットに変
換する。このHTML文書アクセス部14には、HTM
L文書21およびこのHTML文書21を管理するWE
Bサーバ22からなる複数のHTML文書サーバ2−
1,2−2・・・が接続されている。HTML文書メタ
データ記憶部15は、各HTML文書の文書構造、HT
ML文書に内在する情報の表現形式や項目情報などの検
索対象となるHTML文書に関する情報を記憶し管理す
る。この項目情報として、表などの部分構造中の構成要
素と抽出すべき項目が1対1対応でない場合には、抽出
すべき項目に対応させて部分構造中の構成要素は複数の
構成要素として管理される。HTML文書メタデータ管
理部16は、HTML文書メタデータ記憶部15に対す
る各種情報の入力/削除/変更を行う。システム管理者
は、例えばエディタなどに実装されるHTML文書メタ
データ管理部16を介して、HTML文書メタデータを
登録・管理する。
【0105】図4は、HTML文書メタデータ記憶部1
5が保有するテーブルの詳細を示す。HTML文書メタ
データは、各HTML文書の所在情報を管理するHTM
L文書テーブル151と、各HTML文書に内在する構
成要素の表形式に変換するための情報を管理するHTM
L文書−表マッピングテーブル152と、各HTML文
書の項目ごとにこの項目の属性を管理するHTML文書
項目テーブル153と、各ドメインの表現形式を管理す
るドメインテーブル154と、ユーザーごとに入力ドメ
インおよび出力ドメインを管理するユーザドメインテー
ブル155と、ドメイン変換関数を管理するドメイン変
換関数テーブル156とにより構成される。
【0106】次に、第1の実施形態に係るHTML文書
情報統合検索装置1の処理手順の概略を説明する。第1
の実施形態の処理手順は、図5に示す検索を実行する前
にHTML文書メタデータ管理部16を介して管理者が
メタデータの準備を行う準備フェーズと、図6に示す検
索を実行する検索フェーズの2段階のフェーズがある。
【0107】図5に示す準備フェーズでは、HTML文
書の所在情報をHTML文書テーブル151に定義し
(ステップS100)、HTML文書に内在する情報の
表形式への対応情報をHTML文書−表マッピングテー
ブル152に定義し(ステップS110)、HTML文
書に内在する情報の項目の属性をHTML文書項目テー
ブル153に定義し(ステップS120)、HTML文
書に内在する情報の項目のローカルドメインをドメイン
テーブル154に定義し(ステップS130)、ユーザ
入力ドメイン、ユーザ出力ドメインをユーザードメイン
テーブル155に定義し(ステップS140)、必要な
ドメイン間の変換関数が既存か否かについてを判定し
(ステップS145)、必要なドメイン変換関数が存在
しない場合、新たなドメイン変換関数を作成してドメイ
ン変換関数テーブル156に定義する(ステップS15
0)。
【0108】図6に示す検索フェーズでは、まず構文解
析部12はユーザからの問い合わせ文を解析し、問い合
わせ項目探索部131は指定された項目の所在をHTM
L文書テーブル151から探索し(ステップS20
0)、すべての検索項目に対応する項目を保持するHT
ML文書をHTML文書属性テーブル153から探索し
(ステップS210)、問い合わせ変換部132はステ
ップS210で探索された項目に対応するユーザ入力ド
メインとユーザ出力ドメインとローカルドメインをドメ
インテーブル154,ユーザードメインテーブル155
から取得し(ステップS220)、全項目のユーザ入力
ドメインとローカルドメインが同一か否かを判定し(ス
テップS225)、ユーザ入力ドメインとローカルドメ
インとが異なる項目に対応するドメイン変換関数を取得
し、当該項目をローカルドメインの表現形式に変換する
(ステップS230)。HTML文書処理部134は、
HTML文書アクセス部14を介して各HTML文書を
取得して検索項目に対応する項目を抽出して検索結果を
得(ステップS240)、全項目のユーザ出力ドメイン
とローカルドメインが同一か否かを判定し(ステップS
245)、検索結果変換部135はユーザ出力ドメイン
とローカルドメインが異なる項目に対し、ドメイン変換
関数テーブル156からドメイン変換関数を取得して当
該項目をユーザ出力ドメインに変換し(ステップS25
0)、ユーザーインターフェース部11を介して変換後
の検索結果を出力する(ステップS260)。
【0109】以下、第1の実施形態の処理手順の詳細
を、図7から図14を用いて具体的に説明する。
【0110】図7(A)はショップAの商品情報を示す
HTML文書のWEBブラウザでの表示例であり、図8
(A)はショップBの商品情報を示すHTML文書の表
示例であるとする。図7(B)は図7(A)の情報を表
示するためのHTML記述例であり、図10(B)は図
10(A)の情報を表示するためのHTML記述例であ
る。
【0111】HTML文書の構造を示す文書構造として
は、ショップAの商品情報は内在情報の表示に表形式を
用いるため、TABLEタグを使用している。ショップ
Bの商品情報は内在情報の表示に箇条書きを用いるた
め、OLタグを使用している。
【0112】表現形式としては、ショップAの商品情報
は価格情報として "¥" つき表現形式を使用している。
ショップBの商品情報は価格情報として"円" つき表現
形式を使用している。
【0113】各HTML文書の有する構成要素として
は、ショップAの商品情報は商品名を、メーカ名と商品
名の構成要素から構成している。ショップBの商品情報
はメーカ名と商品名が分離されて構成されている。
【0114】所在情報としては、ショップAの商品情報
のURLは、"http://www.shop−a.co.jp/products.htm
l"である。ショップBの商品情報のURLは、"http://
www.shop−b.co.jp/shouhin.html" である。
【0115】上記の通り、図7(A)の商品情報と図7
(B)の商品情報とは、文書構造、表現形式、構成要素
のすべての面で異なっている。
【0116】(1)準備フェーズ まず、各HTML文書の所在情報として、図9に示すよ
うに以下のページ名とURLをHTML文書テーブル1
51に設定する(図5のステップS100)。
【0117】(a) ショップAの商品情報 ・ページ名:Shop−A ・URL: http://www.shop−a.co.jp/products.html (b) ショップBの商品情報 ・ページ名:Shop−B ・URL: http://www.shop−b.co.jp/shouhin.html 各HTML文書に内在する構成要素の表形式への対応情
報として、図10に示すように以下のページ名、レコー
ド開始点、列1〜列4の取り出し方をHTML文書−表
マッピングテーブル152に設定する(ステップS11
0)。尚、ショップBの価格情報は、数字と”,”の箇
所のみが取得されるよう設定している。
【0118】(a) ショップAの商品情報 ・ページ名:Shop−A ・レコード開始:” <TR><TD>”で始まる行 ・列1:”ショップA”固定値 ・列2:レコード開始行中の1つ目の "<TD>" と1つ目
の"/" の間 ・列3:レコード開始行中の1つ目の"/" と1つ目の"<
/TD>" の間 ・列4:レコード開始行中の2つ目の "<TD>" と2つ目
の"</TD>" の間 (b) ショップBの商品情報 ・ページ名:Shop−B ・レコード開始:” <Ll>”で始まる行 ・列1:”ショップB”固定値 ・列2:レコード開始行中の1つ目の "<Ll>" と1つ目
の"/" の間 ・列3:レコード開始行中の1つ目の"/" と2つ目の"
/" の間 ・列4:レコード開始行中の2つ目の"/" と1つ目の "
円" の間 次に、HTML文書に内在する項目の属性情報として、
図11に示すように、以下のページ名、対応列、列名、
データ型をHTML文書項目テーブル153に設定する
(ステップ120)。ここでは、価格情報のみが数値の
データ型として定義されている。このデータ型は、検索
条件の処理時に数値として比較を行うために設定されて
いる。
【0119】(a-1) ページ名Aの列1 ・ページ名:Shop−A ・対応列:列1 ・列名:ショップ名 ・データ型:文字列 (a-2) ページ名Aの列2 ・ページ名:Shop−A ・対応列:列2 ・列名:メーカ名 ・データ型:文字列 (a-3) ページ名Aの列3 ・ページ名:Shop−A ・対応列:列3 ・列名:商品名 ・データ型:文字列 (a-4) ページ名Aの列4 ・ページ名:Shop−A ・対応列:列4 ・列名:価格 ・データ型:数値 (b-1) ページ名Bの列1 ・ページ名:Shop−B ・対応列:列1 ・列名:ショップ名 ・データ型:文字列 (b-2) ページ名Bの列2 ・ページ名:Shop−B ・対応列:列2 ・列名:メーカ名 ・データ型:文字列 (b-3) ページ名Bの列3 ・ページ名:Shop−B ・対応列:列3 ・列名:商品名 ・データ型:文字列 (b-4) ページ名Bの列4 ・ページ名:Shop−B ・対応列:列4 ・列名:価格 ・データ型:数値 次に、HTML文書に内在する情報の構成要素のローカ
ルドメインを、図12に示すようにドメインテーブル1
54に定義する(ステップS130)。ショップAとシ
ョップBのショップ名、メーカ名、商品名については、
各々任意の文字列であるため、特にローカルドメインを
設定しない。一方価格については、図11の数値のデー
タ型の設定値を鑑み、ショップA、ショップBのローカ
ルドメインを以下のように定義する。同時にこのローカ
ルドメインをHTML文書項目テーブル153に登録す
る。
【0120】・ドメイングループ:価格 ・ショップAのローカルドメイン:「¥」記号つき表現
形式 ・ショップBのローカルドメイン:数値と "," からな
る表現形式 次に、ユーザ毎にユーザ入力ドメインとユーザ出力ドメ
インを、図13に示すようにユーザードメインテーブル
155に以下のように定義する(ステップS140)。
ユーザAは、ショップ名、メーカ名、商品名をHTML
文書の表現形式で入力してそのままの表現形式での出力
を要求するため、ユーザ入力ドメインとユーザ出力ドメ
インは設定しない。また、ユーザAは、価格ドメイング
ループについて、 ・入力:「円」記号つき表現形式 ・出力:「円」記号つき表現形式 を用いるものとする。このドメインの登録をドメインテ
ーブル154にし、ユーザドメインの登録をユーザドメ
インテーブル155にする。尚、ユーザドメインは、ユ
ーザ入力ドメインとユーザ出力ドメインで異なっていて
もよい。
【0121】次に、ドメイン間の変換関数を、図14に
示すようにドメイン変換関数テーブル156に定義する
(ステップS150)。ドメインとして、数値と ","
からなる表現形式、「円」記号つき表現形式、「¥」記
号つき表現形式の3種類が存在するため、ユーザ入力ド
メイン−ローカルドメイン、ユーザ出力ドメイン−ロー
カルドメインの相互変換用に以下の関数を以下のように
作成し、ドメイン変換関数テーブル156に設定する。
各変換関数は変換関数ライブラリ133に格納される。
【0122】(a) 数値と "," からなる表現形式から
「円」記号つき表現形式への変換 ・変換関数名:Num2Yen( ) ・変換元ドメイン:数値と "," からなる表現形式 ・変換先ドメイン:「円」記号つき表現形式 (b) 「円」記号つき表現形式から数値と "," からなる
表現形式への変換 ・変換関数名:Yen2Num( ) ・変換元ドメイン:「円」記号つき表現形式 ・変換先ドメイン:数値と "," からなる表現形式 (c) 数値と "," からなる表現形式から「¥」記号つき
表現形式への変換 ・変換関数名:Num2¥( ) ・変換元ドメイン:数値と "," からなる表現形式 ・変換先ドメイン:「¥」記号つき表現形式 (d) 「¥」記号つき表現形式から数値と "," からなる
表現形式への変換 ・変換関数名:¥2Num( ) ・変換元ドメイン:「¥」記号つき表現形式 ・変換先ドメイン:数値と "," からなる表現形式 (e) 「円」記号つき表現形式から「¥」記号つき表現形
式への変換 ・変換関数名:Yen2¥() ・変換元ドメイン:「円」記号つき表現形式 ・変換先ドメイン:「¥」記号つき表現形式 (f) 「¥」記号つき表現形式から「円」記号つき表現形
式への変換 ・変換関数名:¥2Yen() ・変換元ドメイン:「¥」記号つき表現形式 ・変換先ドメイン:「円」記号つき表現形式 (2)検索フェーズ ユーザ「ユーザA」から以下の検索項目とその条件から
なる簡易な構文の問い合わせ文が発行された場合の処理
を例に説明する。
【0123】検索項目:ショップ名、メーカ名、商品
名、価格 検索条件:価格 < 200,000円 まず、構文解析部12はユーザからの問い合わせを解析
し、問い合わせ項目探索部131は指定された項目を検
索(図6のステップS200)。指定された項目は「シ
ョップ名」、「メーカ名」、「商品名」、「価格」であ
る。各項目と一致する列名を、HTML文書項目テーブ
ル153から探索すると、以下のレコードが得られる。
【0124】(a) ショップ名 ・ページ名「Shop−A」の対応列「列1」でデータ型
「文字列」 ・ページ名「Shop−B」の対応列「列1」でデータ型
「文字列」 (b) メーカ名 ・ページ名「Shop−A」の対応列「列2」でデータ型
「文字列」 ・ページ名「Shop−B」の対応列「列2」でデータ型
「文字列」 (c) 商品名 ・ページ名「Shop−A」の対応列「列3」でデータ型
「文字列」 ・ページ名「Shop−B」の対応列「列3」でデータ型
「文字列」 (d) 価格 ・ページ名「Shop−A」の対応列「列4」でデータ型
「数値」 ・ページ名「Shop−B」の対応列「列4」でデータ型
「数値」 次に、問い合わせ項目探索部131はすべての検索項目
に対応する項目を保持するHTML文書名を探索する
(ステップS210)。上記で得られた結果に対し、す
べての検索項目に対応する項目を保持するHTML文書
を探索すると、以下の2組が生成される。また、各組み
合わせのURLをHTML文書テーブル151から取得
する。
【0125】(A) 組み合わせ1 (a) 対象ページ名:Shop−A (b) 構成要素 ・ショップ名:対応列「列1」でデータ型「文字列」 ・メーカ名:対応列「列2」でデータ型「文字列」 ・商品名:対応列「列3」でデータ型「文字列」 ・価格:対応列「列4」でデータ型「数値」 (c) URL http://www.shop−a.co.jp/products.html (B) 組み合わせ2 (a) 対象ページ名:Shop−B (b) 構成要素 ・ショップ名:対応列「列1」でデータ型「文字列」 ・メーカ名:対応列「列2」でデータ型「文字列」 ・商品名:対応列「列3」でデータ型「文字列」 ・価格:対応列「列4」でデータ型「数値」 (c) URL http://www.shop−b.co.jp/shouhin.html 次に、問い合わせ変換部132は探索した項目に対応す
るユーザドメインとローカルドメインを取得する(ステ
ップS220)。この探索した項目に対応するローカル
ドメインはHTML文書項目テーブル153を探索して
得られる。ローカルドメインがある項目については、当
該ローカルドメインのドメイングループをドメインテー
ブル154から探索し、当該ドメイングループに対する
ユーザドメインをユーザドメインテーブル155から取
得する。結果として、以下の組み合わせを得る。
【0126】(A) 組み合わせ1 (a) 対象ページ名:Shop−A (b) 構成要素 ・ショップ名:ローカルドメインなし ・メーカ名:ローカルドメインなし ・商品名:ローカルドメインなし ・価格:ローカルドメインは「¥」記号つき表現形式 ユーザ入力ドメインは「円」記号つき表現形式 ユーザ出力ドメインは「円」記号つき表現形式 (B) 組み合わせ2 (a) 対象ページ名:Shop−B (b) 構成要素 ・ショップ名:ローカルドメインなし ・メーカ名:ローカルドメインなし ・商品名:ローカルドメインなし ・価格:ローカルドメインは数値と "," からなる表現
形式 ユーザ入力ドメインは「円」記号つき表現形式 ユーザ出力ドメインは「円」記号つき表現形式 次に、問い合わせ変換部132はユーザ入力ドメインと
ローカルドメインが異なる項目に対し、ドメイン変換関
数テーブル156から、変換元ドメインと変換先ドメイ
ンの一致する変換関数名を取得し、各HTML文書のロ
ーカルドメインに変換する(ステップ230)。双方の
組み合わせにおいて、価格の表現形式が、ローカルドメ
インとユーザ入力ドメインとで異なるので、変換元ドメ
インと変換先ドメインをキーに変換関数名をドメイン変
換関数テーブル156から探索する。
【0127】(A) 組み合わせ1 変換元ドメイン:「円」記号つき表現形式 変換先ドメイン:「¥」記号つき表現形式 変換関数名:Yen2¥( ) (B) 組み合わせ2 変換元ドメイン:「円」記号つき表現形式 変換先ドメイン:数値と "," からなる表現形式 変換関数名:Yen2Num( ) 各々の組み合わせに対して変換関数を実行し、以下を得
る。
【0128】(A) 組み合わせ1 Yen2¥(200,000円)=¥200,000 (B) 組み合わせ2 Yen2Num(200,000 円)=200,000 次に、問い合わせ変換部132は各HTML文書アクセ
ス部14に対する以下の検索文を生成する。
【0129】(A) 組み合わせ1 (a) 対象ページ名:Shop−A (b) 検索要求 検索項目:ショップ名、メーカ名、商品名、価格 検索条件:価格 <¥200,000 (B) 組み合わせ2 (a) 対象ページ名:Shop−B (b) 検索要求 検索項目:ショップ名、メーカ名、商品名、価格 検索条件:価格 < 200,000 HTML文書アクセス部14はこれらの問い合わせ文に
より各HTML文書毎に内在する情報の検索を実行し、
HTML文書を取得して検索結果を生成する(ステップ
S240)。HTML文書処理部134はURLのリン
ク先から、各HTML文書に内在する情報を、HTML
文書−表マッピングテーブル152に設定された情報に
基づいて取り出し、検索条件が指定されていればフィル
タリングを行い、以下の検索結果を得る。
【0130】(A) 組み合わせ1 (a) 対象ページ名:Shop−A (b) 検索結果 ・ショップ名:ショップA、メーカ名:Maker A、商品
名:PC1、価格:¥170,000 ・ショップ名:ショップA、メーカ名:Maker B、商品
名:PC101、価格:¥198,000 (B) 組み合わせ2 (a) 対象ページ名:Shop−B (b) 検索結果 ・ショップ名:ショップB、メーカ名:Maker A、商品
名:PC1、価格:168,000 検索結果変換部135は、ユーザ出力ドメインとローカ
ルドメインとが異なる項目がある場合、ドメイン変換関
数を取得し、当該項目をユーザ出力ドメインに変換する
(ステップS250)。上記の双方の組み合わせでは、
価格が、ローカルドメインとユーザ出力ドメインとで異
なるので、変換元ドメインと変換先ドメインをキーに変
換関数名をドメイン変換関数テーブル156から探索す
る。
【0131】(A) 組み合わせ1 変換元ドメイン:「¥」記号つき表現形式 変換先ドメイン:「円」記号つき表現形式 変換関数名:¥2Yen( ) (B) 組み合わせ2 変換元ドメイン:数値と "," からなる表現形式 変換先ドメイン:「円」記号つき表現形式 変換関数名:Num2Yen( ) 各々の組み合わせに対して変換関数を実行し、以下の結
果を得る。
【0132】(A) 組み合わせ1 ¥2Yen(¥170,000)= 170,000円 ¥2Yen(¥198,000)= 198,000円 (B) 組み合わせ2 Num2Yen(168,000)= 168,000円 最後に、ユーザーインターフェース部11は以下の検索
結果をユーザーに出力する(ステップS260)。
【0133】・ショップ名:ショップA、メーカ名:Ma
ker A、商品名:PC1、価格:170,000円 ・ショップ名:ショップA、メーカ名:Maker B、商品
名:PC101、価格: 198,000円 ・ショップ名:ショップB、メーカ名:Maker A、商品
名:PC1、価格:168,000円 以上説明したように、第1の実施形態は、オープンなネ
ットワーク上の複数HTML文書に対し、各HTML文
書に内在する情報に関する各種の情報をメタデータとし
て管理する。このため、複数のHTML文書に内在する
情報に対する一括の検索が実現でき、HTML文書間の
異種性による相違を解消した検索結果を生成することが
できる。同時に、各HTML文書に内在する情報に関す
る情報をHTML文書ごと個別に管理するので、HTM
L文書情報統合検索装置が検索対象とするHTML文書
の追加、修正、削除の作業は当該HTML文書だけに関
して行えば足りる。このため、等比級数的に増加するH
TML文書の本装置への検索対象としての取り込みが容
易となる。
【0134】また、各HTML文書からの検索結果は、
項目ごとに条件処理可能な項目データとして得られるの
で、HTML文書処理部134は、各HTML文書の複
数の検索結果を適宜マージして1つの検索結果とし、こ
の1つの検索結果を必要に応じて条件処理することがで
きる。
【0135】このように、第1の実施形態によれば、オ
ープンなネットワークに散在する複数のHTML文書に
対して該複数のHTML文書に内在する情報の文書構
造、構成要素、表現形式等が互いに異なってもこれら複
数の文書を跨った情報検索を実現し、HTML記述上の
差異をユーザ毎の統一形式に変換して一括して検索結果
を返却することができる。従って従来に比較して、人手
による多くの時間や労力が不要となり、検索効率が画期
的に向上する。第1の実施形態は、例えば「ある製品を
最安値で販売している店の名前と価格を求める」という
ようなエレクトロニック・コマースにおける柔軟な商品
情報検索に利用可能であり、公正なエレクトロニック・
コマースの市場の活性化に貢献し得る。
【0136】第2の実施形態図15から図36を参照し
て、本発明に係る半構造化文書情報統合検索装置および
半構造化文書情報抽出装置、その方法、ならびにそのプ
ログラムを格納する記録媒体の第2の実施形態であるイ
ンターネット情報統合検索装置を詳細に説明する。
【0137】第2の実施形態は、オープンなネットワー
クに複数の情報検索装置(サーチエンジン)が散在する
環境で、固有の入力フォームを持つ複数のサーチエンジ
ンに対して各サーチエンジンの文書構造、入力フォーム
の必須入力項目、表現形式が互いに異なっていても、サ
ーチエンジンを跨って条件指定を含む情報検索を行い、
これら入力フォームの差異を解消して全サーチエンジン
から検索結果を一括して取得することを実現するもので
ある。
【0138】尚、第2の実施形態で用いられる表現形式
の概念およびこれに関連する用語は、第1の実施形態と
同様である。例えば、エリア名に対しても、「神奈川
県」、「神奈川」と、HTML文書の記述者や検索を実
行するユーザによって、様々な表現形式が存在する。
【0139】例えば、エリアについて、神奈川県は
「県」つき表現形式で1つのドメインであり、ジャンル
について、中華料理は「料理」つき表現形式で1つのド
メインである。ドメイングループとしては、エリア、ジ
ャンル、等がある。あるユーザが「神奈川県」、「中華
料理」と入力する場合、ユーザ入力ドメインは「県」つ
き表現形式であり、ジャンルは「料理」つき表現形式で
ある。あるユーザの出力が「神奈川県」、「中華料理」
である場合、ユーザ出力ドメインは「県」つき表現形式
であり、ジャンルは「料理」つき表現形式である。HT
ML文書から抽出した検索結果が「神奈川県」である場
合、ローカルドメインは「県」つき表現形式である。
【0140】尚、同一ドメイングループ内でユーザ入力
ドメイン、ユーザ出力ドメイン、ローカルドメインが相
互に異なる場合、第2の実施形態でも第1の実施形態同
様、ドメイン変換関数を用いて、ドメイン間の差異を解
消する。
【0141】図15は、第2の実施形態に係るインター
ネット情報統合検索装置の構成を示すブロック図であ
る。第2の実施形態は、図3の問い合わせ処理部13
を、さらに、入力必須項目探索部136と、検索パター
ン判定部137と、検索結果処理部138を具備する統
合検索処理部130に置き換えた点において第1の実施
形態の修正である。第2の実施形態に係るインターネッ
ト情報情報統合検索装置10は、ユーザーインターフェ
ース部11と、構文解析部12と、統合検索処理部13
0と、HTML文書メタデータ記憶部15と、HTML
文書メタデータ管理部16と、HTML文書アクセス部
14とから構成される。第2の実施形態に係る統合検索
処理部130は、問い合わせ項目探索部131と、問い
合わせ変換部132と、変換関数ライブラリ133と、
入力必須項目探索部136と、検索パターン判定部13
7と、検索結果処理部138と、検索結果変換部135
とを具備する。
【0142】尚、図3と同一の符号を付した箇所は、特
に断らない限り第1の実施形態と同様であり、これらの
説明は省略する。図15において、ユーザーインターフ
ェース部11は、ユーザのアプリケーションプログラム
3から入力される検索項目と検索条件からなる問い合わ
せ文を受け付ける。構文解析部12は、ユーザインタフ
ェース部11で受け付けた問い合わせ文の構文を解析す
る。統合検索処理部130は、各サーチエンジンにより
管理されるHTML文書に内在する項目を一括して検索
する。統合検索処理部130中で、問い合わせ項目探索
部131は、問い合わせ文中で指定された項目の所在を
探索する。入力必須項目探索部136は、各サーチエン
ジンの入力フォーム上のデータ項目の不足をチェックし
て問い合わせ先のサーチエンジンを決定する。検索パタ
ーン判定部137は、問い合わせ文に応じた最適な検索
パターンを判定して、この判定結果に従い問い合わせ文
を最適化する。問い合わせ変換部132は、問い合わせ
文のユーザ入力ドメインをローカルドメインに変換し、
HTML文書アクセス部14が送出する問い合わせ文を
生成する。検索結果処理部138は、HTML文書アク
セス部14が受信したHTML文書から取得した情報に
対し、問い合わせ文に応じた処理(検索項目の選択、検
索条件によるフィルタリング等)を行う。検索結果処理
部138はまた、抽出された情報に対して検索条件によ
るフィルタリング処理を行うとともに、上記で決定され
た検索パターンに応じてサーチエンジン側で行われた条
件処理を抑止する。検索結果変換部135は、検索され
たデータの表現形式をローカルドメインからユーザ出力
ドメインに変換する。HTML文書アクセス部14は、
生成された検索文を各サーチエンジンに送信し、オープ
ンなネットワークに散在するHTML文書をサーチエン
ジンを介して取得する。このHTML文書に内在する情
報が第2の実施形態により例えば表形式などの統一フォ
ーマットに変換される。このHTML文書アクセス部1
4には、通信網190を介してエンジン23およびデー
タベース24からなる複数のサーチエンジン20−1,
20−2・・・が接続されている。HTML文書メタデ
ータ記憶部150は、各サーチエンジンの所在、各サー
チエンジンの有するHTML文書の文書構造、HTML
文書に内在する情報の表現形式や構成要素などの各サー
チエンジンに関する情報を記憶し管理する。HTML文
書メタデータ管理部16は、HTML文書メタデータ記
憶部150に対する各種情報の入力/削除/変更を行
う。システム管理者は、例えばエディタなどに実装され
るHTML文書メタデータ管理部16を介して、HTM
L文書メタデータを登録・管理する。
【0143】図16は、第2の実施形態に係るHTML
文書メタデータ記憶部150が保有するテーブルの詳細
を示す。図4に示す第1の実施形態のHTML文書メタ
データ記憶部15が有する各HTML文書の所在情報を
管理するHTML文書テーブル151と、各HTML文
書に内在する構成要素を表形式に変換するための情報を
管理するHTML文書−表マッピングテーブル152
と、各項目ごとにこの項目の属性を管理するHTML文
書項目テーブル153と、各ドメインの表現形式を管理
するドメインテーブル154と、ユーザーごとに入力ド
メインおよび出力ドメインを管理するユーザドメインテ
ーブル155と、ドメイン変換関数を管理するドメイン
変換関数テーブル156に加え、さらに各サーチエンジ
ンの入力フォーム中の入力必須項目を管理する入力必須
項目テーブル157とにより第2の実施形態のHTML
文書メタデータ記憶部150は構成される。また検索パ
ターン判定部137は、図28に示すような内部に各サ
ーチエンジンへの検索パターンを決定して検索文を各サ
ーチエンジンごとに最適な問い合わせ文に変換するため
の検索パターンマトリックステーブルを具備する。ある
いはこの検索パターンマトリックステーブルは、HTM
L文書メタデータ150に含まれて構成されてもよい。
【0144】次に、第2の実施形態に係るインターネッ
ト情報統合検索装置10の処理手順の詳細および各テー
ブルへの設定例を説明する。第2の実施形態の処理手順
は、図19に示す検索を実行する前に表現形式等の準備
を行う準備フェーズと、図29に示す検索を実行する検
索フェーズの2段階のフェーズがある。
【0145】図17(A)、図17(B)、図17
(C)に示すサーチエンジンの入力フォームが存在する
場合の例で各フェーズを説明する。図18には、図17
(B)のPege−Bの入力フォームに対応するHTM
L記述を示す。
【0146】(1)準備フェーズ 図19に示す準備フェーズではまず、HTML文書項目
テーブル153を例えば図20に示すように設定する
(ステップS300)。HTML文書項目テーブル15
3は、各サーチエンジン入力フォームの項目について、
以下の項目を管理する。図20で、ページ名は各サーチ
エンジンの入力フォーム名を示す。対応列は、HTML
文書−表マッピングテーブル152との対応付けを行
う。データ項目名は、サーチエンジン入力フォームに内
在する項目を示す。「項目指定可能」とは、当該項目が
このサーチエンジンの検索結果から取得できるか否かを
示す。「条件指定可能」とは、当該項目がこのサーチエ
ンジンによる検索の際に条件指定可能か否かを示す。デ
ータ型は、数値型、文字列型等のデータの処理タイプを
示す。このデータ型はフィルタリング処理時のデータの
評価方法として使用する。Nameタグは、選択形式となっ
ている項目が有するNameタグを示す。ローカルドメイン
は、当該列が属するドメインを示す。
【0147】次に、HTML文書テーブル151を、例
えば図21に示すように設定する(ステップS31
0)。HTML文書テーブル151は、各サーチエンジ
ン入力フォームの所在情報として、以下の項目を管理す
る。図21で、ページ名は各サーチエンジンの入力フォ
ーム名を示す。サーチエンジンURLは、各サーチエン
ジンの所在情報となるURLを示す。
【0148】次に、HTML文書−表マッピングテーブ
ル152を、例えば図22に示すように設定する(ステ
ップS320)。HTML文書−表マッピングテーブル
152は、各サーチエンジンから返却されるHTML文
書に内在する情報の表形式への対応情報として、以下の
項目を管理する。図22で、ページ名は、各サーチエン
ジンの入力フォーム名を示す。「レコード開始」とは、
取得されたHTML文書中での結果内容が開始される行
をタグ情報を用いて示す。列1から列5は、取得された
HTML文書中の、検索結果とすべきデータ項目に対応
する箇所をタグ情報を用いて定義する。列1から列5の
それぞれは、図20のHTML文書項目テーブル153
のページ名Page_Aの対応列「列1」から「列5」
と対応する。次に、ドメインテーブル154を、例えば
図23に示すように設定する(ステップS330)。ド
メインテーブル154は、HTML文書項目テーブル1
53でローカルドメインを設定した列について、このロ
ーカルドメイン情報として、同じ意味を表すドメインの
集まりであるドメイングループと、1つの表現の集まり
であるドメインを管理する。
【0149】次に、ドメイン変換関数テーブル156
を、例えば図24に示すように設定する(ステップS3
40)。ドメイン変換関数テーブル156は、ドメイン
変換関数情報として、以下の項目を管理する。図24で
変換関数名は、特定のドメインから特定のドメインへ変
換するための関数の名前を示す。ドメイングループは同
じ意味を表すドメインの集まりを示す。変換元ドメイン
はドメイン関数に対し、入力するドメインを示す。変換
先ドメインはドメイン関数から出力されるドメインを示
す。ライブラリ名はドメイン変換を実現する変換関数ラ
イブラリ133のファイル名を示す。
【0150】次に、ユーザドメインテーブル155を、
例えば図25に示すように設定する(ステップS35
0)。ユーザードメインテーブル155は、ユーザがド
メイングループ毎に、どのような入力ドメイン、出力ド
メインを指定するかを以下の項目により管理する。図2
5でユーザ名は、検索要求を行うユーザの名前を示す。
ユーザ入力ドメインは、ユーザがあるドメイングループ
に対しどのようなドメインで入力するのかを示す。ユー
ザ出力ドメインは、ユーザがあるドメイングループか
ら、どのようなドメインで出力されるかを示す。
【0151】次に、入力必須項目テーブル157を、例
えば図26に示すように設定する(ステップS36
0)。サーチエンジンによっては、入力フォーム中で入
力を必須とされている項目がある。入力必須項目テーブ
ル157は、この入力必須項目を、以下の項目により管
理する。図26でページ名は、各サーチエンジンの入力
フォーム名を示す。入力必須項目は、サーチエンジンに
対し、必ず入力する必要のある項目名を示す。
【0152】(2)検索フェーズ 図29は、第2の実施形態の検索検索実行時のフローチ
ャートを示す。
【0153】ユーザが例えば「神奈川県にある和食料理
の店」の「店名」と「電話番号」について調べたい場合
の第2の実施形態の検索処理を、以下のSQLのSELECT
文とWHERE 文のみからなる簡易な構文の問い合わせ文が
入力された場合の例で説明する。
【0154】まず、ユーザーインターフェース部11は
問い合わせ入力を受付ける(ステップS400)。「ユ
ーザ1」が検索項目として、「店名」と「電話番号」を
指定するとし、検索条件としては「エリア=横浜市」an
d 「ジャンル=和食料理」を指定するとすると、以下の
構文の問い合わせ文が入力される。
【0155】 SELECT 店名、電話番号 WHERE エリア=”横浜市”and ジャンル=”和食 料理” (1−1) 問い合わせ項目探索部131は、図20のHTML文書
項目テーブルを参照し、検索項目および検索条件項目を
データ項目名に含むサーチエンジンを探索することによ
り、データ項目の所在を探索する(ステップS41
0)。図30にこのサーチエンジン探索結果を示す。
【0156】次に、問い合わせ項目探索部131は、ス
テップS410の結果からHTML文書テーブル151
を参照し、「店名」、「電話番号」、「エリア」、「ジ
ャンル」のすべての項目を満たすページを特定する(ス
テップS420)。この時点ではPage−A,Page−B,
Page−Cが検索候補サーチエンジンとなる。
【0157】入力必須項目探索部136は、入力必須項
目テーブル157を参照し、各サーチエンジンの必須項
目をチェックして検索候補サーチエンジンを絞り込む
(ステップS430)。サーチエンジンによっては、入
力が必須である条件項目が存在する。このため、ステッ
プS420で得られた所在のサーチエンジンの中で、検
索条件に指定された項目以外の入力必須項目を持つサー
チエンジンを除く。問い合わせ文(1−1)の条件項目
が「エリア」、「ジャンル」であるのに対し、図26に
示すようにPage−Aは、条件項目「ジャンル」と一致す
る入力必須項目「ジャンル」を含むため検索可能なエン
ジンであることが分かる。同様に、Page−Bも条件項目
「エリア」と一致する入力必須項目「エリア」を含むた
め検索可能なエンジンとなる。Page−Cも条件項目と一
致する入力必須項目「エリア」、「ジャンル」を含むた
め検索可能なエンジンとなる。
【0158】一方、例えば、 SELECT 店名、電話番号 WHERE エリア=”横浜市” (1−2) の問い合わせ文が入力された場合には、問い合わせ項目
探索部131においては、HTML文書項目テーブル1
53を参照することにより、Page−A、Page−B、Page
−Cはいずれも項目「店名」、「電話番号」、「エリ
ア」を含むため、検索候補サーチエンジンとされる。
【0159】次に、入力必須項目探索部136では、以
下のように検索候補サーチエンジンが絞り込まれる。Pa
ge−Aは「ジャンル」を入力必須項目とする。これは、
Page−Aに対する検索では「ジャンル」という項目の指
定が必須であって、指定されない場合には検索できない
ことを意味する。問い合わせ条件(where句)には、
「ジャンル」が指定されていないため、Page−Aは入力
必須項目探索部136において検索対象から除外され
る。
【0160】Page−Cに対する検索では、「エリア」と
「ジャンル」の両方の指定が必須であるため、検索対象
から除外される。
【0161】一方、Page−Bの入力必須項目である「エ
リア」は問い合わせ条件(where句)で指定されている
ため、Page−Bは検索対象として選択される。
【0162】他方、入力必須項目を持たないサーチエン
ジンに対して上記(1−2)の問い合わせを行う場合に
は、このサーチエンジン(ページ)は入力必須条件がな
いため、問い合わせ条件(where句)が指定されていて
も検索できる。従って、入力必須項目探索部136で検
索対象サーチエンジンとして選択される。
【0163】この時点での問い合わせ文(1−1)に基
づく各サーチエンジンへのSQL文はそれぞれ以下の通
りである。
【0164】 Page−A: SELECT 店名、電話番号 WHERE エリア=”横浜市”and ジャンル=”和食 料理” (2−1) Page−B: SELECT 店名、電話番号 WHERE エリア=”横浜市”and ジャンル=”和食 料理” (2−2) Page−C: SELECT 店名、電話番号 WHERE エリア=”横浜市”and ジャンル=”和食 料理” (2−3) 次に、検索パターン判定部137は、図28の検索パタ
ーンマトリックスを参照して検索の処理方法を決定する
(ステップS440)。ここで、この検索パターンマト
リックスを説明する。図27は第2の実施形態に係るイ
ンターネット情報統合検索装置と各サーチエンジンとの
簡略化した関係を示す。ユーザーから入力される問い合
わせ文の処理手順には、図27中の(a),(b),
(c)の3つの検索パターンがある。(a) パターンは検
索要求を未処理で返却する。(b) パターンは各サーチエ
ンジンで条件処理を行う。(c) パターンは各サーチエン
ジンで条件処理を行ったのち、その結果を第2の実施形
態に係る装置10でフィルタリング処理する。検索パタ
ーンマトリックスは、各検索文中の検索項目がそれぞれ
上記3パターンのいずれに属するかを判定するために用
いられる。検索パターン判定部137は、この図28に
示す検索パターンマトリックスを用いて検索を実現する
ための戦略を決定する。図28で、検索要求の「項目」
は検索すべき項目として例えばSQLのselect句
で指定された項目である。検索要求の「条件」は検索要
求の検索条件として例えばSQLのwhere句で指定
された項目である。エンジン(サーチエンジン)の「項
目」は各サーチエンジンが検索結果として返す項目であ
る。エンジンの「条件」は例えば各サーチエンジンの入
力フォームにより規定される、各エンジンが検索要求と
して受け付ける条件である項目である。尚、エンジンの
「項目」はHTML文書項目テーブル153の「項目指
定可能」の欄の値を、エンジンの「条件」はHTML文
書項目テーブル153の「条件指定可能」の欄の値を示
す。処理パターン中の「検索条件値をそのまま返却」と
は、指定された検索項目を処理することなく条件値を戻
すことを示す。「情報源から返却されたものを返却」と
は、指定された検索項目に対応してサーチエンジンから
戻された結果を戻すことを示す。「サーチエンジンで処
理」とは、指定された検索条件をサーチエンジンで処理
することを示す。「装置でフィルタリング」とは、指定
された検索条件に対してサーチエンジンから戻された検
索結果を、検索結果処理部138で条件処理することを
示す。
【0165】例えば、問い合わせ文(1−1)の場合、
「店名」はselect句で指定されており、 where句では指
定されていない。この項目”店名”は図28の”検索要
求”の「項目」欄が○で「条件」欄が×の行に相当す
る。一方、例えば図17(A)のサーチエンジンの入力
フォームpage_Aは、図20のHTML文書項目テ
ーブル153を参照すると、「店名」を条件として受け
取り、かつ検索結果として返すことができる。このため
図28のエンジンの「項目」、「条件」欄はともに○と
定まる。従って、項目「店名」は図28の上から4行目
のレコードに対応する。従って「店名」のPage_A
に対する処理パターンは、エンジンから返されたデータ
を項目として返し、SQLで条件を指定していないため
条件は処理しないことがわかる。
【0166】一方、「エリア」はselect句で指定されて
おらず、 where句で指定されている。この項目「エリ
ア」は図28の「検索要求」の「項目」欄が×で「条
件」欄が○の行に相当する。一方、例えば図17(A)
のPage_Aは、図20のHTML文書項目テーブル
153を参照すると、「エリア」を条件として受け取る
ことはできないが、「エリア」を検索結果として返すこ
とができる。このため図28のエンジンの「項目」欄は
○、「条件」欄は×と定まる。従って、項目「エリア」
は図28の上から8行目の行にレコードに対応する。従
って「エリア」のPage_Aに対する処理パターン
は、SQLでselect句に指定がないため項目としては返
さず、エンジンでは条件として処理できないため検索結
果処理部138でフィルタリング処理して返すことがわ
かる。(1−1)の問い合わせ文で指定されている他の
項目「電話番号」、「ジャンル」についてもPage_
Aを対象として上記の当てはめ処理を行うことで、図2
8から図31のマトリックスが導出される。
【0167】図31は、検索要求とPage−Aに指定可能
な項目および条件項目を各データ項目毎に判定された処
理内容を示す。図31から、「サーチエンジンで処理」
の欄に基づき、「ジャンル」を検索条件としてPage−A
に送信すべきことがわかる。また「装置でフィルタリン
グ」の欄に基づき、Page−Aからの検索結果を「エリ
ア」の条件でフィルタリング処理すべきことがわかる。
また「情報源から返却されたものを返却」の欄に基づ
き、「店名」、「電話番号」はPage−Aからの送信結果
をそのまま返却すべきことがわかる。
【0168】Page_Aに対して、問い合わせ文(1
−1)により検索する場合、Page_Aでは「店名」
と「ジャンル」が条件として指定可能だが、問い合わせ
文(1−1)では「ジャンル」のみ条件指定されてい
る。このため、「ジャンル」を”和食料理”としてPa
ge_Aのサーチエンジンには問い合わせ、かつ検索結
果処理部138でのフィルタリング処理により、「エリ
ア」が”横浜市”である「店名」、「電話番号」のデー
タを選択して検索結果とする。従って、Page−Aへの検
索は上記のパターンCであり、問い合わせ文(2−1)
は以下のように変換される。
【0169】 フィルタリング条件:「エリア」=”横浜市” SELECT 店名、電話番号 WHERE ジャンル=”和食料理” (3−1) 同様の手順で、Page−B,Page−Cに対する各問い合わ
せ文が生成される。図32は、Page−Bについて判定さ
れた処理内容を示す。図32から、「情報検索装置で処
理」の欄に基づき、「エリア」を検索条件としてPage−
Bに送信すべきことがわかる。「装置でフィルタリン
グ」の欄に基づき、Page−Bからの検索結果を「ジャン
ル」の条件でフィルタリング処理すべきことがわかる。
「情報源から返却されたものを返却」の欄に基づき、
「店名」、「電話番号」はPage−Bからの送信結果をそ
のまま返却すべきことがわかる。従って、Page−Bへの
検索は上記のパターンCであり、問い合わせ文(2−
2)は以下のように変換される。
【0170】 フィルタリング条件:「ジャンル」=”和食料理” SELECT 店名、電話番号 WHERE エリア=”横浜市” (3−2) 図33は、Page−Cについて判定された処理内容を示
す。図33から、「情報検索装置で処理」の欄に基づ
き、「エリア」、「ジャンル」を検索条件としてPage−
Cに送信すべきことがわかる。「装置でフィルタリン
グ」の欄に基づき、Page−Cからの検索結果にフィルタ
リング処理は行わないことがわかる。「情報源から返却
されたものを返却」の欄に基づき、「店名」、「電話番
号」はPage−Bからの送信結果をそのまま返却すべきこ
とがわかる。従って、Page−Cへの検索は上記のパター
ンBであり、問い合わせ文(2−3)は以下のように変
換される。
【0171】 フィルタリング条件:なし SELECT 店名、電話番号 WHERE エリア=”横浜市”and ジャンル=”和食 料理” (3−3) 次に、問い合わせ変換部132は、検索パターン判定部
137が出力する各サーチエンジンへの問い合わせ文
を、各サーチエンジンのローカルドメインに適合する検
索文に変換する(ステップS450)。問い合わせ変換
部132は、検索条件で指定された項目に対応するサー
チエンジンの項目のうち、ローカルドメインが設定され
ている項目のユーザ入力ドメインとローカルドメイン
を、HTML文書項目テーブル153およびユーザドメ
インテーブル155から図34に示すように取得する。
ユーザ入力ドメインとローカルドメインが異なる項目に
ついて、ドメイン変換関数テーブル156から変換関数
ライブラリ133中の関数情報を取得しこれらの項目を
ローカルドメインの表現形式に変換する。例えば、Page
−Bのデータ項目名「エリア」の場合、ローカルドメイ
ンは”Page−B−City”である。このドメイングループ
に対するユーザー入力ドメインは、ユーザードメインテ
ーブル155およびドメインテーブル154より、ドメ
インSHITSUKIである。このため、問い合わせ変換部13
2は、ドメイン変換関数テーブル156を参照し”Shi2
ValueB () ”を用いて”横浜市”を入力フォーム中の選
択リスト中の7番目の項目であることを示す”07”に変
換する。
【0172】同様に、Page−Cのデータ項目名「ジャン
ル」の場合、ローカルドメインは”Page−C−Dishes”
である。このドメイングループに対するユーザー入力ド
メインは、ユーザードメインテーブル155およびドメ
インテーブル154より、ドメイン”RYOURITSUKI ”で
ある。このため、問い合わせ文変換部132は、ドメイ
ン変換関数テーブル156を参照し”Ryouri2ValueC
()”を用いて”和食料理”を選択リスト中の1番目の
項目であることを示す”1”に変換する。
【0173】この時点で生成されている各サーチエンジ
ンへの問い合わせ文および検索結果処理部138でのフ
ィルタリング条件は、以下の通りである。
【0174】 Page−A: フィルタリング条件:「エリア」=”横浜市” SELECT 店名、電話番号 WHERE ジャンル=”和食料理”(4−1=3−1 ) Page−B: フィルタリング条件:「ジャンル」=”和食料理” SELECT 店名、電話番号 WHERE エリア=”07” (4−2) 検索文(4−2)では、エリア=”横浜”はエリア=”
07”に変換されている。
【0175】 Page−C: SELECT 店名、電話番号 FROM Page−C WHERE エリア=”横浜市”and ジャンル=”1” (4−3) 検索文(4−3)では、ジャンル=”和食料理”はジャ
ンル=”1”に変換されている。
【0176】次に、HTML文書アクセス部14は、ス
テップS460で得られた問い合わせ文に基づいて各サ
ーチエンジン固有の以下の検索要求をそれぞれ発行す
る。各サーチエンジンではそれぞれ検索処理が実行され
る(ステップS470)。
【0177】 Page−A: フィルタリング条件:「エリア」=”横浜市” ”GET http://www. Page−a.co.jp/search-shop.cgi?category=和食料理 htt p/1.0 ” (5−1) Page−B:フィルタリング条件:「ジャンル」=”和食料理” ”GET http://www. Page−b.co.jp/search-shop.cgi?area=07 http/1.0 ” (5−2) Page−C: ”GET http://www. Page−c.co.jp/search-shop.cgi?area=横浜市 & categor y =1 http/1.0” (5−3) 次に、検索結果処理部138は、各サーチエンジンから
返却された各HTML文書に内在する情報を、HTML
文書−表マッピングテーブル152に設定された情報に
基づいて抽出する(ステップS475)。図35(A)
はPage−Bの検索結果のHTML文書のブラウザでの表
示例を示す。図35(B)は図35(A)の表示に対応
するHTML記述を示す。以下に各サーチエンジンから
得られた検索結果を示す。
【0178】 (a) 対象ページ名:Page−A フィルタリング条件:「エリア」=”横浜市” 検索結果: ・店名:A1 エリア:横浜市 電話番号:(045) ***−**** ・店名:A2 エリア:横須賀市 電話番号:(0468)**−**** (6−1) (b) 対象ページ名:Page−B フィルタリング条件:「ジャンル」=”和食料理” 検索結果 ・店名:B1 ジャンル:和食料理 電話番号: 045−***−**** ・店名:B2 ジャンル:中華料理 電話番号: 045−***−**** ・店名:B3 ジャンル:中華料理 (6−2) 電話番号: 045−***−**** (c) 対象ページ名:Page−C フィルタリング条件:なし 検索結果 ・店名:C1 電話番号: 045−***−**** ・店名:C2 電話番号: 045−***−**** (6−3) 次に、検索結果処理部138は、図28の検索パターン
マトリックスでフィルタリング処理を行うと規定されて
いる項目について(ステップS480Y)、各サーチエ
ンジンからの検索結果をフィルタリング処理する(ステ
ップS490)。ここで、Page−Aは「エリア」を評価
せず、Page−Bは「ジャンル」を評価しない。従って、
これらの結果から、「エリア」=”横浜市”、「ジャン
ル」=”和食料理”の条件を満たす結果を以下のように
抽出する。
【0179】 (a) 対象ページ名:Page−A フィルタリング結果 ・店名:A1 電話番号: (045)***−**** (7−1) (b) 対象ページ名:Page−B フィルタリング結果 ・店名:B1 電話番号: 045−***−**** (7−2) (c) 対象ページ名:Page−C フィルタリング結果 ・店名:C1 電話番号: 045−***−**** ・店名:C2 電話番号: 045−***−**** (7−3=6−3) 次に、検索結果変換部135は、検索項目で指定された
項目で、ローカルドメインが指定されている項目のユー
ザ出力ドメインとローカルドメインをHTML文書項目
テーブル153、ドメインテーブル154およびユーザ
ドメインテーブル155から図36に示すように取得す
る。検索結果変換部135は、ユーザ出力ドメインとロ
ーカルドメインが異なる項目に対し、ドメイン変換関数
テーブル156から関数情報を取得しユーザー出力ドメ
インに変換する(S500)。Page−Aのデータ項目名
「電話番号」の場合、ローカルドメインとユーザ出力ド
メインが一致しているため、変換は行わない。一方、Pa
ge−B,Page−Cのデータ項目名「電話番号」の場合、
ローカルドメインは Tel−Bar であるのに対し、出力ド
メインは Tel−Paren である。このため、検索結果変換
部135は、ドメイン変換関数テーブル156を参照し
てBar2Paren() を用い「 045−***−****」を
「(045) ***−****」に変換する。Page−B,Pa
ge−Cのローカルドメインは、以下のようにユーザー出
力ドメインに変換される。
【0180】入力 :「 045−***−****」(ド
メイン: Tel−Bar ) ドメイン変換関数:Bar2Paren() 出力 :「(045) ***−****」(ドメイン: Tel
−Paren ) 以上の処理により、ユーザーインターフェース部11
は、統一検索結果を以下のように返却する。ユーザー側
のアプリケーションプログラムでは、これらの統一検索
結果を表形式などの統一フォームで表示する(ステップ
S510)。
【0181】 ・店名:A1 電話番号:(045) ***−**** ・店名:B1 電話番号:(045) ***−**** ・店名:C1 電話番号:(045) ***−**** ・店名:C2 電話番号:(045) ***−**** 以上説明したように、第2の実施形態によれば、オープ
ンなネットワークに散在する複数のサーチエンジンに対
して検索を要求する場合、各サーチエンジン固有の入力
フォームのオブジェクトを個別に管理することにより、
異種の各サーチエンジンへのインターフェースの相違を
解消して、複数の任意の入力項目に対応した柔軟な検索
が可能となる。このため、サーチエンジンの異種性に起
因する複数のサーチエンジンから返却されたHTML文
書に内在する情報の文書構造、表現形式、入力フォーム
の差異を解消し、統一フォーマットによる検索結果の閲
覧が可能となる。従って、検索効率が向上するととも
に、ネットワークへの無効なトラフィックを軽減する。
また、各サーチエンジンの入力フォームを個別に登録、
管理するのでHTML文書メタデータの維持管理が容易
に行える。
【0182】第3の実施形態図37から図50を参照し
て、本発明に係る半構造化文書情報統合検索装置および
半構造化文書情報抽出装置、その方法、ならびにそのプ
ログラムを格納する記録媒体の第3の実施形態であるH
TML文書情報抽出装置を詳細に説明する。
【0183】第3の実施形態は、オープンなネットワー
クに散在するHTML文書に対し、各HTML文書に内
在する情報を、項目別に抽出する情報検索を実現する。
第3の実施形態は、図3のHTML文書処理部134
を、テンプレート解析部1341と、URL−テンプレ
ート対応表1342と、テンプレート処理部1343と
により構成した点において、第1の実施形態の修正であ
る。尚、第3の実施形態は、図3および図15の構文解
析部12,問い合わせ項目探索部131,問い合わせ変
換部132,HTML文書メタデータ記憶部15、15
0、HTML文書メタデータ管理部16等を備えること
により上記の第1または第2の実施形態と適宜組み合わ
せて実施されてもよく、また図37に示す構成により単
独で実施されてもよい。
【0184】第3の実施形態は、HTML文書から情報
を項目別に抽出するために必要となるHTML文書の所
在情報と、HTML文書に内在するデータの文書構造情
報とを、各HTML文書ごとに設定し、これらの情報を
用いてHTMLに内在する情報を項目別に抽出する。具
体的には所在情報は、各HTML文書のURLとして個
別に管理される。PROXYの情報は、PROXY設定
ファイル中のPROXYサーバ名、PROXYポート番
号として管理されてもよい。文書構造情報は、HTML
文書中の表、リスト、箇条書きなどの部分構造に関する
情報であり、例えば抽出すべき項目がタグやスラッシュ
などのデリミタで区切られているという情報である。こ
の文書構造情報には、各項目の列、データ型などの各項
目の各種属性情報を含む。この文書構造情報は、テンプ
レートファイル中の項目名、抽出テキスト規定部、項目
名のデータ型等として管理される。このデータ型は例え
ば文字型、数値型などの値を持ち、各項目を処理するた
めの付加情報として定義される。各テンプレートファイ
ルと検索すべきHTML文書のURLまたはファイル名
は、URLまたはファイル名と、テンプレートファイル
名とを有するURL−テンプレート対応表により対応付
けられる。また、各HTML文書は、テンプレートファ
イル中の抽出テキスト規定部分が規定する表形式への対
応情報を参照することにより、表形式などの統一フォー
マットに変換される。尚、テンプレートファイルは、図
4および図16のHTML文書−表マッピングテーブル
152およびHTML文書項目テーブル153に対応す
る。
【0185】第3の実施形態は、これらのPROXY設
定ファイル、URL−テンプレート対応表、テンプレー
トファイルを参照し、ユーザがURLまたはファイル名
を指定すると、例えばURL指定時にはPROXY設定
ファイルを参照してHTML文書を取得した後、URL
−テンプレート対応表を参照して該当するテンプレート
ファイル名を取得し、取得されたHTML文書を先頭か
ら順番に1行または複数行単位でスキャンして、テンプ
レートファイルに記述される抽出テキスト規定部分と比
較した結果に基づいて項目を抽出する。この項目抽出の
際には、テンプレートファイル中で次ページへのリンク
の有無を検証し、次ページへのリンクが存在する場合、
このリングがなくなるまで次ページのURLもしくはフ
ァイル名を抽出してこのページの項目を抽出する処理を
繰り返し行う。テンプレートファイルを参照して項目の
マッチング判定を行うことにより、HTML文書に内在
する情報が表形式にマッピングされて項目単位に抽出さ
れる。第3の実施形態は、この抽出された各項目のデー
タをテンプレートファイルで規定されるデータ型に整形
し、ユーザーに項目名と整形済み項目情報を返却する。
従来の技術と比較して、HTML文書中では本来文字型
である文書の構成要素のデータ型を任意に規定すること
により検索条件を用いて抽出された情報を条件処理でき
る。さらに、第1および第2の実施形態と同様、項目デ
ータの表現形式をユーザが所望する形式に加工できる。
【0186】図37は、第3の実施形態に係るHTML
文書情報抽出装置の構成を示すブロック図である。第3
の実施形態に係るHTML文書情報抽出装置100は、
ユーザーアクセス部11と、HTML文書アクセス部1
4と、PROXY設定ファイル141と、HTML文書
処理部134と、テンプレートファイル1345と、検
索結果変換部135とで構成される。HTML文書処理
部134は、テンプレート解析部1341と、URL−
テンプレート対応表1342と、テンプレート処理部1
343とを有する。HTML文書情報抽出装置100
は、ユーザーのアプリケーションプログラム3からの問
い合わせ文301に基づき、PROXYサーバー2を介
してHTML文書にアクセスして、あるいは直接ローカ
ルのHTML文書にアクセスして、これらHTML文書
から得られた情報をテンプレート処理して検索結果30
2としてユーザーに返却する。
【0187】HTML文書情報抽出装置100は、複数
のHTML文書がネットワーク上に散在する環境で、H
TML文書の所在、使用されるタグの種類、内包される
構成要素の種類が異なっていても、HTML文書から項
目毎に情報を抽出するのに必要となる上記の各HTML
文書の所在情報、文書構造情報を各HTML文書個別に
設定することにより、HTML文書からの所望する検索
結果の表形式などの統一フォーマットでの抽出を実現す
るものである。
【0188】HTML文書情報抽出装置100のユーザ
アクセス部11は、ユーザからの問い合わせ文をアプリ
ケーションプログラム3から受信し、HTML文書アク
セス部14に送信する。HTML文書アクセス部14
は、ユーザアクセス部11から受信したURLまたはフ
ァイル名に基づいて必要に応じPROXY設定ファイル
141を参照して、HTML文書4−1、4−2を取得
する。この取得されたHTML文書4−1、4−2をテ
ンプレート解析部1341に送信する。HTML文書ア
クセス部14はまた、取得されたHTML文書がリンク
情報を含む場合には、テンプレート解析部1341が抽
出したリンク先URLに基づいて、必要に応じPROX
Y設定ファイル141を参照して、HTML文書4−
1、4−2を取得する。PROXY設定ファイル141
は、図39に示すように、HTML文書4−1、4−2
を取得するために必要なPROXYサーバの所在情報で
あるPROXYサーバ名、PROXYポート番号を規定
したファイルであり、HTML文書アクセス部14によ
り参照される。テンプレートファイル1345は、図4
0に示すように、HTML文書4−1、4−2から項目
として抽出可能な部位および抽出項目を抽出テキスト規
定部分に規定し、各抽出項目のデータ型を規定するファ
イルであり、テンプレート解析部1341により参照さ
れる。URL−テンプレート対応表1342は、受信し
たURL情報を元に、当該URLまたはファイル名がど
のテンプレートと対応しているかを管理するファイルで
あって、テンプレート解析部1341によって参照され
る。テンプレート解析部1341は、URL−テンプレ
ート対応表1342を参照して、問い合わせ文に対応す
るテンプレートファイル1345の名称を取得する。同
時に、このテンプレートファイル名を有するテンプレー
トファイル1345を参照し、取得されたHTML文書
の抽出可能な部位、抽出すべき項目、抽出すべき項目の
データ型等を解析、取得し、テンプレート処理部134
3へ送信する。この際テンプレートファイル1345上
でリンク先URLの有無も判断され、テンプレート解析
部1341はリンク先が存在する場合にはHTML文書
アクセス部14にリンク先URLを送信してリンク先H
TML文書を取得する。テンプレート処理部1343
は、テンプレート解析部1341から受信した抽出可能
な部位、抽出すべき項目、抽出すべき項目のデータ型に
基づいてHTML文書4−1,4−2から各項目を抽出
する。検索結果変換部135は、テンプレート処理部1
343から抽出されたデータおよびそのデータ型を受信
し、データ型に沿った抽出データの変換処理を行う。こ
の変換後の抽出データを検索結果302としてユーザイ
ンターフェース部11に送出する。
【0189】なお、このHTML文書情報抽出装置10
0は、第1および第2の実施形態と同様、CPU、メモ
リ、入出力装置、外部記憶装置等からなるコンピュータ
と、該コンピュータに読み取られた際、このコンピュー
タを前記各手段として機能させるためのプログラムを記
憶した媒体とによって実現することもできる。
【0190】PROXYサーバ2は、HTML文書情報
抽出装置100から指定されることが可能なHTML文
書取得の仲介を行うサーバであり、URLによって指定
されたHTML文書4−1をHTML文書情報抽出装置
100に返却する。HTML文書4−1,4−2は、オ
ープンなネットワーク上に散在するホームページを記述
したタグ付きテキストファイルである。アプリケーショ
ンプログラム3は、ユーザからのURLまたはファイル
名と、少なくとも検索項目を含む問い合わせ文を受け付
け、HTML文書情報抽出装置100からの受信結果を
ユーザに出力する。
【0191】次に、第3の実施形態に係るHTML文書
情報抽出装置100の処理手順を説明する。第3の実施
形態の処理手順は、図38に示す検索を実行する前に表
現形式等の準備を行う準備フェーズと、図41に示す検
索を実行する検索フェーズの2段階のフェーズがある。
尚、図38の準備フェーズの手順は管理者が適当なエデ
ィタ等を用いて作成・設定するものであり、HTML文
書情報抽出装置100自体を動作させて行うものではな
い。
【0192】(1)準備フェーズ 図38に示す準備フェーズでは、まず図39に示すよう
にPROXYサーバが必要な場合(ステップS600
Y)、PROXYサーバ名、PROXYポート番号を定
義してPROXY設定ファイル171が作成される(ス
テップS605)。次に、テンプレートファイルが作成
される(ステップS610)。このテンプレートファイ
ルには、複数のテンプレートファイル間で一意となるフ
ァイル名が与えられ、図40に例として示すように以下
の情報が記述される。
【0193】(a)抽出項目 この抽出項目は、図40の「Word」キーワードに対応す
る。
【0194】HTML文書から抽出したい情報として、
抽出すべき項目名、抽出すべき項目のデータ型、抽出す
べき項目に付け加える固定値を記述する。図40でこの
データ型は、”1”が文字型を示す。尚、このデータ型
には、”3”が数値型、”4”が文字列を追加する型等
と所望する条件処理に応じて設定することができる。図
40のテンプレートファイルには、リンク先アドレス
(URLの相対パス)等が「NextURL」で始まる部分に
記述されている。これらの抽出項目のデータ型及び抽出
項目に付け加える固定値は、ユーザーに検索結果を返却
する際に必要な情報を追加もしくは削除するために必要
となる。
【0195】(b)抽出テキスト規定部分 この抽出テキスト規定部分は、図40の「HtmlTemplat
e」部分に対応する。
【0196】抽出対象となるWebページより、抽出し
たい情報を含むHTML文書の一レコード分をコピーす
る。そのうち、取得したい情報部分を「$抽出項目名
$」に置き換え、残った記述のうちレコードに依存して
いる省略可能な記述を、省略記号「..」に置き換える。
【0197】また、同一HTML文書内に異なるテーブ
ルとして取り扱うべき情報が混在する場合、同一テーブ
ルの最後を特定する文字列を記入する。図40では、第
1、第2および第3の表の項目がそれぞれ定義されてい
る。
【0198】さらにリンク先のURLが存在する場合、
リンク先URLを特定する文字列を記入する。
【0199】次に、URL−テンプレート対応表を作成
する(ステップS620)。各URLまたはファイルに
対し、図41に示すように対応するテンプレートファイ
ル名を記述したファイルを作成する。
【0200】(2)実行フェーズ 図42は、第3の実施形態が取得したHTML文書から
所望する項目を抽出する実行フェーズの処理手順を示す
フローチャートである。
【0201】まず、ユーザーインターフェース部11
は、ユーザーがアプリケーションプログラム3に入力し
たURLまたはファイル名と、検索項目を含む検索文を
受け付ける(ステップS700)。HTML文書アクセ
ス部14は入力がURLの場合、PROXY設定ファイ
ル141があればそれを参照してHTML文書4−1を
取得する。入力がファイル名の場合、ローカルのHTM
L文書が指定される。ユーザアクセス部110により受
信されたURLまたはファイル名とPROXY設定ファ
イル141の記述内容に従って、HTML文書アクセス
部14はPROXYサーバ2を介するか、直接HTML
文書を取得する。また、HTML文書アクセス部14は
返却結果であるHTML文書4−1を受信する(ステッ
プS710)。
【0202】テンプレート解析部1341は、URLと
対応するテンプレートファイルの有無を判定する。ユー
ザインターフェース部11を介し受信したURLまたは
ファイル名を参照し、このURLまたはファイル名に対
応するテンプレートファイル名を図41のURL−テン
プレート対応表1342から探索する(ステップS72
0)。対応するテンプレートファイルが存在しない場合
(S720N)、ユーザインターフェース部11に対し
エラーメッセージを送信する。一方存在すれば(S72
0Y)、テンプレート解析部1341は、取得されたH
TML文書に対応するテンプレート名のテンプレートフ
ァイル1345に記述されている抽出ルールを解析し
(ステップS730)、抽出に必要な情報をテンプレー
ト処理部1343に送信する。
【0203】テンプレート処理部1343は、テンプレ
ートファイル1345の抽出ルールを用いて、HTML
文書4−1から実際に項目を抽出して表形式のデータを
得る(ステップS740)。テンプレート処理部134
3は、ステップS730の抽出ルール解析によりリンク
先URLの有無を判定する(ステップS750)。リン
ク先のURLが取得された場合(ステップS750
Y)、リンク先URLをHTML文書アクセス部14に
送信する。HTML文書アクセス部14により取得され
たリンク先HTML文書に対してステップS730〜S
750の処理を行う。
【0204】検索結果変換部135は、抽出された項目
の項目データを、図40のテンプレートファイル134
5を参照することで、以下のデータ変換処理を行って加
工する。
【0205】a).抽出した情報をそのまま表示すべき
データ型の項目データに、変換は実施しない。
【0206】b).固定値を代入すべきデータ型の項目
データには、HTML文書中に存在しないが、項目とし
て返却したい項目について検索結果変換処理部135が
有する固定値を返却する。
【0207】c).取得情報からカンマを削除すべきデ
ータ型の項目データには、数値情報中からカンマを削除
する。
【0208】d).取得情報に追加すべきデータ型の項
目データには、URLの相対パス等、抽出項目に対し付
加すべき固定値が存在する場合、当該固定値を付加す
る。
【0209】上記の処理で得られるすべての検索結果
は、ユーザインターフェース部11を介してアプリケー
ションプログラム3に送信され、表示される。
【0210】図43〜図46は第3の実施形態による項
目情報抽出の具体例を示すもので、図43はHTML文
書のWebブラウザでの表示例、図44は図43の表示に
対応するHTML記述例(但し、その一部分)である。
図45は、図43、図44のHTML文書からの項目抽
出を行うためのテンプレートファイル171を示すもの
で、各抽出項目、ここではレース名(racenam
e)、格(grade)、競馬場(cercle)、月
日(mmdd)、距離(distance)、天候・馬
場(condition)、タイム(time)、勝ち
馬(winhourse)、性齢(sex_age)、
騎手(jockey)、調教師(teki)、リンク先
(url)の各項目と、これら各項目を抽出するための
抽出テキスト規定部分とが記述されている。図46は、
図43,図44のHTML文書から図45のテンプレー
トファイル171を用いて項目抽出(検索)を行った結
果の一表示例を示す。この表示例はアプリケーションプ
ログラム3側で3つの項目(「騎手」「勝ち馬」「レー
ス名」)を検索項目として指定または選択した場合を示
す。
【0211】次に、図40、図47〜図50を参照し
て、第3の実施形態の変形例を説明する。第3の実施形
態では、図40に示すように同一HTML文書内の第1
および第2の表は、同一の構成要素からなる2つの部分
構造に対応してテンプレートが定義されている。尚、こ
こで部分構造とは、例えば表、リスト、箇条書きなどで
表現される意味のある1つのデータ群をいう。一方この
変形例は、第1に同一HTML文書内の任意の項目が他
の項目と異なる属性情報を含む場合にも対応できるテン
プレートを用いて上記の項目抽出を行う点、第2に同一
HTML文書内の異なる項目からなる複数の部分構造に
対応できるテンプレートを用いて上記の項目抽出を行う
点、第3にHTML文書がリンクを含む場合にも対応で
きるテンプレートを用いて上記の項目抽出を行う点にお
いて、第3の実施形態の変形である。
【0212】図47、図48は、店名情報を示すHTM
L文書のWebブラウザによる表示例を示す。図47と図
48とは、それぞれ3つの表からなり、同様の文書構造
を有するHTML文書である。図49は、図47の表示
に対応するHTML記述を、図50は、図48の表示に
対応するHTML記述を示す。図40は、図47および
図48(図49および図50)から項目を抽出するため
のテンプレートを示す。図40のテンプレートは、表ま
たは箇条書きなどのHTML文書中の部分構造の終端
(TableEndDelimiter)、抽出項目名(Word)、抽出項
目のデータ型(Word)、抽出テキスト規定部(HtmlTemp
late)に関する記述からなる。例えば、HTML文書中
の</TABLE>の出現を部分構造の終端とすること
を、TableEndDelimiter=</TABLE>と記述する。
【0213】図49が示す<A HREF="./html_2.html">
は、図50のHTML文書へのリンクを示す。テンプレ
ート解析部1341は、このリンク情報を解析する。テ
ンプレート処理部1343は、このリンク情報に従い図
40のテンプレートの記述(NextURL)に基づいて、図
47のHTML文書のみでなく図48のHTML文書か
らテンプレートを参照して項目抽出を行う。
【0214】図47の表示に対応する図49のHTML
記述中第1の表と第2の表とは、同一構成要素の文書構
造、同一表示形式の情報を備えた2つの部分構造であ
る。テンプレート処理部1343は、図40のテンプレ
ートの第1および第2の部分構造(図53では表)に関
する記述に基づき、同一HTML文書内の同一文書構造
の複数の部分構造の項目情報を抽出する。図48の表示
に対応する図50のHTML記述は図49のHTML記
述と同様の文書構造を有し、図40のテンプレートによ
り図49のHTMLソース記述と同様に項目情報が抽出
される。
【0215】尚、図49のHTMLソース記述中第1の
表と第2の表とは、異なる属性(図49では表示属性)
を含む2つの部分構造である。図49のHTML記述中
構成要素「ジャンル」に対応するデータは、<I>と<
/I>で囲まれた構造のものと、そうでない構造のもの
がある。この「I」タグは、対応するデータをイタリッ
ク書体で表示することを示す。同様に「B」タグは、対
応するデータを太字で表示することを示す。これらの異
なる属性に関する情報は、図40のテンプレート上で
は、同一行について2つの記述として定義されている。
取得されたHTML文書がいずれかの行の記述に合致す
れば、対応する項目が抽出される。図40では、上記属
性に対応する記述として、省略を示すタグ「..」が用
いられているので、任意の属性を有するデータを抽出す
ることができる。
【0216】一方、図47の表示に対応する図49のH
TMLソース記述中第1および第2の表に対し第3の表
は、異なる抽出項目に対応する構成要素「評価」に対応
するデータを含む部分構造である。テンプレート処理部
1343は、図40の第3の表に対応する記述に基づい
て、同一HTML文書内の異なる構成要素の文書構造の
複数部分構造を抽出する。
【0217】以上説明したように、第3の実施形態によ
れば、複数の任意のHTML文書に対し、当該HTML
文書が内包する情報に関する各種の情報を管理し、当該
情報を用いてユーザに対し適切な情報を項目別に抽出
し、表形式などの統一フォーマットにて提供することが
可能となる。また、ユーザが要求する抽出対象のみを抽
出テキスト規定部分に規定することにより、システム構
築/維持管理が容易となる。即ち、各HTML文書が有
する多種多様なインタフェースの相違に拘わらず、オー
プンなネットワーク上に散在する複数のHTML文書か
ら、情報を項目別に抽出することが可能となり、抽出し
た情報をユーザが所望する形式により提供することが可
能となる。
【0218】このように、第3の実施形態は、HTML
の構文規則に依存しないテンプレートを用いて、HTM
L文書から所望する項目を抽出する。即ち、タグまたは
これに準ずるデリミタ付きテキストであれば項目の抽出
が可能である。また、抽出のための情報を定義するテン
プレートファイルを作成するだけで、この項目の抽出を
行う。テンプレートファイルは、対象となるHTML文
書に基づき容易に作成可能であり、かつ視覚的にわかり
やすいため、容易かつ柔軟にHTML文書に内在する情
報の項目別の抽出を実現することができる。
【0219】尚、本発明は、上述した実施の形態に限定
されるものではなく、その要旨を逸脱しない範囲におい
て、種々変更することが可能である。
【0220】
【発明の効果】以上説明したように、本発明によれば、
オープンなネットワークに散在する複数のHTML文書
に対して該複数のHTML文書に内在する情報の文書構
造、構成要素、表現形式等が互いに異なってもこれら複
数の文書を跨った情報検索を実現し、HTML記述上の
差異をユーザ毎の統一形式に変換して一括して検索結果
を返却することができる。
【0221】さらに、各HTML文書が有する多種多様
なインタフェースの相違に拘わらず、オープンなネット
ワーク上に散在する複数のHTML文書から、情報を項
目別に抽出することが可能となり、抽出した情報をユー
ザが所望する形式により提供することが可能となる。
【0222】また、オープンなネットワークに散在する
複数のサーチエンジンに対して検索を要求する場合、各
サーチエンジン固有の入力フォームのオブジェクトを個
別に管理することにより、異種の各サーチエンジンへの
インターフェースの相違を解消して、複数の任意の入力
項目に対応した柔軟な検索が可能となる。
【0223】従って従来に比較して、人手による多くの
時間や労力が不要となり、検索効率が画期的に向上す
る。
【図面の簡単な説明】
【図1】本発明に係るHTML文書情報統合検索のユー
ザーの処理手順を説明する図である。
【図2】本発明に係るHTML文書情報統合検索装置の
原理を説明する図である。
【図3】本発明の第1の実施形態に係るHTML文書情
報統合検索装置の構成を示すブロック図である。
【図4】第1の実施形態に係るHTML文書メタデータ
記憶部が有するテーブルの構成を説明する図である。
【図5】第1の実施形態における準備フェーズの処理手
順を示すフローチャートである。
【図6】第1の実施形態における検索フェーズの処理手
順を示すフローチャートである。
【図7】あるHTML文書における表示およびHTML
記述の一例を示す図である。
【図8】他のHTML文書における表示およびHTML
記述の一例を示す図である。
【図9】HTML文書テーブルの内容を示す図である。
【図10】図7(B)および図8(B)に対応するHT
ML文書−表マッピングテーブルの内容を示す図であ
る。
【図11】図7および図8に対応するHTML文書項目
テーブルの内容を示す図である。
【図12】ドメインテーブルの内容を示す図である。
【図13】ユーザードメインテーブルの内容を示す図で
ある。
【図14】ドメイン変換関数テーブルの内容を示す図で
ある。
【図15】本発明の第2の実施形態に係るインターネッ
ト情報統合検索装置の構成を示すブロック図である。
【図16】第2の実施形態に係るHTML文書メタデー
タ記憶部が有するテーブルの構成を説明する図である。
【図17】第2の実施形態で使用される各サーチエンジ
ンの入力フォームの例を説明する図である。
【図18】図17(B)の入力フォームのHTML記述
を示す図である。
【図19】第2の実施形態における準備フェーズの処理
手順を示すフローチャートである。
【図20】第2の実施形態におけるHTML文書項目テ
ーブルの内容の一例を説明する図である。
【図21】第2の実施形態におけるHTML文書テーブ
ルの内容の一例を説明する図である。
【図22】第2の実施形態におけるHTML文書−表マ
ッピングテーブルの内容の一例を説明する図である。
【図23】第2の実施形態におけるドメインテーブルの
内容の一例を示す図である。
【図24】第2の実施形態におけるドメイン変換関数テ
ーブルの内容の一例を示す図である。
【図25】第2の実施形態におけるユーザードメインテ
ーブルの内容の一例を示す図である。
【図26】第2の実施形態の入力必須項目テーブルの内
容の一例を示す図である。
【図27】検索要求処理における図15の第2の実施形
態に係るインターネット情報統合検索装置と各サーチエ
ンジンとの関係を説明する図である。
【図28】第2の実施形態の検索パターンマトリックス
テーブルの内容を示す図である。
【図29】第2の実施形態における検索フェーズの処理
手順を示すフローチャートである。
【図30】図29のステップS410で探索されたデー
タ項目の所在を示す図である。
【図31】図29のステップS440で得られたページ
Aに対する検索要求の処理パターンを示す図である。
【図32】図29のステップS440で得られたページ
Bに対する検索要求の処理パターンを示す図である。
【図33】図29のステップS440で得られたページ
Cに対する検索要求の処理パターンを示す図である。
【図34】図29のステップS450で得られたユーザ
ー入力ドメインとローカルドメインとの対応情報を示す
図である。
【図35】ページBに対する検索要求の処理結果の表示
例およびHTML記述を示す図である。
【図36】図29のステップS500で得られたユーザ
ー出力ドメインとローカルドメインとの対応情報を示す
図である。
【図37】本発明の第3の実施形態に係るHTML文書
情報抽出装置の構成を示すブロック図である。
【図38】第3の実施形態における準備フェーズの処理
手順を示すフローチャートである。
【図39】PROXY設定ファイルの内容の一例を示す
図である。
【図40】第3の実施形態におけるテンプレートファイ
ルの内容の一例を示す図である。
【図41】URL−テンプレート対応表の内容の一例を
示す図である。
【図42】第3の実施形態における実行フェーズの処理
手順を示すフローチャートである。
【図43】HTML文書のWebブラウザによる表示の一
例を示す図である。
【図44】図43の表示に対応するHTML記述の一部
を示す図である。
【図45】図43、図44に対応するテンプレートファ
イルの内容を示す図である。
【図46】第3の実施形態が図43のHTML文書から
抽出した検索結果の表示の一例を示す図である。
【図47】第3の実施形態の変形例におけるHTML文
書のWebブラウザによる表示の一例を示す図である。
【図48】図47のHTML文書からリンクされる図4
7の文書と同一の文書構造を有するHTML文書のWeb
ブラウザによる表示の一例を示す図である。
【図49】図47の表示に対応するHTML記述を示す
図である。
【図50】図48の表示に対応するHTML記述を示す
図である。
【図51】従来のHTML文書情報検索のユーザーの処
理手順を説明する図である。
【図52】従来のHTML文書情報検索の原理を説明す
る図である。
【符号の説明】
1 HTML文書情報統合検索装置 2 PROXYサーバ 3 アプリケーションプログラム 10 インターネット情報統合検索装置 11 ユーザーインターフェース部 12 構文解析部 13 問い合わせ処理部 14 HTML文書アクセス部 15、150 HTML文書メタデータ記憶部 16 HTML文書メタデータ管理部 4、21、202 HTML文書 22 Webサーバー 23 サーチエンジン 24 データベース 100 HTML文書情報抽出装置 131 問い合わせ項目探索部 132 問い合わせ項目変換部 133 変換関数ライブラリ 134 HTML文書処理部 135 検索結果変換部 136 入力必須項目探索部 137 検索パターン判定部 138 検索結果処理部 139 マトリックステーブル 151 HTML文書テーブル 152 HTML文書−表マッピングテーブル 153 HTML文書項目テーブル 154 ドメインテーブル 155 ユーザードメインテーブル 156 ドメイン変換関数テーブル 157 入力必須項目テーブル 190、290 通信網 201 HTML文書要求 203 検索要求 204 検索結果 301 問い合わせ文 302 検索結果 1341 テンプレート解析部 1342 URL/テンプレート対応表 1343 テンプレート処理部 1345 テンプレートファイル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 星野 隆 東京都新宿区西新宿三丁目19番2号 日 本電信電話株式会社内 (72)発明者 町原 宏毅 東京都新宿区西新宿三丁目19番2号 日 本電信電話株式会社内 (56)参考文献 特開 平9−319757(JP,A) 特開 平9−311869(JP,A) 特開 平2−87274(JP,A) 特開 平10−143523(JP,A) 特開 平11−73428(JP,A) 特開 平4−222056(JP,A) 特開 平10−187753(JP,A) 欧州特許出願公開964341(EP,A 2) 手塚祐一,冨田一郎,山本修一郎, 「インターネット仮想商店検索システ ム:RBIMD」,NTT技術ジャーナ ルVol.10,No.5,pp.50−52 (平成10年5月1日) 冨田一郎,手塚祐一,山本修一郎,長 岡満夫,「HTML文書からの商品情報 抽出方式の提案」,電子情報通信学会技 術研究報告Vol.97,No.502(K BSE97−25〜29),pp.15−22(平 成10年1月22日) 冨田一郎,手塚祐一,山本修一郎,長 岡満夫,「HTML文書からの商品情報 抽出方式の提案」,情報処理学会第56回 (平成10年前期)全国大会講演論文集 (3),pp.3−79〜3−80(平成10 年3月17日) 町原宏毅,綱川光明,星野隆,鈴木源 吾,「ネットワーク上にある複数データ ベースをまたがる一括検索を可能に マ ルチデータベース情報源管理/検索シス テム−DBSENA−を開発」,NTT 技術ジャーナルVol10,No.1(平 成10年1月1日) 冨田一郎,手塚祐一,山本修一郎,綱 川光明,「WWWによるマルチデータベ ース検索システム:WebSENA」, NTT技術ジャーナルVol10,No. 5,pp.55−58(平成10年5月1日) 星野隆,綱川光明,町原宏毅,「DB SENA:マルチデータベース環境にお ける情報資源管理と検索方式」,情報処 理学会研究報告Vol.98,No.2, pp.113−120(平成10年1月20日) 永末寿宏,綱川光明,町原宏毅,「D −4−5 WWW環境における情報資源 管理と検索方式に関する検討」,電子情 報通信学会1998年情報・システムソサイ エティ大会講演論文集p21(平成10年9 月29日) 星野隆,綱川光明,町原宏毅,「マル チデータベース環境における関連情報推 定と検索方式」,情報処理学会研究報告 Vol.98,No.58(98−DBS− 116(2)),pp.389−396(平成10 年7月10日) 綱川光明,星野隆,町原宏毅,「マル チデータベース環境におけるジャンル検 索方式」,情報処理学会研究報告Vo l.98,No.60,pp.17−24(平成 10年7月17日) WWWの情報検索に新技術−商品探す 「エージェント」登場,日経マルチメデ ィアJULY,1997,No.25,pp. 24−25(平成9年7月15日) 坂田毅,多田浩之,大竹智久,「WW W上におけるMetadataの記述と オンラインショッピングへの応用」,情 報処理学会第54回(平成9年前期)全国 大会講演論文集(3),pp.3−151 〜3−152(平成9年3月12日) 遠山元道,「関係データベースに基づ く半構造データの実現と管理」,情報処 理学会研究報告Vol.98,No.2, pp.105−112(平成10年1月20日) 古館丈裕,岡安光彦,石川佳治,植村 俊亮,「構造化文書データベースに対す るラッピング手法の提案」,情報処理学 会研究報告Vol.96,No.68(96− DBS−109),pp.305−310 Naveen Ashish and Craig A.Knobloc k,”Wrapper Generat ion for Semi−struc tured Internet Sou rces”,SIGMOD Recor d,Vol.26,No.4,pp.8− 15(平成9年12月) 小西修ほか,「アクティブ・メディエ ーション・システムのためのメディエー タ言語とエージェント・モデルについ て」,情報処理学会研究報告Vo.98, No.2(98−DBS−114),pp. 81−88(平成10年1月19日) Robert A.Nado,Sco tt B.Huffman,”Extr acting Entity Prof iles from Semistru ctured Information Spaces”,SIGMOD Re cord,Vol.26,No.4,p p.32−38(平成9年12月) 斎藤孝文,山本修一郎,「インターネ ット・コマースの発展を目指して」,N TT技術ジャーナルVol.10,No. 5,pp.42−46(平成10年5月1日) 上林弥彦,「マルチデータベースの研 究開発動向」,情報処理Vol.35,N o.2,pp.105−119(平成6年2月 15日) Robert B.Doorenbo s,Oren Etzioni,and Daniel S.Weld.”A Scalable Compariso n−Shopping Agent f or the World−Wid W eb”,Proceedings of the First Interna tional Conference on Autonomous Agen ts,pp.39−48(平成9年2月5 日) Steve D.Griswold, 「解き放たれるエージェント」,Int ernetworking Vol2, No.8,pp.32−37,株式会社アス キー(平成8年8月1日) Feh−Chun Cheong," Internet Agents: S piders,Wanderers,B rokers,and’Bots”,p p.337−353,New Riders Publishing,1996 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 310 G06F 17/30 419 G06F 12/00 546 JICSTファイル(JOIS)

Claims (37)

    (57)【特許請求の範囲】
  1. 【請求項1】 オープンネットワーク上の複数の半構造
    化文書に内在する情報を検索する半構造化文書情報統合
    検索装置であって、 オープンネットワーク上での半構造化文書の所在を示す
    所在情報と、前記半構造化文書の構造を、抽出すべき項
    目ごとに区切るための文書構造情報と、前記項目ごとに
    前記項目を条件検索するために用いるデータ属性を規定
    するデータ属性情報と、ユーザーの表示における項目の
    表現形式各半構造化文書の項目の表現形式およびこれ
    らの間の表現形式を変換するために用いる関数を定義す
    る表現形式変換情報とを、各半構造化文書の項目情報を
    記述するために参照されるメタデータとして記憶する記
    憶部と、 検索項目および検索条件からなる入力された問い合わせ
    に基づいて、すべての検索項目に対応する項目を有する
    半構造化文書の所在を前記所在情報から得る文書所在探
    索部と、 入力された前記問い合わせを、前記表現形式変換情報に
    基づいて、前記得られた所在にある半構造化文書中の前
    記検索項目に対応する項目の表現形式に必要に応じ前記
    関数を参照して変換する問い合わせ変換部と、 前記変換された問い合わせを前記得られた所在に送信し
    て、半構造化文書を取得する文書検索部と、 取得された各半構造化文書から、前記文書構造情報に基
    づいて、項目データを抽出し、前記検索条件を用い、前
    データ属性情報に基づいて前記抽出された項目データ
    を選択して検索結果とする文書処理部と、 前記検索結果を、前記表現形式変換情報に基づいて、前
    記検索結果中の項目に対応する各ユーザーごとに定義さ
    れた項目の表現形式に必要に応じ前記関数を参照して
    換する検索結果変換部とを具備することを特徴とする半
    構造化文書情報統合検索装置。
  2. 【請求項2】 上記半構造化文書情報統合検索装置は、
    さらに、 半構造化文書ごとに、半構造化文書の構造を抽出すべき
    項目ごとに区切るための文書構造情報に基づき、少なく
    とも抽出すべき項目名と、半構造化文書から抽出すべき
    項目群の抽出テキスト形式情報を記述するテンプレート
    を記憶するテンプレート記憶部と、 取得された半構造化文書に対応するテンプレートを解析
    するテンプレート解析部と、 前記取得された半構造化文書をスキャンして、該半構造
    化文書と、前記テンプレートとを比較して、前記抽出テ
    キスト形式情報に合致した項目の項目データを抽出する
    テンプレート処理部とを具備し、 前記テンプレートには、各項目データに対応する変数名
    が記述されるとともに、半構造化文書が複数の部分構造
    を有する場合、各部分構造ごとに抽出テキスト形式情報
    が記述され、 前記テンプレート処理部は、抽出された項目データを、
    各部分構造ごとの検索結果と することを特徴とする請求
    に記載の半構造化文書情報統合検索装置。
  3. 【請求項3】 前記文書処理部は、前記検索結果を、表
    形式に整形することを特徴とする請求項に記載の半構
    造化文書情報統合検索装置。
  4. 【請求項4】 前記文書処理部は、前記テンプレート中
    の前記抽出テキスト形式情報が、他の半構造化文書への
    リンク情報を含む場合には、リンク先の半構造化文書を
    スキャンして、前記リンク先の半構造化文書と前記テン
    プレートとを比較することを特徴とする請求項に記載
    の半構造化文書情報統合検索装置。
  5. 【請求項5】 前記テンプレートは、半構造化文書の各
    部分構造に対して、前記部分構造の一部に存在する、前
    記文書構造情報が他の部分と異なる部分をそれぞれ抽出
    するための、異なるタグにそれぞれ対応する複数の抽出
    テキスト形式情報が記述され、 前記テンプレート処理部は、前記取得された第1の検索
    結果である半構造化文書をスキャンして、該半構造化文
    書と、該半構造化文書に対応する前記テンプレート中の
    前記複数の抽出テキスト形式情報のいずれかが合致した
    場合に、合致した項目の項目データを抽出することを特
    徴とする請求項に記載の半構造化文書情報統合検索装
    置。
  6. 【請求項6】 前記テンプレートは、半構造化文書が互
    いに異なる要素からなる複数の部分構造を有する場合、
    各部分構造ごとに抽出テキスト形式情報が記述され、 前記テンプレート処理部は、抽出された項目データを、
    各部分構造ごとの検索結果とすることを特徴とする請求
    に記載の半構造化文書情報統合検索装置。
  7. 【請求項7】 オープンネットワーク上の複数のサーチ
    エンジンを介して情報を検索する半構造化文書情報統合
    検索装置であって、 オープンネットワーク上でのサーチエンジンの所在を示
    す所在情報と、各サーチエンジンへの入力フォームにお
    いて入力が必要とされる入力必須項目を定義する入力必
    須項目情報と、HTML文書の構造を、抽出すべき項目
    ごとに区切るための文書構造情報と、項目ごとに各サー
    チエンジン内において該項目が取得可能か否かおよび条
    件指定可能か否かを示す項目属性情報と、前記項目ごと
    に前記項目を条件検索するためのデータ属性を規定する
    データ属性情報と、ユーザーの項目の表現形式と各HT
    ML文書の項目の表現形式との間の変換情報を定義する
    表現形式変換情報とを記憶する記憶部と、 検索項目および検索条件からなるユーザーから入力され
    た問い合わせに基づいて、すべての検索項目に対応する
    項目を有するサーチエンジンの所在を前記所在情報から
    得る文書所在探索部と、前記入力必須項目情報に基づいて、各サーチエンジンに
    おける入力必須項目と前記入力された問い合わせで指定
    された項目とを比較することにより、 前記得られた所在
    のサーチエンジンの中から、前記入力必須項目を満たす
    検索項目が指定されたサーチエンジンを、検索対象サー
    チエンジンとして選択するサーチエンジン選択部と、 前記入力された検索項目および検索条件と、前記項目属
    性情報との組み合わせを規定するマトリックステーブル
    に基づき各サーチエンジンごとに最適な検索処理パター
    ンを得て、前記問い合わせを各サーチエンジンごとに前
    記検索処理パターンに適合する問い合わせ群に変換する
    検索パターン判定部と、 前記変換された問い合わせ群のそれぞれを、前記表現形
    式変換情報に基づいて、前記検索対象サーチエンジンの
    前記検索項目に対応する項目の表現形式に変換する問い
    合わせ変換部と、 前記変換された問い合わせを前記得られた所在に送信し
    て、HTML文書を取得する文書検索部と、 各サーチエンジンから取得されたHTML文書からなる
    第1の検索結果から、前記文書構造情報に基づいて、項
    目データを抽出するとともに、少なくともサーチエンジ
    ンにおいて条件検索が実行されなかった項目に関し、
    応する前記検索処理パターンに従い、前記検索条件およ
    前記データ属性情報に基づいて、抽出された項目デー
    から前記検索条件に合致する項目データを選択して、
    第2の検索結果とする検索結果処理部と、 前記第2の検索結果を、前記表現形式変換情報に基づい
    て、前記検索結果中の項目に対応する各ユーザーごとに
    定義された項目の表現形式に変換する検索結果変換部と
    を具備することを特徴とする半構造化文書情報統合検索
    装置。
  8. 【請求項8】 上記半構造化文書情報統合検索装置は、
    さらに、 HTML文書ごとに、HTML文書の構造を抽出すべき
    項目ごとに区切るための文書構造情報に基づき、少なく
    とも抽出すべき項目名と、HTML文書から抽出すべき
    項目群の抽出テキスト形式情報を記述するテンプレート
    を記憶するテンプレート記憶部と、 取得されたHTML文書に対応するテンプレートを解析
    するテンプレート解析部と、 前記取得されたHTML文書をスキャンして、該HTM
    L文書と、前記テンプレートとを比較して、前記抽出テ
    キスト形式情報に合致した項目の項目データを抽出する
    テンプレート処理部とを具備し、 前記テンプレートには、各項目データに対応する変数名
    が記述されるとともに、HTML文書が複数の同一部分
    構造を有する場合、各部分構造ごとに抽出テキスト形式
    情報が記述され、 前記テンプレート処理部は、抽出された項目データを、
    各部分構造ごとの検索結果と することを特徴とする請求
    に記載の半構造化文書情報統合検索装置。
  9. 【請求項9】 前記文書処理部は、前記検索結果を、表
    形式に整形することを特徴とする請求項に記載の半構
    造化文書情報統合検索装置。
  10. 【請求項10】 前記文書処理部は、前記テンプレート
    中の前記抽出テキスト形式情報が、他のHTML文書へ
    のリンク情報を含む場合には、リンク先のHTML文書
    をスキャンして、前記リンク先のHTML文書と前記テ
    ンプレートとを比較することを特徴とする請求項に記
    載の半構造化文書情報統合検索装置。
  11. 【請求項11】 前記テンプレートは、HTML文書の
    各部分構造に対して、前記部分構造の一部に存在する
    前記文書構造情報が他の部分と異なる部分をそれぞれ抽
    出するための、異なるタグにそれぞれ対応する複数の抽
    出テキスト形式情報が記述され、 前記テンプレート処理部は、前記取得された第1の検索
    結果であるHTML文書をスキャンして、該HTML文
    書と、該HTML文書に対応する前記テンプレート中の
    前記複数の抽出テキスト形式情報のいずれかが合致した
    場合に、合致した項目の項目データを抽出することを特
    徴とする請求項に記載の半構造化文書情報統合検索装
    置。
  12. 【請求項12】 前記テンプレートは、HTML文書が
    互いに異なる項目からなる複数の部分構造を有する場
    合、各部分構造ごとに抽出テキスト形式情報が記述さ
    れ、 前記文書処理部は、抽出された項目データを、各部分構
    造ごとの検索結果とすることを特徴とする請求項に記
    載の半構造化文書情報統合検索装置。
  13. 【請求項13】 オープンネットワーク上の任意のHT
    ML文書に内在する情報から項目ごとに情報を抽出する
    半構造化文書情報抽出装置であって、 HTML文書ごとに、HTML文書の構造を抽出すべき
    項目ごとに区切るための文書構造情報に基づき、少なく
    とも抽出すべき項目名と、HTML文書から抽出すべき
    項目群の抽出テキスト形式情報を記述するテンプレート
    を記憶するテンプレート記憶部と、 取得されたHTML文書に対応するテンプレートを解析
    するテンプレート解析部と、 前記取得されたHTML文書をスキャンして、該HTM
    L文書と、前記テンプレートとを比較して、前記抽出テ
    キスト形式情報に合致した項目の項目データを抽出する
    テンプレート処理部とを具備し、 前記テンプレートには、各項目データに対応する変数名
    が記述されるとともに、HTML文書が複数の部分構造
    を有する場合、各部分構造ごとに抽出テキスト形式情報
    が記述され、 前記テンプレート処理部は、抽出された項目データを、
    各部分構造ごとの検索結果と することを特徴とする半構
    造化文書情報抽出装置。
  14. 【請求項14】 前記テンプレート処理部は、前記抽出
    された項目データを、表形式に整形することを特徴とす
    る請求項13に記載の半構造化文書情報抽出装置。
  15. 【請求項15】 前記テンプレート処理部は、前記テン
    プレート中の前記抽出テキスト形式情報が、他のHTM
    L文書へのリンク情報を含む場合には、リンク先のHT
    ML文書をスキャンして、前記リンク先のHTML文書
    と前記テンプレートとを比較することを特徴とする請求
    13に記載の半構造化文書情報抽出装置。
  16. 【請求項16】 前記テンプレートは、HTML文書の
    各部分構造に対して、前記部分構造の一部に存在する
    前記文書構造情報が他の部分と異なる部分をそれぞれ抽
    出するための、異なるタグにそれぞれ対応する複数の抽
    出テキスト形式情報が記述され、 前記テンプレート処理部は、前記取得された第1の検索
    結果であるHTML文書をスキャンして、該HTML文
    書と、該HTML文書に対応する前記テンプレート中の
    前記複数の抽出テキスト形式情報のいずれかが合致した
    場合に、合致した項目の項目データを抽出することを特
    徴とする請求項13に記載の半構造化文書情報抽出装
    置。
  17. 【請求項17】 前記テンプレートは、HTML文書が
    互いに異なる項目からなる複数の部分構造を有する場
    合、各部分構造ごとに抽出テキスト形式情報が記述さ
    れ、 前記テンプレート処理部は、抽出された項目データを、
    各部分構造ごとの検索結果とすることを特徴とする請求
    13に記載の半構造化文書情報抽出装置。
  18. 【請求項18】 オープンネットワーク上の複数の半構
    造化文書に内在する情報を検索する半構造化文書情報統
    合検索方法であって、オープンネットワーク上での半構造化文書の所在を示す
    所在情報と、前記半構造化文書の構造を、抽出すべき項
    目ごとに区切るための文書構造情報と、前記項目ごとに
    前記項目を条件検索するために用いるデータ属性を規定
    するデータ属性情報と、ユーザーの表示における項目の
    表現形式、各半構造化文書の項目の表現形式およびこれ
    らの間の表現形式を変換するために用いる関数を定義す
    る表現形式変換情報とを、各半構造化文書の項目情報を
    記述するために参照されるメタデータとして記憶するス
    テップと、 検索項目および検索条件からなる入力された問い合わせ
    に基づいて、すべての検索項目に対応する項目を有する
    半構造化文書の所在を前記所在情報から得るステップ
    と、 入力された前記問い合わせを、前記表現形式変換情報に
    基づいて、前記得られた所在にある半構造化文書中の前
    記検索項目に対応する項目の表現形式に必要に応じ前記
    関数を参照して変換するステップと、 前記変換された問い合わせを前記得られた所在に送信し
    て、半構造化文書を取得するステップと、 取得された各半構造化文書から、前記文書構造情報に基
    づいて項目データを抽出し、前記検索条件を用い、
    記データ属性情報に基づいて前記抽出された項目データ
    を選択して検索結果とするステップと、 前記検索結果を、前記表現形式変換情報に基づいて、前
    記検索結果中の項目に対応する各ユーザーごとに定義さ
    れた項目の表現形式に必要に応じ前記関数を参照して
    換するステップとを含むことを特徴とする半構造化文書
    情報統合検索方法。
  19. 【請求項19】 オープンネットワーク上の複数のサー
    チエンジンを介して情報を検索する半構造化文書情報統
    合検索方法であって、オープンネットワーク上でのサーチエンジンの所在を示
    す所在情報と、各サーチエンジンへの入力フォームにお
    いて入力が必要とされる入力必須項目を定義する入力必
    須項目情報と、HTML文書の構造を、抽出すべき項目
    ごとに区切るための文書構造情報と、項目ごとに各サー
    チエンジン内において該項目が取得可能か否かおよび条
    件指定可能か否かを示す項目属性情報と、前記項目ごと
    に前記項目を条件検索するためのデータ属性を規定する
    データ属性情報と、ユーザーの項目の表現形式と各HT
    ML文書の項目の表現形式との間の変換情報を定義する
    表現形式変換情報とを記憶するステップと、 検索項目および検索条件からなるユーザーから入力され
    た問い合わせに基づいて、すべての検索項目に対応する
    項目を有するサーチエンジンの所在を前記所在情報から
    得るステップと、前記入力必須項目情報に基づいて、各サーチエンジンに
    おける入力必須項目と前記入力された問い合わせで指定
    された項目とを比較することにより、 前記得られた所在
    のサーチエンジンの中から、前記入力必須項目を満たす
    検索項目が指定されたサーチエンジンを、検索対象サー
    チエンジンとして選択するステップと、 前記入力された検索項目および検索条件と、前記項目属
    性情報との組み合わせを規定するマトリックステーブル
    に基づき各サーチエンジンごとに最適な検索処理パター
    ンを得て、前記問い合わせを各サーチエンジンごとに前
    記検索処理パターンに適合する問い合わせ群に変換する
    ステップと、 前記変換された問い合わせ群のそれぞれを、前記表現形
    式変換情報に基づいて、前記検索対象サーチエンジンの
    前記検索項目に対応する項目の表現形式に変換するステ
    ップと、 前記変換された問い合わせを前記得られた所在に送信し
    て、HTML文書を取得するステップと、 各サーチエンジンから取得されたHTML文書からなる
    第1の検索結果から、前記文書構造情報に基づいて、項
    目データを抽出するとともに少なくともサーチエンジ
    ンにおいて条件検索が実行されなかった項目に関し、
    応する前記検索処理パターンに従い、前記検索条件およ
    前記データ属性情報に基づいて、抽出された項目デー
    から前記検索条件に合致する項目データを選択して、
    第2の検索結果とするステップと、 前記第2の検索結果を、前記表現形式変換情報に基づい
    て、前記検索結果中の項目に対応する各ユーザーごとに
    定義された項目の表現形式に変換するステップとを含む
    ことを特徴とする半構造化文書情報統合検索方法。
  20. 【請求項20】 オープンネットワーク上の任意のHT
    ML文書に内在する情報から項目ごとに情報を抽出する
    半構造化文書情報抽出方法であって、HTML文書ごとに、HTML文書の構造を抽出すべき
    項目ごとに区切るための文書構造情報に基づき、少なく
    とも抽出すべき項目名と、HTML文書から抽出すべき
    項目群の抽出テキスト形式情報を記述するテンプレート
    を記憶するステップと、 取得されたHTML文書に対応するテンプレートを解析
    するステップと、 前記取得されたHTML文書をスキャンして、該HTM
    L文書と、前記テンプレートとを比較して、前記抽出テ
    キスト形式情報に合致した項目の項目データを抽出する
    ステップとを含み、 前記テンプレートには、各項目データに対応する変数名
    が記述されるとともに、HTML文書が複数の部分構造
    を有する場合、各部分構造ごとに抽出テキスト形式情報
    が記述され、 前記項目データを抽出するステップは、抽出された項目
    データを、各部分構造ごとの検索結果と することを特徴
    とする半構造化文書情報抽出方法。
  21. 【請求項21】 オープンネットワーク上の複数の半構
    造化文書に内在する情報を検索する処理をコンピュータ
    に実行させるプログラムを記録するコンピュータ読み取
    り可能な記録媒体であって、オープンネットワーク上での半構造化文書の所在を示す
    所在情報と、前記半構造化文書の構造を、抽出すべき項
    目ごとに区切るための文書構造情報と、前記項目ごとに
    前記項目を条件検索するために用いるデータ属性を規定
    するデータ属性情報と、ユーザーの表示における項目の
    表現形式、各半構造化文書の項目の表現 形式およびこれ
    らの間の表現形式を変換するために用いる関数を定義す
    る表現形式変換情報とを、各半構造化文書の項目情報を
    記述するために参照されるメタデータとして記憶する記
    憶処理と、 検索項目および検索条件からなる入力された問い合わせ
    に基づいて、すべての検索項目に対応する項目を有する
    半構造化文書の所在を前記所在情報から得る文書所在探
    索処理と、 入力された前記問い合わせを、前記表現形式変換情報に
    基づいて、前記得られた所在にある半構造化文書中の前
    記検索項目に対応する項目の表現形式に必要に応じ前記
    関数を参照して変換する問い合わせ変換処理と、 前記変換された問い合わせを前記得られた所在に送信し
    て、半構造化文書を取得する文書検索処理と、 取得された各半構造化文書から、前記文書構造情報に基
    づいて、項目データを抽出し、前記検索条件を用い、前
    データ属性情報に基づいて前記抽出された項目データ
    を選択して検索結果とする文書処理と、 前記検索結果を、前記表現形式変換情報に基づいて、前
    記検索結果中の項目に対応する各ユーザーごとに定義さ
    れた項目の表現形式に必要に応じ前記関数を参照して
    換する検索結果変換処理とを含むことを特徴とするコン
    ピュータ読み取り可能な記録媒体。
  22. 【請求項22】 上記コンピュータ読み取り可能な記録
    媒体は、さらに、半構造化文書ごとに、半構造化文書の構造を抽出すべき
    項目ごとに区切るための文書構造情報に基づき、少なく
    とも抽出すべき項目名と、半構造化文書から抽出すべき
    項目群の抽出テキスト形式情報を記述するテンプレート
    を記憶するテンプレート記憶処理と、 取得された半構造化文書に対応するテンプレートを解析
    するテンプレート解析処理と、 前記取得された半構造化文書をスキャンして、該半構造
    化文書と、前記テンプレートとを比較して、前記抽出テ
    キスト形式情報に合致した項目の項目データを抽出する
    テンプレート処理とを含み、 前記テンプレートには、各項目データに対応する変数名
    が記述されるとともに 、半構造化文書が複数の部分構造
    を有する場合、各部分構造ごとに抽出テキスト形式情報
    が記述され、 前記テンプレート処理は、抽出された項目データを、各
    部分構造ごとの検索結果と することを特徴とする請求項
    21に記載のコンピュータ読み取り可能な記録媒体。
  23. 【請求項23】 前記文書処理は、前記検索結果を、表
    形式に整形することを特徴とする請求項21に記載のコ
    ンピュータ読み取り可能な記録媒体。
  24. 【請求項24】 前記文書処理は、前記テンプレート中
    の前記抽出テキスト形式情報が、他の半構造化文書への
    リンク情報を含む場合には、リンク先の半構造化文書を
    スキャンして、前記リンク先の半構造化文書と前記テン
    プレートとを比較することを特徴とする請求項22に記
    載のコンピュータ読み取り可能な記録媒体。
  25. 【請求項25】 前記テンプレートは、半構造化文書の
    各部分構造に対して、前記部分構造の一部に存在する
    前記文書構造情報が他の部分と異なる部分をそれぞれ抽
    出するための、異なるタグにそれぞれ対応する複数の抽
    出テキスト形式情報が記述され、 前記テンプレート処理は、前記取得された第1の検索結
    果である半構造化文書をスキャンして、該半構造化文書
    と、該半構造化文書に対応する前記テンプレート中の前
    記複数の抽出テキスト形式情報のいずれかが合致した場
    合に、合致した項目の項目データを抽出することを特徴
    とする請求項22に記載のコンピュータ読み取り可能な
    記録媒体。
  26. 【請求項26】 前記テンプレートは、半構造化文書が
    互いに異なる要素からなる複数の部分構造を有する場
    合、各部分構造ごとに抽出テキスト形式情報が記述さ
    れ、 前記テンプレート処理は、抽出された項目データを、各
    部分構造ごとの検索結果とすることを特徴とする請求項
    22に記載のコンピュータ読み取り可能な記録媒体。
  27. 【請求項27】 オープンネットワーク上の複数のサー
    チエンジンを介して情報を検索する処理をコンピュータ
    に実行させるプログラムを記録するコンピュータ読み取
    り可能な記録媒体であって、オープンネットワーク上でのサーチエンジンの所在を示
    す所在情報と、各サーチエンジンへの入力フォームにお
    いて入力が必要とされる入力必須項目を定義する入力必
    須項目情報と、HTML文書の構造を、抽出すべき項目
    ごとに区切るための文書構造情報と、項目ごとに各サー
    チエンジン内において該項目が取得可能か否かおよび条
    件指定可能か否かを示す項目属性情報と、前記項目ごと
    に前記項目を条件検索するためのデータ属性を規定する
    データ属性情報と、ユーザーの項目の表現形式と各HT
    ML文書の項目の表現形式との間の変換情報を定義する
    表現形式変換情報とを記憶する記憶処理と、 検索項目および検索条件からなるユーザーから入力され
    た問い合わせに基づいて、すべての検索項目に対応する
    項目を有するサーチエンジンの所在を前記所在情報から
    得る文書所在探索処理と、前記入力必須項目情報に基づいて、各サーチエンジンに
    おける入力必須項目と前記入力された問い合わせで指定
    された項目とを比較することにより、 前記得られた所在
    のサーチエンジンの中から、前記入力必須項目を満たす
    検索項目が指定されたサーチエンジンを、検索対象サー
    チエンジンとして選択するサーチエンジン選択処理と、 前記入力された検索項目および検索条件と、前記項目属
    性情報との組み合わせを規定するマトリックステーブル
    に基づき各サーチエンジンごとに最適な検索処理パター
    ンを得て、前記問い合わせを各サーチエンジンごとに前
    記検索処理パターンに適合する問い合わせ群に変換する
    検索パターン判定処理と、 前記変換された問い合わせ群のそれぞれを、前記表現形
    式変換情報に基づいて、前記検索対象サーチエンジンの
    前記検索項目に対応する項目の表現形式に変換する問い
    合わせ変換処理と、 前記変換された問い合わせを前記得られた所在に送信し
    て、HTML文書を取得する文書検索処理と、 各サーチエンジンから取得されたHTML文書からなる
    第1の検索結果から、前記文書構造情報に基づいて、項
    目データを抽出するとともに少なくともサーチエンジ
    ン内において条件検索が実行されなかった項目に関し、
    対応する前記検索処理パターンに従い、前記検索条件
    よび前記属性情報に基づいて、抽出された項目データ
    ら前記検索条件に合致する項目データを選択して、第2
    の検索結果とする検索結果生成処理と、 前記第2の検索結果を、前記表現形式変換情報に基づい
    て、前記検索結果中の項目に対応する各ユーザーごとに
    定義された項目の表現形式に変換する検索結果変換処理
    とを具備することを特徴とするコンピュータ読み取り可
    能な記録媒体。
  28. 【請求項28】 上記コンピュータ読み取り可能な記録
    媒体は、さらに、 HTML文書ごとに、HTML文書の構造を抽出すべき
    項目ごとに区切るための文書構造情報に基づき、少なく
    とも抽出すべき項目名と、HTML文書から抽出すべき
    項目群の抽出テキスト形式情報を記述するテンプレート
    を記憶するテンプレート記憶処理と、 取得されたHTML文書に対応するテンプレートを解析
    するテンプレート解析処理と、 前記取得されたHTML文書をスキャンして、該HTM
    L文書と、前記テンプレートとを比較して、前記抽出テ
    キスト形式情報に合致した項目の項目データを抽出する
    テンプレート処理とを含み、 前記テンプレートには、各項目データに対応する変数名
    が記述されるとともに、HTML文書が複数の部分構造
    を有する場合、各部分構造ごとに抽出テキスト形式情報
    が記述され、 前記テンプレート処理は、抽出された項目データを、各
    部分構造ごとの検索結果と することを特徴とする請求項
    27に記載のコンピュータ読み取り可能な記録媒体。
  29. 【請求項29】 前記文書処理は、前記検索結果を、表
    形式に整形することを特徴とする請求項27に記載のコ
    ンピュータ読み取り可能な記録媒体。
  30. 【請求項30】 前記文書処理は、前記テンプレート中
    の前記抽出テキスト形式情報が、他のHTML文書への
    リンク情報を含む場合には、リンク先のHTML文書を
    スキャンして、前記リンク先のHTML文書と前記テン
    プレートとを比較することを特徴とする請求項28に記
    載のコンピュータ読み取り可能な記録媒体。
  31. 【請求項31】 前記テンプレートは、HTML文書の
    各部分構造に対して、前記部分構造の一部に存在する
    前記部分構造情報が異なる部分をそれぞれ抽出するため
    の異なるタグにそれぞれ対応する複数の抽出テキスト形
    式情報が記述され、 前記テンプレート処理は、前記取得された第1の検索結
    果であるHTML文書をスキャンして、該HTML文書
    と、該HTML文書に対応する前記テンプレート中の前
    記複数の抽出テキスト形式情報のいずれかが合致した場
    合に、合致した項目の項目データを抽出することを特徴
    とする請求項28に記載のコンピュータ読み取り可能な
    記録媒体。
  32. 【請求項32】 前記テンプレートは、HTML文書が
    互いに異なる項目からなる複数の部分構造を有する場
    合、各部分構造ごとに抽出テキスト形式情報が記述さ
    れ、 前記テンプレート処理は、抽出された項目データを、各
    部分構造ごとの検索結果とすることを特徴とする請求項
    28に記載のコンピュータ読み取り可能な記録媒体。
  33. 【請求項33】 オープンネットワーク上の任意のHT
    ML文書に内在する情報から項目ごとに情報を抽出する
    処理をコンピュータに実行させるプログラムを記録する
    コンピュータ読み取り可能な記録媒体であって、HTML文書ごとに、HTML文書の構造を抽出すべき
    項目ごとに区切るための文書構造情報に基づき、少なく
    とも抽出すべき項目名と、HTML文書から抽出すべき
    項目群の抽出テキスト形式情報を記述するテンプレート
    を記憶するテンプレート記憶処理と、 取得されたHTML文書に対応するテンプレートを解析
    するテンプレート解析処理と、 前記取得されたHTML文書をスキャンして、該HTM
    L文書と、前記テンプレートとを比較して、前記抽出テ
    キスト形式情報に合致した項目の項目データを抽出する
    テンプレート処理とを含み 前記テンプレートには、各項目データに対応する変数名
    が記述されるとともに 、HTML文書が複数の部分構造
    を有する場合、各部分構造ごとに抽出テキスト形式情報
    が記述され、 前記テンプレート処理は、抽出された項目データを、各
    部分構造ごとの検索結果と することを特徴とするコンピ
    ュータ読み取り可能な記録媒体。
  34. 【請求項34】 前記テンプレート処理は、前記抽出さ
    れた項目データを、表形式に整形することを特徴とする
    請求項33に記載のコンピュータ読み取り可能な記録媒
    体。
  35. 【請求項35】 前記テンプレート処理は、前記テンプ
    レート中の前記抽出テキスト形式情報が、他のHTML
    文書へのリンク情報を含む場合には、リンク先のHTM
    L文書をスキャンして、前記リンク先のHTML文書と
    前記テンプレートとを比較することを特徴とする請求項
    33に記載のコンピュータ読み取り可能な記録媒体。
  36. 【請求項36】 前記テンプレートは、HTML文書の
    各部分構造に対して、前記部分構造の一部に存在する
    前記文書構造情報が他の部分と異なる部分をそれぞれ抽
    出するための、異なるタグにそれぞれ対応する複数の抽
    出テキスト形式情報が記述され、 前記テンプレート処理は、前記取得された第1の検索結
    果であるHTML文書をスキャンして、該HTML文書
    と、該HTML文書に対応する前記テンプレート中の前
    記複数の抽出テキスト形式情報のいずれかが合致した場
    合に、合致した項目の項目データを抽出することを特徴
    とする請求項33に記載のコンピュータ読み取り可能な
    記録媒体。
  37. 【請求項37】 前記テンプレートは、HTML文書が
    互いに異なる項目からなる複数の部分構造を有する場
    合、各部分構造ごとに抽出テキスト形式情報が記述さ
    れ、 前記テンプレート処理は、抽出された項目データを、各
    部分構造ごとの検索結果とすることを特徴とする請求項
    33に記載のコンピュータ読み取り可能な記録媒体。
JP16299099A 1998-06-10 1999-06-09 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体 Expired - Lifetime JP3160265B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16299099A JP3160265B2 (ja) 1998-06-10 1999-06-09 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP10-162648 1998-06-10
JP16264898 1998-06-10
JP10-219365 1998-08-03
JP21936598 1998-08-03
JP11-96183 1999-04-02
JP9618399 1999-04-02
JP16299099A JP3160265B2 (ja) 1998-06-10 1999-06-09 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体

Publications (2)

Publication Number Publication Date
JP2000348061A JP2000348061A (ja) 2000-12-15
JP3160265B2 true JP3160265B2 (ja) 2001-04-25

Family

ID=27468408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16299099A Expired - Lifetime JP3160265B2 (ja) 1998-06-10 1999-06-09 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体

Country Status (1)

Country Link
JP (1) JP3160265B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3946934B2 (ja) * 1999-08-05 2007-07-18 株式会社東芝 ウェブページ部品統合処理装置、ウェブページ部品統合処理方法及びクライアント装置
JP4677673B2 (ja) * 2000-12-28 2011-04-27 ブラザー工業株式会社 電子商店管理システム
JP2002207655A (ja) * 2001-01-10 2002-07-26 Toshiba Corp 情報統合方法、プログラム及びシステム
US20040177082A1 (en) * 2001-06-22 2004-09-09 Kiyoshi Nitta Structured data processing apparatus
JP2003316783A (ja) * 2002-04-24 2003-11-07 Nippon Telegr & Teleph Corp <Ntt> 異種半構造化情報源統合検索装置、方法、プログラム及び該プログラムを記録した記録媒体
JP3944014B2 (ja) * 2002-07-09 2007-07-11 株式会社東芝 文書編集方法、文書編集システム及び文書処理プログラム
US7228496B2 (en) 2002-07-09 2007-06-05 Kabushiki Kaisha Toshiba Document editing method, document editing system, server apparatus, and document editing program
US7085755B2 (en) * 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
JP2006018450A (ja) * 2004-06-30 2006-01-19 Toshiba Corp 検索システム及びプログラム
JP4731896B2 (ja) * 2004-12-07 2011-07-27 新日鉄ソリューションズ株式会社 情報処理装置、情報検索方法及びプログラム
JP5056384B2 (ja) * 2006-12-21 2012-10-24 富士通株式会社 検索プログラム、方法及び装置
JP2009223652A (ja) * 2008-03-17 2009-10-01 Toshiba Corp 情報提供サーバ及び情報提供方法
JP2009010957A (ja) * 2008-07-07 2009-01-15 Nec Corp 情報配信サービスシステムおよび情報配信方法
US20100114874A1 (en) * 2008-10-20 2010-05-06 Google Inc. Providing search results
JP5688754B2 (ja) * 2010-10-04 2015-03-25 独立行政法人情報通信研究機構 情報検索装置及びコンピュータプログラム
JP2014002717A (ja) * 2012-05-23 2014-01-09 Denso Corp 情報検索システム、中継サーバ、データ形式変換プログラム、及び、移動端末
US10579634B2 (en) * 2012-08-30 2020-03-03 Citus Data Bilgi Islemleri Ticaret A.S. Apparatus and method for operating a distributed database with foreign tables
US20180165380A1 (en) * 2016-03-29 2018-06-14 Hitachi, Ltd. Data processing system and data processing method
WO2017175284A1 (ja) * 2016-04-05 2017-10-12 株式会社日立製作所 データ処理システム及びデータ処理方法
CN113792849B (zh) * 2021-09-09 2023-09-01 北京百度网讯科技有限公司 字符生成模型的训练方法、字符生成方法、装置和设备

Non-Patent Citations (21)

* Cited by examiner, † Cited by third party
Title
Feh−Chun Cheong,"Internet Agents: Spiders,Wanderers,Brokers,and’Bots",pp.337−353,New Riders Publishing,1996
Naveen Ashish and Craig A.Knoblock,"Wrapper Generation for Semi−structured Internet Sources",SIGMOD Record,Vol.26,No.4,pp.8−15(平成9年12月)
Robert A.Nado,Scott B.Huffman,"Extracting Entity Profiles from Semistructured Information Spaces",SIGMOD Record,Vol.26,No.4,pp.32−38(平成9年12月)
Robert B.Doorenbos,Oren Etzioni,and Daniel S.Weld."A Scalable Comparison−Shopping Agent for the World−Wid Web",Proceedings of the First International Conference on Autonomous Agents,pp.39−48(平成9年2月5日)
Steve D.Griswold,「解き放たれるエージェント」,Internetworking Vol2,No.8,pp.32−37,株式会社アスキー(平成8年8月1日)
WWWの情報検索に新技術−商品探す「エージェント」登場,日経マルチメディアJULY,1997,No.25,pp.24−25(平成9年7月15日)
上林弥彦,「マルチデータベースの研究開発動向」,情報処理Vol.35,No.2,pp.105−119(平成6年2月15日)
冨田一郎,手塚祐一,山本修一郎,綱川光明,「WWWによるマルチデータベース検索システム:WebSENA」,NTT技術ジャーナルVol10,No.5,pp.55−58(平成10年5月1日)
冨田一郎,手塚祐一,山本修一郎,長岡満夫,「HTML文書からの商品情報抽出方式の提案」,情報処理学会第56回(平成10年前期)全国大会講演論文集(3),pp.3−79〜3−80(平成10年3月17日)
冨田一郎,手塚祐一,山本修一郎,長岡満夫,「HTML文書からの商品情報抽出方式の提案」,電子情報通信学会技術研究報告Vol.97,No.502(KBSE97−25〜29),pp.15−22(平成10年1月22日)
古館丈裕,岡安光彦,石川佳治,植村俊亮,「構造化文書データベースに対するラッピング手法の提案」,情報処理学会研究報告Vol.96,No.68(96−DBS−109),pp.305−310
坂田毅,多田浩之,大竹智久,「WWW上におけるMetadataの記述とオンラインショッピングへの応用」,情報処理学会第54回(平成9年前期)全国大会講演論文集(3),pp.3−151〜3−152(平成9年3月12日)
小西修ほか,「アクティブ・メディエーション・システムのためのメディエータ言語とエージェント・モデルについて」,情報処理学会研究報告Vo.98,No.2(98−DBS−114),pp.81−88(平成10年1月19日)
手塚祐一,冨田一郎,山本修一郎,「インターネット仮想商店検索システム:RBIMD」,NTT技術ジャーナルVol.10,No.5,pp.50−52(平成10年5月1日)
斎藤孝文,山本修一郎,「インターネット・コマースの発展を目指して」,NTT技術ジャーナルVol.10,No.5,pp.42−46(平成10年5月1日)
星野隆,綱川光明,町原宏毅,「DBSENA:マルチデータベース環境における情報資源管理と検索方式」,情報処理学会研究報告Vol.98,No.2,pp.113−120(平成10年1月20日)
星野隆,綱川光明,町原宏毅,「マルチデータベース環境における関連情報推定と検索方式」,情報処理学会研究報告Vol.98,No.58(98−DBS−116(2)),pp.389−396(平成10年7月10日)
永末寿宏,綱川光明,町原宏毅,「D−4−5 WWW環境における情報資源管理と検索方式に関する検討」,電子情報通信学会1998年情報・システムソサイエティ大会講演論文集p21(平成10年9月29日)
町原宏毅,綱川光明,星野隆,鈴木源吾,「ネットワーク上にある複数データベースをまたがる一括検索を可能に マルチデータベース情報源管理/検索システム−DBSENA−を開発」,NTT技術ジャーナルVol10,No.1(平成10年1月1日)
綱川光明,星野隆,町原宏毅,「マルチデータベース環境におけるジャンル検索方式」,情報処理学会研究報告Vol.98,No.60,pp.17−24(平成10年7月17日)
遠山元道,「関係データベースに基づく半構造データの実現と管理」,情報処理学会研究報告Vol.98,No.2,pp.105−112(平成10年1月20日)

Also Published As

Publication number Publication date
JP2000348061A (ja) 2000-12-15

Similar Documents

Publication Publication Date Title
JP3160265B2 (ja) 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
US6424980B1 (en) Integrated retrieval scheme for retrieving semi-structured documents
US7039625B2 (en) International information search and delivery system providing search results personalized to a particular natural language
US6681227B1 (en) Database system and a method of data retrieval from the system
US6490579B1 (en) Search engine system and method utilizing context of heterogeneous information resources
US8140563B2 (en) Searching in a computer network
US7707168B2 (en) Method and system for data retrieval from heterogeneous data sources
US7257588B2 (en) Method and apparatus for formatting information within a directory tree structure into an encylopedia-like entry
US7092938B2 (en) Universal search management over one or more networks
US10210222B2 (en) Method and system for indexing information and providing results for a search including objects having predetermined attributes
US20020107718A1 (en) &#34;Host vendor driven multi-vendor search system for dynamic market preference tracking&#34;
JP2002175207A (ja) 電子的にアクセス可能なマルチメディアデータベースへのブラウズと検索アクセスを可能にする方法
US20120059822A1 (en) Knowledge management tool
JP2004094806A (ja) 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム
JP2013531289A (ja) 検索におけるモデル情報群の使用
US20040015485A1 (en) Method and apparatus for improved internet searching
JP2002278812A (ja) ディジタル・ライブラリ用コード生成システム
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
KR100403947B1 (ko) 개인용 전자문서를 생성하는 방법, 시스템 및 컴퓨터프로그램 제조물
JP2000231570A (ja) インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004206492A (ja) ドキュメント表示方法およびそれを用いたリンク先選択機能付ゲートウェイ装置
US8131752B2 (en) Breaking documents
JP2000285052A (ja) Url変換方法および装置
US20070244861A1 (en) Knowledge management tool
JP2001092844A (ja) 異種情報源問い合わせ変換方法及び装置及び異種情報源問い合わせ変換プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3160265

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080216

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090216

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090216

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120216

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130216

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term